阿里云开源多模态视觉模型Qwen-VL,号称“超同等规模模型表现”

时间:2023-08-26 10:00:26 来源: IT之家


(资料图片仅供参考)

IT之家 8 月 25 日消息,阿里云今日推出了大规模视觉语言模型 Qwen-VL,目前已经在 ModeScope 开源,IT之家早前曾报道,阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。

据悉, Qwen-VL 是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的 VL 模型 ,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

▲ 图源 ArXiv 论文

Qwen-VL 以 Qwen-7B 为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的 LVLM 模型通常仅支持 224 分辨率 。

官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。

▲ 图源 modelscope

此外,在 Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”, 对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果 。

▲ 图源 modelscope

标签:

精彩推送

客户要求OTG电路上增加500mA的限流电路,但不能采用限流IC,需要用分立器件完成

点击上方蓝字关注我们01前言之前设计的一款产品,上面有个MicroUSB接口

来源:2023.08.18

18公司获得增持评级-更新中

【10:01德邦股份(603056):格局优化、内生提效、产业链整合三要素共振

来源:2023.08.18

椰蓉蛋糕的做法步骤 教你椰蓉蛋糕的做法步骤

1、用料:鸡蛋5个,低筋面粉80克。牛奶60克,细砂糖60克,玉米油50克,

来源:2023.08.18

火爆暑期旅游催热导游市场 外语导游需求旺盛

今年暑期,湖南张家界旅游市场火热,也直接带热了导游市场,在张家界正

来源:2023.08.18

高校冷门专业就业“真香”

高尔夫管理专业上课真的就是打高尔夫?酿酒工程专业是不是“整天都在喝

来源:2023.08.18

幻想三国志4结局条件(幻想三国志4结局)

导读1、1、你看的估计是4外的结局视频,那个黑龙是螭吻,4外的隐藏结局

来源:2023.08.18

8月17日生意社玻璃基准价为23.42元/平方米

生意社08月17日讯  8月17日,生意社玻璃基准价为23 42元 平方米,与

来源:2023.08.17

图片扫描件是什么格式 扫描件是什么格式

1、有JPG的等格式。2、可以转换的。相信通过扫描件是什么格式这篇文章

来源:2023.08.17

沈山州区长赴区税务局调研工作

8月17日上午,区委副书记、区长沈山州前往区税务局调研,区委常委、副

来源:2023.08.17

新闻快讯

X 关闭

X 关闭

新闻快讯