阿里云开源多模态视觉模型Qwen-VL,号称“超同等规模模型表现”
(资料图片仅供参考)
IT之家 8 月 25 日消息,阿里云今日推出了大规模视觉语言模型 Qwen-VL,目前已经在 ModeScope 开源,IT之家早前曾报道,阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。
据悉, Qwen-VL 是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的 VL 模型 ,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
▲ 图源 ArXiv 论文Qwen-VL 以 Qwen-7B 为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的 LVLM 模型通常仅支持 224 分辨率 。
官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。
▲ 图源 modelscope此外,在 Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”, 对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果 。
▲ 图源 modelscope标签:
精彩推送
新闻快讯
X 关闭
X 关闭
新闻快讯
- 阿里云开源多模态视觉模型Qwen-VL,号称“超同等规模模型表现”
- 夜栈最恐怖的几集(夜栈)
- 系统设置在哪里找 手机系统设置在哪里找
- 今日克莉丝汀如意卡怎么查余额(克莉丝汀翡翠卡和如意卡区别)
- 江南电机(839986):2023年上半年净利润106.11万元,同比增长22.64%
- 大方手撕豆腐保存方法(大方手撕豆腐保存方法窍门)
- 又有8名电诈犯罪嫌疑人25日从缅甸被押解回国
- 我国多个高铁工程建设持续推进
- 陕西延川煤矿闪爆致11死事故多名责任人已被控制
- 百度、华为没办到的事,小米办到了?网传获得汽车“准生证”
- 全国铁路迎来入学、返校客流,预计发送学生旅客680万人次
- 福建莆田鞋业批发_鞋业批发
- 从七个方面推进旅客联程运输 实现交通工具便捷换乘
- 中国成新加坡国民出游首选地
- 宁夏回族自治区石嘴山市发布雷电黄色预警
- 回娘家简谱歌谱(回娘家简谱)
- 菜菜子职场大作战(关于菜菜子职场大作战简述)
- 赤壁之战电影剧情 讲述的是什么故事
- 国内下一轮油价调整将于9月6日开启 能搁浅就算成功
- 少儿重疾险一年多少钱?
- 日本正式启动福岛核污水排海,拉响了哪些危机警报?
- V观财报|日本核污染水排海!A股水产、盐业上市公司“淡定”,原因是……
- 第三套人民币今日价格 第3套人民币最新价格
- 都司街碧桂园小学 都司
- 纸鸢APP 引领深耕内容与社交的本地生活服务新时代
- 华泰期货铝日报20230824:部分企业设备检修 氧化铝偏强震荡
- 青年说|把“遥控器自由”还给观众
- 绝境!迈阿密国际半场0-1落后,梅西妙传被浪费,马蒂诺着急
- 快乐大本营金桢勋在哪个平台播(快乐大本营金正勋)
- “群星”亮相星城 载歌载舞寄深情
- 比亚迪秦pro超级版怎么样?比亚迪秦Pro超级版怎么样?
- 菲林酒吧出事图片(菲林 酒吧 怎么了)
- 手臂脱毛手术会不会有副作用
- 京粮控股:截至2023年8月20日,公司AB股股东总户数约为6.11万
- 天箭科技:8月23日召开董事会会议
- 非理性家庭备药成药品浪费“重灾区”
- 魄力怎么读 魄
- 月租金最低990元 北京海淀2700套公租房今起开展配租工作
- 厦门调整城镇土地基准地价:租赁住宅价格约为商品住宅的20%至25%
- 2023电视剧《长相思》小夭梅林靠什么活下来的
- 超2800只基金产品实施降费 管理费率和托管费率下调幅度较大
- 小猪怎么画简笔画图片大全(小猪怎么画简笔画图片)
- 红米K40 可以面部识别解锁吗
- 中泰老三国驻缅大使馆协调打击赌诈问题:坚决扭转相关犯罪高发态势
- 梁山县举行“文明实践·朗朗少年”国学经典亲子诵读短视频征集大赛颁奖仪式
- 泰坦之触颜色(泰坦之触)
- 干部学习会丨贴近“地皮”才能看见“草根”
- 成宜高铁开启冷滑试验,离年内通车再近一步
- 闽系房企押宝一线城市 大名城中期净利同比增长923.27%
- 西子洁能:公司具备海水淡化相关项目的承包能力