【世界新要闻】「大一统」大模型论文爆火，4 种模态任意输入输出，华人本科生 5 篇顶会一作，网友：近期最不可思议的论文

首页 > 资讯 > > 内容页

【世界新要闻】「大一统」大模型论文爆火，4 种模态任意输入输出，华人本科生 5 篇顶会一作，网友：近期最不可思议的论文

发表于: 2023-05-28 13:29:03 来源：ZAKER科技

多模态大模型，终于迎来 " 大一统 " 时刻！

从声音、文字、图像到视频，所有模态被彻底打通，如同人脑一般，实现了真正意义上的任意输入，任意输出。

(相关资料图)

要知道，多模态一直是学术界公认要达到更强智能的必经之路，连GPT-4都在往这个方向发展。

也正是因此，这项来自微软、北卡罗来纳大学教堂山分校的新研究一经 po 出，立即在社交媒体上爆火，有网友惊叹：

这是我最近见过最不可思议的一篇论文！

究竟有多不可思议？

只需告诉大模型，想要 " 一只玩滑板的泰迪熊 "，并输入一张照片 + 一段声音：

它立刻就能精准 get 要点，生成一段在下雨天在城市里玩滑板的心碎小熊录像，仔细听还会发现配上了新的雨声：

效果太过于鹅妹子嘤，以至于不少网友表示 " 有被吓到 "：

还有网友感叹 " 新时代的到来 "：

等不及看到创作者们用这些 AI 工具制作各种沉浸式故事体验了。这简直给 RPG 角色扮演游戏赋予了全新的意义。

值得一提的是，一作 Zineng Tang 虽然本科还没毕业，但他已经在 CVPR、发了 6 篇顶会论文，其中5 篇都是一作。

所以，这个号称能够 " 转一切 "（any-to-any）的大一统大模型，实现效果究竟如何？

4 种模态随意选，打出 " 组合拳 "

大模型 CoDi，具有任意输入和输出图、文、声音、视频 4 种模态的能力。

无论是单模态生成单模态（下图黄）、多模态生成单模态（下图红）、还是多模态生成多模态（下图紫），只要指定输入和输出的模态，CoDi 就能理解并生成想要的效果：

先来看单模态生成单模态。

输入任意一种模态，CoDi 都能联想并输出指定的模态，例如，输入一张风景图像，就能输出 " 山景，日出 " 这样的文字提示词：

或是输入一段铁轨碰撞声，就能生成一张地铁图像：面对多模态生成单模态时，CoDi 威力同样不减。

输入一张 " 熊猫吃竹子 " 图像，加上一段 " 在咖啡桌上吃 " 的文字要求：

CoDi 就能生成一段大熊猫坐在咖啡桌旁吃竹子的视频：或是输入一组文字提示词 " 油画，恐怖画风，优雅复杂的概念艺术，克雷格 · 穆林斯（CG 绘画之父）风格 "，加上一段拍打木板的水声：

CoDi 在经过联想后，就能输出一张精致的、气势恢宏的黄昏时分海盗船画像：

最后来看看多模态生成多模态的效果。

给 CoDi 提供一段钢琴声，加上一张森林中的照片：

CoDi 就能想象出一段 " 在森林中弹钢琴 " 的文字，并配上对应的插图：要知道在这之前，AI 生成的视频不少都没有配音，停留在老式的 " 无声电影 " 阶段。

然而 CoDi 不仅能生成视频，还能生成搭配视频食用的声音。

例如根据一个 " 天空中的花火 " 文字提示词 + 一段对应的音频，就能生成一个带有爆炸声音的烟花录像：

所以，CoDi 究竟是如何做到理解不同的模态，并 " 打出组合拳 " 的？

用 " 对齐 " 来节省大模型训练数据

事实上，CoDi 的打造面临两个难点。

首先是缺少训练数据的问题，以作者们能收集到的数据集为例：

无论是像 Laion400M 这样的文图数据集、还是像 AudioSet 之类的音频文字数据集，或是油管上的图像音视频数据集，以及 Webvid10M 之类的视频数据集，都属于 " 单模态生成单个或两个模态 " 的类型。

然而，多模态大模型的训练数据需求，随着模态数量的增加呈指数级增长，许多输入输出组合，往往缺少对应的训练数据集。

其次，已有的扩散模型大多是 1v1 的类型，如何设计并训练模型，确保多模态输入输出的效果，同样是个问题。

针对这两个问题，作者们决定分两个阶段打造 CoDi，让它不仅能实现单模态 " 完美输出 "、还能做到多模态 "1+1>2"。

在阶段一，组合条件训练，给每个模态都打造一个潜在扩散模型（LDM），进行组合训练。

针对 A 模态生成 B 模态数据集缺失的问题，作者们提出了一种名为桥接对齐（Bridging Alignment）的策略。

具体来说，就是以带文本模态的数据集为 " 中介 "，对齐另外几种模态的训练效果。

以音频生成图像为例。

虽然音频生成图像数据集不多，但文本生成音频、文本生成图像的数据集却有不少，因此可以将这两类数据集合并起来，用于训练文本 + 音频生成图像的效果。

在此期间，文本和音频输入经过模型处理，会被 " 放置 " 进一个共享特征空间，并用输出 LDM 来处理输入输入的组合特征，输出对应的图像结果。

阶段二，进一步增加生成的模态数量。

在阶段一的基础上，给每个潜在扩散模型和环境编码器上增加一个交叉注意力模块，就能将潜在扩散模型的潜变量投射到共享空间中，使得生成的模态也进一步多样化。

最终训练出来的模型，虽然训练数据类型不是 " 全能的 "，但也具备了多模态输入、多模态输出的能力。值得一提的是，可别以为这种方法会降低模型生成的质量。

事实上，在多种评估方法上，CoDi 均超越了现有多模态大模型的生成效果。

华人本科生，5 篇顶会论文一作

一作Zineng Tang，本科就读于北卡罗来纳大学教堂山分校，也是微软研究院的实习生，今年 6 月将进入加州大学伯克利分校读博。

他的研究兴趣在于多模态学习、机器学习和 NLP 领域，而从大一开始，他就在 NeurIPS、CVPR、ACL 和 NAACL 等顶会上相继发了 6 篇文章，其中 5 篇一作。

就在今年 1 月，Zineng Tang 还获得了 2023 年的美国计算机研究学会（CRA）设立的优秀本科生研究员奖。

每年全美国能获得这个奖项的本科生，只有 4 人。

这一奖项旨在表彰在计算机研究领域有杰出研究潜力的本科生，包括 MIT、斯坦福、哈佛和耶鲁大学等不少北美名校在内，每年都会提名一些优秀学生，经过层层筛选后决定获奖者。

通讯作者Ziyi Yang，目前是微软 Azure 认知服务研究团队（CSR）的高级研究员，研究方向是多模态理解和生成，文档智能和 NLP 等。

在加入微软之前，他本科毕业于南京大学物理系，并于斯坦福大学获得电气工程硕士和机械工程博士学位。

通讯作者Mohit Bansal，是北卡罗来纳大学教堂山分校计算机系教授。他于加州大学伯克利分校获得博士学位，目前研究方向是 NLP 和多模态机器学习，尤其侧重语言生成问答和对话、以及可解释深度学习等。

你感觉多模态大模型发展的下一阶段，会是什么样子？

论文地址：

https://arxiv.org/abs/2305.11846

项目地址：

https://github.com/microsoft/i-Code/tree/main/i-Code-V3

参考链接：

[ 1 ] https://twitter.com/AviSchiffmann/status/1660771055676588033

[ 2 ] https://twitter.com/ZinengTang/status/1660726736642887681

[ 3 ] https://cra.org/2023-outstanding-undergraduate-researcher-award-recipients/

[ 4 ] https://codi-gen.github.io/

标签：

今日聚焦!美国高校研发出锂电池"完美替代者"

2022-11-01查看详情

每日简讯：不惧风雨，山地骑行

2022-11-01查看详情

当前速递！湖南大学无锡半导体先进制造创新中心正式揭牌

2022-11-01查看详情

【世界新要闻】「大一统」大模型论文爆火，4 种模态任意输入输出，华人本科生 5 篇顶会一作，网友：近期最不可思议的论文

【世界新要闻】「大一统」大模型论文爆火，4 种模态任意输入输出，华人本科生 5 篇顶会一作，网友：近期最不可思议的论文

西安打响第一枪！鼓励企业北交所上市，最高奖千万

全球新资讯：给“荔”！给力！给力！

鹿茸多少钱一克最新（鹿茸多少钱一克）

在保教融合中提升一日生活质量

世界观点：易拉罐啤酒能放冰箱吗（易拉罐啤酒能不能放冷冻）

【瞰全球】违约倒计时！美国债务危机"越演越烈" 或引发经济衰退

天天速递！第十七届“挑战杯·王老吉”大学生课外学术科技作品竞赛终审决赛开幕

投资67亿！建成后将解决镇雄老城区近3万群众的棚改安置！-世界今热点

有没有自动生成相册的软件_吱吱喳喳女孩住事相册有没有

儿童商业保险到底有没有必要买（小孩保险有没有必要买）

SMLZ发文：接下来将在B站直播，谈一些规划，以二路观赛和训练为主！

好大一棵树是哪首歌里的_好大一棵树是谁唱的 天天消息

2023开封市养老金调整方案如何上调？每月可以领多少钱？

建行广西区分行南宁园湖支行：以优质服务为“轴” “承”载市民安居梦|前沿资讯

第六届木偶皮影优秀剧（节）目展演将在扬州举行

每日讯息!lol豹女皮肤哪个好看_LOL豹女皮肤哪个好

今日热门!地狱轮回站真的太监了吗_地狱轮回站为什么不更新

种教育的树 开成长的花 巴蜀中学校庆吉祥物精彩亮相 天天简讯

一季度营收同比增12.3%，券商看好BOSS直聘中长期增长潜力 世界观热点

探讨如何更好开展中文教学

江厌离是江澄吗_江厌离怎么死的-即时

全球热点！美股为AI狂！

片剂生产工艺技术、流程及洁净区域划分|每日快播

今日观点!w12和v12有啥区别_w12和v12的区别

联合国粮农组织为中国 4 项全球重要农业文化遗产授牌

短短170米的路，设置了3条斑马线

武汉邮政艺术团（关于武汉邮政艺术团介绍）_环球快讯

回归方程y上面有个箭头_回归方程y尖怎么打

糖豆广场舞课堂百科介绍（糖豆广场舞课）

车企内卷出新高度：长城汽车举报比亚迪，常压油箱引争议；二者车型同位竞争

测量员证书取消了吗_测量员证书 当前热门

环球要闻：推动垃圾分类“新时尚”，宝山的他们在行动！

荒野大镖客2马怎么满速度 荒野大镖客2提高马速度

紫牛调查｜南京这些小学严格执行“人车分流”，错时入校力求“人车不见面”_全球短讯

名单终于公布了！快看看谁上榜 每日讯息

全球资讯：心理健康活动月，洪河小学为师生注入“心”能量

far away from home歌词英文（far from home）

曼联半场折损两主力，一人洒泪离场无缘决战曼城！滕哈格透露伤情-全球微动态

小德宏形态宏顺序 小德宏

2022年邮政行业发展统计公报：快递业务规模再创历年新高-全球微速讯

世界视讯！华福证券拟引入多家战略投资者，持股比例合计不超过20%

世界微速讯：“淄博烧烤”拟注册集体商标，烧烤带火一座城后，如何将流量变“留量”？

奇才官方：迈克尔-温格正式担任球队篮球运营总裁 视焦点讯

环球播报:第十七届FIRST超短片评审团 陈正道谢霆锋等入选

【天天播资讯】人寿百万医疗险一年多少钱？怎么买？

上市三年“搞事情” 侨银股份实控人惊曝“市值管理”协议|焦点速看

马斯克旗下脑机接口公司Neuralink首次人体临床试验获FDA批准 环球视点

今日讯！北京环球金融中心“这日有花头”Live House系列活动圆满落幕

天津文明条例宣传月活动持续升温 文明宣讲走进小社区小学校

全球关注：阑尾疼痛如何缓解_阑尾疼痛怎么缓解

非人哉：哪吒开个直播不容易，厨艺精湛却被观音揍，还被九月冒充 全球资讯

一只小鹿犬多少钱一只_鹿犬多少钱一只 世界热资讯

儿童科学护肤 避开这些“坑”-每日速看

【天天聚看点】火漆印章大师什么时候出 公测上线时间预告

关注：罗纳德·威尔逊·里根_关于罗纳德·威尔逊·里根介绍

舒淇演的三彶电影_舒淇三彶电影在线看 焦点快报

紧急止付 息县警方为群众挽回损失20余万元

全球速读：会计从业资格考试报名条件要求 会计从业资格考试报名条件

美联储巴尔金：美联储加息也有助于减少需求，银行倒闭导致的信贷紧缩也有同样作用

环球观焦点：基金净值增长率排行榜：5月24日79只基金回报超2%

全球热资讯！刘彦龙当选老白干酒董事长，公司一季度净利同比下降61.51%

钢价阴跌 钼价小涨 当前信息

好好的一个人，开了车以后为什么就变成了路怒族，之前不明白，后来我想明白了

什么叫自我剖析?-天天播资讯

春风渡十世原著_春风渡十世 世界要闻

爆了！三大妖股“上天”！“智能”二字再成点金手-世界微资讯

全球资讯：交设股份受邀参加第十二届(2023)中国智能交通市场年会

第六届进博会在荷兰阿姆斯特丹举办推介会

江西赣州住房公积金累计缴存总额突破600亿元

滚动：未办理结婚登记的婚姻是否有法律效力

天天新消息丨人民币市场汇价（5月25日）

看点：你觉得孩子的缺点有哪些（孩子的缺点有哪些）

全球观热点：德防长：若停止提供武器，只恐乌克兰撑不过明天

视点！黄之锋藐视法庭被判入狱3个月，法官今日公布书面判词

全球快看点丨龙岩21宗重点地块亮相！这5宗近期出让

怎么分配电脑磁盘空间 如何分配电脑磁盘空间

Adob​​e禁止将Photoshop的新 AI 功能用于色情内容创作

每日视讯：*ST中昌被终止上市 自5月31日进入退市整理期

好大一棵树是哪首歌里的_好大一棵树是谁唱的天天消息

种教育的树开成长的花巴蜀中学校庆吉祥物精彩亮相天天简讯

一季度营收同比增12.3%，券商看好BOSS直聘中长期增长潜力世界观热点

测量员证书取消了吗_测量员证书当前热门

荒野大镖客2马怎么满速度荒野大镖客2提高马速度

名单终于公布了！快看看谁上榜每日讯息

小德宏形态宏顺序小德宏

奇才官方：迈克尔-温格正式担任球队篮球运营总裁视焦点讯

环球播报:第十七届FIRST超短片评审团陈正道谢霆锋等入选

马斯克旗下脑机接口公司Neuralink首次人体临床试验获FDA批准环球视点

天津文明条例宣传月活动持续升温文明宣讲走进小社区小学校

非人哉：哪吒开个直播不容易，厨艺精湛却被观音揍，还被九月冒充全球资讯

一只小鹿犬多少钱一只_鹿犬多少钱一只世界热资讯

儿童科学护肤避开这些“坑”-每日速看

【天天聚看点】火漆印章大师什么时候出公测上线时间预告

舒淇演的三彶电影_舒淇三彶电影在线看焦点快报

紧急止付息县警方为群众挽回损失20余万元

全球速读：会计从业资格考试报名条件要求会计从业资格考试报名条件

钢价阴跌钼价小涨当前信息

春风渡十世原著_春风渡十世世界要闻

怎么分配电脑磁盘空间如何分配电脑磁盘空间

Adobe禁止将Photoshop的新 AI 功能用于色情内容创作

每日视讯：*ST中昌被终止上市自5月31日进入退市整理期

焦点讯息：傲娇受文傲娇受

乔治致杰伦-格林：我不会追哈登现在火箭是你的队你是休城国王

万联证券给予科顺股份增持评级首次覆盖：行业中长期向好龙头企业有望长期向上|每日热门

草地如地毯！上海万科物业加强园区绿化整治打造美丽宜居小区

坚持绿色优先发展做大做强石材产业天天报资讯

当前快播：同程旅行与天津航空达成战略合作将共同打造优质出行服务

环球资讯：木瓜牛奶催乳用煮还是蒸木瓜牛奶催乳汤做法

碘遇淀粉变蓝的原理_碘遇淀粉变蓝的原理是什么视焦点讯

日本专家：七国集团挑起冲突加剧世界动荡

风驰电掣演绎速度与激情

全球动态:禹州韩城街道办事窗口解民忧暖民心

吉安卡罗个人资料（吉安卡罗佩里斯）天天聚看点

品尊国际居民区工作人员调研走访打开思路：便民早餐亭无法接水管结对咖啡店借水破难题

一种 64 位 CPU 微架构取消了对传统 16 位和 32 位的支持

翱捷科技：该业务正在进行中，

“春华夏繁”影展赴沪放映艺术佳片拂动黄浦清风