人工智能

免费GPT-4o来袭 音频视觉文本实现“大一统”

字号+作者: 来源:钛媒体 2024-05-14 09:04 评论(创建话题) 收藏成功收藏本文

今天凌晨,即北京时间5月14日1点整,OpenAI召开了首场春季发布会,CTOMiraMurati在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型GPT-4o的神秘面纱,以'...

今天凌晨,即北京时间5月14日1点整,OpenAI召开了首场春季发布会,CTOMiraMurati在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型GPT-4o的神秘面纱,以及基于GPT-4o的ChatGPT,均为免费使用。ZzJ品论天涯网

ZzJ品论天涯网

此前,有传言称OpenAI将推出AI搜索引擎,旨在与Google明天举办的I/O开发者大会一较高下,一度引发了公众的热烈讨论。ZzJ品论天涯网

不过SamAltman随后在X(原Twitter)上表示,要展示的并非GPT-5或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。ZzJ品论天涯网

那么,GPT-4o是否真的如SamAltman所说,是OpenAI带来的“新魔法”呢?ZzJ品论天涯网

1ZzJ品论天涯网

多模态实时语音助手ZzJ品论天涯网

更快更全更有情感ZzJ品论天涯网

登台后,MiraMurati宣布了ChatGPT的桌面版本和新UI,紧接着就介绍了本场发布会的主角——GPT-4o。ZzJ品论天涯网

在发布会上,MiraMurati与团队成员MarkChen、BarretZoph一起,重点展示了基于GPT-4o的ChatGPT在不同任务中的实际表现,尤其展现了其语音能力。ZzJ品论天涯网

若用关键词加以总结,搭载GPT-4o的ChatGPT可谓是又快、又全、又有情感。ZzJ品论天涯网

与ChatGPT对话时,用户不必等ChatGPT说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。ZzJ品论天涯网

在Mark表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。ZzJ品论天涯网


ZzJ品论天涯网

模型能够以各种不同的风格生成声音。无论对话时让ChatGPT用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。ZzJ品论天涯网

基于GPT-4o强大的视觉能力,用户还可以语音让ChatGPT分析页面上的数据图表。ZzJ品论天涯网

更强大的是,打开摄像头后写下一道数学题,ChatGPT还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。ZzJ品论天涯网


ZzJ品论天涯网

ChatGPT的“同传能力”也不容小觑,OpenAI团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。ZzJ品论天涯网

更有意思的是,ChatGPT在对话中还会使用语气词,甚至是向OpenAI团队开玩笑和表达感谢。在“看到”他们写下“我爱ChatGPT”的文字后,ChatGPT甚至会在发出撒娇的声音后,再表扬其贴心。ZzJ品论天涯网


ZzJ品论天涯网

ChatGPT甚至还能和用户“视频聊天”。在演示中,Barret让ChatGPT猜测自己的情绪,在他开始露出笑脸后,ChatGPT直接语音回复“你看起来很开心,笑容灿烂,还有点激动。”ZzJ品论天涯网


ZzJ品论天涯网

英伟达首席AI科学家JimFan曾讲述过当前实时语音助手(如Siri)的困境,即很难创造出沉浸式的使用体验。ZzJ品论天涯网

用户在和AI语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本;语音合成(TTS),将新文本转换回音频,如ElevenLabs或VALL-E。ZzJ品论天涯网


ZzJ品论天涯网

如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外“出戏”,就更别提沉浸式的使用体验了。ZzJ品论天涯网

以往的ChatGPT语音模式也是如此,依赖三个独立模型工作,平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4),语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。ZzJ品论天涯网

而现在,GPT-4o的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类在对话中的反应时间极为相似。ZzJ品论天涯网

作为一个全新的单一模型,GPT-4o能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、图像、视频均可)直接生成音频回答。ZzJ品论天涯网

2ZzJ品论天涯网

GPT-4oZzJ品论天涯网

一款免费的全能GPT-4ZzJ品论天涯网

MiraMurati在发布会上表示,GPT-4o最棒的地方在于,它将GPT-4的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。ZzJ品论天涯网

GPT-4o中的字母o指omni,在拉丁语词根中是“全”的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。ZzJ品论天涯网

据OpenAI官网,GPT-4o不仅在文本和代码处理的性能上与GPT-4Turbo持平,而且在API调用上速度更快,价格更是降低了50%。ZzJ品论天涯网


ZzJ品论天涯网

文本能力测试。ZzJ品论天涯网


ZzJ品论天涯网

与GPT-4对比多语言考试能力。ZzJ品论天涯网

更重要的是,GPT-4o的视觉理解能力在相关基准上取得了压倒性的胜利。ZzJ品论天涯网


ZzJ品论天涯网

在音频方面,GPT-4o的语音识别(ASR)也比OpenAI的语音识别模型Whisper性能更佳(越低越好)。ZzJ品论天涯网


ZzJ品论天涯网

与Meta、Google的语音转写模型相比,GPT-4o同样领先(越高越好)。ZzJ品论天涯网


ZzJ品论天涯网

若落实到实际生活的使用中,GPT-4o究竟能给普罗大众带来什么变化呢?ZzJ品论天涯网

OpenAI的官网展示了GPT-4o在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。ZzJ品论天涯网

比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o就能给用户生成一张电影海报。ZzJ品论天涯网


ZzJ品论天涯网


ZzJ品论天涯网


ZzJ品论天涯网


ZzJ品论天涯网

或者,根据输入的诗歌文本,GPT-4o能生成用手写体写着诗歌、画着画的单行本图片。ZzJ品论天涯网


ZzJ品论天涯网


ZzJ品论天涯网

在输入6张OpenAI的logo图后,GPT-4o能三维重建出其立体动图。ZzJ品论天涯网


ZzJ品论天涯网

甚至还可以让GPT-4o帮忙把logo印在杯垫上。ZzJ品论天涯网


ZzJ品论天涯网

“今天,有1亿人使用ChatGPT来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了GPT-4o的效率,我们可以将这些工具带给每个人。”MiraMurati如是说道。ZzJ品论天涯网

3ZzJ品论天涯网

写在后面ZzJ品论天涯网

发布会之外,OpenAI研究员WilliamFedus透露,此前在大模型竞技场参与A/B测试并碾压全场的模型“im-also-a-good-gpt2-chatbot”,就是本次登场的GPT-4o。ZzJ品论天涯网


ZzJ品论天涯网

截至2024年3月,OpenAI在不到十年的运营时间内,已经完成了10轮的融资,累计筹集资金超过了140亿美元,其估值在2月的融资交易中已经飙升至800亿美元。ZzJ品论天涯网

伴随着狂飙的市值,OpenAI的技术版图已经横跨了多个AI的关键领域,形成了一个全面而深入的产品矩阵。ZzJ品论天涯网

API产品线提供了包括GPT模型、DALL·E模型、Whisper语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT为核心的产品线分别推出了个人版和企业版。ZzJ品论天涯网

在音乐生成领域,OpenAI也有一定的技术积累,比如经过训练的深度神经网络MuseNet,可预测并生成MIDI音乐文件中的后续音符,以及能生成带人声音乐的开源算法Jukebox。ZzJ品论天涯网

再加上年初春节假期期间毫无征兆推出的AI视频生成大模型Sora,更是让网友们感叹“现实,不存在了。”ZzJ品论天涯网

毋庸置疑,OpenAI是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过“OpenAI不做,没人投;OpenAI一做,人人投”的融资奇观。ZzJ品论天涯网

但随着Claude3和Llama3的紧追与GPTStore上线2个月惨遭“滑铁卢”,不少AI行业从业者开始对OpenAI祛魅,认为“大模型护城河很浅,一年就赶上了。”ZzJ品论天涯网

现在看来,OpenAI果然还是OpenAI。ZzJ品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]