中国版gpt-pg电子游戏平台
没等到gpt-4o,商汤先把《her》给发布出来了! 就在刚刚,商汤直接在现场来了个炸裂的live show,话不多说,直接看效果: 不仅声音非常拟人(观众直呼好磁性),而且还是实时、随时可以打断的那种! 它宛如被安上了一对儿眼睛,可以做到精准无误的所见即所得。 就连手绘的粗糙的简笔画,ai也能俏皮地跟人类做互动: 一波live show秀下来,引得观众掌声连连、“哇”声一片。 这就是商汤发布的国内首个流式原生多模态交互模型——6000亿参数日日新5.5系列中的5o所达到的效果。 据了解,这是一种全新的ai交互模式,把文本、声音、图像还有视频等模态全都囊括到了一起,可以让ai跟人们交流的时候变得更加生动丰富。 可以说是真·电影走进现实了。 而且商汤ceo徐立现场表示,很快就可以用上了! 但新的ai交互模型,也还仅仅是商汤在这次发布中的一隅。 纵观整场活动,商汤可以说是围绕着日日新5.5,把多模态这事给玩儿得66的。 各位看官,咱们继续往下瞧。 计算机巨佬们“活”了起来你没看错,商汤用新ai搞的另一个花活儿,就是“复活”了图灵、冯诺依曼等计算机巨佬们。 并且还致敬了已故的人工智能科学家,商汤科技创始人汤晓鸥老师,徐立表示:
请看vcr: 这个新ai,名叫vimi,是基于日日新5.5能力打造的首个可控人物视频生成大模型。 而且是只需要一张任意风格照片就能搞定、普通用户都可以用、长达1分钟的那种哦~ 要知道,“人物可控”这事一直是用大模型搞生成的一道难题,就连sora在内大模型也面临无法精准控制动作、连续性不稳定(突然变脸)等问题。 但vimi就不一样了,它不仅能够精确地控制人物的面部表情,还能在半身像的范围内调节人物的自然姿态。 并且也能够自动生成与人物相匹配的头发、服装以及背景的变化;时长方面更是达到了分钟级别。 由此,以后要是想打造一个自己的大片儿,例如冰雪女王,那就是一张照片的事儿了: 以下视频来源于vimi相机 以为这就完了?no,no,no。 你的表情包又要变丰富了。 总而言之,vimi的出现可以说是利好视频创作者,让他们有了另一个高质量ai工具的选择。 值得一提的是,vimi还被这次世界人工智能大会(waic)官方授予了最高荣誉——镇馆之宝。 怎么做到的?对于能取得上述效果背后的杀手锏技术,商汤在现场也做出了大揭秘。 一方面是架构。 日日新5.5采用的是混合端边云协同专家架构,可以最大限度发挥云边端协同,降低推理成本。 另一方面是数据。 日日新5.5在模型训练上基于超过10tb tokens高质量训练数据,包括大量合成的思维链数据,其语言理解和交互能力全面升级。 因此,日日新5.5在数学、推理、编程等多个维度较上个版本具有较大的提升,尤其是在数学推理(↑31.5%)英文理解(↑53.8%)、指令跟随(↑26.8%)等核心指标方面。 那么这一点又该如何体现呢?权威评测榜单,便是一个很好的印证。 例如根据opencompass的评测,日日新5.5的平均分数已经与gpt-4o持平,并且多想细分维度的分数是超越了gpt-4o的。 不要999,不要99,只要9.9元全年除了多模态之外,端侧,也是此次商汤着重的发力点之一。 现在的日日新端侧模型5.5lite同样也在性能指标的各维度上做到了全面升级。 基于手机旗舰..,5.5lite首次安装包的耗时仅为0.19秒,相较于之前的版本减少了40%。 它的推理速度提高了15%,达到每秒90.2个汉字的处理速度。 此外,商汤还推出了端侧模型矩阵,其中包括商量mini写作助手、总结助手和百科助手等专门定制的模型。 这些专项模型在相应的场景下具有更优异的性能,能够满足客户复杂业务场景的需求,同时也能够提供不同的专项模型供客户选择或定制。 而且基于日日新5.5的端侧大模型还做到了“多快好”,还做到了“省”——每台使用成本最低可达每年9.9元。 在企业方面,与商汤达成合作的企业用户已经超过3000家,覆盖领域包括互联网、医疗、金融和编程等等。 而说到价格,说到普惠,就不得不提商汤此次提出的“0元go”计划了:
那么看完商汤此次的整场发布,我们还需要回答一个问题:
对于这个问题,商汤ceo徐立给出了他的解读:
因此,应用,或许就成为了决定这个时代是不是人工智能超级时刻的一个关键。 这也就是为什么商汤要推出流式原生多模态交互模型的原因了,只有做到了更丰富更精准的多模态,以及更低延时更可控,方可让应用这件事更上一层楼。 总而言之,思路已然清晰,技术不断进步,属于ai2.0的超级时刻或许正在加速向我们逼近。 |