视频大模型再添新玩家 字节跳动推出视频生成大模型
9月24日,字节跳动旗下火山引擎发布了豆包视频生成 - PixelDance、豆包视频生成 - Seaweed 两款大模型,以及豆包音乐大模型、同声传译模型等产品,为大模型领域注入了新的活力。 大模型行业历经2022年年底的震撼、2023年的追赶以及2024年的逐渐冷静,厂商们开始调整业务方向,从通用型转向应用端,从训练侧转向推理侧。火山引擎总裁谭待指出,中国大模型应用未能做大,成本是一个重要原因。如今,行业将成本价格 “打” 了下来,转向应用成为必然趋势。 豆包大模型并不参与价格战,而是致力于让价格回归合理。目前,豆包大模型日均 tokens 使用量超过 1.3 万亿,较 5 月数据增长了 10 倍;日均生成图片 5000 万张,日均处理语音 85 万小时。谭待认为,当大模型价格不再成为阻碍创新的门槛时,随着企业的大规模应用,大模型支持更大的并发流量将成为行业发展的关键因素。对于降价带来的营收压力,谭待表示,对 To B 厂商而言,技术与产品的可持续性最为重要。降价后的火山引擎并未出现负毛利情况,但具体毛利数据暂未披露。 关于推出视频大模型的时间,谭待解释道,过去豆包视频大模型主要用于字节跳动集团内部,内部技术对外开放成为商用业务需要一定时间。同时,企业客户普遍存在对安全性与稳定性的担忧。此前,豆包视频大模型在字节跳动内部已配合即梦 AI 与剪映进行产品试用。今年 7 月,全国首部 AIGC 生成式连续性叙事科幻短剧集《三星堆:未来启示录》在抖音上线,由博纳影业出品制作,抖音旗下即梦 AI 提供首席技术支持。此次公开,技术层面解决了视频生成模型大多只能完成简单指令的问题,可实现自然连贯的多拍动作与多主体复杂交互。 豆包视频生成模型基于 DiT 架构,通过 DiT 融合计算单元让视频在大动态与运镜中自由切换,还通过扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。目前,豆包视频大模型已落地于电商营销、动画教育、城市文旅、微剧本等企业场景,为专业创作者和艺术家们提供了创作辅助。 此次豆包大模型发布的产品覆盖语言、语音、图像、视频等全模态。对于未来多模态 AGI 的发展,谭待表示,现在行业技术还需更加努力才能勉强摸到 AGI 的门槛。 作为字节跳动集团内的产品,此次由火山引擎面向 B 端客户推出豆包视频大模型,充分体现了集团对 AI2.0 时代下云计算业务的重视。随着人工智能技术的不断进步,大模型在各个领域的应用将越来越广泛。火山引擎的豆包大模型以其合理的价格、强大的功能和广泛的应用场景,有望在大模型市场中占据一席之地。 在未来,大模型的发展将继续朝着应用端深入拓展。企业需要不断创新,提高大模型的性能和稳定性,满足不同客户的需求。同时,行业也需要加强合作,共同推动大模型技术的进步,为社会经济的发展做出更大的贡献。 总之,火山引擎推出的豆包视频大模型为大模型行业带来了新的机遇和挑战。相信在未来的发展中,大模型将在更多领域发挥重要作用,为人们的生活和工作带来更多的便利和创新。