大会上,快手大模型首次集体亮相,视频生成大模型可灵、图像生成大模型可图等产品的多项新功能也一并发布。
据悉,继图生视频、视频续写功能发布之后,可灵在一个月内迎来了第三次重大升级,包括创作者单次生成的文生视频时长增加至10秒,以及正式上线网页端,另外,图像生成大模型可图宣布正式开源。从2023年以来,快手就在加码AI方面的布局,快手高级副总裁、主站业务与社区科学线负责人盖坤也表示,快手未来将继续加大在AI领域的投入,推动技术创新。
从快手在AI上的布局大致可以窥见短视频行业在如何利用AI技术来反哺自己的平台生态。目前来看,快手不但在大模型技术层面发力,还开发了包括视频生成、图片创作、剪辑工具等能为用户所用的应用工具,同时在大力推动大模型和直播、短视频内容等商业化场景融合。
据了解,借此次大会的舞台,盖坤透露了快手目前已经搭建了以快意语言大模型、推荐大模型、视觉生成大模型为核心的大模型矩阵,覆盖内容理解、分发、生成等多个层面,并深度服务快手的商业生态场景。其中,快手的推荐大模型SIM,凭借十万亿参数的规模,成为全球领先的推荐系统之一,其下一代架构ACT(即Action Transformer)预计每日将为快手App增加4亿分钟的用户观看时长,显著提升用户粘性和活跃度。
另一个可灵AI基础模型再度升级,推出更加清晰的高画质版,以及首尾帧控制、镜头控制等全新编辑能力,同时,创作者单次生成的文生视频时长增加至10s,是业内对用户开放使用可实现的最长时长。这是继图生视频、视频续写功能发布之后,可灵AI在一个月内迎来的第三次重大升级,同一时间网页端也将正式上线日正式发布文生视频功能,随后又于CVPR会议期间推出了图生视频、视频续写等多项新功能,支持用户最长生成约3分钟视频。快手方面透露,可灵大模型为快手AI团队自研,采用类Sora的技术路线并结合多项自研创新技术,具备诸多优势,如能够生成大幅度的合理运动;能够模拟物理世界特性;具备强大的概念组合能力和想象力;生成的视频分辨率高达1080p,时长高达2分钟(帧率30fps),且支持自由的宽高比。快手也向公众展示了由可灵生成的“宇航员在月球表面奔跑”的画面,宇航员的脚步轻盈;甚至还将丰富的想象力转化为了具体画面,如熊猫化作吉他手坐在湖边弹琴唱歌。
盖坤介绍,截至目前,已有超过50万用户申请可灵的内测资格,视频生成数量达700万。用户通过“可灵”创造的“老照片复活”等活动热度高企。基于可灵大模型,更多应用方向也已经或即将落地。南都记者了解到,基于肢体驱动的“AI舞王”功能已在快手和快影App成功落地,用户只需上传一张全身或半身照片,即可体验一键跳舞的乐趣;还有“AI唱跳”新玩法,可以同时驱动表情和肢体动作,仅需一张照片就能生成唱跳“爱你”的生动视频。
据悉,在文生视频功能发布不久后,可灵紧接着推出了图生视频功能,支持用任意静态图像生成5s视频,并且可搭配不同的文本内容,实现丰富的视觉叙事 。同时,可灵还发布了视频续写功能,可为已生成的视频(含文生视频及图生视频)提供便捷的一键续写和连续多次续写,将视频最长可延伸至约3分钟。
快手视觉生成与互动中心负责人万鹏飞表示,可灵AI大模型最新发布的版本中,可灵在运动生成、生成时长、物理规律、视频画质、指令响应、图生视频、视频可控性等七个方向的能力亮点实现进一步升级,可单次生成更高清更可控的10s及更长的视频。
除了视频生成,快手相应还布局了图像生成大模型——可图。盖坤介绍,可图大模型集成了快手在大语言模型领域的深厚积累,通过数十亿中文语料的训练,成为最懂中文的文生图模型。在刚刚结束的世界
大会上,快手宣布可图将正式开源,这一举措旨在激发行业活力,共建一个更为繁荣的文生图大模型社区生态。
据南都记者不完全梳理,目前快手在AI领域的产品涉猎范围已经包括视频生成、图像生成、剪辑工具、智能创作工具、音乐产品等,其触达范围正在一步步拓展,而这些成果也开始逐渐反哺平台的商业化。
快手商业化外循环和AI商业产品负责人刘逍透露,半年来,有近2万商家在快手平台借助大模型能力实现智能化经营。相比今年1月,今年6月的AIGC月活跃客户数增长了8倍,月成交规模提升了64倍,平台AIGC广告收入规模提升了12倍。刘逍表示,磁力开创、女娲
、π数字员工等“新生意”工具将持续为商家深度赋能,“我们将继续深化AI技术在商业化中的应用,不断创新和发展,为客户创造更多价值。”将看似“高大上”的大模型尽快落地到适应平台生态的商业化应用场景上,无疑是快手利用AI提高经营效率的重点之一,而作为每日生产大量内容的短视频平台,应用场景层面中的内容理解也不容忽视。今年一季度财报后的电话会上,快手科技创始人兼首席执行官程一笑强调,快手正在稳步推进自研大模型各项性能的迭代提升,并且加快大模型在各业务场景的应用。针对多模态大语言模型,他透露:“我们在预训练阶段数据和模型架构优化的基础上,通过在反馈强化学习RLHF方面的技术突破,使得我们的1750亿规模大语言模型在更新迭代后的综合性能已经接近GPT4.0的水平。” 在商业场景的
与AIGC方面,大模型能力覆盖了短视频、直播和智能客服等多个场景。第一季度,AIGC营销素材单日消耗峰值突破1000万元。对此,程一笑表示,“大模型与短视频及直播业务场景的深度融合,也使我们更加坚定了在大模型上的研发投入。”(文章来源:南方都市报)