快手大模型集体亮相文生视频升级至10秒可让熊猫弹吉他-欧陆登录|欧陆注册[平台首页]

新闻搜索

新闻动态

快手大模型集体亮相文生视频升级至10秒可让熊猫弹吉他

作者：管理员发布于：2024-07-13 13:22 文字：【大】【中】【小】

　　大会上，快手大模型首次集体亮相，视频生成大模型可灵、图像生成大模型可图等产品的多项新功能也一并发布。

　　据悉，继图生视频、视频续写功能发布之后，可灵在一个月内迎来了第三次重大升级，包括创作者单次生成的文生视频时长增加至10秒，以及正式上线网页端，另外，图像生成大模型可图宣布正式开源。从2023年以来，快手就在加码AI方面的布局，快手高级副总裁、主站业务与社区科学线负责人盖坤也表示，快手未来将继续加大在AI领域的投入，推动技术创新。

　　从快手在AI上的布局大致可以窥见短视频行业在如何利用AI技术来反哺自己的平台生态。目前来看，快手不但在大模型技术层面发力，还开发了包括视频生成、图片创作、剪辑工具等能为用户所用的应用工具，同时在大力推动大模型和直播、短视频内容等商业化场景融合。

　　据了解，借此次大会的舞台，盖坤透露了快手目前已经搭建了以快意语言大模型、推荐大模型、视觉生成大模型为核心的大模型矩阵，覆盖内容理解、分发、生成等多个层面，并深度服务快手的商业生态场景。其中，快手的推荐大模型SIM，凭借十万亿参数的规模，成为全球领先的推荐系统之一，其下一代架构ACT（即Action Transformer）预计每日将为快手App增加4亿分钟的用户观看时长，显著提升用户粘性和活跃度。

　　另一个可灵AI基础模型再度升级，推出更加清晰的高画质版，以及首尾帧控制、镜头控制等全新编辑能力，同时，创作者单次生成的文生视频时长增加至10s，是业内对用户开放使用可实现的最长时长。这是继图生视频、视频续写功能发布之后，可灵AI在一个月内迎来的第三次重大升级，同一时间网页端也将正式上线日正式发布文生视频功能，随后又于CVPR会议期间推出了图生视频、视频续写等多项新功能，支持用户最长生成约3分钟视频。快手方面透露，可灵大模型为快手AI团队自研，采用类Sora的技术路线并结合多项自研创新技术，具备诸多优势，如能够生成大幅度的合理运动；能够模拟物理世界特性；具备强大的概念组合能力和想象力；生成的视频分辨率高达1080p，时长高达2分钟（帧率30fps），且支持自由的宽高比。快手也向公众展示了由可灵生成的“宇航员在月球表面奔跑”的画面，宇航员的脚步轻盈；甚至还将丰富的想象力转化为了具体画面，如熊猫化作吉他手坐在湖边弹琴唱歌。

　　盖坤介绍，截至目前，已有超过50万用户申请可灵的内测资格，视频生成数量达700万。用户通过“可灵”创造的“老照片复活”等活动热度高企。基于可灵大模型，更多应用方向也已经或即将落地。南都记者了解到，基于肢体驱动的“AI舞王”功能已在快手和快影App成功落地，用户只需上传一张全身或半身照片，即可体验一键跳舞的乐趣；还有“AI唱跳”新玩法，可以同时驱动表情和肢体动作，仅需一张照片就能生成唱跳“爱你”的生动视频。

　　据悉，在文生视频功能发布不久后，可灵紧接着推出了图生视频功能，支持用任意静态图像生成5s视频，并且可搭配不同的文本内容，实现丰富的视觉叙事。同时，可灵还发布了视频续写功能，可为已生成的视频（含文生视频及图生视频）提供便捷的一键续写和连续多次续写，将视频最长可延伸至约3分钟。

　　快手视觉生成与互动中心负责人万鹏飞表示，可灵AI大模型最新发布的版本中，可灵在运动生成、生成时长、物理规律、视频画质、指令响应、图生视频、视频可控性等七个方向的能力亮点实现进一步升级，可单次生成更高清更可控的10s及更长的视频。

　　除了视频生成，快手相应还布局了图像生成大模型——可图。盖坤介绍，可图大模型集成了快手在大语言模型领域的深厚积累，通过数十亿中文语料的训练，成为最懂中文的文生图模型。在刚刚结束的世界

　　大会上，快手宣布可图将正式开源，这一举措旨在激发行业活力，共建一个更为繁荣的文生图大模型社区生态。

　　据南都记者不完全梳理，目前快手在AI领域的产品涉猎范围已经包括视频生成、图像生成、剪辑工具、智能创作工具、音乐产品等，其触达范围正在一步步拓展，而这些成果也开始逐渐反哺平台的商业化。

　　快手商业化外循环和AI商业产品负责人刘逍透露，半年来，有近2万商家在快手平台借助大模型能力实现智能化经营。相比今年1月，今年6月的AIGC月活跃客户数增长了8倍，月成交规模提升了64倍，平台AIGC广告收入规模提升了12倍。刘逍表示，磁力开创、女娲

　　、π数字员工等“新生意”工具将持续为商家深度赋能，“我们将继续深化AI技术在商业化中的应用，不断创新和发展，为客户创造更多价值。”将看似“高大上”的大模型尽快落地到适应平台生态的商业化应用场景上，无疑是快手利用AI提高经营效率的重点之一，而作为每日生产大量内容的短视频平台，应用场景层面中的内容理解也不容忽视。今年一季度财报后的电话会上，快手科技创始人兼首席执行官程一笑强调，快手正在稳步推进自研大模型各项性能的迭代提升，并且加快大模型在各业务场景的应用。针对多模态大语言模型，他透露：“我们在预训练阶段数据和模型架构优化的基础上，通过在反馈强化学习RLHF方面的技术突破，使得我们的1750亿规模大语言模型在更新迭代后的综合性能已经接近GPT4.0的水平。” 在商业场景的

　　与AIGC方面，大模型能力覆盖了短视频、直播和智能客服等多个场景。第一季度，AIGC营销素材单日消耗峰值突破1000万元。对此，程一笑表示，“大模型与短视频及直播业务场景的深度融合，也使我们更加坚定了在大模型上的研发投入。”（文章来源：南方都市报）

上一篇：在四川这个吉他艺术节上看吉他顶尖制作者们“斗琴”
下一篇：戴尼森吉他北京乐器展圆满收官！感谢相逢上海乐器展再会

相关推荐：

戴尼森吉他北京乐器展圆满收官！感谢相逢上海乐器展再会

快手大模型集体亮相文生视频升级至10秒可让熊猫弹吉他

在四川这个吉他艺术节上看吉他顶尖制作者们“斗琴”

此曲只应天上有最美笛箫演奏（心旷神怡）

惊！这些人在行车道搞直播、放风筝？！

关于举办首届“托克托吹歌”大赛的通知

秒杀欧美流行乐霸占Apple Music推荐逆水寒诠释何为华语顶流

我国的苦楝：400年前传入欧美颇受欢迎为何国内却很少看见？

在维也纳金色大厅感受东方诗韵

当代民族室内乐创作中的传统文化观照

分类导航

企业新闻行业动态产品知识