更新时间:2024-08-01 09:20:12
Open AI让大模型风暴席卷全球的最初那段时间里,快手并不是一个耀眼的角色。彼时,百度拿出文心一言,阿里拿出通义千问,腾讯拿出混元大模型,彼此追赶,研发与开放速度都很快。
快手不在最初的角逐名单里,甚至到现在,都很少有人能叫出快手大语言模型的名字:快意。
战局在今年的6月6日发生改变,快手视频生成大模型可灵开放公测申请,那天也是快手13周年司庆日。媒体时常将可灵和Open AI的Sora对标,但从2月的爆炸性亮相后,Sora迟迟未向公众开放。于是,好奇的中国用户开始涌向可灵。
10天后,可灵“已经(收到)好几万的申请量”,这一数据来自当天参加智源大会的万鹏飞,演讲时,他的头衔是快手视觉生成与互动中心负责人,也是可灵的实际负责人。到7月19日,申请使用人数超过百万。从万量级到百万量级的申请增长,可灵只用了一个多月,在诸家大厂上半年的大模型进展中,这是最亮眼的表现。
可灵生成的图片,提示词:蜜蜂在花丛中
翻身仗的故事总是大众喜闻乐见的。但仔细盘点可灵及背后的快手大模型业务即可发现,这不是一场低调蛰伏而后横空出世的爽文戏码,也不是天才少年带领小团队后发制人的英雄叙事。
率先卷出AI视频的大厂,为什么是快手?是业务需求带来了强烈动因和高优先级,是产品形态下的数据和技术积累带来了迭代速度,是业务场景的匹配度带来了真实客户。
可灵的出现,不是一个偶发事件。国内,快手在AI视频领域的最大对手,大概率将来自字节跳动。
有需求,才有动因
创作者是快手内容生态内最重要的环节之一。根据快手官方公布的数据,2023年,首次在快手发布短视频的创作者就有1.38亿,全年发布的视频在平台内获得超过1万亿次点赞。
拥有海量内容创作者,意味着快手需要承接他们对于内容工具的需求,否则追逐新兴生产力的创作者,很快就会奔向其他工具乃至其他平台的怀抱。这也是此前快影之于快手,和剪映之于字节的价值。
所以快手此前在大语言模型上的投入并不激进,但在多模态大模型的竞争中却要力争上游。
在可灵之前,快手自研的文生图大模型能力已接入快手,内测的结果是,用户在评论区月均生成5亿+AI图片。
可灵生成的图片,提示词:外星人站在长江边
需求带来的强烈动因,固然是可灵横空出世的必要条件,但拥有这些条件的并非只有快手一家。如果说对于可灵的问世还有什么重要的影响因子,那可能是决心。
决心首先来自快手高层。
此前,快手在大模型上的动作总是显得稍慢半步。提及国产大语言模型,大家会率先想到文心一言、通义千问;提及大语言模型应用,市场上风头正劲的是Kimi和豆包。到文生图领域,国内市场率先出圈的则是商汤的日日新5.0——发布第二天上午,商汤科技股价拉升超过30%,临时停牌。
而此前的一系列故事里,快手在一个看似边缘的位置。视频大模型及其应用,是其在风口之争最不容错过的节点,也是整体大模型布局中最重要的一环。
此前科技媒体硅星人的报道中,可灵团队技术人员称:“盖坤常说的就是,公司的卡都给你们用,公司全力支持。”盖坤即于越,快手高级副总裁,担任主站线业务负责人,兼任社会科学线负责人。前CTO陈定佳卸任后,盖坤成为快手技术线最高负责人之一。
万鹏飞及其团队可能拥有更甚的决心。一个细节是,在决定接手可灵项目后,万鹏飞将原有承接各方业务需求的工作,交接给了张迪团队的其他同级别负责人。与之相对应的,可灵团队的其他成员,也各自交接掉了手头原有的业务,全力投入可灵的研发中,周末加班赶进度是工作常态。
“其实正式发布一个多月前,可灵的测试效果都还不算太好。”一位大模型行业从业者告诉刺猬公社,“老万他们算是背水一战。后面真的是‘大力出奇迹’,最后能有这样的效果,很多人都没有预料到。”
于是决心成为最后一个变量。
有积累,才有速度
快手,或者说任何一个头部短视频平台,在研发AI视频上的积累体现在两个方面,内容和技术。
视频由用户生产,经过平台的标注理解,筛选出可被分发的内容,这本就是快手业务逻辑中的固有路线。经过处理的内容成为一种数据,从对内容本身的描述,到分发后的受欢迎程度,快手掌握了海量的内容数据,通俗地说,他们既有内容,也知道哪些是用户爱看的“好内容”。
对生成式视频大模型的训练而言,这一过程好比提前把菜备好了。
甚至“厨子”也是现成的。
可灵项目组的大部分核心研发成员,都是万鹏飞在Y-tech时期的老部下。年初,团队成员陆续接触相关信息和资料,开始进入可灵的研发工作中。
此前,万鹏飞团队主要负责承接快手创作生态下的UGC智能创作需求,跟主站生产、快影、一甜相机等业务方合作紧密,产品形态包括人像美化、影音特效、直播虚拟形象等。
2021年,万鹏飞在全球人工智能技术大会上曾以“Y-tech部门AI技术平台负责人”身份公开演讲,当时分享的案例中,就有“活照片特效”——前大模型时代的图生视频玩法。当年,快手和快影的模板库就曾上线过“会动的老照片”特效,用户上传一张照片后,照片中的人物可以做出微笑、眨眼、点头等动作,形成视频效果。据报道,这一动态特效在快影的使用量超过344万。
快手网友@森屿和鹿2021年发布的会动的老照片视频
2021年的万鹏飞就对生成式技术的发展非常有信心,并提出“生成模型会越来越强大,生成的内容更加逼真,且生成的过程更加稳定可控。”
三年后,可灵再度以“复活老照片”作品出圈,一些申请到使用权限的用户,通过“图生视频”功能,将去世亲人的照片转变为视频。和三年前的“活照片特效”相比,通过开放式的指令,用户可以让照片中的人物完成更复杂的动作,这正是新的大模型技术带来的变化。
Sora发布于今年2月,快手可灵团队在接近的时间点开始组建,但对多模态驱动的视频生成技术的研发和应用,一直在万鹏飞及其团队的工作范围内。
上述从业者向刺猬公社表达了相似的观点:“实际上Sora的出现,相当于让大家在那个节点把技术路线或者说方案确定下来了,但是很多对视觉技术的应用,包括多模态的事情是他们一直以来都在做的。”
可灵需要的技术层面积累正来自于此。厨子碰到了备好的菜,在全世界都看到一张新菜谱后,快手成为最快炒出成品的团队之一。
但同时,上述从业者也对可灵能否长期在技术和产品上位于领先位置持观望态度。“大家现在用的算法是类似的,各家可能有一些微调,但大差不差。”在他看来,有卡、有数据、算法差不多,各家做出效果接近的产品只是时间问题。
所以速度只是快手暂时的优势,他们需要在领先的窗口期,把优势真正转化为稳定的客户。
有场景,才有客户
2020年12月29日,快手在内部全员信里首次正式发布作为企业价值观的“快手派”,并称“痴迷客户”是快手价值观的核心。
此前,不管是快手内部还是其他互联网大厂,更常提及的概念是“用户”。为此,快手特地解释了这一词汇变动的原因。“公司业务复杂度变高,从 ‘用户’ 扩展到 ‘客户’,客户包含了生产者和消费者、B 端客户和 C 端用户、外部客户和内部客户。我们需要加强对生产者、B 端客户的理解与认知,我们也需要强调对内部客户的服务意识。”
站在2024年回望,那确实是快手业务结构变化的重要分水岭。2020年,快手的全年营收中,直播营收占比从前一年的80.4%下降到56.5%,线上营销服务营收占比从19%上升至37.2%,包括电商在内的其他服务营收占比,则迅速从前一年的1%攀升至6.3%。
如同快手自己曾阐释的那样,生产者和消费者、B 端客户和 C 端用户、外部客户和内部客户,都是快手的重要客户,也将成为快手大模型的目标客户。
生产者和消费者,共同建构了快手最基本的业务链条,生产者生产内容,消费者消费内容。大模型产品的价值,在于降低生产门槛,同时提升内容质量。
前者很好理解,正如可灵目前能实现的那样,输入文本或图片,即可获得一段视频,对没有拍摄条件和制作能力的人来说,生产门槛被大幅降低。
后者初听有点反常识——以当前AI视频产品的拟真能力和输出长度,怎么可能在质量上胜过真实拍摄和专业制作?但在快手和抖音这样的头部平台,每天被生产出的数千万个短视频中,大部分来自普通用户,专业内容生产者眼中“不够精巧”的AI技术,已经足以让普通用户的随手拍增添素材与丰富度。
B端商家同样可能成为快手大模型能力的客户。根据快手今年在世界人工智能大会上公布的数据,其AI广告收入已突破2000万/天。AI生成的广告素材,可以在单条成本降低到0.47元的同时,将CTR保持在基准线上。
对很多大模型产品而言,找落地场景是贯穿产品生命周期的难题,但快手显然不缺场景。正如快手副总裁、大模型负责人张迪说的那样,可灵的出圈源自“在真场景中挖掘真价值满足用户的真需求”。
他们要面对的难题在于,在现有场景下,如何让用户成为快手大模型的高频使用者,并愿意为此持续付费,先在自家生态内实现大模型的商业化。
7月25日,可灵全面开放注册,同一天,可灵上线会员体系,进入收费阶段。
根据可灵官网信息,非会员用户当天每日登录时可获赠66个灵感值,按照当前的“标价”,大约可免费生成6个视频或330张图片。
付费模式则分为两种,一是会员模式,用户可以按月、季度、半年、一年为周期购买不同等级的会员,等级越高,可生成作品数越多;二是充值模式,用户可以直接付费充值,换算下来,用户每个视频的生成成本为1元,每张图片的生成成本为2分钱。
对于可灵的定价体系,值得关注的有两点。
一是快手没有提供可无限次生成作品的会员选项,这意味着,无论选择充值模式还是会员模式,用户实际上都在“花钱买次数”。区别只是每次生成的单价,以及去水印、视频延长、大师运镜等差异性功能。
AI视频的生成成本高,不提供可无限次生成的会员,快手显然是想避免可能出现的成本失控,也能在一定程度上遏制灰产。
二是作为可灵“支付货币”的灵感值,和快手生态内打赏主播所用的快币,在定价上是等值的。1块钱人民币,可以购买10个快币,也可以购买10个灵感值。这样的定价方式,或许是为后续在快手生态内打通支付系统保留可能性。
同时拥有需求、场景、客户、设备、数据、技术、人才储备的,远不止快手一家。
上述行业人士预判,在不久的将来,字节就能做出同级别的生成式视频产品。而在此之前,快手需要在窗口期内完成用户沉淀和内容沉淀,让AI内容在快手生态内有效运转起来,最好还能跑通商业化路径,在领跑者的位置上坐得更久一点。
常规的增长和运营手段已被提上日程。可灵官网迅速上线了会员全线五折活动,同时用户每日登录可获得66个灵感值,以减少付费模式对用户增长和留存的影响,让所有用户至少可以先无门槛地使用尝鲜。
此外,在快手站内的运营中,可灵并未过多强调生成式视频、扩散模型方案、分布式训练集群等概念,而是用“老照片变视频”“穿越时空拥抱你”“复活40年前照片”等玩法,先吸引用户上手使用,以降低用户的理解成本。
对于普通用户来说,新的玩法和过去的快影特效玩法难度一致路径一致,他们将其理解为一种更强大的特效,无论是否听说过“大模型”这三个字,都不妨碍他们成为大模型产品的实际用户。
这正是快手和字节做AI视频的终极先手,如果用户是自家的;也是它们在AI时代面临的终极危机,如果用户被新的断层式产品吸引走。
与其说是它们要争夺AI视频时代的入口,倒不如说它们都是守擂者。新的生产力会制造出新的内容形态,最终造就新的平台,这个故事,程一笑和张一鸣都再熟悉不过。
他们必须做第一梯队。
(封面图由可灵生成。)