对话智象未来CTO姚霆:当Sora退场后,世界模型的终局是轮回

分类:热文
字数:(1996)
阅读:(33)
发布:
更新:
内容摘要:对话智象未来CTO姚霆:当Sora退场后,世界模型的终局是轮回的警惕虚假宣传-全面释义、解释与落实、科学解答解释落实、,以 Sora 的发布和关停为时间节点,AI 视频生成产业分为两个世界。2024 年春节,OpenAI 发布 Sora,一石激起千层浪,当年 5 月 17 日,智象未来旗下 vivago 平台上线,这个时间点比快手可灵还早了两周,这家核心班底来自微软亚研院的多模态大模型创企,并不缺少对技术的敏锐嗅觉。一年后,OpenAI 骤然宣布关停了 Sora 的独立服务,将视频生成功能并入 ChatGPT 的付费体系,留给行业是一些未有明确答案的思考,多模态大模型的技术和商业化会走向何处,创业企业又该如何在窗口关闭前找到自己的空间。在智象未来联合创始人兼 CTO 姚霆看来,Sora 的退场并非偶然,而是通用视频生成这门好技术在商业化面前的必然结局,对于当前火爆的世界模型赛道,他给出了一个颇具哲学意味的答案:轮回。据了解,智象未来的 ARR(年度经常性收入)达到数千万美元量级,B 轮融资正在最后 Close 阶段,持续获得产业资本加持。这家公司的路线选择,或许代表了中国 AIGC 创业公司在多模态赛道上的一种生存策略。通用视频生成是一门好技术,不是 Sora 的好生意对话伊始,姚霆便开门见山地给出了自己的判断。在他看来,Sora 的 " 失败 " 可以从三个维度来理解。" 第一,Sora 想做的是非常通用的视频生成,但这与垂直领域的应用需求相对脱离。" 姚霆分析道,"OpenAI 天然没有视频相关的业务,也没有那样的生态。"第二,成本是不可忽视的现实问题。" 今天跟互联网时代不一样,所有的服务上线背后都在跑 GPU,成本还是很昂贵的。" 姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架构本身就要考虑成本,否则后面就没法做大量服务。第三,Sora 缺乏商业化的土壤。对比字节跳动的 Seedance 和快手的可灵,这两家公司的视频生成产品都能与主营业务形成协同,而 OpenAI 并没有这样的业务场景来承接技术能力。Sora 的退场,也折射出国内外视频生成路线的差异。" 国外更看重模型架构的创新,国内则倾向于做大而全的平台链路。" 姚霆观察道。对于智象来说,这两条路都不是唯一选择。" 我们是从技术出身的,以前在微软的时候,大家想做全世界最好的模型,对标谷歌、Facebook、CMU、伯克利。" 姚霆回忆," 做视频理解的模型,这种基因天然就是希望模型上有架构创新。"智象也的确在践行这一点。从 2023 年的 Unet 架构,到 DiT,再到自回归 +DiT 的融合,直到今天全新的全模态架构,智象每一次迭代都试图在技术层面做更多的创新,而且每次还是精准的踩住了整个技术迭代的突破口。" 但同时,在中国做这件事,肯定还是要以垂直领域的商业化作为导向。" 姚霆强调," 不是为了做模型炫技,而是要有商业化落地的指标。"世界模型的五个等级——从静态复刻到 " 轮回 "世界模型的概念在过去一年里经历了剧烈的收敛过程,也是当前多数大模型相关企业想要讲述的故事。" 世界模型的定义一直很广,早期可以分成三个类别。" 姚霆解释道," 第一类是以语言模型为主,属于高层知识的提炼和压缩;第二类是 Yann LeCun 做的 JEPA,偏中层的表达学习;第三类是底层的像素生成,也就是视频生成。"但如今,世界模型的定义正在收敛。姚霆认为,今天的世界模型可以大致分为三类:在视频生成模型中融入因果关系和物理规律;根据用户指令实时生成场景(如 Genie-3);以及跟具身智能强相关的 World Action Model。对于智象而言,姚霆更看重两个维度的突破。" 第一个是模型侧,要用一个神经网络同时理解和生成文本、图像、视频、3D 以及动作。" 姚霆强调," 它一定是端到端的全模态架构,各个模态之间不会单独编码,而是统一的 tokenization。"为什么要追求 " 全模态 " 而非 " 多模态 "?姚霆的解释很直接:" 世界模型好歹要跟物理世界打通,如果不打通凭什么叫世界模型?从这个角度来说肯定要有具身的数据,不然就是割裂的数字世界模型。"在他看来,世界模型的底座是基于视频训练出来的,还是基于 VLA(视觉 - 语言 - 动作)训练出来的,其实并不重要,最终的形态一定是任意输入,任意输出,想怎么输入,想它输出什么它就可以输出什么。但这还不是终局。" 从宏观角度,我对世界模型分了几个等级。" 姚霆说," 第一级是静态复刻,就是一幅图;第二级是视频,有三维有时间域;第三级是交互;第四级加入物理规律和因果关系;第五级,终局是轮回。"他进一步解释道," 轮回是什么?是完美的因果关系。比如蝴蝶效应,今天我在这儿扇了一下翅膀,明天那个地方就应该出现海啸。再往上一级,才是真正的世界模型,才是真正的推理。"这个说法听起来有些哲学意味,但姚霆很快将其拉回到产品层面。" 第二个维度是 Agent。" 他说," 所有的 Agentic App 等于一个平台(可能是 PC 或手机)乘以 Harness(对底层 skills 的管理、适配和组合),再加上底层的 skills(可能是 OS 或 OpenAI)。"姚霆举例说明:用户想做一个 VLOG,只需要输入 " 我想赚钱 " 这一句话,Agent 就能自动搜索、调用、编排各种 skills,完成从脚本撰写到视频制作的全流程。" 这需要全模态的支持。" 姚霆强调," 底层有文本、视频、图像、语音,全打通了,才能知道谁跟谁该怎么组合。"大厂环伺,创业公司如何出牌?快手可灵月收入突破两千万美元,即梦背靠字节过亿的生态日活。在这样的双寡头格局下,智象这样的创业公司如何找到出路?" 大厂在资本、人才、算力上都有优势,包括入口。" 姚霆坦率表示,但在某些条件下,它的束缚也会比较多,难免对主营业务有所妥协。相比之下,创业公司的团队架构更加灵活。"AI 时代,机会是相对平等的。" 姚霆说," 但作为初创公司,有几点还是要做好。"第一,认知要新。" 首先要对整个趋势有充分的预判,不能等大厂做到什么样我们再复制,这样基本就没机会。" 姚霆强调," 还要有坚持,要做正确但很难的事情。智象的产品经理现在必须会用 vibe-coding(AI 辅助编程)。"第二,速度要快。"AI 产品的稳定版本,产品推上线,用户用两次能成功得到一次想要的结果,这就是稳定版本。" 姚霆说," 让用户使用、反馈、迭代,这样才能形成壁垒。"第三,架构要灵活。" 产品和技术的边界越来越模糊,因为产品也可以通过 vibe-coding 写前端。" 姚霆打了个比方," 有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些‘王炸’是要拆掉的。"面对大厂竞争,智象的应对策略已经明确:2026 年的核心战略是搭建 "1+1+3" 的架构体系。" 第一个 '1' 是全模态底座大模型,这是最重要的。" 姚霆解释道," 第二个 '1' 是 HiHarness 平台,可以理解为中间的 Harness 层,负责打通各种 skills。'3' 是优先级最高的三个 Agent:专业创作者智能体、商业营销内容生成智能体、AI 影视智能体。未来还会拓展出更多方向,比如具身智能、游戏引擎等。"这个架构的核心逻辑,是从 " 分而治之 " 转向 " 并而治之 "。姚霆说," 以前不同创作用不同方式,可能是工具可能是内容,今天会变成一个并而治之。底座是 Agent,上面根据不同场景去实例化。"他把这个逻辑比作搜索引擎:" 当年做搜索引擎,下面有众多网页,今天网页变成 skills,如何在海量里面寻找、定位、编排,这是核心问题。"全模态底座的价值就在于此,如果全模态模型天然把这些模态之间打通,那么只要建一套索引就可以解决所有模态的事情,不管用户输入什么,想要得到什么,都可以给到用户最终结果。(本文作者 | 张帅,编辑 | 杨林)

新消费“过气”后,元气森林还有“佛系”的机会吗?警觉虚假美化,立体剖析、专家解读解释落实

对话智象未来CTO姚霆:当Sora退场后,世界模型的终局是轮回杜绝虚假的假承诺环,价值剖析、专家解读解释与落实实,以 Sora 的发布和关停为时间节点,AI 视频生成产业分为两个世界。2024 年春节,OpenAI 发布 Sora,一石激起千层浪,当年 5 月 17 日,智象未来旗下 vivago 平台上线,这个时间点比快手可灵还早了两周,这家核心班底来自微软亚研院的多模态大模型创企,并不缺少对技术的敏锐嗅觉。一年后,OpenAI 骤然宣布关停了 Sora 的独立服务,将视频生成功能并入 ChatGPT 的付费体系,留给行业是一些未有明确答案的思考,多模态大模型的技术和商业化会走向何处,创业企业又该如何在窗口关闭前找到自己的空间。在智象未来联合创始人兼 CTO 姚霆看来,Sora 的退场并非偶然,而是通用视频生成这门好技术在商业化面前的必然结局,对于当前火爆的世界模型赛道,他给出了一个颇具哲学意味的答案:轮回。据了解,智象未来的 ARR(年度经常性收入)达到数千万美元量级,B 轮融资正在最后 Close 阶段,持续获得产业资本加持。这家公司的路线选择,或许代表了中国 AIGC 创业公司在多模态赛道上的一种生存策略。通用视频生成是一门好技术,不是 Sora 的好生意对话伊始,姚霆便开门见山地给出了自己的判断。在他看来,Sora 的 " 失败 " 可以从三个维度来理解。" 第一,Sora 想做的是非常通用的视频生成,但这与垂直领域的应用需求相对脱离。" 姚霆分析道,"OpenAI 天然没有视频相关的业务,也没有那样的生态。"第二,成本是不可忽视的现实问题。" 今天跟互联网时代不一样,所有的服务上线背后都在跑 GPU,成本还是很昂贵的。" 姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架构本身就要考虑成本,否则后面就没法做大量服务。第三,Sora 缺乏商业化的土壤。对比字节跳动的 Seedance 和快手的可灵,这两家公司的视频生成产品都能与主营业务形成协同,而 OpenAI 并没有这样的业务场景来承接技术能力。Sora 的退场,也折射出国内外视频生成路线的差异。" 国外更看重模型架构的创新,国内则倾向于做大而全的平台链路。" 姚霆观察道。对于智象来说,这两条路都不是唯一选择。" 我们是从技术出身的,以前在微软的时候,大家想做全世界最好的模型,对标谷歌、Facebook、CMU、伯克利。" 姚霆回忆," 做视频理解的模型,这种基因天然就是希望模型上有架构创新。"智象也的确在践行这一点。从 2023 年的 Unet 架构,到 DiT,再到自回归 +DiT 的融合,直到今天全新的全模态架构,智象每一次迭代都试图在技术层面做更多的创新,而且每次还是精准的踩住了整个技术迭代的突破口。" 但同时,在中国做这件事,肯定还是要以垂直领域的商业化作为导向。" 姚霆强调," 不是为了做模型炫技,而是要有商业化落地的指标。"世界模型的五个等级——从静态复刻到 " 轮回 "世界模型的概念在过去一年里经历了剧烈的收敛过程,也是当前多数大模型相关企业想要讲述的故事。" 世界模型的定义一直很广,早期可以分成三个类别。" 姚霆解释道," 第一类是以语言模型为主,属于高层知识的提炼和压缩;第二类是 Yann LeCun 做的 JEPA,偏中层的表达学习;第三类是底层的像素生成,也就是视频生成。"但如今,世界模型的定义正在收敛。姚霆认为,今天的世界模型可以大致分为三类:在视频生成模型中融入因果关系和物理规律;根据用户指令实时生成场景(如 Genie-3);以及跟具身智能强相关的 World Action Model。对于智象而言,姚霆更看重两个维度的突破。" 第一个是模型侧,要用一个神经网络同时理解和生成文本、图像、视频、3D 以及动作。" 姚霆强调," 它一定是端到端的全模态架构,各个模态之间不会单独编码,而是统一的 tokenization。"为什么要追求 " 全模态 " 而非 " 多模态 "?姚霆的解释很直接:" 世界模型好歹要跟物理世界打通,如果不打通凭什么叫世界模型?从这个角度来说肯定要有具身的数据,不然就是割裂的数字世界模型。"在他看来,世界模型的底座是基于视频训练出来的,还是基于 VLA(视觉 - 语言 - 动作)训练出来的,其实并不重要,最终的形态一定是任意输入,任意输出,想怎么输入,想它输出什么它就可以输出什么。但这还不是终局。" 从宏观角度,我对世界模型分了几个等级。" 姚霆说," 第一级是静态复刻,就是一幅图;第二级是视频,有三维有时间域;第三级是交互;第四级加入物理规律和因果关系;第五级,终局是轮回。"他进一步解释道," 轮回是什么?是完美的因果关系。比如蝴蝶效应,今天我在这儿扇了一下翅膀,明天那个地方就应该出现海啸。再往上一级,才是真正的世界模型,才是真正的推理。"这个说法听起来有些哲学意味,但姚霆很快将其拉回到产品层面。" 第二个维度是 Agent。" 他说," 所有的 Agentic App 等于一个平台(可能是 PC 或手机)乘以 Harness(对底层 skills 的管理、适配和组合),再加上底层的 skills(可能是 OS 或 OpenAI)。"姚霆举例说明:用户想做一个 VLOG,只需要输入 " 我想赚钱 " 这一句话,Agent 就能自动搜索、调用、编排各种 skills,完成从脚本撰写到视频制作的全流程。" 这需要全模态的支持。" 姚霆强调," 底层有文本、视频、图像、语音,全打通了,才能知道谁跟谁该怎么组合。"大厂环伺,创业公司如何出牌?快手可灵月收入突破两千万美元,即梦背靠字节过亿的生态日活。在这样的双寡头格局下,智象这样的创业公司如何找到出路?" 大厂在资本、人才、算力上都有优势,包括入口。" 姚霆坦率表示,但在某些条件下,它的束缚也会比较多,难免对主营业务有所妥协。相比之下,创业公司的团队架构更加灵活。"AI 时代,机会是相对平等的。" 姚霆说," 但作为初创公司,有几点还是要做好。"第一,认知要新。" 首先要对整个趋势有充分的预判,不能等大厂做到什么样我们再复制,这样基本就没机会。" 姚霆强调," 还要有坚持,要做正确但很难的事情。智象的产品经理现在必须会用 vibe-coding(AI 辅助编程)。"第二,速度要快。"AI 产品的稳定版本,产品推上线,用户用两次能成功得到一次想要的结果,这就是稳定版本。" 姚霆说," 让用户使用、反馈、迭代,这样才能形成壁垒。"第三,架构要灵活。" 产品和技术的边界越来越模糊,因为产品也可以通过 vibe-coding 写前端。" 姚霆打了个比方," 有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些‘王炸’是要拆掉的。"面对大厂竞争,智象的应对策略已经明确:2026 年的核心战略是搭建 "1+1+3" 的架构体系。" 第一个 '1' 是全模态底座大模型,这是最重要的。" 姚霆解释道," 第二个 '1' 是 HiHarness 平台,可以理解为中间的 Harness 层,负责打通各种 skills。'3' 是优先级最高的三个 Agent:专业创作者智能体、商业营销内容生成智能体、AI 影视智能体。未来还会拓展出更多方向,比如具身智能、游戏引擎等。"这个架构的核心逻辑,是从 " 分而治之 " 转向 " 并而治之 "。姚霆说," 以前不同创作用不同方式,可能是工具可能是内容,今天会变成一个并而治之。底座是 Agent,上面根据不同场景去实例化。"他把这个逻辑比作搜索引擎:" 当年做搜索引擎,下面有众多网页,今天网页变成 skills,如何在海量里面寻找、定位、编排,这是核心问题。"全模态底座的价值就在于此,如果全模态模型天然把这些模态之间打通,那么只要建一套索引就可以解决所有模态的事情,不管用户输入什么,想要得到什么,都可以给到用户最终结果。(本文作者 | 张帅,编辑 | 杨林)

日本连锁寿司店发生食物中毒事件,39人身体腹泻、呕吐,年龄介于4岁到71岁

曝联盟仍在调查莱昂纳德!勇士曾接近得到他组五巨头但快船退出谈判技术释义、解释与落实,防范不实的迷雾,以 Sora 的发布和关停为时间节点,AI 视频生成产业分为两个世界。2024 年春节,OpenAI 发布 Sora,一石激起千层浪,当年 5 月 17 日,智象未来旗下 vivago 平台上线,这个时间点比快手可灵还早了两周,这家核心班底来自微软亚研院的多模态大模型创企,并不缺少对技术的敏锐嗅觉。一年后,OpenAI 骤然宣布关停了 Sora 的独立服务,将视频生成功能并入 ChatGPT 的付费体系,留给行业是一些未有明确答案的思考,多模态大模型的技术和商业化会走向何处,创业企业又该如何在窗口关闭前找到自己的空间。在智象未来联合创始人兼 CTO 姚霆看来,Sora 的退场并非偶然,而是通用视频生成这门好技术在商业化面前的必然结局,对于当前火爆的世界模型赛道,他给出了一个颇具哲学意味的答案:轮回。据了解,智象未来的 ARR(年度经常性收入)达到数千万美元量级,B 轮融资正在最后 Close 阶段,持续获得产业资本加持。这家公司的路线选择,或许代表了中国 AIGC 创业公司在多模态赛道上的一种生存策略。通用视频生成是一门好技术,不是 Sora 的好生意对话伊始,姚霆便开门见山地给出了自己的判断。在他看来,Sora 的 " 失败 " 可以从三个维度来理解。" 第一,Sora 想做的是非常通用的视频生成,但这与垂直领域的应用需求相对脱离。" 姚霆分析道,"OpenAI 天然没有视频相关的业务,也没有那样的生态。"第二,成本是不可忽视的现实问题。" 今天跟互联网时代不一样,所有的服务上线背后都在跑 GPU,成本还是很昂贵的。" 姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架构本身就要考虑成本,否则后面就没法做大量服务。第三,Sora 缺乏商业化的土壤。对比字节跳动的 Seedance 和快手的可灵,这两家公司的视频生成产品都能与主营业务形成协同,而 OpenAI 并没有这样的业务场景来承接技术能力。Sora 的退场,也折射出国内外视频生成路线的差异。" 国外更看重模型架构的创新,国内则倾向于做大而全的平台链路。" 姚霆观察道。对于智象来说,这两条路都不是唯一选择。" 我们是从技术出身的,以前在微软的时候,大家想做全世界最好的模型,对标谷歌、Facebook、CMU、伯克利。" 姚霆回忆," 做视频理解的模型,这种基因天然就是希望模型上有架构创新。"智象也的确在践行这一点。从 2023 年的 Unet 架构,到 DiT,再到自回归 +DiT 的融合,直到今天全新的全模态架构,智象每一次迭代都试图在技术层面做更多的创新,而且每次还是精准的踩住了整个技术迭代的突破口。" 但同时,在中国做这件事,肯定还是要以垂直领域的商业化作为导向。" 姚霆强调," 不是为了做模型炫技,而是要有商业化落地的指标。"世界模型的五个等级——从静态复刻到 " 轮回 "世界模型的概念在过去一年里经历了剧烈的收敛过程,也是当前多数大模型相关企业想要讲述的故事。" 世界模型的定义一直很广,早期可以分成三个类别。" 姚霆解释道," 第一类是以语言模型为主,属于高层知识的提炼和压缩;第二类是 Yann LeCun 做的 JEPA,偏中层的表达学习;第三类是底层的像素生成,也就是视频生成。"但如今,世界模型的定义正在收敛。姚霆认为,今天的世界模型可以大致分为三类:在视频生成模型中融入因果关系和物理规律;根据用户指令实时生成场景(如 Genie-3);以及跟具身智能强相关的 World Action Model。对于智象而言,姚霆更看重两个维度的突破。" 第一个是模型侧,要用一个神经网络同时理解和生成文本、图像、视频、3D 以及动作。" 姚霆强调," 它一定是端到端的全模态架构,各个模态之间不会单独编码,而是统一的 tokenization。"为什么要追求 " 全模态 " 而非 " 多模态 "?姚霆的解释很直接:" 世界模型好歹要跟物理世界打通,如果不打通凭什么叫世界模型?从这个角度来说肯定要有具身的数据,不然就是割裂的数字世界模型。"在他看来,世界模型的底座是基于视频训练出来的,还是基于 VLA(视觉 - 语言 - 动作)训练出来的,其实并不重要,最终的形态一定是任意输入,任意输出,想怎么输入,想它输出什么它就可以输出什么。但这还不是终局。" 从宏观角度,我对世界模型分了几个等级。" 姚霆说," 第一级是静态复刻,就是一幅图;第二级是视频,有三维有时间域;第三级是交互;第四级加入物理规律和因果关系;第五级,终局是轮回。"他进一步解释道," 轮回是什么?是完美的因果关系。比如蝴蝶效应,今天我在这儿扇了一下翅膀,明天那个地方就应该出现海啸。再往上一级,才是真正的世界模型,才是真正的推理。"这个说法听起来有些哲学意味,但姚霆很快将其拉回到产品层面。" 第二个维度是 Agent。" 他说," 所有的 Agentic App 等于一个平台(可能是 PC 或手机)乘以 Harness(对底层 skills 的管理、适配和组合),再加上底层的 skills(可能是 OS 或 OpenAI)。"姚霆举例说明:用户想做一个 VLOG,只需要输入 " 我想赚钱 " 这一句话,Agent 就能自动搜索、调用、编排各种 skills,完成从脚本撰写到视频制作的全流程。" 这需要全模态的支持。" 姚霆强调," 底层有文本、视频、图像、语音,全打通了,才能知道谁跟谁该怎么组合。"大厂环伺,创业公司如何出牌?快手可灵月收入突破两千万美元,即梦背靠字节过亿的生态日活。在这样的双寡头格局下,智象这样的创业公司如何找到出路?" 大厂在资本、人才、算力上都有优势,包括入口。" 姚霆坦率表示,但在某些条件下,它的束缚也会比较多,难免对主营业务有所妥协。相比之下,创业公司的团队架构更加灵活。"AI 时代,机会是相对平等的。" 姚霆说," 但作为初创公司,有几点还是要做好。"第一,认知要新。" 首先要对整个趋势有充分的预判,不能等大厂做到什么样我们再复制,这样基本就没机会。" 姚霆强调," 还要有坚持,要做正确但很难的事情。智象的产品经理现在必须会用 vibe-coding(AI 辅助编程)。"第二,速度要快。"AI 产品的稳定版本,产品推上线,用户用两次能成功得到一次想要的结果,这就是稳定版本。" 姚霆说," 让用户使用、反馈、迭代,这样才能形成壁垒。"第三,架构要灵活。" 产品和技术的边界越来越模糊,因为产品也可以通过 vibe-coding 写前端。" 姚霆打了个比方," 有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些‘王炸’是要拆掉的。"面对大厂竞争,智象的应对策略已经明确:2026 年的核心战略是搭建 "1+1+3" 的架构体系。" 第一个 '1' 是全模态底座大模型,这是最重要的。" 姚霆解释道," 第二个 '1' 是 HiHarness 平台,可以理解为中间的 Harness 层,负责打通各种 skills。'3' 是优先级最高的三个 Agent:专业创作者智能体、商业营销内容生成智能体、AI 影视智能体。未来还会拓展出更多方向,比如具身智能、游戏引擎等。"这个架构的核心逻辑,是从 " 分而治之 " 转向 " 并而治之 "。姚霆说," 以前不同创作用不同方式,可能是工具可能是内容,今天会变成一个并而治之。底座是 Agent,上面根据不同场景去实例化。"他把这个逻辑比作搜索引擎:" 当年做搜索引擎,下面有众多网页,今天网页变成 skills,如何在海量里面寻找、定位、编排,这是核心问题。"全模态底座的价值就在于此,如果全模态模型天然把这些模态之间打通,那么只要建一套索引就可以解决所有模态的事情,不管用户输入什么,想要得到什么,都可以给到用户最终结果。(本文作者 | 张帅,编辑 | 杨林),的警惕虚假宣传-深度解答解释落实对话智象未来CTO姚霆:当Sora退场后,世界模型的终局是轮回

AI视频,还是一门性感的生意吗?全面释义、解释与落实、科学解答解释落实、

以 Sora 的发布和关停为时间节点,AI 视频生成产业分为两个世界。2024 年春节,OpenAI 发布 Sora,一石激起千层浪,当年 5 月 17 日,智象未来旗下 vivago 平台上线,这个时间点比快手可灵还早了两周,这家核心班底来自微软亚研院的多模态大模型创企,并不缺少对技术的敏锐嗅觉。一年后,OpenAI 骤然宣布关停了 Sora 的独立服务,将视频生成功能并入 ChatGPT 的付费体系,留给行业是一些未有明确答案的思考,多模态大模型的技术和商业化会走向何处,创业企业又该如何在窗口关闭前找到自己的空间。在智象未来联合创始人兼 CTO 姚霆看来,Sora 的退场并非偶然,而是通用视频生成这门好技术在商业化面前的必然结局,对于当前火爆的世界模型赛道,他给出了一个颇具哲学意味的答案:轮回。据了解,智象未来的 ARR(年度经常性收入)达到数千万美元量级,B 轮融资正在最后 Close 阶段,持续获得产业资本加持。这家公司的路线选择,或许代表了中国 AIGC 创业公司在多模态赛道上的一种生存策略。通用视频生成是一门好技术,不是 Sora 的好生意对话伊始,姚霆便开门见山地给出了自己的判断。在他看来,Sora 的 " 失败 " 可以从三个维度来理解。" 第一,Sora 想做的是非常通用的视频生成,但这与垂直领域的应用需求相对脱离。" 姚霆分析道,"OpenAI 天然没有视频相关的业务,也没有那样的生态。"第二,成本是不可忽视的现实问题。" 今天跟互联网时代不一样,所有的服务上线背后都在跑 GPU,成本还是很昂贵的。" 姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架构本身就要考虑成本,否则后面就没法做大量服务。第三,Sora 缺乏商业化的土壤。对比字节跳动的 Seedance 和快手的可灵,这两家公司的视频生成产品都能与主营业务形成协同,而 OpenAI 并没有这样的业务场景来承接技术能力。Sora 的退场,也折射出国内外视频生成路线的差异。" 国外更看重模型架构的创新,国内则倾向于做大而全的平台链路。" 姚霆观察道。对于智象来说,这两条路都不是唯一选择。" 我们是从技术出身的,以前在微软的时候,大家想做全世界最好的模型,对标谷歌、Facebook、CMU、伯克利。" 姚霆回忆," 做视频理解的模型,这种基因天然就是希望模型上有架构创新。"智象也的确在践行这一点。从 2023 年的 Unet 架构,到 DiT,再到自回归 +DiT 的融合,直到今天全新的全模态架构,智象每一次迭代都试图在技术层面做更多的创新,而且每次还是精准的踩住了整个技术迭代的突破口。" 但同时,在中国做这件事,肯定还是要以垂直领域的商业化作为导向。" 姚霆强调," 不是为了做模型炫技,而是要有商业化落地的指标。"世界模型的五个等级——从静态复刻到 " 轮回 "世界模型的概念在过去一年里经历了剧烈的收敛过程,也是当前多数大模型相关企业想要讲述的故事。" 世界模型的定义一直很广,早期可以分成三个类别。" 姚霆解释道," 第一类是以语言模型为主,属于高层知识的提炼和压缩;第二类是 Yann LeCun 做的 JEPA,偏中层的表达学习;第三类是底层的像素生成,也就是视频生成。"但如今,世界模型的定义正在收敛。姚霆认为,今天的世界模型可以大致分为三类:在视频生成模型中融入因果关系和物理规律;根据用户指令实时生成场景(如 Genie-3);以及跟具身智能强相关的 World Action Model。对于智象而言,姚霆更看重两个维度的突破。" 第一个是模型侧,要用一个神经网络同时理解和生成文本、图像、视频、3D 以及动作。" 姚霆强调," 它一定是端到端的全模态架构,各个模态之间不会单独编码,而是统一的 tokenization。"为什么要追求 " 全模态 " 而非 " 多模态 "?姚霆的解释很直接:" 世界模型好歹要跟物理世界打通,如果不打通凭什么叫世界模型?从这个角度来说肯定要有具身的数据,不然就是割裂的数字世界模型。"在他看来,世界模型的底座是基于视频训练出来的,还是基于 VLA(视觉 - 语言 - 动作)训练出来的,其实并不重要,最终的形态一定是任意输入,任意输出,想怎么输入,想它输出什么它就可以输出什么。但这还不是终局。" 从宏观角度,我对世界模型分了几个等级。" 姚霆说," 第一级是静态复刻,就是一幅图;第二级是视频,有三维有时间域;第三级是交互;第四级加入物理规律和因果关系;第五级,终局是轮回。"他进一步解释道," 轮回是什么?是完美的因果关系。比如蝴蝶效应,今天我在这儿扇了一下翅膀,明天那个地方就应该出现海啸。再往上一级,才是真正的世界模型,才是真正的推理。"这个说法听起来有些哲学意味,但姚霆很快将其拉回到产品层面。" 第二个维度是 Agent。" 他说," 所有的 Agentic App 等于一个平台(可能是 PC 或手机)乘以 Harness(对底层 skills 的管理、适配和组合),再加上底层的 skills(可能是 OS 或 OpenAI)。"姚霆举例说明:用户想做一个 VLOG,只需要输入 " 我想赚钱 " 这一句话,Agent 就能自动搜索、调用、编排各种 skills,完成从脚本撰写到视频制作的全流程。" 这需要全模态的支持。" 姚霆强调," 底层有文本、视频、图像、语音,全打通了,才能知道谁跟谁该怎么组合。"大厂环伺,创业公司如何出牌?快手可灵月收入突破两千万美元,即梦背靠字节过亿的生态日活。在这样的双寡头格局下,智象这样的创业公司如何找到出路?" 大厂在资本、人才、算力上都有优势,包括入口。" 姚霆坦率表示,但在某些条件下,它的束缚也会比较多,难免对主营业务有所妥协。相比之下,创业公司的团队架构更加灵活。"AI 时代,机会是相对平等的。" 姚霆说," 但作为初创公司,有几点还是要做好。"第一,认知要新。" 首先要对整个趋势有充分的预判,不能等大厂做到什么样我们再复制,这样基本就没机会。" 姚霆强调," 还要有坚持,要做正确但很难的事情。智象的产品经理现在必须会用 vibe-coding(AI 辅助编程)。"第二,速度要快。"AI 产品的稳定版本,产品推上线,用户用两次能成功得到一次想要的结果,这就是稳定版本。" 姚霆说," 让用户使用、反馈、迭代,这样才能形成壁垒。"第三,架构要灵活。" 产品和技术的边界越来越模糊,因为产品也可以通过 vibe-coding 写前端。" 姚霆打了个比方," 有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些‘王炸’是要拆掉的。"面对大厂竞争,智象的应对策略已经明确:2026 年的核心战略是搭建 "1+1+3" 的架构体系。" 第一个 '1' 是全模态底座大模型,这是最重要的。" 姚霆解释道," 第二个 '1' 是 HiHarness 平台,可以理解为中间的 Harness 层,负责打通各种 skills。'3' 是优先级最高的三个 Agent:专业创作者智能体、商业营销内容生成智能体、AI 影视智能体。未来还会拓展出更多方向,比如具身智能、游戏引擎等。"这个架构的核心逻辑,是从 " 分而治之 " 转向 " 并而治之 "。姚霆说," 以前不同创作用不同方式,可能是工具可能是内容,今天会变成一个并而治之。底座是 Agent,上面根据不同场景去实例化。"他把这个逻辑比作搜索引擎:" 当年做搜索引擎,下面有众多网页,今天网页变成 skills,如何在海量里面寻找、定位、编排,这是核心问题。"全模态底座的价值就在于此,如果全模态模型天然把这些模态之间打通,那么只要建一套索引就可以解决所有模态的事情,不管用户输入什么,想要得到什么,都可以给到用户最终结果。(本文作者 | 张帅,编辑 | 杨林)数字解答、专家解读解释与落实​,远离误导的言辞……乌克兰M1A1“艾布拉姆斯”坦克实弹训练混合安装美苏反应装甲

专访山西原省长于幼军:为矿工生活难过落泪,在外就餐被山西人偷偷结账

38岁毛晓彤花朝节封神!生图找不到皱纹,网友:她是怎么越长越嫩的?杜绝虚假的假承诺环,价值剖析、专家解读解释与落实实,以 Sora 的发布和关停为时间节点,AI 视频生成产业分为两个世界。2024 年春节,OpenAI 发布 Sora,一石激起千层浪,当年 5 月 17 日,智象未来旗下 vivago 平台上线,这个时间点比快手可灵还早了两周,这家核心班底来自微软亚研院的多模态大模型创企,并不缺少对技术的敏锐嗅觉。一年后,OpenAI 骤然宣布关停了 Sora 的独立服务,将视频生成功能并入 ChatGPT 的付费体系,留给行业是一些未有明确答案的思考,多模态大模型的技术和商业化会走向何处,创业企业又该如何在窗口关闭前找到自己的空间。在智象未来联合创始人兼 CTO 姚霆看来,Sora 的退场并非偶然,而是通用视频生成这门好技术在商业化面前的必然结局,对于当前火爆的世界模型赛道,他给出了一个颇具哲学意味的答案:轮回。据了解,智象未来的 ARR(年度经常性收入)达到数千万美元量级,B 轮融资正在最后 Close 阶段,持续获得产业资本加持。这家公司的路线选择,或许代表了中国 AIGC 创业公司在多模态赛道上的一种生存策略。通用视频生成是一门好技术,不是 Sora 的好生意对话伊始,姚霆便开门见山地给出了自己的判断。在他看来,Sora 的 " 失败 " 可以从三个维度来理解。" 第一,Sora 想做的是非常通用的视频生成,但这与垂直领域的应用需求相对脱离。" 姚霆分析道,"OpenAI 天然没有视频相关的业务,也没有那样的生态。"第二,成本是不可忽视的现实问题。" 今天跟互联网时代不一样,所有的服务上线背后都在跑 GPU,成本还是很昂贵的。" 姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架构本身就要考虑成本,否则后面就没法做大量服务。第三,Sora 缺乏商业化的土壤。对比字节跳动的 Seedance 和快手的可灵,这两家公司的视频生成产品都能与主营业务形成协同,而 OpenAI 并没有这样的业务场景来承接技术能力。Sora 的退场,也折射出国内外视频生成路线的差异。" 国外更看重模型架构的创新,国内则倾向于做大而全的平台链路。" 姚霆观察道。对于智象来说,这两条路都不是唯一选择。" 我们是从技术出身的,以前在微软的时候,大家想做全世界最好的模型,对标谷歌、Facebook、CMU、伯克利。" 姚霆回忆," 做视频理解的模型,这种基因天然就是希望模型上有架构创新。"智象也的确在践行这一点。从 2023 年的 Unet 架构,到 DiT,再到自回归 +DiT 的融合,直到今天全新的全模态架构,智象每一次迭代都试图在技术层面做更多的创新,而且每次还是精准的踩住了整个技术迭代的突破口。" 但同时,在中国做这件事,肯定还是要以垂直领域的商业化作为导向。" 姚霆强调," 不是为了做模型炫技,而是要有商业化落地的指标。"世界模型的五个等级——从静态复刻到 " 轮回 "世界模型的概念在过去一年里经历了剧烈的收敛过程,也是当前多数大模型相关企业想要讲述的故事。" 世界模型的定义一直很广,早期可以分成三个类别。" 姚霆解释道," 第一类是以语言模型为主,属于高层知识的提炼和压缩;第二类是 Yann LeCun 做的 JEPA,偏中层的表达学习;第三类是底层的像素生成,也就是视频生成。"但如今,世界模型的定义正在收敛。姚霆认为,今天的世界模型可以大致分为三类:在视频生成模型中融入因果关系和物理规律;根据用户指令实时生成场景(如 Genie-3);以及跟具身智能强相关的 World Action Model。对于智象而言,姚霆更看重两个维度的突破。" 第一个是模型侧,要用一个神经网络同时理解和生成文本、图像、视频、3D 以及动作。" 姚霆强调," 它一定是端到端的全模态架构,各个模态之间不会单独编码,而是统一的 tokenization。"为什么要追求 " 全模态 " 而非 " 多模态 "?姚霆的解释很直接:" 世界模型好歹要跟物理世界打通,如果不打通凭什么叫世界模型?从这个角度来说肯定要有具身的数据,不然就是割裂的数字世界模型。"在他看来,世界模型的底座是基于视频训练出来的,还是基于 VLA(视觉 - 语言 - 动作)训练出来的,其实并不重要,最终的形态一定是任意输入,任意输出,想怎么输入,想它输出什么它就可以输出什么。但这还不是终局。" 从宏观角度,我对世界模型分了几个等级。" 姚霆说," 第一级是静态复刻,就是一幅图;第二级是视频,有三维有时间域;第三级是交互;第四级加入物理规律和因果关系;第五级,终局是轮回。"他进一步解释道," 轮回是什么?是完美的因果关系。比如蝴蝶效应,今天我在这儿扇了一下翅膀,明天那个地方就应该出现海啸。再往上一级,才是真正的世界模型,才是真正的推理。"这个说法听起来有些哲学意味,但姚霆很快将其拉回到产品层面。" 第二个维度是 Agent。" 他说," 所有的 Agentic App 等于一个平台(可能是 PC 或手机)乘以 Harness(对底层 skills 的管理、适配和组合),再加上底层的 skills(可能是 OS 或 OpenAI)。"姚霆举例说明:用户想做一个 VLOG,只需要输入 " 我想赚钱 " 这一句话,Agent 就能自动搜索、调用、编排各种 skills,完成从脚本撰写到视频制作的全流程。" 这需要全模态的支持。" 姚霆强调," 底层有文本、视频、图像、语音,全打通了,才能知道谁跟谁该怎么组合。"大厂环伺,创业公司如何出牌?快手可灵月收入突破两千万美元,即梦背靠字节过亿的生态日活。在这样的双寡头格局下,智象这样的创业公司如何找到出路?" 大厂在资本、人才、算力上都有优势,包括入口。" 姚霆坦率表示,但在某些条件下,它的束缚也会比较多,难免对主营业务有所妥协。相比之下,创业公司的团队架构更加灵活。"AI 时代,机会是相对平等的。" 姚霆说," 但作为初创公司,有几点还是要做好。"第一,认知要新。" 首先要对整个趋势有充分的预判,不能等大厂做到什么样我们再复制,这样基本就没机会。" 姚霆强调," 还要有坚持,要做正确但很难的事情。智象的产品经理现在必须会用 vibe-coding(AI 辅助编程)。"第二,速度要快。"AI 产品的稳定版本,产品推上线,用户用两次能成功得到一次想要的结果,这就是稳定版本。" 姚霆说," 让用户使用、反馈、迭代,这样才能形成壁垒。"第三,架构要灵活。" 产品和技术的边界越来越模糊,因为产品也可以通过 vibe-coding 写前端。" 姚霆打了个比方," 有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些‘王炸’是要拆掉的。"面对大厂竞争,智象的应对策略已经明确:2026 年的核心战略是搭建 "1+1+3" 的架构体系。" 第一个 '1' 是全模态底座大模型,这是最重要的。" 姚霆解释道," 第二个 '1' 是 HiHarness 平台,可以理解为中间的 Harness 层,负责打通各种 skills。'3' 是优先级最高的三个 Agent:专业创作者智能体、商业营销内容生成智能体、AI 影视智能体。未来还会拓展出更多方向,比如具身智能、游戏引擎等。"这个架构的核心逻辑,是从 " 分而治之 " 转向 " 并而治之 "。姚霆说," 以前不同创作用不同方式,可能是工具可能是内容,今天会变成一个并而治之。底座是 Agent,上面根据不同场景去实例化。"他把这个逻辑比作搜索引擎:" 当年做搜索引擎,下面有众多网页,今天网页变成 skills,如何在海量里面寻找、定位、编排,这是核心问题。"全模态底座的价值就在于此,如果全模态模型天然把这些模态之间打通,那么只要建一套索引就可以解决所有模态的事情,不管用户输入什么,想要得到什么,都可以给到用户最终结果。(本文作者 | 张帅,编辑 | 杨林)

家电巨头,狂蹭AI,警惕虚假宣传-全面释义、解释与落实、科学解答解释落实

菲律宾又闹“改名”幺蛾子,专家指出:故意的

对话智象未来CTO姚霆:当Sora退场后,世界模型的终局是轮回警惕虚假宣传-全面释义、解释与落实、科学解答解释落实,以 Sora 的发布和关停为时间节点,AI 视频生成产业分为两个世界。2024 年春节,OpenAI 发布 Sora,一石激起千层浪,当年 5 月 17 日,智象未来旗下 vivago 平台上线,这个时间点比快手可灵还早了两周,这家核心班底来自微软亚研院的多模态大模型创企,并不缺少对技术的敏锐嗅觉。一年后,OpenAI 骤然宣布关停了 Sora 的独立服务,将视频生成功能并入 ChatGPT 的付费体系,留给行业是一些未有明确答案的思考,多模态大模型的技术和商业化会走向何处,创业企业又该如何在窗口关闭前找到自己的空间。在智象未来联合创始人兼 CTO 姚霆看来,Sora 的退场并非偶然,而是通用视频生成这门好技术在商业化面前的必然结局,对于当前火爆的世界模型赛道,他给出了一个颇具哲学意味的答案:轮回。据了解,智象未来的 ARR(年度经常性收入)达到数千万美元量级,B 轮融资正在最后 Close 阶段,持续获得产业资本加持。这家公司的路线选择,或许代表了中国 AIGC 创业公司在多模态赛道上的一种生存策略。通用视频生成是一门好技术,不是 Sora 的好生意对话伊始,姚霆便开门见山地给出了自己的判断。在他看来,Sora 的 " 失败 " 可以从三个维度来理解。" 第一,Sora 想做的是非常通用的视频生成,但这与垂直领域的应用需求相对脱离。" 姚霆分析道,"OpenAI 天然没有视频相关的业务,也没有那样的生态。"第二,成本是不可忽视的现实问题。" 今天跟互联网时代不一样,所有的服务上线背后都在跑 GPU,成本还是很昂贵的。" 姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架构本身就要考虑成本,否则后面就没法做大量服务。第三,Sora 缺乏商业化的土壤。对比字节跳动的 Seedance 和快手的可灵,这两家公司的视频生成产品都能与主营业务形成协同,而 OpenAI 并没有这样的业务场景来承接技术能力。Sora 的退场,也折射出国内外视频生成路线的差异。" 国外更看重模型架构的创新,国内则倾向于做大而全的平台链路。" 姚霆观察道。对于智象来说,这两条路都不是唯一选择。" 我们是从技术出身的,以前在微软的时候,大家想做全世界最好的模型,对标谷歌、Facebook、CMU、伯克利。" 姚霆回忆," 做视频理解的模型,这种基因天然就是希望模型上有架构创新。"智象也的确在践行这一点。从 2023 年的 Unet 架构,到 DiT,再到自回归 +DiT 的融合,直到今天全新的全模态架构,智象每一次迭代都试图在技术层面做更多的创新,而且每次还是精准的踩住了整个技术迭代的突破口。" 但同时,在中国做这件事,肯定还是要以垂直领域的商业化作为导向。" 姚霆强调," 不是为了做模型炫技,而是要有商业化落地的指标。"世界模型的五个等级——从静态复刻到 " 轮回 "世界模型的概念在过去一年里经历了剧烈的收敛过程,也是当前多数大模型相关企业想要讲述的故事。" 世界模型的定义一直很广,早期可以分成三个类别。" 姚霆解释道," 第一类是以语言模型为主,属于高层知识的提炼和压缩;第二类是 Yann LeCun 做的 JEPA,偏中层的表达学习;第三类是底层的像素生成,也就是视频生成。"但如今,世界模型的定义正在收敛。姚霆认为,今天的世界模型可以大致分为三类:在视频生成模型中融入因果关系和物理规律;根据用户指令实时生成场景(如 Genie-3);以及跟具身智能强相关的 World Action Model。对于智象而言,姚霆更看重两个维度的突破。" 第一个是模型侧,要用一个神经网络同时理解和生成文本、图像、视频、3D 以及动作。" 姚霆强调," 它一定是端到端的全模态架构,各个模态之间不会单独编码,而是统一的 tokenization。"为什么要追求 " 全模态 " 而非 " 多模态 "?姚霆的解释很直接:" 世界模型好歹要跟物理世界打通,如果不打通凭什么叫世界模型?从这个角度来说肯定要有具身的数据,不然就是割裂的数字世界模型。"在他看来,世界模型的底座是基于视频训练出来的,还是基于 VLA(视觉 - 语言 - 动作)训练出来的,其实并不重要,最终的形态一定是任意输入,任意输出,想怎么输入,想它输出什么它就可以输出什么。但这还不是终局。" 从宏观角度,我对世界模型分了几个等级。" 姚霆说," 第一级是静态复刻,就是一幅图;第二级是视频,有三维有时间域;第三级是交互;第四级加入物理规律和因果关系;第五级,终局是轮回。"他进一步解释道," 轮回是什么?是完美的因果关系。比如蝴蝶效应,今天我在这儿扇了一下翅膀,明天那个地方就应该出现海啸。再往上一级,才是真正的世界模型,才是真正的推理。"这个说法听起来有些哲学意味,但姚霆很快将其拉回到产品层面。" 第二个维度是 Agent。" 他说," 所有的 Agentic App 等于一个平台(可能是 PC 或手机)乘以 Harness(对底层 skills 的管理、适配和组合),再加上底层的 skills(可能是 OS 或 OpenAI)。"姚霆举例说明:用户想做一个 VLOG,只需要输入 " 我想赚钱 " 这一句话,Agent 就能自动搜索、调用、编排各种 skills,完成从脚本撰写到视频制作的全流程。" 这需要全模态的支持。" 姚霆强调," 底层有文本、视频、图像、语音,全打通了,才能知道谁跟谁该怎么组合。"大厂环伺,创业公司如何出牌?快手可灵月收入突破两千万美元,即梦背靠字节过亿的生态日活。在这样的双寡头格局下,智象这样的创业公司如何找到出路?" 大厂在资本、人才、算力上都有优势,包括入口。" 姚霆坦率表示,但在某些条件下,它的束缚也会比较多,难免对主营业务有所妥协。相比之下,创业公司的团队架构更加灵活。"AI 时代,机会是相对平等的。" 姚霆说," 但作为初创公司,有几点还是要做好。"第一,认知要新。" 首先要对整个趋势有充分的预判,不能等大厂做到什么样我们再复制,这样基本就没机会。" 姚霆强调," 还要有坚持,要做正确但很难的事情。智象的产品经理现在必须会用 vibe-coding(AI 辅助编程)。"第二,速度要快。"AI 产品的稳定版本,产品推上线,用户用两次能成功得到一次想要的结果,这就是稳定版本。" 姚霆说," 让用户使用、反馈、迭代,这样才能形成壁垒。"第三,架构要灵活。" 产品和技术的边界越来越模糊,因为产品也可以通过 vibe-coding 写前端。" 姚霆打了个比方," 有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些‘王炸’是要拆掉的。"面对大厂竞争,智象的应对策略已经明确:2026 年的核心战略是搭建 "1+1+3" 的架构体系。" 第一个 '1' 是全模态底座大模型,这是最重要的。" 姚霆解释道," 第二个 '1' 是 HiHarness 平台,可以理解为中间的 Harness 层,负责打通各种 skills。'3' 是优先级最高的三个 Agent:专业创作者智能体、商业营销内容生成智能体、AI 影视智能体。未来还会拓展出更多方向,比如具身智能、游戏引擎等。"这个架构的核心逻辑,是从 " 分而治之 " 转向 " 并而治之 "。姚霆说," 以前不同创作用不同方式,可能是工具可能是内容,今天会变成一个并而治之。底座是 Agent,上面根据不同场景去实例化。"他把这个逻辑比作搜索引擎:" 当年做搜索引擎,下面有众多网页,今天网页变成 skills,如何在海量里面寻找、定位、编排,这是核心问题。"全模态底座的价值就在于此,如果全模态模型天然把这些模态之间打通,那么只要建一套索引就可以解决所有模态的事情,不管用户输入什么,想要得到什么,都可以给到用户最终结果。(本文作者 | 张帅,编辑 | 杨林),的警惕虚假宣传-全面释义、解释与落实、科学解答解释落实、总被强塞借贷信息,“为什么这些APP都想借钱给我?”

拉里贾尼之弟:霍尔木兹海峡不会回到战前状态详细解答、前沿解答解释落实以 Sora 的发布和关停为时间节点,AI 视频生成产业分为两个世界。2024 年春节,OpenAI 发布 Sora,一石激起千层浪,当年 5 月 17 日,智象未来旗下 vivago 平台上线,这个时间点比快手可灵还早了两周,这家核心班底来自微软亚研院的多模态大模型创企,并不缺少对技术的敏锐嗅觉。一年后,OpenAI 骤然宣布关停了 Sora 的独立服务,将视频生成功能并入 ChatGPT 的付费体系,留给行业是一些未有明确答案的思考,多模态大模型的技术和商业化会走向何处,创业企业又该如何在窗口关闭前找到自己的空间。在智象未来联合创始人兼 CTO 姚霆看来,Sora 的退场并非偶然,而是通用视频生成这门好技术在商业化面前的必然结局,对于当前火爆的世界模型赛道,他给出了一个颇具哲学意味的答案:轮回。据了解,智象未来的 ARR(年度经常性收入)达到数千万美元量级,B 轮融资正在最后 Close 阶段,持续获得产业资本加持。这家公司的路线选择,或许代表了中国 AIGC 创业公司在多模态赛道上的一种生存策略。通用视频生成是一门好技术,不是 Sora 的好生意对话伊始,姚霆便开门见山地给出了自己的判断。在他看来,Sora 的 " 失败 " 可以从三个维度来理解。" 第一,Sora 想做的是非常通用的视频生成,但这与垂直领域的应用需求相对脱离。" 姚霆分析道,"OpenAI 天然没有视频相关的业务,也没有那样的生态。"第二,成本是不可忽视的现实问题。" 今天跟互联网时代不一样,所有的服务上线背后都在跑 GPU,成本还是很昂贵的。" 姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架构本身就要考虑成本,否则后面就没法做大量服务。第三,Sora 缺乏商业化的土壤。对比字节跳动的 Seedance 和快手的可灵,这两家公司的视频生成产品都能与主营业务形成协同,而 OpenAI 并没有这样的业务场景来承接技术能力。Sora 的退场,也折射出国内外视频生成路线的差异。" 国外更看重模型架构的创新,国内则倾向于做大而全的平台链路。" 姚霆观察道。对于智象来说,这两条路都不是唯一选择。" 我们是从技术出身的,以前在微软的时候,大家想做全世界最好的模型,对标谷歌、Facebook、CMU、伯克利。" 姚霆回忆," 做视频理解的模型,这种基因天然就是希望模型上有架构创新。"智象也的确在践行这一点。从 2023 年的 Unet 架构,到 DiT,再到自回归 +DiT 的融合,直到今天全新的全模态架构,智象每一次迭代都试图在技术层面做更多的创新,而且每次还是精准的踩住了整个技术迭代的突破口。" 但同时,在中国做这件事,肯定还是要以垂直领域的商业化作为导向。" 姚霆强调," 不是为了做模型炫技,而是要有商业化落地的指标。"世界模型的五个等级——从静态复刻到 " 轮回 "世界模型的概念在过去一年里经历了剧烈的收敛过程,也是当前多数大模型相关企业想要讲述的故事。" 世界模型的定义一直很广,早期可以分成三个类别。" 姚霆解释道," 第一类是以语言模型为主,属于高层知识的提炼和压缩;第二类是 Yann LeCun 做的 JEPA,偏中层的表达学习;第三类是底层的像素生成,也就是视频生成。"但如今,世界模型的定义正在收敛。姚霆认为,今天的世界模型可以大致分为三类:在视频生成模型中融入因果关系和物理规律;根据用户指令实时生成场景(如 Genie-3);以及跟具身智能强相关的 World Action Model。对于智象而言,姚霆更看重两个维度的突破。" 第一个是模型侧,要用一个神经网络同时理解和生成文本、图像、视频、3D 以及动作。" 姚霆强调," 它一定是端到端的全模态架构,各个模态之间不会单独编码,而是统一的 tokenization。"为什么要追求 " 全模态 " 而非 " 多模态 "?姚霆的解释很直接:" 世界模型好歹要跟物理世界打通,如果不打通凭什么叫世界模型?从这个角度来说肯定要有具身的数据,不然就是割裂的数字世界模型。"在他看来,世界模型的底座是基于视频训练出来的,还是基于 VLA(视觉 - 语言 - 动作)训练出来的,其实并不重要,最终的形态一定是任意输入,任意输出,想怎么输入,想它输出什么它就可以输出什么。但这还不是终局。" 从宏观角度,我对世界模型分了几个等级。" 姚霆说," 第一级是静态复刻,就是一幅图;第二级是视频,有三维有时间域;第三级是交互;第四级加入物理规律和因果关系;第五级,终局是轮回。"他进一步解释道," 轮回是什么?是完美的因果关系。比如蝴蝶效应,今天我在这儿扇了一下翅膀,明天那个地方就应该出现海啸。再往上一级,才是真正的世界模型,才是真正的推理。"这个说法听起来有些哲学意味,但姚霆很快将其拉回到产品层面。" 第二个维度是 Agent。" 他说," 所有的 Agentic App 等于一个平台(可能是 PC 或手机)乘以 Harness(对底层 skills 的管理、适配和组合),再加上底层的 skills(可能是 OS 或 OpenAI)。"姚霆举例说明:用户想做一个 VLOG,只需要输入 " 我想赚钱 " 这一句话,Agent 就能自动搜索、调用、编排各种 skills,完成从脚本撰写到视频制作的全流程。" 这需要全模态的支持。" 姚霆强调," 底层有文本、视频、图像、语音,全打通了,才能知道谁跟谁该怎么组合。"大厂环伺,创业公司如何出牌?快手可灵月收入突破两千万美元,即梦背靠字节过亿的生态日活。在这样的双寡头格局下,智象这样的创业公司如何找到出路?" 大厂在资本、人才、算力上都有优势,包括入口。" 姚霆坦率表示,但在某些条件下,它的束缚也会比较多,难免对主营业务有所妥协。相比之下,创业公司的团队架构更加灵活。"AI 时代,机会是相对平等的。" 姚霆说," 但作为初创公司,有几点还是要做好。"第一,认知要新。" 首先要对整个趋势有充分的预判,不能等大厂做到什么样我们再复制,这样基本就没机会。" 姚霆强调," 还要有坚持,要做正确但很难的事情。智象的产品经理现在必须会用 vibe-coding(AI 辅助编程)。"第二,速度要快。"AI 产品的稳定版本,产品推上线,用户用两次能成功得到一次想要的结果,这就是稳定版本。" 姚霆说," 让用户使用、反馈、迭代,这样才能形成壁垒。"第三,架构要灵活。" 产品和技术的边界越来越模糊,因为产品也可以通过 vibe-coding 写前端。" 姚霆打了个比方," 有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些‘王炸’是要拆掉的。"面对大厂竞争,智象的应对策略已经明确:2026 年的核心战略是搭建 "1+1+3" 的架构体系。" 第一个 '1' 是全模态底座大模型,这是最重要的。" 姚霆解释道," 第二个 '1' 是 HiHarness 平台,可以理解为中间的 Harness 层,负责打通各种 skills。'3' 是优先级最高的三个 Agent:专业创作者智能体、商业营销内容生成智能体、AI 影视智能体。未来还会拓展出更多方向,比如具身智能、游戏引擎等。"这个架构的核心逻辑,是从 " 分而治之 " 转向 " 并而治之 "。姚霆说," 以前不同创作用不同方式,可能是工具可能是内容,今天会变成一个并而治之。底座是 Agent,上面根据不同场景去实例化。"他把这个逻辑比作搜索引擎:" 当年做搜索引擎,下面有众多网页,今天网页变成 skills,如何在海量里面寻找、定位、编排,这是核心问题。"全模态底座的价值就在于此,如果全模态模型天然把这些模态之间打通,那么只要建一套索引就可以解决所有模态的事情,不管用户输入什么,想要得到什么,都可以给到用户最终结果。(本文作者 | 张帅,编辑 | 杨林)

转载请注明出处:AI智能内容团队

本文链接地址:

本文最后发布于 2026-06-26 00:45:14,已经过了 (1) 天没有更新,若内容或图片失效,请留言反馈。