最近开源了一个新项目:Video Studio Skills

这是一个面向 Hermes Agent 的多 Agent 视频创作技能包。简单来说,它能让你用 7 个 AI Agent 组成一个虚拟的视频工作室,接管从深度调研、脚本写作、TTS 配音到 Remotion 动画渲染、多平台 SEO 包装的全部工作。

为什么要做这个工具

随着 AI 能力的不断提升,用 AI 创作短视频已经变得非常容易。如今我们能在抖音或 B 站上刷到各种 AI 生成的视频。但无论是先进的 Seedance 2.0,还是 Gemini omni,它们都有一些共性问题,比如速度慢,比如难控制。有时候为了生成一段满意的视频,我们需要反复掷骰子,不断挑选、拼接,消耗大量时间,更别说批量生产短视频了。

虽然我认为以现在的发展速度,AI 迟早能解决上面的这些问题,但毕竟当下这些痛点还依然存在。所以于是我就在想:能不能通过多 agent 协作的工作流,让 AI 视频生成变得稍微可控一点?至少当我们对最终交付的视频成品不满意时,可以不必从头来过,而是对工作流中的某个节点进行修改,这样能节约不少时间。

于是就有了这个项目。它尤其适合制作批量的科普类短视频,从查资料、写逐字稿、录音或配置 TTS、剪辑、做动画、到各个视频平台的标题和简介包装,这一整个流程都能让特性各异的 AI Agent 来合作完成。你只需要提供选题,AI 就能像流水线一样为你批量生产视频。你当然可以自己配音,再加上讲解的 A Roll,这样视频质量会更高。

7 个 Agent,6 个阶段

在这个项目里,我把视频制作流程拆解成了 7 个具体角色的协作:

  • Director(导演/编排):整个工作室的大管家,负责接收你的选题,拆解任务并派发给其他 Agent。
  • Researcher(研究员):负责深度调研,输出结构化的研究数据。
  • Writer(作家):根据研究数据,撰写视频脚本初稿。
  • Editor(编辑):专门负责“去 AI 润色”,定稿最终脚本。
  • Narrator(播音员):调用 TTS 工具生成配音,并输出时间轴同步文件。
  • Renderer(渲染师):基于 Remotion 将文本、音频转化为动态的视频画面。
  • Packager(包装师):生成适合 YouTube、Bilibili 等平台的标题、简介和标签。

整个管线完全是自动流转的。你可以选择不同的工作模式:如果你想随时插话,可以拉一个“群聊”看着它们讨论;如果你只想看结果,可以单线联系 Director,让它在后台“委派”工作;如果你需要批量生产,还可以用看板模式管理进度。

“去 AI 润色”的必要性

在整条管线中,我最在意,也是花了最多心思调优的,是 Editor(编辑) 这个环节。

现在的大模型写文章有一个通病:喜欢使用过度热情的营销语气,充斥着宏大却但的形容词。这和日常的阅读体验是割裂的。我个人一直偏好克制、自然、清楚的文字,如果由我自己念稿,那种强烈的“AI 味”会让我觉得非常膈应。

所以,在 Writer 写出初稿后,我强制加入了 Editor 这个角色。它的任务就是做“去 AI 润色”:删掉浮夸的词汇,把长句拆解为拆成短句,消除刻板感,让脚本尽量回归到人类正常讲话的语气。

一点感想

做完这个项目后,我有一种很强烈的感受:多 Agent 协作可能真的会改变个人创作者的生存状态。

过去我们说“一人工作室”,往往带着一种苦行僧式的悲壮。但现在,如果你懂得如何编排 AI,你真的可以拥有自己的虚拟员工。在 Video Studio 里,你只需要确定一个好选题。剩下的脏活累活,AI 会自动帮你跑完。

技术正在以前所未有的速度把执行门槛抹平。当工具不再是障碍时,最终能拉开差距的,或许又回到了我们脑子里那些真正属于人的东西:你的品味,你的克制,以及你对这个世界独特的理解。

如果有兴趣,可以查看代码并尝试把它部署到你的 Hermes Agent 里。