上线了一个多 Agent 视频创作技能包

最近开源了一个新项目：Video Studio Skills 。

这是一个面向 Hermes Agent 的多 Agent 视频创作技能包。简单来说，它能让你用 7 个 AI Agent 组成一个虚拟的视频工作室，接管从深度调研、脚本写作、TTS 配音到 Remotion 动画渲染、多平台 SEO 包装的全部工作。

为什么要做这个工具

随着 AI 能力的不断提升，用 AI 创作短视频已经变得非常容易。如今我们能在抖音或 B 站上刷到各种 AI 生成的视频。但无论是先进的 Seedance 2.0，还是 Gemini omni，它们都有一些共性问题，比如速度慢，比如难控制。有时候为了生成一段满意的视频，我们需要反复掷骰子，不断挑选、拼接，消耗大量时间，更别说批量生产短视频了。

虽然我认为以现在的发展速度，AI 迟早能解决上面的这些问题，但毕竟当下这些痛点还依然存在。所以于是我就在想：能不能通过多 agent 协作的工作流，让 AI 视频生成变得稍微可控一点？至少当我们对最终交付的视频成品不满意时，可以不必从头来过，而是对工作流中的某个节点进行修改，这样能节约不少时间。

于是就有了这个项目。它尤其适合制作批量的科普类短视频，从查资料、写逐字稿、录音或配置 TTS、剪辑、做动画、到各个视频平台的标题和简介包装，这一整个流程都能让特性各异的 AI Agent 来合作完成。你只需要提供选题，AI 就能像流水线一样为你批量生产视频。你当然可以自己配音，再加上讲解的 A Roll，这样视频质量会更高。

7 个 Agent，6 个阶段

在这个项目里，我把视频制作流程拆解成了 7 个具体角色的协作：

Director（导演/编排）：整个工作室的大管家，负责接收你的选题，拆解任务并派发给其他 Agent。
Researcher（研究员）：负责深度调研，输出结构化的研究数据。
Writer（作家）：根据研究数据，撰写视频脚本初稿。
Editor（编辑）：专门负责“去 AI 润色”，定稿最终脚本。
Narrator（播音员）：调用 TTS 工具生成配音，并输出时间轴同步文件。
Renderer（渲染师）：基于 Remotion 将文本、音频转化为动态的视频画面。
Packager（包装师）：生成适合 YouTube、Bilibili 等平台的标题、简介和标签。

整个管线完全是自动流转的。你可以选择不同的工作模式：如果你想随时插话，可以拉一个“群聊”看着它们讨论；如果你只想看结果，可以单线联系 Director，让它在后台“委派”工作；如果你需要批量生产，还可以用看板模式管理进度。

“去 AI 润色”的必要性

在整条管线中，我最在意，也是花了最多心思调优的，是 Editor（编辑） 这个环节。

现在的大模型写文章有一个通病：喜欢使用过度热情的营销语气，充斥着宏大却但的形容词。这和日常的阅读体验是割裂的。我个人一直偏好克制、自然、清楚的文字，如果由我自己念稿，那种强烈的“AI 味”会让我觉得非常膈应。

所以，在 Writer 写出初稿后，我强制加入了 Editor 这个角色。它的任务就是做“去 AI 润色”：删掉浮夸的词汇，把长句拆解为拆成短句，消除刻板感，让脚本尽量回归到人类正常讲话的语气。

一点感想

做完这个项目后，我有一种很强烈的感受：多 Agent 协作可能真的会改变个人创作者的生存状态。

过去我们说“一人工作室”，往往带着一种苦行僧式的悲壮。但现在，如果你懂得如何编排 AI，你真的可以拥有自己的虚拟员工。在 Video Studio 里，你只需要确定一个好选题。剩下的脏活累活，AI 会自动帮你跑完。

技术正在以前所未有的速度把执行门槛抹平。当工具不再是障碍时，最终能拉开差距的，或许又回到了我们脑子里那些真正属于人的东西：你的品味，你的克制，以及你对这个世界独特的理解。

如果有兴趣，可以查看代码并尝试把它部署到你的 Hermes Agent 里。

为什么要做这个工具#

7 个 Agent，6 个阶段#

“去 AI 润色”的必要性#

一点感想#

为什么要做这个工具

7 个 Agent，6 个阶段

“去 AI 润色”的必要性

一点感想