
上线了一个多 Agent 视频创作技能包
最近开源了一个新项目:Video Studio Skills 。 这是一个面向 Hermes Agent 的多 Agent 视频创作技能包。简单来说,它能让你用 7 个 AI Agent 组成一个虚拟的视频工作室,接管从深度调研、脚本写作、TTS 配音到 Remotion 动画渲染、多平台 SEO 包装的全部工作。 为什么要做这个工具 随着 AI 能力的不断提升,用 AI 创作短视频已经变得非常容易。如今我们能在抖音或 B 站上刷到各种 AI 生成的视频。但无论是先进的 Seedance 2.0,还是 Gemini omni,它们都有一些共性问题,比如速度慢,比如难控制。有时候为了生成一段满意的视频,我们需要反复掷骰子,不断挑选、拼接,消耗大量时间,更别说批量生产短视频了。 虽然我认为以现在的发展速度,AI 迟早能解决上面的这些问题,但毕竟当下这些痛点还依然存在。所以于是我就在想:能不能通过多 agent 协作的工作流,让 AI 视频生成变得稍微可控一点?至少当我们对最终交付的视频成品不满意时,可以不必从头来过,而是对工作流中的某个节点进行修改,这样能节约不少时间。 于是就有了这个项目。它尤其适合制作批量的科普类短视频,从查资料、写逐字稿、录音或配置 TTS、剪辑、做动画、到各个视频平台的标题和简介包装,这一整个流程都能让特性各异的 AI Agent 来合作完成。你只需要提供选题,AI 就能像流水线一样为你批量生产视频。你当然可以自己配音,再加上讲解的 A Roll,这样视频质量会更高。 7 个 Agent,6 个阶段 在这个项目里,我把视频制作流程拆解成了 7 个具体角色的协作: Director(导演/编排):整个工作室的大管家,负责接收你的选题,拆解任务并派发给其他 Agent。 Researcher(研究员):负责深度调研,输出结构化的研究数据。 Writer(作家):根据研究数据,撰写视频脚本初稿。 Editor(编辑):专门负责“去 AI 润色”,定稿最终脚本。 Narrator(播音员):调用 TTS 工具生成配音,并输出时间轴同步文件。 Renderer(渲染师):基于 Remotion 将文本、音频转化为动态的视频画面。 Packager(包装师):生成适合 YouTube、Bilibili 等平台的标题、简介和标签。 整个管线完全是自动流转的。你可以选择不同的工作模式:如果你想随时插话,可以拉一个“群聊”看着它们讨论;如果你只想看结果,可以单线联系 Director,让它在后台“委派”工作;如果你需要批量生产,还可以用看板模式管理进度。 ...



