商业落地 / 商业引擎|数字人口播
商业引擎|数字人口播
这不是主线版本,而是附属的数字人口播内容系统。它用剪映逆向根据文案生成数字人口播内容,覆盖 TTS、智能切片、ComfyUI 视频生成、FFmpeg 拼接、字幕样式和剪映草稿写入;无剪辑原始输出和有剪辑成片输出都能继续按脚本、音色、素材和模板无限并发复线。
E:\xinde\szrttold
`sc.py`:数字人模型工作台,覆盖音频上传、文本 TTS、视频生成、拼接和剪映草稿生成。
左侧展示无剪辑原始输出和有剪辑成片输出。它们来自同一条数字人链路,可按不同脚本、不同音色、不同素材无限并发复线。
流程图
商业引擎|数字人口播流程图
文案进来,数字人口播视频和剪映草稿出去。
流程快照
这个老系统做什么
它是能力验证原型
验证短视频链路可以从音频、图像、视频、字幕一直走到剪映草稿。
解决的是跑通闭环
先不追求架构漂亮,重点是把外部服务、素材文件和剪辑工程真正串起来。
关键词直接说出来
数字人模型、TTS、ComfyUI、FFmpeg、剪映草稿 JSON、字幕花字、贴纸和特效。
核心流程
核心流程是“文本/音频进来,视频和草稿出去”
这套系统的价值不在单个模型调用,而在把多个不稳定环节放进一个可操作的工作台:文本分段、音频生成、视频生成、视频拼接、字幕样式和剪映导入。只要输入脚本、音色和素材组合不同,同一条链路就可以无限并发复线。
sc.py
audio_gen.py
jianying_draft_auto_v10.py
subtitle_style_config.py
keyframe_manager.py
输入模式
支持音频上传和文本 TTS 两条入口。
智能切片
按静音点、目标时长和最大时长拆段。
音频生成
调用本地 TTS 服务并保存分段音频。
视频生成
上传图片和音频到 ComfyUI,排队生成片段。
成片拼接
用 FFmpeg 合并视频片段和总音频。
草稿导入
写入剪映草稿 JSON,带字幕、音频、视频轨。
这不是只能跑一次的 demo,而是一条可以无限并发复线的生产链路:每条复线只需要换脚本、数字人形象、音色、字幕样式、剪辑模板或平台规格,就能并行生成多条数字人视频。
模块拆解
模块拆解要讲成一张工程图
这页呈现的不是“我会 Streamlit”,而是我能把数字人模型相关的模型服务、素材文件、时间线和剪辑软件格式对齐。
python -m streamlit run sc.py
工作台入口
`sc.py` 管理服务器配置、工作模式、素材配置、视频模式、草稿配置和字幕样式。
音频系统
`audio_gen.py` 支持单条生成、批量生成和并发统计,输出到 `generated_audio`。
剪映草稿
`jianying_draft_auto_v10.py` 构建视频、音频、字幕、特效和关键帧素材。
视觉包装
`subtitle_style_config.py`、`sticker_manager.py`、`effect_manager.py` 管理花字、贴纸、视频特效。
运行证据
证据区要证明它真的跑过
页面保留样例成片、源仓库路径、输出目录和关键文件名。展示时可以把这页作为“批量口播能力”的证明,再切到生成引擎 V1讲工程化。
raw: videos/final_text_20260113_061105.mp4
edited: assets/szrttold-edited-sample.mp4
videos / generated_audio / json / templatejson / templates / fonts / materials
老系统的价值是先跑通“数字人模型闭环”:无剪辑原始输出可以自动生成,有剪辑成片也能继续模板化;同一套链路可以无限并发复线。