OmniTools 6月8日消息,面壁智能(OpenBMB)正式发布语音生成模型 VoxCPM2 技术报告。该模型参数量为20亿,基于超200万小时多语言语音数据训练,支持30种语言及9种中文方言。
VoxCPM2 具备自然语言语音设计、可控语音克隆与高保真延续性语音生成能力。其技术方案采用16kHz语义编码与48kHz波形重建双阶段架构,集成AudioVAE实现高保真语音重建,并在零样本及指令跟随TTS基准测试中达到SOTA或极具竞争力水平。
目前,相关模型权重、微调代码与推理工具已通过 Apache 2.0 协议正式开源。