Qwen3-TTS

1. 简介

Qwen3-TTS 是阿里通义实验室推出的先进语音合成模型,支持高保真、流式输出以及灵活的音色克隆(Voice Clone)。


2. 部署

  • 环境限制: Windows Docker Desktop 编译失败(日志看到有下载 linux 工具包)。切换至 WSL2 环境下正常编译。
  • GPU 模式强制编译: 按官方手册中的编译命令编译后,执行可能会退化为 CPU。可按如下步骤进行编译
# 进入项目目录 (WSL2)
docker build --target production -t qwen3-tts-api:gpu .

docker run --gpus all -p 8880:8880 qwen3-tts-api:gpu

3. 核心性能开关:TTS_BACKEND

docker-compose.ymldocker run 的环境变量中设置,决定了响应速度:

后端模式 参数名称 特点与适用场景
标准模式 official 稳定。逐句合成,适合对实时性要求不高的长文本。
优化模式 optimized 极速。支持 torch.compileTrue Streaming。首包延迟可降至 200ms 内。

我测试时报错。openai tts 接口中也没有流式输出功能,到时有需要再试吧

上一篇