1. 简介
Qwen3-TTS 是阿里通义实验室推出的先进语音合成模型,支持高保真、流式输出以及灵活的音色克隆(Voice Clone)。
- 官方博客 Qwen3-TTS
- API 适配器 Qwen3-TTS-Openai-Fastapi
兼容 OpenAI
/v1/audio/speech接口
2. 部署
- 环境限制: Windows Docker Desktop 编译失败(日志看到有下载 linux 工具包)。切换至 WSL2 环境下正常编译。
- GPU 模式强制编译: 按官方手册中的编译命令编译后,执行可能会退化为 CPU。可按如下步骤进行编译
# 进入项目目录 (WSL2)
docker build --target production -t qwen3-tts-api:gpu .
docker run --gpus all -p 8880:8880 qwen3-tts-api:gpu
3. 核心性能开关:TTS_BACKEND
在 docker-compose.yml 或 docker run 的环境变量中设置,决定了响应速度:
| 后端模式 | 参数名称 | 特点与适用场景 |
|---|---|---|
| 标准模式 | official |
稳定。逐句合成,适合对实时性要求不高的长文本。 |
| 优化模式 | optimized |
极速。支持 torch.compile 和 True Streaming。首包延迟可降至 200ms 内。 |
我测试时报错。openai tts 接口中也没有流式输出功能,到时有需要再试吧