终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～

飞书用户3701

2024年6月17日修改

📌

作者：卡尔

公众号：卡尔的AI沃茨

文中提及的音频视频可点击原文链接查看！

ChatTTS，一个用于对话的生成式语音合成模型。

语音界真的人才辈出，时不时给我们带来大惊喜，从之前的Bert-Sovit，到GPT-Sovits，再到现在一周飙升了 1w+ Star的ChatTTS，这些都说明了大家对声音合成技术的热爱和认可。今天，让我们一起来体验一下ChatTTS的神奇效果吧！​

参数设置：Audio Seed = 42 | Text Seed = 42 | 其他设置保持默认

输入文本：四川美食确实以辣闻名，但也有不辣的选择。比如甜水面、赖汤圆、蛋烘糕、叶儿粑等，这些小吃口味温和，甜而不腻，也很受欢迎。​

ChatTTS样例1,卡尔的AI沃茨,11秒

生成的语音已经达到了“以假乱真”的程度。更扯的是，为了限制ChatTTS生成的语音质量，作者在训练过程中添加了少量高频噪音，并压缩了音质，使其更容易分辨。这是为了防止模型被用于诈骗等违法行为。看来效果好到连作者自己都“害怕”了。​

除了刚刚听到的短短12秒音频外，ChatTTS还有哪些优势和不足呢？​

1.
✅对话式TTS：ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持 多说话人。​

2.
✅细粒度控制：该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。​

3.
✅更好的韵律：ChatTTS在韵律方面超越了大部分开源TTS模型，并提供预训练模型。​

4.
❌模型稳定性：自回归模型存在稳定性不足的问题，可能会出现声音突然变成其他人的声音，或者音质突然变差，可以通过多次尝试来寻找更好的音频效果。​

5.
⭕️ 情感控制：目前发布的模型版本中，情感控制仅限于笑声（[laugh]）以及一些声音中断（[uv_break], [lbreak]）。作者计划在未来的版本中开源更多情感控制的功能。​

几天前，我们还需要在本地和云端安装环境才能运行ChatTTS，玩法较为复杂。如今，陆续出现了在线网站和本地增强整合包。这里给大家介绍一下玩法，首先是网站：​

我们直接访问 https://chattts.com/

在作者提供的样例中，中英文混合和语气停顿效果令人印象深刻。这里我用这两个例子教大家如何使用。​

输入文本1📕

这些元素其实是glam rock，然后加这种bling的感觉. 我觉得像这个衣服有一些jacket, 比如说那个oversized的那个丹宁的jacket, 我觉得我是可以offduty的model.​

ChatTTS中英混样例【网页端】,卡尔的AI沃茨,13秒

除了文字本身和控制符号外，常调整的参数主要是Seed，也就是种子数。不同的Seed对应不同的声音。目前还没有看到有人收集好听的Seed列表，不过有一个2222比较火。​

输入文本2📕

那chatTTS不仅能够生成自然流畅的语音[uv_break]， 还能控制[laugh]笑声[laugh］, [uv_break]停顿啊和语气词啊等副语言现象[uv_break]。其这个韵律呢超越了许多开源模型。​

ChatTTS控制停顿和笑声样例【网页端】,卡尔的AI沃茨,12秒

线上体验下来，ChatTTS在功能上少了微调、长文本等模块，现阶段略显不足。不过，幸运的是我在B站找到了一个整合包，增加了音质增强、批量处理、长文本切分等功能，并制作了Mac和Windows版本。​

终于蹲到ChatTTS增强版整合包，AI视频配角们有了自己的声音～​