AI克隆语音工具GPT-SoVITS,零基础安装使用教程2026

AI克隆语音工具GPT-SoVITS,零基础安装使用教程2026
古有 AI 配音太像人机,今有 GSVT 声入人心。 –马彪
一,GPT-SoVITS是什么?
GPT-SoVITS 是一个免费的“能模仿别人说话的AI工具”。
通俗点讲,它干了三件事:
- 听声音:给它一点某个人的语音(哪怕只有几十秒)
- 学风格:它会分析这个人的音色、语气、说话习惯
- 开口说话:你输入一段文字,它就能用“这个人的声音”读出来
就是把文字 变成指定声音的语音。
和传统配音工具不一样的地方在于:
- 不需要大量录音数据(很少也能用),
- 声音模仿更像真人(情绪、语气更自然),
- 可以跨语言(比如用中文数据,说英文),
二,它能干嘛?
比如你有一段喜欢的主播声音:
- 给GPT-SoVITS一点他的录音,
- 输入一句话:“今天我们聊点有意思的”,
- 它就能用那个主播的声音说出来,
三,官方推荐配置
英伟达显卡, 显存4G

不过这是推荐配置,低于这个配置的也可以自己安装测试一下,我是3050,比较慢但是可以推理(文字转语音)了。
四,安装及使用教程
1.打开项目的github地址(不让放链接,文章最后点查看原文或私信我),点击箭头位置

2.点这里,中国用户专用下载

文件有7.6GB,需要耐心等待一会

3.把下载好的文件移到其他盘(防止系统盘以后爆满)–这一步可以不做
4.解压,然后等解压完成

5.把压缩包删除
6.进入解压好的文件夹,双击go-web.bat

7、点击允许

8,然后他会在浏览器自动打开

9、由于训练比较慢和复杂,我们直接找别人训练好的模型来直接跑通,看能不能跑出来。
10、我们去这个网站下载一个原神的模型(不让放链接,文章最后点查看原文或私信我)

11.建一个GPTSOVITSModel的文件夹,把模型解压并复制进去,

12、然后把里面的pth文件,复制到原来的 GPT 文件夹下的 SoVITS_weights_v4 子文件夹


13.把ckpt文件复制到原来的 GPT 文件夹下的 GPT_weights_v4 子文件夹


14.回到浏览器,点击上面的1-GPT ,再点击1C推理

15.点击刷新模型路径

16.这两个选项就可以换成我们前面复制的模型了


17.点击开启TTS推理,然后耐心等一会,他会自动开启一个浏览器窗口


18.我们点击这里上传音频,音频在模型的reference_audios子文件夹


19.我们把音频的文件名打印到浏览器

20.打印你想说的话

21.点击合成语音,然后耐心等一会

22.成功输出,可以试听或者下载,我的显卡不行,速度有点慢,

五、总结
说到底,在本地玩 GPT-SoVITS 就是“显存定生死”,如果显卡级别不够,本地训练这事儿就直接断了念想吧,
好在日常推理配音对硬件还算宽容,虽然慢,但是入门级显卡也能跑出质感不错的效果,
至于在 Mac 上折腾部署,目前来看确实是形式大于意义,在真正的生产力场景下,它的效率跟有 CUDA 加持的 N 卡相比实在是不够看。
目前开源语音领域的“四大天王”,除了GSVT还有Fish Speech ,CosyVoice 2 ,ChatTTS,
后续我也会发布安装使用教程,欢迎关注。
**项目地址:**https://github.com/RVC-Boss/GPT-SoVITS/tree/main
官方文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/vafogkyrwkk8rbzb
二次元模型:https://www.modelscope.cn/models/aihobbyist/GPT-SoVITS_Model_Collection/summary

如果安装过程中遇到问题,可以在评论区留言。
如果需要远程操作,也可以主页找我。
如果这篇文章对你有帮助,记得点个赞。想看更多AI技术教程,也可以关注我。
我是悟空爬虫-马彪,我们下期再见。
交流群
欢迎进群聊聊天,吹吹水。
