AI克隆语音工具GPT-SoVITS,零基础安装使用教程2026

辽北地区著名码农
4 分钟阅读
AI克隆语音工具GPT-SoVITS,零基础安装使用教程2026

AI克隆语音工具GPT-SoVITS,零基础安装使用教程2026

古有 AI 配音太像人机,今有 GSVT 声入人心。 –马彪

一,GPT-SoVITS是什么?

GPT-SoVITS 是一个免费的“能模仿别人说话的AI工具”。

通俗点讲,它干了三件事:

  1. 听声音:给它一点某个人的语音(哪怕只有几十秒)
  2. 学风格:它会分析这个人的音色、语气、说话习惯
  3. 开口说话:你输入一段文字,它就能用“这个人的声音”读出来

就是把文字 变成指定声音的语音

和传统配音工具不一样的地方在于:

  • 不需要大量录音数据(很少也能用),
  • 声音模仿更像真人(情绪、语气更自然),
  • 可以跨语言(比如用中文数据,说英文),

二,它能干嘛?

比如你有一段喜欢的主播声音:

  • 给GPT-SoVITS一点他的录音,
  • 输入一句话:“今天我们聊点有意思的”,
  • 它就能用那个主播的声音说出来,

三,官方推荐配置

英伟达显卡, 显存4G

image-20260327062034369

不过这是推荐配置,低于这个配置的也可以自己安装测试一下,我是3050,比较慢但是可以推理(文字转语音)了。

四,安装及使用教程

1.打开项目的github地址(不让放链接,文章最后点查看原文或私信我),点击箭头位置

image-20260327053742138

2.点这里,中国用户专用下载

image-20260327054104474

文件有7.6GB,需要耐心等待一会

image-20260327054158641

3.把下载好的文件移到其他盘(防止系统盘以后爆满)–这一步可以不做

4.解压,然后等解压完成

image-20260327055727747

5.把压缩包删除

6.进入解压好的文件夹,双击go-web.bat

image-20260327060243058

7、点击允许

image-20260327060415489

8,然后他会在浏览器自动打开

image-20260327060512043

9、由于训练比较慢和复杂,我们直接找别人训练好的模型来直接跑通,看能不能跑出来。

10、我们去这个网站下载一个原神的模型(不让放链接,文章最后点查看原文或私信我)

image-20260327061449549

11.建一个GPTSOVITSModel的文件夹,把模型解压并复制进去,

image-20260327062153740

12、然后把里面的pth文件,复制到原来的 GPT 文件夹下的 SoVITS_weights_v4 子文件夹

image-20260327063658376

image-20260327063800499

13.把ckpt文件复制到原来的 GPT 文件夹下的 GPT_weights_v4 子文件夹

image-20260327063929061

image-20260327064054198

14.回到浏览器,点击上面的1-GPT ,再点击1C推理

image-20260327064242083

15.点击刷新模型路径

image-20260327064431347

16.这两个选项就可以换成我们前面复制的模型了

image-20260327064530944

image-20260327064548388

17.点击开启TTS推理,然后耐心等一会,他会自动开启一个浏览器窗口

image-20260327064739623

image-20260327065116957

18.我们点击这里上传音频,音频在模型的reference_audios子文件夹

image-20260327065142066

image-20260327065328373

19.我们把音频的文件名打印到浏览器

image-20260327065656199

20.打印你想说的话

image-20260327065924210

21.点击合成语音,然后耐心等一会

image-20260327065945682

22.成功输出,可以试听或者下载,我的显卡不行,速度有点慢,

image-20260327070207517

五、总结

说到底,在本地玩 GPT-SoVITS 就是“显存定生死”,如果显卡级别不够,本地训练这事儿就直接断了念想吧,

好在日常推理配音对硬件还算宽容,虽然慢,但是入门级显卡也能跑出质感不错的效果,

至于在 Mac 上折腾部署,目前来看确实是形式大于意义,在真正的生产力场景下,它的效率跟有 CUDA 加持的 N 卡相比实在是不够看。

目前开源语音领域的“四大天王”,除了GSVT还有Fish Speech ,CosyVoice 2 ,ChatTTS,

后续我也会发布安装使用教程,欢迎关注。

**项目地址:**https://github.com/RVC-Boss/GPT-SoVITS/tree/main

官方文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/vafogkyrwkk8rbzb

二次元模型:https://www.modelscope.cn/models/aihobbyist/GPT-SoVITS_Model_Collection/summary

抱拳了

如果安装过程中遇到问题,可以在评论区留言。

如果需要远程操作,也可以主页找我。

如果这篇文章对你有帮助,记得点个赞。想看更多AI技术教程,也可以关注我。

我是悟空爬虫-马彪,我们下期再见。

交流群

欢迎进群聊聊天,吹吹水。

交流群

准备好让数据发挥价值了吗?

只需一分钟提交您的业务需求,剩下的交给我们。快速获取成品数据。