- 操作系统:win11 , 显卡:GTX 1660 6G
- 主要用来n8n调用本地API
- 国内需要用到科学上网
安装步骤
1. 需要下载三个文件:s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt / s2G488k.pth / s2D488k.pth
官方链接:https://huggingface.co/lj1995/GPT-SoVITS/tree/main
s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt:这是 V1 的核心 GPT 模型
s2G488k.pth:这是 V1 的语音合成器
s2D488k.pth:判别器(API 模式下不使用,可放着备用)
– 将 s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt 改名为 s1v1.ckpt
– 将 s2G488k.pth 改名为 s2v1.pth
2. 同时还需下载2个文件夹:chinese-hubert-base / chinese-roberta-wwm-ext-large (包含其内文件)
3. 下载三个文件+两个文件夹后自定义创建存放位置
在E:\AI里创建了GPT_vits,并在E:\AI\GPT_vits里创建:models、reference、output三个子文件夹
models (放 AI 模型文件,把下载好的三个文件+两个文件夹放入其中)
reference (重要: 放一段 5-10 秒的英文真人配音 wav 文件,作为参考声音)
output(生成的音频会出现在这里)
4. 接下来打开Docker后开始部署GPT_vits,这是一键安装代码,打开PowerShell(管理员模式)后直接复制以下代码(如果安装位置不同需要更改路径):
docker run -d --name gpt-sovits-api --gpus all -p 9880:9880 -v E:\AI\GPT_vits\models:/workspace/GPT_SoVITS/pretrained_models -v E:\AI\GPT_vits\reference:/workspace/reference -v E:\AI\GPT_vits\output:/workspace/output --shm-size=16g breakstring/gpt-sovits:latest python api.py -dr "reference/ref.wav" -dt "Hello world." -dl "en" -g "/workspace/GPT_SoVITS/pretrained_models/s1v1.ckpt" -s "/workspace/GPT_SoVITS/pretrained_models/s2v1.pth" -b "/workspace/GPT_SoVITS/pretrained_models/chinese-roberta-wwm-ext-large"
5. 安装成功后在PowerShell(管理员模式)里输入:docker ps 查看gpt-sovits-api 是否在名单里
一旦看到 Uvicorn running,你的配音工厂就正式开工了。现在我们来配置 n8n 里的“翻译+配音”逻辑:
- 节点选择:在 n8n 搜索
HTTP Request。 - 关键设置:
- URL:
http://host.docker.internal:9880 - Method:
GET - Parameters:
text:{{ $json.translated_text }}(这里接你 AI Agent 翻译后的英文)text_lang:en
- URL:
- 结果处理:将
Response Format设为File,然后连接一个Write Binary File节点,保存到你的E:\AI\GPT_vits\output。