Docker部署GPT-SoVITS API安装

  • GPT-SoVITS是一款强大的开源语音克隆与合成工具,核心功能是使用极少的语音样本(仅需5秒到1分钟),快速生成与目标音色高度相似的合成语音
  • 操作系统:win11 , 显卡:GTX 1660 6G
  • 主要用来n8n调用本地API
  • 国内需要用到科学上网

安装步骤

1. 需要下载三个文件:s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt / s2G488k.pth / s2D488k.pth

官方链接:https://huggingface.co/lj1995/GPT-SoVITS/tree/main

s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt:这是 V1 的核心 GPT 模型

s2G488k.pth:这是 V1 的语音合成器

s2D488k.pth:判别器(API 模式下不使用,可放着备用)

– 将 s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt 改名为 s1v1.ckpt

– 将 s2G488k.pth 改名为 s2v1.pth

2. 同时还需下载2个文件夹:chinese-hubert-base / chinese-roberta-wwm-ext-large (包含其内文件)

3. 下载三个文件+两个文件夹后自定义创建存放位置

在E:\AI里创建了GPT_vits,并在E:\AI\GPT_vits里创建:models、reference、output三个子文件夹

models (放 AI 模型文件,把下载好的三个文件+两个文件夹放入其中)

reference (重要: 放一段 5-10 秒的英文真人配音 wav 文件,作为参考声音)

output(生成的音频会出现在这里)

4. 接下来打开Docker后开始部署GPT_vits,这是一键安装代码,打开PowerShell(管理员模式)后直接复制以下代码(如果安装位置不同需要更改路径):

docker run -d --name gpt-sovits-api --gpus all -p 9880:9880 -v E:\AI\GPT_vits\models:/workspace/GPT_SoVITS/pretrained_models -v E:\AI\GPT_vits\reference:/workspace/reference -v E:\AI\GPT_vits\output:/workspace/output --shm-size=16g breakstring/gpt-sovits:latest python api.py -dr "reference/ref.wav" -dt "Hello world." -dl "en" -g "/workspace/GPT_SoVITS/pretrained_models/s1v1.ckpt" -s "/workspace/GPT_SoVITS/pretrained_models/s2v1.pth" -b "/workspace/GPT_SoVITS/pretrained_models/chinese-roberta-wwm-ext-large"

5. 安装成功后在PowerShell(管理员模式)里输入:docker ps 查看gpt-sovits-api 是否在名单里

一旦看到 Uvicorn running,你的配音工厂就正式开工了。现在我们来配置 n8n 里的“翻译+配音”逻辑:

  1. 节点选择:在 n8n 搜索 HTTP Request
  2. 关键设置
    • URL: http://host.docker.internal:9880
    • Method: GET
    • Parameters:
      • text: {{ $json.translated_text }} (这里接你 AI Agent 翻译后的英文)
      • text_lang: en
  3. 结果处理:将 Response Format 设为 File,然后连接一个 Write Binary File 节点,保存到你的 E:\AI\GPT_vits\output