Хотите заговорить голосом своего кореша, известной личности? или вообще какого-нибудь рандомного чувака из ютуба? Или просто рофлить в Дискорде, ну или для какого либо обмана? (что не рекомендуем, но решать вам как пользоваться инструментом)
Тогда этот гайд — ваш билет в мир клонирования голосов. Берём два хороших мощных проекта с GitHub — Applio и vcclient_win_cuda, и делаем так, чтобы твой голос в реальном времени звучал как угодно.
ВНИМАНИЕ: Данный инструмент не гарантирует 100% создания клона голоса, очень много факторов влияет на настройки, ваш индивидуальный голос и настрок под него. Личной мной проверено, пару голосов вышли очень даже похожими
Что из себя представляет?
- Applio — это как швейцарский нож для клонирования голосов. Простой, и выдаёт нормальное качество на выходе, но не всегда. Берёшь аудио, обучаешь модель, и готово. Работает на Python, жрёт CUDA(грифический процессор) для скорости.
- vcclient_win_cuda — часть проекта w-okada/voice-changer. Это софт для реалтайм-конверсии. Ты говоришь в микрофон, а на выходе — голос, которые вы наклепали в Applio с отдельного аудио драйвера(виртуального устройства). С NVIDIA видяхой летает как ракета.
Что надо?
- Windows 10/11 и видяха NVIDIA (RTX 2060+- — норм, иначе будет тормозить, так же возможно и на linux сделать, но теряете производительность видюхи).
- Микрофон (не мусорный с шумами).
- Чистое аудио для клонирования (~1 мин, WAV/MP3, без шума).
- Интернет для софта и зависимостей.
- Чуток терпения.
Шаг 1: Устанавливаем Applio
- Качаем Applio:
- Переходим на GitHub: https://github.com/IAHispano/Applio или лучше оффициальный сайт https://applio.org/
- Скачиваем архив
- Распакуйте в папку, где не потеряете (типа C:\Voice).
- Установка зависимостей:
- Убедись, что у вас стоит Python 3.9 или 3.10 (3.11 может глючить). Скачать можно с python.org.
- Просто щёлкни run-applio.bat — оно само разберётся.
- Готовим аудио для клонирования:
- Возьми чистый аудиофайл (10-30 секунд, без фонового шума). Например, запись голоса кореша или вырезку из интервью.
- Кидай файл в папку Applio/datasets/[имя_твоей_папки].
Шаг 2: Клонируем голос в Applio
Как запустим run-applio.bat, нас ждёт вот такой веб интерфейс который откроется сам
Нужно перейти в Обучение и дать название модели
Нужно перейти в Обучение и дать название модели
Создаём датасет и указываем на наши файлы звукозаписи нужного голоса
Нажимаем Предварительная обработка датасета
Нажимаем Предварительная обработка датасета
Извлекаем признаки
Ну и финальная стадия, генерируем индекс и начинаем обучение. В консоле можете заметить как идёт процесс.
Да процесс далеко не быстрый. Может занять 2-3 часа. Ну или можно быстрее, отменив процесс, достаточно 10 epoch для создания .pth
Шаг 3: Устанавливаем vcclient_win_cuda
- Качаем vcclient_win_cuda:
- Заходим на Hugging Face: https://huggingface.co/wok000/vcclient000/tree/main
- Скачай vcclient_win_cuda_xxx.zip (где xxx — последняя версия).
- Распакуй в отдельную папку (например, C:\Voice).
- Установка:
- Распаковали ZIP? Дважды щёлкни start_http.bat в папке куда распаковывали. Если всё норм, откроется окно с интерфейсом.
Грузим модель голоса:
- В интерфейсе vcclient жми "Settings".
- В разделе "Model" загрузи .pth и .index файлы из Applio/logs/[имя_модели].
- Выбери "RVC" как тип модели.
- Настрой параметры
- Подруби микрофон.
- В vcclient включи кнопка "Старт".
- Ещё нужно установить виртуальный микрофон (VB-CABLE Virtual Audio Device, качайте с vb-audio.com). В vcclient выбери его как выход, а как вход ваш микрофон.
Вход и выход ставим как у меня примерно
А вот всё остальное вам придётся настраивать уже самим, слушая в реалтайме голос и подкручивая ползунки чтобы ваш голос соответствовал клонированному.
Итог
Теперь вы можете звучать как кто угодно — от своего кореша до какого-нибудь блогера. Applio делает клонирование проще, а vcclient_win_cuda пускает это в лайв без особых заморочек. Да и не ожидайте что вы со 100% вероятностью сможете клонировать голос.
Последнее редактирование: