DeepFake : Клонируем голос

#STREETBEAT · 27 Июн 2025

Хотите заговорить голосом своего кореша, известной личности? или вообще какого-нибудь рандомного чувака из ютуба? Или просто рофлить в Дискорде, ну или для какого либо обмана? (что не рекомендуем, но решать вам как пользоваться инструментом)
Тогда этот гайд — ваш билет в мир клонирования голосов. Берём два хороших мощных проекта с GitHub — Applio и vcclient_win_cuda, и делаем так, чтобы твой голос в реальном времени звучал как угодно.

ВНИМАНИЕ: Данный инструмент не гарантирует 100% создания клона голоса, очень много факторов влияет на настройки, ваш индивидуальный голос и настрок под него. Личной мной проверено, пару голосов вышли очень даже похожими

Что из себя представляет?

Applio — это как швейцарский нож для клонирования голосов. Простой, и выдаёт нормальное качество на выходе, но не всегда. Берёшь аудио, обучаешь модель, и готово. Работает на Python, жрёт CUDA(грифический процессор) для скорости.
vcclient_win_cuda — часть проекта w-okada/voice-changer. Это софт для реалтайм-конверсии. Ты говоришь в микрофон, а на выходе — голос, которые вы наклепали в Applio с отдельного аудио драйвера(виртуального устройства). С NVIDIA видяхой летает как ракета.

Что надо?

Windows 10/11 и видяха NVIDIA (RTX 2060+- — норм, иначе будет тормозить, так же возможно и на linux сделать, но теряете производительность видюхи).
Микрофон (не мусорный с шумами).
Чистое аудио для клонирования (~1 мин, WAV/MP3, без шума).
Интернет для софта и зависимостей.
Чуток терпения.

Шаг 1: Устанавливаем Applio

Качаем Applio:
- Переходим на GitHub: https://github.com/IAHispano/Applio или лучше оффициальный сайт https://applio.org/
- Скачиваем архив
- Распакуйте в папку, где не потеряете (типа C:\Voice).
Установка зависимостей:
- Убедись, что у вас стоит Python 3.9 или 3.10 (3.11 может глючить). Скачать можно с python.org.
- Просто щёлкни run-applio.bat — оно само разберётся.
Готовим аудио для клонирования:
- Возьми чистый аудиофайл (10-30 секунд, без фонового шума). Например, запись голоса кореша или вырезку из интервью.
- Кидай файл в папку Applio/datasets/[имя_твоей_папки].

Шаг 2: Клонируем голос в Applio

Как запустим run-applio.bat, нас ждёт вот такой веб интерфейс который откроется сам
Нужно перейти в Обучение и дать название модели

Создаём датасет и указываем на наши файлы звукозаписи нужного голоса
Нажимаем Предварительная обработка датасета

Извлекаем признаки

Ну и финальная стадия, генерируем индекс и начинаем обучение. В консоле можете заметить как идёт процесс.
Да процесс далеко не быстрый. Может занять 2-3 часа. Ну или можно быстрее, отменив процесс, достаточно 10 epoch для создания .pth

Шаг 3: Устанавливаем vcclient_win_cuda

Качаем vcclient_win_cuda:
- Заходим на Hugging Face: https://huggingface.co/wok000/vcclient000/tree/main
- Скачай vcclient_win_cuda_xxx.zip (где xxx — последняя версия).
- Распакуй в отдельную папку (например, C:\Voice).

Установка:
- Распаковали ZIP? Дважды щёлкни start_http.bat в папке куда распаковывали. Если всё норм, откроется окно с интерфейсом.

Грузим модель голоса:

В интерфейсе vcclient жми "Settings".
В разделе "Model" загрузи .pth и .index файлы из Applio/logs/[имя_модели].
Выбери "RVC" как тип модели.
Настрой параметры

Тестим реалтайм:

Подруби микрофон.
В vcclient включи кнопка "Старт".
Ещё нужно установить виртуальный микрофон (VB-CABLE Virtual Audio Device, качайте с vb-audio.com). В vcclient выбери его как выход, а как вход ваш микрофон.

Вход и выход ставим как у меня примерно
А вот всё остальное вам придётся настраивать уже самим, слушая в реалтайме голос и подкручивая ползунки чтобы ваш голос соответствовал клонированному.

Итог

Теперь вы можете звучать как кто угодно — от своего кореша до какого-нибудь блогера. Applio делает клонирование проще, а vcclient_win_cuda пускает это в лайв без особых заморочек. Да и не ожидайте что вы со 100% вероятностью сможете клонировать голос.

Поиск

Theme colors

DeepFake : Клонируем голос

Что из себя представляет?

Что надо?

DeepFake : Клонируем голос

Что из себя представляет?​

Что надо?​

Что из себя представляет?

Что надо?