# Colab Demo

## Dependencies and Imports

In [1]:
#@title Install dependencies

!pip install -q omegaconf

import torch
from pprint import pprint
from omegaconf import OmegaConf
from IPython.display import Audio, display

torch.hub.download_url_to_file('https://raw.githubusercontent.com/snakers4/silero-models/master/models.yml',
                               'latest_silero_models.yml',
                               progress=False)
models = OmegaConf.load('latest_silero_models.yml')

## List models

In [2]:
# see latest avaiable models
available_languages = list(models.tts_models.keys())
print(f'Available languages {available_languages}')

for lang in available_languages:
    _models = list(models.tts_models.get(lang).keys())
    print(f'Available models for {lang}: {_models}')

Available languages ['ru', 'en', 'de', 'es', 'fr', 'ba', 'xal', 'tt', 'uz', 'ua', 'indic', 'cyrillic', 'multi']
Available models for ru: ['v5_cis_base', 'v5_cis_base_nostress', 'v5_cis_ext', 'v5_1_ru', 'v5_ru', 'v4_ru', 'v3_1_ru', 'ru_v3', 'aidar_v2', 'aidar_8khz', 'aidar_16khz', 'baya_v2', 'baya_8khz', 'baya_16khz', 'irina_v2', 'irina_8khz', 'irina_16khz', 'kseniya_v2', 'kseniya_8khz', 'kseniya_16khz', 'natasha_v2', 'natasha_8khz', 'natasha_16khz', 'ruslan_v2', 'ruslan_8khz', 'ruslan_16khz']
Available models for en: ['v3_en', 'v3_en_indic', 'lj_v2', 'lj_8khz', 'lj_16khz']
Available models for de: ['v3_de', 'thorsten_v2', 'thorsten_8khz', 'thorsten_16khz']
Available models for es: ['v3_es', 'tux_v2', 'tux_8khz', 'tux_16khz']
Available models for fr: ['v3_fr', 'gilles_v2', 'gilles_8khz', 'gilles_16khz']
Available models for ba: ['aigul_v2']
Available models for xal: ['v3_xal', 'erdni_v2']
Available models for tt: ['v3_tt', 'dilyara_v2']
Available models for uz: ['v4_uz', 'v3_uz', 'dilna

## V5

In [3]:
import torch

language = 'ru'
model_id = 'v5_ru'
device = torch.device('cpu')

model, example_text = torch.hub.load(repo_or_dir='snakers4/silero-models',
                                     model='silero_tts',
                                     language=language,
                                     speaker=model_id)
model.to(device)  # gpu or cpu



Downloading: "https://github.com/snakers4/silero-models/zipball/master" to /root/.cache/torch/hub/master.zip


100%|██████████| 139M/139M [00:09<00:00, 15.6MB/s]
  dtype = storage_type.dtype


### Speakers

In [4]:
model.speakers

['aidar', 'baya', 'kseniya', 'eugene', 'xenia']

### Text

In [None]:
sample_rate = 48000
speaker = 'xenia'
put_accent=True
put_yo=True
put_stress_homo=True
put_yo_homo=True

example_text = (
    "Привет всем и добро пожаловать в серию статей по .NET для начинающих. Меня зовут Клаудия Реджио, и я расскажу вам об этом. Итак, давайте продолжим и начнем с того, что такое .NET. .NET — это бесплатная кроссплатформенная платформа с открытым исходным кодом. Я знаю, что слов много, поэтому вы можете читать их по одному. Итак, во-первых, бесплатное есть бесплатное. Мы не взимаем никакой платы за использование .NET. Открытый исходный код означает, что мы разрабатываем открыто. Это означает, что вы можете увидеть код, который наша команда пишет для разработки .NET, и мы активно призываем внешнее сообщество отправлять PR в наши репозитории, чтобы помочь изменить направление .NET. Кроссплатформенность означает, что он работает и работает в Linux, Mac OS и Windows. Платформа разработки просто означает, что у нее есть языки программирования и библиотеки. Итак, если сложить все это вместе, получится бесплатная среда разработки, в которой разработчики могут создавать приложения для своих клиентов. Какие языки и какие инструменты вы можете здесь использовать? Итак, .NET поддерживает C Sharp, F Sharp и другие. Что касается инструментов, вы можете использовать свою любимую интегрированную среду разработки, например Visual Studio или Visual Studio Code. Теперь вы новичок и можете спросить себя: здесь есть пара вариантов, какой из них вы действительно порекомендуете? Итак, поскольку F Sharp — это функциональный язык программирования, а C Sharp — объектно-ориентированный язык программирования, мы рекомендуем вам начать с C Sharp и Visual Studio Code. Если вы продолжите смотреть, я на самом деле покажу вам, как начать работу с обоими этими двумя способами. Итак, что же можно создать с помощью .NET? Практически все: вы можете создавать веб-приложения и сервисы, мобильные и настольные приложения с единой базой кода, приложения Cloud Native, Интернет вещей, API — вы можете создавать практически все. Итак, независимо от того, являетесь ли вы новым разработчиком, который только начинает свой путь, или у вас есть опыт и вы интересуетесь .NET, у нас, скорее всего, есть для вас дом, и вы сможете создать для своих клиентов то, что захотите. Тогда вы, возможно, слышали о .NET и .NET Framework, и разве это не одно и то же? Чем они отличаются? Итак, давайте продолжим и посмотрим на ситуацию, которая прояснит нам ситуацию. Итак, справа у нас есть .NET Framework, первая версия нашего продукта, работающая только в Windows. .NET — это модернизированная версия, работающая в Linux, Mac OS и Windows. У него также открытый исходный код, и, как я уже говорил, он принимает вклад от сообщества. С другой стороны, исходный код .NET Framework доступен, но он не принимает участия. Тогда в современном .NET действительно происходят все инновации, и мы поддерживаем больше типов приложений. В .NET Framework ежемесячно возникают ошибки безопасности и надежности. Modern.NET также не поставляется с какой-либо конкретной операционной системой, тогда как .NET Framework поставляется вместе с Windows и обновляется ею. Но самое большое отличие, которое я хочу здесь отметить, заключается в том, что для всех новых разработок рекомендуется использовать Modern.NET. Поэтому, если вы новичок и беретесь за новый проект, мы настоятельно рекомендуем вам использовать Modern.NET. Иногда может быть немного сложно понять, какой из них вы загружаете. Итак, позвольте мне дать вам небольшую шпаргалку. Поэтому, когда вы видите версию 4.8.1 или ниже, то есть .NET Framework, ее следует загружать исключительно только в том случае, если проект, над которым вы работаете, требует исключительно этого. Если вы хотите использовать Modern.NET, вам нужна любая версия 5 и выше. Очевидно, что мы только что выпустили выпуск .NET 8, поэтому мы настоятельно рекомендуем вам установить .NET 8 и работать с ним. Итак, теперь, когда я рассказал вам о том, что такое .NET, вот еще несколько ресурсов, на которые вы можете обратить внимание. У нас есть веб-сайт .NET, документация, которую вы можете скачать, и руководство Hello World. Теперь, если вы останетесь до следующего видео, я покажу вам, как установить .NET и как начать работу с кодом APS в C Sharp. Увидимся в следующем."
)

audio = model.apply_tts(text=example_text,
                        speaker=speaker,
                        sample_rate=sample_rate,
                        put_accent=put_accent,
                        put_yo=put_yo,
                        put_stress_homo=put_stress_homo,
                        put_yo_homo=put_yo_homo)
print(example_text)
display(Audio(audio, rate=sample_rate))



Exception: Model couldn't generate your text, probably it's too long

In [5]:
from pydub import AudioSegment
import re
import numpy as np

sample_rate = 48000
speaker = 'xenia'
put_accent=True
put_yo=True
put_stress_homo=True
put_yo_homo=True

# читаем текст из файла
with open("output_ru.txt", "r", encoding="utf-8") as f:
    example_text = f.read().strip()

# разбиение текста на куски
def split_text_safe(text, max_len=700):
    sentences = re.split(r'(?<=[.!?])\s+', text)
    chunks = []
    current = ""
    for s in sentences:
        if len(current) + len(s) + 1 > max_len:
            chunks.append(current.strip())
            current = s
        else:
            current += " " + s
    if current:
        chunks.append(current.strip())
    return chunks

chunks = split_text_safe(example_text, 700)
print(f"Количество частей: {len(chunks)}")

final_audio = AudioSegment.empty()
silence = AudioSegment.silent(duration=400)  # 400 мс пауза

for i, chunk in enumerate(chunks, 1):
    print(f"Озвучиваем часть {i}/{len(chunks)}...")
    audio_chunk = model.apply_tts(
        text=chunk,
        speaker=speaker,
        sample_rate=sample_rate,
        put_accent=put_accent,
        put_yo=put_yo,
        put_stress_homo=put_stress_homo,
        put_yo_homo=put_yo_homo
    )
    audio_np = audio_chunk.cpu().numpy()
    audio_np_int16 = (audio_np * 32767).astype(np.int16)  # улучшение качества
    seg = AudioSegment(
        audio_np_int16.tobytes(),
        frame_rate=sample_rate,
        sample_width=2,
        channels=1
    )
    final_audio += seg + silence

final_audio.export("output_final_clean.wav", format="wav")
print("Готово! Итоговый файл с улучшенным качеством: output_final_clean.wav")


  m = re.match('([su]([0-9]{1,2})p?) \(([0-9]{1,2}) bit\)$', token)
  m2 = re.match('([su]([0-9]{1,2})p?)( \(default\))?$', token)
  elif re.match('(flt)p?( \(default\))?$', token):
  elif re.match('(dbl)p?( \(default\))?$', token):


Количество частей: 52
Озвучиваем часть 1/52...
Озвучиваем часть 2/52...
Озвучиваем часть 3/52...
Озвучиваем часть 4/52...
Озвучиваем часть 5/52...
Озвучиваем часть 6/52...
Озвучиваем часть 7/52...
Озвучиваем часть 8/52...
Озвучиваем часть 9/52...
Озвучиваем часть 10/52...
Озвучиваем часть 11/52...
Озвучиваем часть 12/52...
Озвучиваем часть 13/52...
Озвучиваем часть 14/52...
Озвучиваем часть 15/52...
Озвучиваем часть 16/52...
Озвучиваем часть 17/52...
Озвучиваем часть 18/52...
Озвучиваем часть 19/52...
Озвучиваем часть 20/52...
Озвучиваем часть 21/52...
Озвучиваем часть 22/52...
Озвучиваем часть 23/52...
Озвучиваем часть 24/52...
Озвучиваем часть 25/52...
Озвучиваем часть 26/52...
Озвучиваем часть 27/52...
Озвучиваем часть 28/52...
Озвучиваем часть 29/52...
Озвучиваем часть 30/52...
Озвучиваем часть 31/52...
Озвучиваем часть 32/52...
Озвучиваем часть 33/52...
Озвучиваем часть 34/52...
Озвучиваем часть 35/52...
Озвучиваем часть 36/52...
Озвучиваем часть 37/52...
Озвучиваем часть 38/52...

### SSML

In [None]:
ssml_sample = """
              <speak>
              <p>
                  Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
                  Пот+ом я начинаю говорить своим обычным голосом,
                  <prosody pitch="x-high"> а могу говорить тоном выше </prosody>,
                  или <prosody pitch="x-low">наоборот, ниже</prosody>.
                  Пот+ом, если повезет – <prosody rate="fast">я могу говорить и довольно быстро.</prosody>
                  А еще я умею делать паузы любой длины, например, две секунды <break time="2000ms"/>.
                  <p>
                    Также я умею делать паузы между параграфами.
                  </p>
                  <p>
                    <s>И также я умею делать паузы между предложениями</s>
                    <s>Вот например как сейчас</s>
                  </p>
              </p>
              </speak>
              """

sample_rate = 48000
speaker = 'eugene'
audio = model.apply_tts(ssml_text=ssml_sample,
                        speaker=speaker,
                        sample_rate=sample_rate)
display(Audio(audio, rate=sample_rate))

## V4

In [None]:
import torch

language = 'ru'
model_id = 'v4_ru'
device = torch.device('cpu')

model, example_text = torch.hub.load(repo_or_dir='snakers4/silero-models',
                                     model='silero_tts',
                                     language=language,
                                     speaker=model_id)
model.to(device)  # gpu or cpu

### Speakers

In [None]:
model.speakers

### Text

In [None]:
sample_rate = 48000
speaker = 'xenia'
put_accent=True
put_yo=True
example_text = 'В недрах тундры выдры в г+етрах т+ырят в вёдра ядра к+едров.'

audio = model.apply_tts(text=example_text,
                        speaker=speaker,
                        sample_rate=sample_rate,
                        put_accent=put_accent,
                        put_yo=put_yo)
print(example_text)
display(Audio(audio, rate=sample_rate))

### SSML

In [None]:
ssml_sample = """
              <speak>
              <p>
                  Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
                  Пот+ом я начинаю говорить своим обычным голосом,
                  <prosody pitch="x-high"> а могу говорить тоном выше </prosody>,
                  или <prosody pitch="x-low">наоборот, ниже</prosody>.
                  Пот+ом, если повезет – <prosody rate="fast">я могу говорить и довольно быстро.</prosody>
                  А еще я умею делать паузы любой длины, например, две секунды <break time="2000ms"/>.
                  <p>
                    Также я умею делать паузы между параграфами.
                  </p>
                  <p>
                    <s>И также я умею делать паузы между предложениями</s>
                    <s>Вот например как сейчас</s>
                  </p>
              </p>
              </speak>
              """

sample_rate = 48000
speaker = 'xenia'
audio = model.apply_tts(ssml_text=ssml_sample,
                        speaker=speaker,
                        sample_rate=sample_rate)
display(Audio(audio, rate=sample_rate))

### Random speaker

#### Generate new

In [None]:
sample_rate = 48000
speaker = 'random'

example_text = 'В недрах тундры выдры в г+етрах т+ырят в вёдра ядра к+едров.'

audio = model.apply_tts(text=example_text,
                        speaker=speaker,
                        sample_rate=sample_rate)
print(example_text)
display(Audio(audio, rate=sample_rate))

#### Save generated speaker

In [None]:
voice_path = 'test_voice.pt'
model.save_random_voice(voice_path)

#### Generate with saved speaker

In [None]:
sample_rate = 48000
speaker = 'random'
voice_path = 'test_voice.pt'

example_text = 'В недрах тундры выдры в г+етрах т+ырят в вёдра ядра к+едров.'

audio = model.apply_tts(text=example_text,
                        speaker=speaker,
                        sample_rate=sample_rate,
                        voice_path=voice_path)
print(example_text)
display(Audio(audio, rate=sample_rate))

# Minimal Example to Run Locally

## Dependencies and Imports

In [None]:
#@title Install dependencies

!pip install -q torch==1.12

## V5

In [None]:
import os
import torch

device = torch.device('cpu')
torch.set_num_threads(4)
local_file = 'model.pt'

if not os.path.isfile(local_file):
    torch.hub.download_url_to_file('https://models.silero.ai/models/tts/ru/v5_ru.pt',
                                   local_file)

model = torch.package.PackageImporter(local_file).load_pickle("tts_models", "model")
model.to(device)

example_text = 'Меня зовут Лева Королев. Я из готов. И я уже готов открыть все ваши замки любой сложности!'
sample_rate = 48000
speaker='baya'

audio_paths = model.save_wav(text=example_text,
                             speaker=speaker,
                             sample_rate=sample_rate)

## V4

In [None]:
import os
import torch

device = torch.device('cpu')
torch.set_num_threads(4)
local_file = 'model.pt'

if not os.path.isfile(local_file):
    torch.hub.download_url_to_file('https://models.silero.ai/models/tts/ru/v4_ru.pt',
                                   local_file)

model = torch.package.PackageImporter(local_file).load_pickle("tts_models", "model")
model.to(device)

example_text = 'В недрах тундры выдры в г+етрах т+ырят в вёдра ядра кедров.'
sample_rate = 48000
speaker='baya'

audio_paths = model.save_wav(text=example_text,
                             speaker=speaker,
                             sample_rate=sample_rate)