In [13]:
import torch
import torchaudio
from torch.utils.data import Dataset, DataLoader
from torchaudio.transforms import Resample
from datasets import load_dataset
from torch.nn import CTCLoss
from torch.optim import Adam
import torch.nn as nn

In [2]:
# Скачиваем датасет с русскими данными 
# https://huggingface.co/datasets/mozilla-foundation/common_voice_11_0
cv_11_train = load_dataset("mozilla-foundation/common_voice_11_0", "ru", split="train")

In [6]:
# Создание класса датасета
class VoiceDataset(Dataset):
    def __init__(self, dataset):
        self.dataset = dataset
        self.resampler = Resample(orig_freq=48_000, new_freq=16_000)

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        audio_path = self.dataset[idx]["path"]
        waveform, sample_rate = torchaudio.load(audio_path, normalize=True)
        waveform = self.resampler(waveform)
        transcription = self.dataset[idx]["sentence"]
        return waveform, transcription

In [7]:
# Инициализация датасета и загрузчика данных
voice_dataset = VoiceDataset(cv_11_train)
dataloader = DataLoader(voice_dataset, batch_size=32, shuffle=True, num_workers=4)

In [18]:
# Пример определения простой модели для голосового распознавания
class SimpleSpeechRecognitionModel(nn.Module):
    def __init__(self, num_classes):
        super(SimpleSpeechRecognitionModel, self).__init__()
        self.conv1 = nn.Conv2d(1, 64, kernel_size=3, stride=1, padding=1)
        self.relu = nn.ReLU()
        self.fc = nn.Linear(64, num_classes)

    def forward(self, x):
        x = self.conv1(x)
        x = self.relu(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x

In [19]:
# Указание количества классов
num_classes = 10  # Замените на фактическое количество классов в вашем датасете

# Инициализация модели
model = SimpleSpeechRecognitionModel(num_classes)

In [20]:
# Определение функции потерь и оптимизатора
criterion = CTCLoss(blank=0)
optimizer = Adam(model.parameters(), lr=0.001)

In [25]:
# Пример обучения модели на нескольких эпохах
num_epochs = 5
for epoch in range(num_epochs):
    for batch_idx, (waveform, transcription) in enumerate(dataloader):
        optimizer.zero_grad()
        output = model(waveform)
        # Преобразование текстов в тензоры для расчета функции потерь CTC
        target = torch.IntTensor([ord(char) for char in transcription])
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()

        if batch_idx % 10 == 0:
            print(f"Эпоха {epoch+1}/{num_epochs}, Шаг {batch_idx}, Потеря: {loss.item()}")

In [None]:
# Сохранение обученной модели
torch.save(model.state_dict(), "my_model_001.pth")