In [1]:
!pip install torch torchaudio pandas tqdm
!pip install -U gdown
!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Looking in indexes: https://download.pytorch.org/whl/cu118


In [2]:
import os
import glob
import torch
import torchaudio
import pandas as pd
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm

In [3]:
import torch
print(torch.version.cuda)
print(torch.cuda.is_available())
print(torch.backends.cudnn.version())

11.8
True
90100


In [4]:
# Download data set
file_path = 'C:/Users/Samurai/'

In [5]:
import os
import zipfile

def extract_archives(file_path):
    archives = {
        'voxconverse-master.zip': 'voxconverse-master/',
        'voxconverse_dev_wav.zip': 'dev_wav/',
        'voxconverse_test_wav.zip': 'test_wav/'
    }

    for archive_name, extract_folder in archives.items():
        zip_path = os.path.join(file_path, archive_name)
        extract_path = os.path.join(file_path, extract_folder)
        with zipfile.ZipFile(zip_path, 'r') as zip_ref:
            zip_ref.extractall(extract_path)

extract_archives(file_path)

In [6]:
def read_rttm(rttm_path):
    cols = ['TYPE', 'FILE', 'CHANNEL', 'START', 'DURATION', 'NA1', 'NA2', 'SPEAKER', 'NA3', 'NA4']
    with open(rttm_path, 'r') as f:
        lines = [line.strip().split() for line in f if line.startswith('SPEAKER')]
    df = pd.DataFrame(lines, columns=cols)
    df['START'] = df['START'].astype(float)
    df['DURATION'] = df['DURATION'].astype(float)
    return df

In [7]:
def extract_segments(rttm_dir, wav_dir):
    rttm_files = sorted(glob.glob(os.path.join(rttm_dir, '*.rttm')))
    segments = []

    for rttm_path in tqdm(rttm_files):
        df = read_rttm(rttm_path)
        audio_id = os.path.splitext(os.path.basename(rttm_path))[0]
        audio_path = os.path.join(wav_dir, audio_id + '.wav')
        if not os.path.exists(audio_path):
            continue
        for _, row in df.iterrows():
            segments.append({
                'audio_path': audio_path,
                'start': row['START'],
                'end': row['START'] + row['DURATION'],
                'speaker': row['SPEAKER']
            })

    return pd.DataFrame(segments)


segments_df = extract_segments(
    file_path + 'voxconverse-master/voxconverse-master/dev',
    file_path + 'dev_wav/audio'
)

segments_df_test = extract_segments(
    file_path + 'voxconverse-master/voxconverse-master/test',
    file_path + 'test_wav/voxconverse_test_wav'
)

print(segments_df.head())
print(segments_df_test.head())

100%|███████████████████████████████████████████████████████████████████████████████| 216/216 [00:00<00:00, 442.66it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 232/232 [00:00<00:00, 233.12it/s]

                                 audio_path   start     end speaker
0  C:/Users/Samurai/dev_wav/audio\abjxc.wav    0.40    7.04   spk00
1  C:/Users/Samurai/dev_wav/audio\abjxc.wav    8.68   64.64   spk00
2  C:/Users/Samurai/dev_wav/audio\afjiv.wav   41.12   80.48   spk00
3  C:/Users/Samurai/dev_wav/audio\afjiv.wav  140.64  141.64   spk01
4  C:/Users/Samurai/dev_wav/audio\afjiv.wav  142.20  144.32   spk01
                                          audio_path  start    end speaker
0  C:/Users/Samurai/test_wav/voxconverse_test_wav...   2.50   6.16   spk00
1  C:/Users/Samurai/test_wav/voxconverse_test_wav...   6.20  11.54   spk01
2  C:/Users/Samurai/test_wav/voxconverse_test_wav...  11.68  14.62   spk00
3  C:/Users/Samurai/test_wav/voxconverse_test_wav...  14.96  18.40   spk01
4  C:/Users/Samurai/test_wav/voxconverse_test_wav...  19.09  25.44   spk01





In [8]:
class VoxConverseSegmentDataset(Dataset):
    def __init__(self, segments, segment_duration=3.0, sample_rate=16000):
        self.segments = segments
        self.segment_duration = segment_duration
        self.sample_rate = sample_rate
        self.speaker_to_idx = {s: i for i, s in enumerate(sorted(segments['speaker'].unique()))}

    def __len__(self):
        return len(self.segments)

    def __getitem__(self, idx):
        row = self.segments.iloc[idx]
        speaker_idx = self.speaker_to_idx[row['speaker']]
        audio_segment = self._load_segment(row['audio_path'], row['start'], row['end'])
        return audio_segment, speaker_idx

    def _load_segment(self, audio_path, start, end):
        waveform, sr = torchaudio.load(audio_path)
        if sr != self.sample_rate:
            waveform = torchaudio.functional.resample(waveform, sr, self.sample_rate)

        start_sample = int(start * self.sample_rate)
        end_sample = int(end * self.sample_rate)
        audio_segment = waveform[:, start_sample:end_sample]

        target_len = int(self.segment_duration * self.sample_rate)
        segment_len = audio_segment.shape[1]

        if segment_len < target_len:
            padding = target_len - segment_len
            audio_segment = torch.nn.functional.pad(audio_segment, (0, padding))
        else:
            audio_segment = audio_segment[:, :target_len]

        return audio_segment

In [9]:
dataset = VoxConverseSegmentDataset(segments_df)
loader = DataLoader(dataset, batch_size=4, pin_memory=True, shuffle=True)
batch = next(iter(loader))

In [10]:
BATCH_SIZE = 8

dataset_train = VoxConverseSegmentDataset(segments_df)
train_loader = DataLoader(dataset_train, batch_size=BATCH_SIZE, pin_memory=True, shuffle=True)

dataset_test = VoxConverseSegmentDataset(segments_df_test)
test_loader = DataLoader(dataset_test, batch_size=BATCH_SIZE, pin_memory=True, shuffle=False)


In [11]:
import torch.nn as nn

class SimpleSpeakerClassifier(nn.Module):
    def __init__(self, input_size, num_speakers, hidden_size=512):
        super().__init__()
        self.flatten = nn.Flatten()
        self.classifier = nn.Sequential(
            nn.Linear(input_size, hidden_size),
            nn.ReLU(),
            nn.Linear(hidden_size, num_speakers)
        )

    def forward(self, x):
        x = self.flatten(x)
        return self.classifier(x)

In [12]:
num_speakers = len(dataset_train.speaker_to_idx)
input_size = 16000 * 3 
model = SimpleSpeakerClassifier(input_size=input_size, num_speakers=num_speakers)

In [13]:
import torch.optim as optim

print(f"Dataset size: {len(train_loader.dataset)}")
print(f"Number of batches: {len(train_loader)}")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-3)
criterion = nn.CrossEntropyLoss()
num_epochs = 10

for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0

    for batch_idx, (audio_batch, labels) in enumerate(tqdm(train_loader)):
        audio_batch = audio_batch.to(device).squeeze(1)
        labels = labels.to(device)

        optimizer.zero_grad()
        outputs = model(audio_batch)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if batch_idx % 50 == 0:
            print(f"[Epoch {epoch} | Batch {batch_idx}] Loss: {loss.item():.4f}")

    avg_loss = running_loss / len(train_loader)
    print(f"[Epoch {epoch}] Average Loss: {avg_loss:.4f}")


Dataset size: 8268
Number of batches: 1034


  0%|▏                                                                                | 2/1034 [00:00<03:05,  5.57it/s]

[Epoch 0 | Batch 0] Loss: 2.9799


  5%|████                                                                            | 52/1034 [00:06<01:52,  8.71it/s]

[Epoch 0 | Batch 50] Loss: 2.0770


 10%|███████▊                                                                       | 102/1034 [00:12<01:47,  8.68it/s]

[Epoch 0 | Batch 100] Loss: 3.1024


 15%|███████████▌                                                                   | 152/1034 [00:18<01:47,  8.19it/s]

[Epoch 0 | Batch 150] Loss: 1.7162


 20%|███████████████▍                                                               | 202/1034 [00:24<01:42,  8.12it/s]

[Epoch 0 | Batch 200] Loss: 1.8132


 24%|███████████████████▎                                                           | 252/1034 [00:30<01:24,  9.23it/s]

[Epoch 0 | Batch 250] Loss: 1.8307


 29%|██████████████████████▉                                                        | 301/1034 [00:36<01:30,  8.13it/s]

[Epoch 0 | Batch 300] Loss: 2.3370


 34%|██████████████████████████▉                                                    | 353/1034 [00:41<01:10,  9.62it/s]

[Epoch 0 | Batch 350] Loss: 2.6147


 39%|██████████████████████████████▊                                                | 403/1034 [00:47<01:00, 10.40it/s]

[Epoch 0 | Batch 400] Loss: 2.4182


 44%|██████████████████████████████████▌                                            | 452/1034 [00:52<00:59,  9.77it/s]

[Epoch 0 | Batch 450] Loss: 1.9717


 49%|██████████████████████████████████████▎                                        | 502/1034 [00:58<01:04,  8.21it/s]

[Epoch 0 | Batch 500] Loss: 2.0586


 53%|██████████████████████████████████████████▏                                    | 552/1034 [01:03<00:53,  9.06it/s]

[Epoch 0 | Batch 550] Loss: 2.2046


 58%|█████████████████████████████████████████████▉                                 | 602/1034 [01:09<00:50,  8.54it/s]

[Epoch 0 | Batch 600] Loss: 2.3570


 63%|█████████████████████████████████████████████████▊                             | 652/1034 [01:15<00:43,  8.73it/s]

[Epoch 0 | Batch 650] Loss: 2.0206


 68%|█████████████████████████████████████████████████████▋                         | 702/1034 [01:20<00:31, 10.55it/s]

[Epoch 0 | Batch 700] Loss: 2.3257


 73%|█████████████████████████████████████████████████████████▌                     | 753/1034 [01:26<00:30,  9.30it/s]

[Epoch 0 | Batch 750] Loss: 2.3104


 77%|█████████████████████████████████████████████████████████████▏                 | 801/1034 [01:31<00:22, 10.34it/s]

[Epoch 0 | Batch 800] Loss: 1.7954


 82%|█████████████████████████████████████████████████████████████████              | 852/1034 [01:36<00:21,  8.63it/s]

[Epoch 0 | Batch 850] Loss: 2.1160


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:42<00:15,  8.71it/s]

[Epoch 0 | Batch 900] Loss: 2.3733


 92%|████████████████████████████████████████████████████████████████████████▊      | 953/1034 [01:48<00:08,  9.94it/s]

[Epoch 0 | Batch 950] Loss: 3.5207


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1002/1034 [01:53<00:03,  9.68it/s]

[Epoch 0 | Batch 1000] Loss: 2.6986


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:57<00:00,  8.82it/s]


[Epoch 0] Average Loss: 2.2280


  0%|                                                                                 | 1/1034 [00:00<01:47,  9.65it/s]

[Epoch 1 | Batch 0] Loss: 1.7905


  5%|████                                                                            | 52/1034 [00:05<01:55,  8.52it/s]

[Epoch 1 | Batch 50] Loss: 0.9707


 10%|███████▊                                                                       | 102/1034 [00:11<01:43,  9.00it/s]

[Epoch 1 | Batch 100] Loss: 1.4703


 15%|███████████▌                                                                   | 152/1034 [00:16<01:50,  8.01it/s]

[Epoch 1 | Batch 150] Loss: 2.0588


 20%|███████████████▌                                                               | 203/1034 [00:22<01:24,  9.82it/s]

[Epoch 1 | Batch 200] Loss: 1.2131


 24%|███████████████████▏                                                           | 251/1034 [00:27<01:17, 10.06it/s]

[Epoch 1 | Batch 250] Loss: 1.2018


 29%|███████████████████████▏                                                       | 303/1034 [00:32<01:17,  9.46it/s]

[Epoch 1 | Batch 300] Loss: 0.9227


 34%|██████████████████████████▉                                                    | 352/1034 [00:38<01:27,  7.80it/s]

[Epoch 1 | Batch 350] Loss: 1.2427


 39%|██████████████████████████████▊                                                | 403/1034 [00:43<01:06,  9.54it/s]

[Epoch 1 | Batch 400] Loss: 2.1230


 44%|██████████████████████████████████▌                                            | 452/1034 [00:48<01:05,  8.84it/s]

[Epoch 1 | Batch 450] Loss: 0.8436


 49%|██████████████████████████████████████▎                                        | 502/1034 [00:54<00:58,  9.17it/s]

[Epoch 1 | Batch 500] Loss: 1.0176


 53%|██████████████████████████████████████████                                     | 551/1034 [00:59<00:48, 10.02it/s]

[Epoch 1 | Batch 550] Loss: 1.1709


 58%|█████████████████████████████████████████████▉                                 | 602/1034 [01:05<00:47,  9.07it/s]

[Epoch 1 | Batch 600] Loss: 2.8265


 63%|█████████████████████████████████████████████████▉                             | 653/1034 [01:11<00:42,  8.97it/s]

[Epoch 1 | Batch 650] Loss: 1.7248


 68%|█████████████████████████████████████████████████████▋                         | 702/1034 [01:16<00:31, 10.43it/s]

[Epoch 1 | Batch 700] Loss: 1.4853


 73%|█████████████████████████████████████████████████████████▍                     | 751/1034 [01:21<00:26, 10.85it/s]

[Epoch 1 | Batch 750] Loss: 1.5025


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:27<00:22, 10.20it/s]

[Epoch 1 | Batch 800] Loss: 1.8265


 82%|█████████████████████████████████████████████████████████████████              | 852/1034 [01:32<00:20,  8.94it/s]

[Epoch 1 | Batch 850] Loss: 1.5560


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:38<00:15,  8.40it/s]

[Epoch 1 | Batch 900] Loss: 0.7016


 92%|████████████████████████████████████████████████████████████████████████▋      | 952/1034 [01:43<00:08,  9.28it/s]

[Epoch 1 | Batch 950] Loss: 2.2964


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1002/1034 [01:49<00:03,  9.82it/s]

[Epoch 1 | Batch 1000] Loss: 1.4593


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:52<00:00,  9.19it/s]


[Epoch 1] Average Loss: 1.4934


  0%|                                                                                 | 1/1034 [00:00<01:48,  9.53it/s]

[Epoch 2 | Batch 0] Loss: 0.7704


  5%|████                                                                            | 52/1034 [00:05<01:55,  8.51it/s]

[Epoch 2 | Batch 50] Loss: 0.4616


 10%|███████▊                                                                       | 102/1034 [00:11<02:01,  7.68it/s]

[Epoch 2 | Batch 100] Loss: 0.9178


 15%|███████████▌                                                                   | 152/1034 [00:16<01:43,  8.51it/s]

[Epoch 2 | Batch 150] Loss: 0.5789


 20%|███████████████▍                                                               | 202/1034 [00:22<01:41,  8.16it/s]

[Epoch 2 | Batch 200] Loss: 0.2109


 24%|███████████████████▎                                                           | 253/1034 [00:28<01:19,  9.83it/s]

[Epoch 2 | Batch 250] Loss: 0.6020


 29%|███████████████████████                                                        | 302/1034 [00:34<01:28,  8.31it/s]

[Epoch 2 | Batch 300] Loss: 0.4887


 34%|██████████████████████████▉                                                    | 352/1034 [00:39<01:07, 10.16it/s]

[Epoch 2 | Batch 350] Loss: 0.6408


 39%|██████████████████████████████▋                                                | 402/1034 [00:45<01:06,  9.53it/s]

[Epoch 2 | Batch 400] Loss: 0.1282


 44%|██████████████████████████████████▌                                            | 453/1034 [00:50<00:55, 10.55it/s]

[Epoch 2 | Batch 450] Loss: 0.3649


 49%|██████████████████████████████████████▎                                        | 502/1034 [00:56<01:03,  8.40it/s]

[Epoch 2 | Batch 500] Loss: 0.3899


 53%|██████████████████████████████████████████▏                                    | 552/1034 [01:01<00:55,  8.66it/s]

[Epoch 2 | Batch 550] Loss: 0.3692


 58%|█████████████████████████████████████████████▉                                 | 602/1034 [01:06<00:42, 10.20it/s]

[Epoch 2 | Batch 600] Loss: 0.6713


 63%|█████████████████████████████████████████████████▊                             | 652/1034 [01:12<00:37, 10.06it/s]

[Epoch 2 | Batch 650] Loss: 0.3230


 68%|█████████████████████████████████████████████████████▋                         | 702/1034 [01:17<00:33,  9.99it/s]

[Epoch 2 | Batch 700] Loss: 0.1922


 73%|█████████████████████████████████████████████████████████▍                     | 752/1034 [01:23<00:32,  8.65it/s]

[Epoch 2 | Batch 750] Loss: 0.6467


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:28<00:28,  8.17it/s]

[Epoch 2 | Batch 800] Loss: 0.0785


 82%|█████████████████████████████████████████████████████████████████              | 852/1034 [01:34<00:21,  8.65it/s]

[Epoch 2 | Batch 850] Loss: 0.4427


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:39<00:14,  9.23it/s]

[Epoch 2 | Batch 900] Loss: 0.4212


 92%|████████████████████████████████████████████████████████████████████████▋      | 951/1034 [01:44<00:08,  9.48it/s]

[Epoch 2 | Batch 950] Loss: 0.9292


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1002/1034 [01:50<00:03,  9.56it/s]

[Epoch 2 | Batch 1000] Loss: 0.5828


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:53<00:00,  9.09it/s]


[Epoch 2] Average Loss: 0.5781


  0%|                                                                                 | 1/1034 [00:00<02:43,  6.31it/s]

[Epoch 3 | Batch 0] Loss: 0.4138


  5%|████                                                                            | 53/1034 [00:05<01:43,  9.47it/s]

[Epoch 3 | Batch 50] Loss: 0.2744


 10%|███████▊                                                                       | 102/1034 [00:11<01:48,  8.62it/s]

[Epoch 3 | Batch 100] Loss: 0.0390


 15%|███████████▌                                                                   | 152/1034 [00:16<01:38,  8.97it/s]

[Epoch 3 | Batch 150] Loss: 0.0693


 19%|███████████████▎                                                               | 201/1034 [00:22<01:23, 10.01it/s]

[Epoch 3 | Batch 200] Loss: 0.1820


 24%|███████████████████▎                                                           | 252/1034 [00:27<01:24,  9.21it/s]

[Epoch 3 | Batch 250] Loss: 0.1800


 29%|███████████████████████                                                        | 302/1034 [00:33<01:13,  9.95it/s]

[Epoch 3 | Batch 300] Loss: 0.0360


 34%|██████████████████████████▉                                                    | 353/1034 [00:38<01:15,  9.01it/s]

[Epoch 3 | Batch 350] Loss: 0.1496


 39%|██████████████████████████████▊                                                | 403/1034 [00:44<01:07,  9.35it/s]

[Epoch 3 | Batch 400] Loss: 0.1608


 44%|██████████████████████████████████▌                                            | 452/1034 [00:49<01:02,  9.29it/s]

[Epoch 3 | Batch 450] Loss: 0.3275


 49%|██████████████████████████████████████▍                                        | 503/1034 [00:54<00:51, 10.35it/s]

[Epoch 3 | Batch 500] Loss: 0.0254


 53%|██████████████████████████████████████████▏                                    | 552/1034 [01:00<00:54,  8.81it/s]

[Epoch 3 | Batch 550] Loss: 0.1761


 58%|█████████████████████████████████████████████▉                                 | 602/1034 [01:05<00:42, 10.24it/s]

[Epoch 3 | Batch 600] Loss: 0.1917


 63%|█████████████████████████████████████████████████▊                             | 652/1034 [01:11<00:41,  9.10it/s]

[Epoch 3 | Batch 650] Loss: 0.0932


 68%|█████████████████████████████████████████████████████▋                         | 703/1034 [01:16<00:35,  9.36it/s]

[Epoch 3 | Batch 700] Loss: 0.0971


 73%|█████████████████████████████████████████████████████████▍                     | 752/1034 [01:21<00:31,  8.91it/s]

[Epoch 3 | Batch 750] Loss: 0.2866


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:27<00:26,  8.91it/s]

[Epoch 3 | Batch 800] Loss: 0.1859


 82%|█████████████████████████████████████████████████████████████████              | 852/1034 [01:32<00:18,  9.86it/s]

[Epoch 3 | Batch 850] Loss: 0.2364


 87%|████████████████████████████████████████████████████████████████████▉          | 903/1034 [01:38<00:13, 10.04it/s]

[Epoch 3 | Batch 900] Loss: 0.0930


 92%|████████████████████████████████████████████████████████████████████████▋      | 952/1034 [01:43<00:09,  8.80it/s]

[Epoch 3 | Batch 950] Loss: 0.1419


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1001/1034 [01:48<00:03,  9.69it/s]

[Epoch 3 | Batch 1000] Loss: 0.2323


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:52<00:00,  9.21it/s]


[Epoch 3] Average Loss: 0.2567


  0%|                                                                                 | 1/1034 [00:00<02:37,  6.57it/s]

[Epoch 4 | Batch 0] Loss: 0.1319


  5%|████                                                                            | 53/1034 [00:05<01:50,  8.84it/s]

[Epoch 4 | Batch 50] Loss: 0.0868


 10%|███████▊                                                                       | 102/1034 [00:10<01:45,  8.84it/s]

[Epoch 4 | Batch 100] Loss: 0.1559


 15%|███████████▌                                                                   | 152/1034 [00:16<01:36,  9.13it/s]

[Epoch 4 | Batch 150] Loss: 0.0063


 20%|███████████████▍                                                               | 202/1034 [00:21<01:35,  8.70it/s]

[Epoch 4 | Batch 200] Loss: 0.0574


 24%|███████████████████▏                                                           | 251/1034 [00:26<01:21,  9.60it/s]

[Epoch 4 | Batch 250] Loss: 0.0156


 29%|███████████████████████                                                        | 302/1034 [00:32<01:25,  8.61it/s]

[Epoch 4 | Batch 300] Loss: 0.0359


 34%|██████████████████████████▉                                                    | 352/1034 [00:37<01:09,  9.86it/s]

[Epoch 4 | Batch 350] Loss: 0.0339


 39%|██████████████████████████████▋                                                | 402/1034 [00:43<01:10,  8.92it/s]

[Epoch 4 | Batch 400] Loss: 0.2939


 44%|██████████████████████████████████▌                                            | 452/1034 [00:48<01:04,  9.05it/s]

[Epoch 4 | Batch 450] Loss: 0.4123


 49%|██████████████████████████████████████▎                                        | 502/1034 [00:54<01:05,  8.17it/s]

[Epoch 4 | Batch 500] Loss: 0.7542


 53%|██████████████████████████████████████████▏                                    | 552/1034 [00:59<00:54,  8.93it/s]

[Epoch 4 | Batch 550] Loss: 0.0453


 58%|██████████████████████████████████████████████                                 | 603/1034 [01:05<00:46,  9.36it/s]

[Epoch 4 | Batch 600] Loss: 0.1157


 63%|█████████████████████████████████████████████████▊                             | 652/1034 [01:10<00:44,  8.60it/s]

[Epoch 4 | Batch 650] Loss: 0.7046


 68%|█████████████████████████████████████████████████████▋                         | 703/1034 [01:16<00:35,  9.29it/s]

[Epoch 4 | Batch 700] Loss: 1.5088


 73%|█████████████████████████████████████████████████████████▍                     | 752/1034 [01:21<00:30,  9.26it/s]

[Epoch 4 | Batch 750] Loss: 0.0259


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:27<00:25,  9.11it/s]

[Epoch 4 | Batch 800] Loss: 0.1661


 82%|█████████████████████████████████████████████████████████████████              | 852/1034 [01:32<00:20,  8.84it/s]

[Epoch 4 | Batch 850] Loss: 0.2224


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:37<00:12, 10.16it/s]

[Epoch 4 | Batch 900] Loss: 2.3023


 92%|████████████████████████████████████████████████████████████████████████▋      | 952/1034 [01:43<00:09,  8.77it/s]

[Epoch 4 | Batch 950] Loss: 0.1799


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1002/1034 [01:48<00:03,  9.15it/s]

[Epoch 4 | Batch 1000] Loss: 0.4230


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:52<00:00,  9.21it/s]


[Epoch 4] Average Loss: 0.3307


  0%|▏                                                                                | 2/1034 [00:00<01:40, 10.24it/s]

[Epoch 5 | Batch 0] Loss: 0.1927


  5%|████                                                                            | 52/1034 [00:05<01:51,  8.82it/s]

[Epoch 5 | Batch 50] Loss: 0.4486


 10%|███████▊                                                                       | 102/1034 [00:11<01:46,  8.72it/s]

[Epoch 5 | Batch 100] Loss: 0.0777


 15%|███████████▌                                                                   | 152/1034 [00:16<01:38,  8.94it/s]

[Epoch 5 | Batch 150] Loss: 0.8248


 19%|███████████████▎                                                               | 201/1034 [00:21<01:27,  9.51it/s]

[Epoch 5 | Batch 200] Loss: 0.3349


 24%|███████████████████▎                                                           | 252/1034 [00:27<01:24,  9.28it/s]

[Epoch 5 | Batch 250] Loss: 0.0599


 29%|███████████████████████▏                                                       | 303/1034 [00:32<01:12, 10.05it/s]

[Epoch 5 | Batch 300] Loss: 0.0715


 34%|██████████████████████████▊                                                    | 351/1034 [00:38<01:08,  9.91it/s]

[Epoch 5 | Batch 350] Loss: 0.0537


 39%|██████████████████████████████▋                                                | 402/1034 [00:43<01:07,  9.32it/s]

[Epoch 5 | Batch 400] Loss: 0.0743


 44%|██████████████████████████████████▌                                            | 452/1034 [00:49<01:00,  9.63it/s]

[Epoch 5 | Batch 450] Loss: 0.3459


 49%|██████████████████████████████████████▎                                        | 502/1034 [00:54<00:53,  9.87it/s]

[Epoch 5 | Batch 500] Loss: 0.0308


 53%|██████████████████████████████████████████▏                                    | 552/1034 [00:59<00:51,  9.35it/s]

[Epoch 5 | Batch 550] Loss: 0.3043


 58%|██████████████████████████████████████████████                                 | 603/1034 [01:05<00:44,  9.66it/s]

[Epoch 5 | Batch 600] Loss: 0.0996


 63%|█████████████████████████████████████████████████▊                             | 652/1034 [01:10<00:39,  9.79it/s]

[Epoch 5 | Batch 650] Loss: 0.1965


 68%|█████████████████████████████████████████████████████▋                         | 702/1034 [01:16<00:34,  9.51it/s]

[Epoch 5 | Batch 700] Loss: 0.1648


 73%|█████████████████████████████████████████████████████████▍                     | 751/1034 [01:21<00:33,  8.44it/s]

[Epoch 5 | Batch 750] Loss: 0.0357


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:27<00:26,  8.88it/s]

[Epoch 5 | Batch 800] Loss: 0.1593


 82%|█████████████████████████████████████████████████████████████████              | 852/1034 [01:33<00:17, 10.22it/s]

[Epoch 5 | Batch 850] Loss: 0.0785


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:38<00:14,  9.08it/s]

[Epoch 5 | Batch 900] Loss: 0.2970


 92%|████████████████████████████████████████████████████████████████████████▋      | 952/1034 [01:43<00:10,  7.98it/s]

[Epoch 5 | Batch 950] Loss: 1.4396


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1002/1034 [01:49<00:03,  8.43it/s]

[Epoch 5 | Batch 1000] Loss: 0.0716


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:52<00:00,  9.21it/s]


[Epoch 5] Average Loss: 0.3372


  0%|                                                                                 | 1/1034 [00:00<01:44,  9.89it/s]

[Epoch 6 | Batch 0] Loss: 0.0002


  5%|████                                                                            | 52/1034 [00:05<01:44,  9.41it/s]

[Epoch 6 | Batch 50] Loss: 0.2248


 10%|███████▊                                                                       | 102/1034 [00:10<01:40,  9.29it/s]

[Epoch 6 | Batch 100] Loss: 0.0760


 15%|███████████▌                                                                   | 152/1034 [00:16<01:40,  8.76it/s]

[Epoch 6 | Batch 150] Loss: 0.0455


 20%|███████████████▍                                                               | 202/1034 [00:21<01:34,  8.85it/s]

[Epoch 6 | Batch 200] Loss: 0.0310


 24%|███████████████████▎                                                           | 252/1034 [00:26<01:20,  9.77it/s]

[Epoch 6 | Batch 250] Loss: 0.0030


 29%|███████████████████████                                                        | 302/1034 [00:32<01:42,  7.12it/s]

[Epoch 6 | Batch 300] Loss: 0.0269


 34%|██████████████████████████▉                                                    | 353/1034 [00:38<01:11,  9.48it/s]

[Epoch 6 | Batch 350] Loss: 0.0038


 39%|██████████████████████████████▊                                                | 403/1034 [00:43<01:03,  9.87it/s]

[Epoch 6 | Batch 400] Loss: 0.0306


 44%|██████████████████████████████████▌                                            | 452/1034 [00:49<01:11,  8.15it/s]

[Epoch 6 | Batch 450] Loss: 0.0020


 48%|██████████████████████████████████████▎                                        | 501/1034 [00:54<01:02,  8.54it/s]

[Epoch 6 | Batch 500] Loss: 0.0266


 53%|██████████████████████████████████████████▏                                    | 552/1034 [01:00<00:57,  8.36it/s]

[Epoch 6 | Batch 550] Loss: 0.0506


 58%|█████████████████████████████████████████████▉                                 | 602/1034 [01:05<00:45,  9.40it/s]

[Epoch 6 | Batch 600] Loss: 0.0562


 63%|█████████████████████████████████████████████████▉                             | 653/1034 [01:11<00:36, 10.55it/s]

[Epoch 6 | Batch 650] Loss: 0.0119


 68%|█████████████████████████████████████████████████████▋                         | 702/1034 [01:16<00:37,  8.81it/s]

[Epoch 6 | Batch 700] Loss: 0.1786


 73%|█████████████████████████████████████████████████████████▍                     | 752/1034 [01:21<00:28,  9.95it/s]

[Epoch 6 | Batch 750] Loss: 0.0002


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:27<00:29,  7.94it/s]

[Epoch 6 | Batch 800] Loss: 0.0301


 82%|█████████████████████████████████████████████████████████████████              | 852/1034 [01:33<00:20,  9.09it/s]

[Epoch 6 | Batch 850] Loss: 0.0570


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:38<00:14,  9.08it/s]

[Epoch 6 | Batch 900] Loss: 0.0121


 92%|████████████████████████████████████████████████████████████████████████▊      | 953/1034 [01:43<00:08,  9.91it/s]

[Epoch 6 | Batch 950] Loss: 0.1533


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1002/1034 [01:48<00:03,  9.50it/s]

[Epoch 6 | Batch 1000] Loss: 0.0835


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:52<00:00,  9.23it/s]


[Epoch 6] Average Loss: 0.1662


  0%|▏                                                                                | 2/1034 [00:00<01:40, 10.28it/s]

[Epoch 7 | Batch 0] Loss: 0.0061


  5%|████                                                                            | 53/1034 [00:05<01:36, 10.15it/s]

[Epoch 7 | Batch 50] Loss: 0.1149


 10%|███████▊                                                                       | 103/1034 [00:10<01:34,  9.86it/s]

[Epoch 7 | Batch 100] Loss: 0.1700


 15%|███████████▌                                                                   | 152/1034 [00:15<01:26, 10.25it/s]

[Epoch 7 | Batch 150] Loss: 0.0007


 20%|███████████████▍                                                               | 202/1034 [00:20<01:26,  9.58it/s]

[Epoch 7 | Batch 200] Loss: 0.0121


 24%|███████████████████▎                                                           | 252/1034 [00:26<01:18, 10.02it/s]

[Epoch 7 | Batch 250] Loss: 0.0085


 29%|███████████████████████                                                        | 302/1034 [00:31<01:19,  9.23it/s]

[Epoch 7 | Batch 300] Loss: 0.0004


 34%|██████████████████████████▉                                                    | 353/1034 [00:36<01:08,  9.94it/s]

[Epoch 7 | Batch 350] Loss: 0.0368


 39%|██████████████████████████████▋                                                | 401/1034 [00:42<01:02, 10.18it/s]

[Epoch 7 | Batch 400] Loss: 0.0476


 44%|██████████████████████████████████▌                                            | 452/1034 [00:47<01:02,  9.34it/s]

[Epoch 7 | Batch 450] Loss: 0.1796


 49%|██████████████████████████████████████▎                                        | 502/1034 [00:52<00:50, 10.51it/s]

[Epoch 7 | Batch 500] Loss: 0.0131


 53%|██████████████████████████████████████████▎                                    | 553/1034 [00:58<00:51,  9.36it/s]

[Epoch 7 | Batch 550] Loss: 0.0223


 58%|█████████████████████████████████████████████▉                                 | 602/1034 [01:04<00:49,  8.75it/s]

[Epoch 7 | Batch 600] Loss: 0.0646


 63%|█████████████████████████████████████████████████▉                             | 653/1034 [01:09<00:39,  9.72it/s]

[Epoch 7 | Batch 650] Loss: 1.4117


 68%|█████████████████████████████████████████████████████▋                         | 702/1034 [01:15<00:38,  8.54it/s]

[Epoch 7 | Batch 700] Loss: 0.0282


 73%|█████████████████████████████████████████████████████████▌                     | 753/1034 [01:20<00:28,  9.99it/s]

[Epoch 7 | Batch 750] Loss: 0.0396


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:26<00:25,  9.15it/s]

[Epoch 7 | Batch 800] Loss: 0.0502


 82%|█████████████████████████████████████████████████████████████████▏             | 853/1034 [01:32<00:16, 10.73it/s]

[Epoch 7 | Batch 850] Loss: 0.1740


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:37<00:15,  8.79it/s]

[Epoch 7 | Batch 900] Loss: 0.0068


 92%|████████████████████████████████████████████████████████████████████████▋      | 952/1034 [01:42<00:09,  8.67it/s]

[Epoch 7 | Batch 950] Loss: 0.0351


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1002/1034 [01:48<00:03,  9.13it/s]

[Epoch 7 | Batch 1000] Loss: 0.0478


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:51<00:00,  9.25it/s]


[Epoch 7] Average Loss: 0.1534


  0%|                                                                                         | 0/1034 [00:00<?, ?it/s]

[Epoch 8 | Batch 0] Loss: 0.0022


  5%|████                                                                            | 52/1034 [00:05<01:50,  8.87it/s]

[Epoch 8 | Batch 50] Loss: 0.0076


 10%|███████▊                                                                       | 102/1034 [00:11<01:44,  8.91it/s]

[Epoch 8 | Batch 100] Loss: 0.0550


 15%|███████████▌                                                                   | 152/1034 [00:16<01:28,  9.96it/s]

[Epoch 8 | Batch 150] Loss: 0.0316


 20%|███████████████▍                                                               | 202/1034 [00:21<01:27,  9.47it/s]

[Epoch 8 | Batch 200] Loss: 0.0761


 24%|███████████████████▎                                                           | 252/1034 [00:27<01:25,  9.10it/s]

[Epoch 8 | Batch 250] Loss: 0.0883


 29%|███████████████████████                                                        | 302/1034 [00:32<01:19,  9.16it/s]

[Epoch 8 | Batch 300] Loss: 0.0120


 34%|██████████████████████████▉                                                    | 352/1034 [00:38<01:17,  8.80it/s]

[Epoch 8 | Batch 350] Loss: 0.0094


 39%|██████████████████████████████▋                                                | 402/1034 [00:43<01:06,  9.51it/s]

[Epoch 8 | Batch 400] Loss: 0.1163


 44%|██████████████████████████████████▌                                            | 453/1034 [00:49<00:59,  9.71it/s]

[Epoch 8 | Batch 450] Loss: 0.0005


 49%|██████████████████████████████████████▎                                        | 502/1034 [00:54<00:55,  9.51it/s]

[Epoch 8 | Batch 500] Loss: 1.6824


 53%|██████████████████████████████████████████▎                                    | 553/1034 [01:00<00:48,  9.94it/s]

[Epoch 8 | Batch 550] Loss: 0.0825


 58%|█████████████████████████████████████████████▉                                 | 602/1034 [01:05<00:48,  8.99it/s]

[Epoch 8 | Batch 600] Loss: 0.0035


 63%|█████████████████████████████████████████████████▉                             | 653/1034 [01:10<00:38,  9.85it/s]

[Epoch 8 | Batch 650] Loss: 0.0248


 68%|█████████████████████████████████████████████████████▋                         | 703/1034 [01:16<00:33,  9.75it/s]

[Epoch 8 | Batch 700] Loss: 0.0987


 73%|█████████████████████████████████████████████████████████▍                     | 752/1034 [01:21<00:28,  9.79it/s]

[Epoch 8 | Batch 750] Loss: 0.1025


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:26<00:24,  9.54it/s]

[Epoch 8 | Batch 800] Loss: 0.0186


 82%|█████████████████████████████████████████████████████████████████              | 852/1034 [01:31<00:21,  8.64it/s]

[Epoch 8 | Batch 850] Loss: 1.9988


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:37<00:12, 10.29it/s]

[Epoch 8 | Batch 900] Loss: 0.4988


 92%|████████████████████████████████████████████████████████████████████████▋      | 952/1034 [01:42<00:09,  8.65it/s]

[Epoch 8 | Batch 950] Loss: 0.1104


 97%|███████████████████████████████████████████████████████████████████████████▋  | 1003/1034 [01:47<00:03,  9.87it/s]

[Epoch 8 | Batch 1000] Loss: 0.1279


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:51<00:00,  9.30it/s]


[Epoch 8] Average Loss: 0.1658


  0%|                                                                                 | 1/1034 [00:00<01:43,  9.99it/s]

[Epoch 9 | Batch 0] Loss: 0.7814


  5%|████                                                                            | 52/1034 [00:05<01:54,  8.61it/s]

[Epoch 9 | Batch 50] Loss: 0.5389


 10%|███████▋                                                                       | 101/1034 [00:10<01:47,  8.65it/s]

[Epoch 9 | Batch 100] Loss: 0.1872


 15%|███████████▌                                                                   | 151/1034 [00:16<01:24, 10.40it/s]

[Epoch 9 | Batch 150] Loss: 0.0091


 20%|███████████████▌                                                               | 203/1034 [00:21<01:20, 10.26it/s]

[Epoch 9 | Batch 200] Loss: 0.2487


 24%|███████████████████▎                                                           | 253/1034 [00:26<01:08, 11.38it/s]

[Epoch 9 | Batch 250] Loss: 0.0146


 29%|███████████████████████▏                                                       | 303/1034 [00:32<01:11, 10.26it/s]

[Epoch 9 | Batch 300] Loss: 0.0022


 34%|██████████████████████████▉                                                    | 353/1034 [00:37<01:06, 10.30it/s]

[Epoch 9 | Batch 350] Loss: 0.0498


 39%|██████████████████████████████▊                                                | 403/1034 [00:42<01:02, 10.03it/s]

[Epoch 9 | Batch 400] Loss: 0.2636


 44%|██████████████████████████████████▌                                            | 452/1034 [00:47<01:04,  9.00it/s]

[Epoch 9 | Batch 450] Loss: 0.0028


 49%|██████████████████████████████████████▎                                        | 502/1034 [00:53<00:46, 11.49it/s]

[Epoch 9 | Batch 500] Loss: 0.2601


 53%|██████████████████████████████████████████▎                                    | 553/1034 [00:58<00:48,  9.91it/s]

[Epoch 9 | Batch 550] Loss: 0.0099


 58%|█████████████████████████████████████████████▉                                 | 602/1034 [01:03<00:42, 10.24it/s]

[Epoch 9 | Batch 600] Loss: 1.5013


 63%|█████████████████████████████████████████████████▊                             | 652/1034 [01:08<00:40,  9.37it/s]

[Epoch 9 | Batch 650] Loss: 0.0532


 68%|█████████████████████████████████████████████████████▋                         | 702/1034 [01:14<00:36,  8.99it/s]

[Epoch 9 | Batch 700] Loss: 0.1246


 73%|█████████████████████████████████████████████████████████▌                     | 753/1034 [01:19<00:28,  9.70it/s]

[Epoch 9 | Batch 750] Loss: 0.1975


 78%|█████████████████████████████████████████████████████████████▎                 | 802/1034 [01:24<00:25,  9.12it/s]

[Epoch 9 | Batch 800] Loss: 0.0095


 82%|█████████████████████████████████████████████████████████████████              | 851/1034 [01:29<00:19,  9.22it/s]

[Epoch 9 | Batch 850] Loss: 0.0504


 87%|████████████████████████████████████████████████████████████████████▉          | 902/1034 [01:35<00:15,  8.78it/s]

[Epoch 9 | Batch 900] Loss: 0.5254


 92%|████████████████████████████████████████████████████████████████████████▊      | 953/1034 [01:40<00:07, 10.20it/s]

[Epoch 9 | Batch 950] Loss: 0.5582


 97%|███████████████████████████████████████████████████████████████████████████▌  | 1002/1034 [01:46<00:03,  9.11it/s]

[Epoch 9 | Batch 1000] Loss: 0.0103


100%|██████████████████████████████████████████████████████████████████████████████| 1034/1034 [01:49<00:00,  9.45it/s]


[Epoch 9] Average Loss: 0.1822


In [14]:
torch.save(model.state_dict(), 'speaker_model.pth')

In [15]:
model.eval()
total_samples = 0
correct_predictions = 0

with torch.no_grad():
    for audio_batch, labels in tqdm(test_loader):
        audio_batch = audio_batch.to(device).squeeze(1)
        labels = labels.to(device)

        outputs = model(audio_batch)
        predictions = outputs.argmax(dim=1)
        correct_predictions += (predictions == labels).sum().item()
        total_samples += labels.size(0)

accuracy = correct_predictions / total_samples if total_samples > 0 else 0.0
print(f"Test Accuracy: {accuracy:.4f}")

100%|██████████████████████████████████████████████████████████████████████████████| 2435/2435 [07:03<00:00,  5.75it/s]

Test Accuracy: 0.1914





In [16]:
# Основні результати та досягнення
# Завантажуємо датасет VoxConverse
# Підтримка для GPU
# Окремі набори для тренування, валідації та тестування 
# Побудували нейронну мережну для розпізнавання мовців по голосу