# Implementacja CNN VGG16 dla klasyfikacji emocji z danych audio

## Implementacja i analiza 

Ten notebook przedstawia implementacjƒô g≈Çƒôbokiej sieci neuronowej bazujƒÖcej na architekturze VGG16 do rozpoznawania emocji z nagra≈Ñ g≈Çosowych. W projekcie wykorzystujemy reprezentacjƒô nagra≈Ñ audio w formie mel-spektrogram√≥w, kt√≥re sƒÖ nastƒôpnie analizowane przez sieƒá konwolucyjnƒÖ.

### Architektura VGG16

VGG16 (Visual Geometry Group 16) to g≈Çƒôboka sieƒá konwolucyjna sk≈ÇadajƒÖca siƒô z 16 warstw z wagami, opracowana przez Karen Simonyan i Andrew Zissermana z Uniwersytetu Oksfordzkiego. Wyr√≥≈ºnia siƒô:

- **StrukturƒÖ sekwencyjnƒÖ**: 13 warstw konwolucyjnych i 3 warstwy w pe≈Çni po≈ÇƒÖczone
- **Prostym i jednorodnym designem**: Wykorzystanie ma≈Çych filtr√≥w konwolucyjnych (3x3) przez ca≈ÇƒÖ sieƒá
- **G≈Çƒôboko≈õciƒÖ**: Sekwencja warstw z rosnƒÖcƒÖ liczbƒÖ filtr√≥w (64-512)
- **Zastosowaniem max-poolingu**: Redukcja wymiarowo≈õci przy zachowaniu istotnych cech

W tym projekcie adaptujemy architekturƒô VGG16 do rozpoznawania wzorc√≥w w spektrogramach audio reprezentujƒÖcych r√≥≈ºne emocje w g≈Çosie. Wykorzystujemy istniejƒÖcƒÖ implementacjƒô architektury VGG16 z biblioteki torchvision, z odpowiednimi modyfikacjami warstw, kt√≥re dostosowujƒÖ model do naszego zadania klasyfikacji emocji.

### Mel-spektrogramy jako reprezentacja danych audio

Zamiast bezpo≈õredniej analizy surowego sygna≈Çu audio, przekszta≈Çcamy nagrania do mel-spektrogram√≥w, co pozwala na:

- **Wizualizacjƒô d≈∫wiƒôku**: Dwuwymiarowa reprezentacja, gdzie:
  - O≈õ pozioma reprezentuje czas
  - O≈õ pionowa reprezentuje czƒôstotliwo≈õci w skali mel (lepiej odpowiadajƒÖcej ludzkiemu s≈Çyszeniu)
  - Intensywno≈õƒá kolor√≥w odzwierciedla energiƒô w danym pa≈õmie czƒôstotliwo≈õci

- **Wydobycie cech charakterystycznych dla emocji**:
  - Wzorce intonacji i modulacji g≈Çosu
  - Charakterystyczne sygnatury czƒôstotliwo≈õciowe dla r√≥≈ºnych stan√≥w emocjonalnych
  - Zmiany w dynamice i barwie g≈Çosu

Ta reprezentacja umo≈ºliwia wykorzystanie architektury CNN (standardowo u≈ºywanej do analizy obraz√≥w) do efektywnej analizy wzorc√≥w d≈∫wiƒôkowych odpowiadajƒÖcych r√≥≈ºnym emocjom.

### Modu≈Çy pomocnicze

W implementacji wykorzystujemy nastƒôpujƒÖce modu≈Çy pomocnicze:

##### `helpers/data.py`
- `load_nemo_dataset()`: Funkcja ≈ÇadujƒÖca zbi√≥r danych NeMo Emotion Dataset
- `prepare_data()`: Przetwarza dane audio do mel-spektrogram√≥w i dzieli je na zbiory treningowy, walidacyjny i testowy
- `predict_emotion()`: Umo≈ºliwia klasyfikacjƒô emocji dla nowych nagra≈Ñ audio

##### `helpers/VGG16_definition.py`
- `build_vgg16_model()`: Tworzy model VGG16 dostosowany do klasyfikacji audio
- `train_model()`: Implementuje proces trenowania modelu z zapisem historii
- `save_model()`: Zapisuje wytrenowany model do p√≥≈∫niejszego wykorzystania

##### `helpers/utils.py`
- `evaluate_model()`: Generuje metryki oceny modelu oraz macierz pomy≈Çek
- `plot_training_history()`: Wizualizuje przebieg treningu (dok≈Çadno≈õƒá i stratƒô)

##### `config.py`
Zawiera globalne parametry konfiguracyjne projektu:
- Parametry uczenia (LEARNING_RATE, BATCH_SIZE, EPOCHS)
- Liczba klas emocji (NUM_CLASSES)
- Parametry ekstrakcji cech audio

## 1. Ustawienia ≈õrodowiska i importy

In [8]:
import sys
import os

# Dodaj katalog g≈Ç√≥wny projektu do sys.path
current_dir = (
    os.path.dirname(os.path.abspath(__file__))
    if "__file__" in globals()
    else os.getcwd()
)
project_root = os.path.abspath(os.path.join(current_dir, "..", ".."))

if project_root not in sys.path:
    sys.path.insert(0, project_root)

print(f"Katalog g≈Ç√≥wny projektu: {project_root}")
print(f"Czy katalog src istnieje: {os.path.exists(os.path.join(project_root, 'src'))}")

import warnings

warnings.filterwarnings("ignore")

# Importowanie bibliotek
from tqdm import tqdm

# Importowanie PyTorch
import torch
from torch.utils.data import TensorDataset, DataLoader


# Importowanie konfiguracji
from src.config import (
    VGG16_BATCH_SIZE as BATCH_SIZE,
    VGG16_EPOCHS as EPOCHS,
    VGG16_LEARNING_RATE as LEARNING_RATE,
    VGG16_NUM_CLASSES as NUM_CLASSES,
    VGG16_MODEL_DIR,
)

# Podmiana tqdm w module vgg16_data
import src.helpers.vgg16_data

src.helpers.vgg16_data.tqdm = tqdm

# Importowanie stworzonych modu≈Ç√≥w
from src.helpers.vgg16_data import load_nemo_dataset, prepare_data
from src.helpers.VGG16_definition import build_vgg16_model, train_model, save_model
from src.helpers.vgg16_utils import evaluate_model, plot_training_history

In [None]:
# Sprawdzenie i konfiguracja dostƒôpno≈õci GPU
print("Sprawdzanie dostƒôpno≈õci GPU...")
if torch.cuda.is_available():
    device = torch.device("cuda")
    current_device = torch.cuda.current_device()
    print(
        f"‚úÖ GPU zosta≈Ço poprawnie skonfigurowane: {torch.cuda.get_device_name(current_device)}"
    )

    # Wy≈õwietlenie informacji o pamiƒôci GPU
    print(f"   U≈ºywana karta: {torch.cuda.get_device_name(0)}")
    print(
        f"   Ca≈Çkowita pamiƒôƒá: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB"
    )
    print(f"   Architektura: {torch.cuda.get_device_capability(0)}")


else:
    device = torch.device("cpu")
    print("‚ùå Brak dostƒôpnego GPU z obs≈ÇugƒÖ CUDA. U≈ºywanie CPU...")

## 2. ≈Åadowanie i przygotowanie danych

In [None]:
print("üìÇ Rozpoczynam ≈Çadowanie i przygotowanie danych...")
try:
    dataset = load_nemo_dataset()

    # Przygotowanie danych - usuniƒôto for_torch=True, je≈õli wywo≈Çuje b≈ÇƒÖd
    X_train, X_val, X_test, y_train, y_val, y_test = prepare_data(dataset)

    # Konwersja danych do format√≥w PyTorch
    print("üîÑ Konwersja danych do formatu PyTorch...")
    X_train_tensor = torch.FloatTensor(X_train).permute(
        0, 3, 1, 2
    )  # [batch, channels, height, width]
    X_val_tensor = torch.FloatTensor(X_val).permute(0, 3, 1, 2)
    X_test_tensor = torch.FloatTensor(X_test).permute(0, 3, 1, 2)

    y_train_tensor = torch.LongTensor(y_train)
    y_val_tensor = torch.LongTensor(y_val)
    y_test_tensor = torch.LongTensor(y_test)

    # Tworzenie DataLoader√≥w
    print("üîÑ Tworzenie DataLoader√≥w...")
    train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
    val_dataset = TensorDataset(X_val_tensor, y_val_tensor)
    test_dataset = TensorDataset(X_test_tensor, y_test_tensor)

    train_loader = DataLoader(
        train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=2
    )
    val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, num_workers=2)
    test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, num_workers=2)

    # Podsumowanie danych
    print("‚úÖ Dane zosta≈Çy pomy≈õlnie przygotowane:")
    print(
        f"   ‚ñ™ Zbi√≥r treningowy: {X_train_tensor.shape[0]} pr√≥bek, kszta≈Çt: {X_train_tensor.shape}"
    )
    print(
        f"   ‚ñ™ Zbi√≥r walidacyjny: {X_val_tensor.shape[0]} pr√≥bek, kszta≈Çt: {X_val_tensor.shape}"
    )
    print(
        f"   ‚ñ™ Zbi√≥r testowy: {X_test_tensor.shape[0]} pr√≥bek, kszta≈Çt: {X_test_tensor.shape}"
    )
    print(f"   ‚ñ™ Batch size: {BATCH_SIZE}")
except Exception as e:
    print(f"‚ùå WystƒÖpi≈Ç b≈ÇƒÖd podczas przygotowywania danych: {str(e)}")
    import traceback

    traceback.print_exc()

## 3.  Budowa i trenowanie modelu

In [None]:
try:
    print("üîÑ Budowanie modelu VGG16...")
    model = build_vgg16_model(num_classes=NUM_CLASSES)
    model = model.to(device)
    print(model)

    # Trenowanie modelu
    print("üöÄ Rozpoczynam trenowanie modelu...")
    model, history = train_model(
        model,
        train_loader,
        val_loader,
        device,
        epochs=EPOCHS,
        learning_rate=LEARNING_RATE,
    )
    print("‚úÖ Trenowanie zako≈Ñczone!")
except Exception as e:
    print(f"‚ùå WystƒÖpi≈Ç b≈ÇƒÖd podczas trenowania modelu: {str(e)}")
    import traceback

    traceback.print_exc()

## 4. Ewaluacja modelu

In [None]:
try:
    print("üîç Ewaluacja modelu na zbiorze testowym...")

    # Definiujemy folder zapisu - u≈ºywamy zmiennej z config
    save_dir = VGG16_MODEL_DIR

    # Ewaluacja modelu z zapisem znormalizowanej macierzy pomy≈Çek
    test_acc, test_loss, confusion_matrix = evaluate_model(
        model, test_loader, device, save_dir=save_dir, normalize=True
    )

    # Wizualizacja wynik√≥w historii treningu
    print("üìä Wizualizacja wynik√≥w trenowania...")
    plot_training_history(history, save_dir=save_dir)

    print(f"‚úÖ Wykresy i macierz pomy≈Çek zapisane w katalogu: {save_dir}")

except Exception as e:
    print(f"‚ùå WystƒÖpi≈Ç b≈ÇƒÖd podczas ewaluacji modelu: {str(e)}")
    import traceback

    traceback.print_exc()

## 5. Zapisanie modelu

In [15]:
try:
    print("üíæ Zapisywanie modelu...")

    # U≈ºyj funkcji save_model z helpers, kt√≥ra automatycznie u≈ºywa VGG16_MODEL_DIR
    save_model(model, history, "best_model_vgg16.pt")

    print("‚úÖ Model zosta≈Ç pomy≈õlnie zapisany!")
except Exception as e:
    print(f"‚ùå B≈ÇƒÖd podczas zapisywania: {str(e)}")

üíæ Zapisywanie modelu...
‚úÖ Model zosta≈Ç pomy≈õlnie zapisany!
