# Analiza zbior√≥w danych z emocjami

Ten notatnik pobiera i analizuje dwa zbiory danych:
- **AffectNet** - zbi√≥r obraz√≥w z emocjami
- **Emotion** - zbi√≥r tekstowy z emocjami

Celem jest por√≥wnanie i analiza emocji w obu zbiorach.

## 1. Instalacja bibliotek

In [None]:
!pip install kagglehub datasets matplotlib pillow

## 2. Pobranie zbioru AffectNet

Pobieramy **AffectNet** z Kaggle u≈ºywajƒÖc `kagglehub`. Zbi√≥r zawiera ~450,000 zdjƒôƒá twarzy z 8 kategoriami emocji zebranych z internetu.

In [None]:
import kagglehub

path = kagglehub.dataset_download("mstjebashazida/affectnet")

print("≈öcie≈ºka do plik√≥w zbioru AffectNet:", path)

## 3. Pobranie zbioru Emotion (dla modelu Transformer)

Pobieramy **Emotion Dataset** z Hugging Face - zawiera 20,000 tweet√≥w w jƒôzyku angielskim z 6 kategoriami emocji. Idealny do trenowania modeli Transformer (BERT, DistilBERT, RoBERTa).

In [None]:
from datasets import load_dataset

emotions = load_dataset("dair-ai/emotion")

print("Zbi√≥r Emotion zosta≈Ç pobrany pomy≈õlnie!")

## 4. Wczytanie i eksploracja AffectNet

Sprawdzamy pe≈ÇnƒÖ strukturƒô katalog√≥w, listƒô podfolder√≥w i liczbƒô plik√≥w. 
**Cel:** Zrozumieƒá organizacjƒô danych (Train/Test/emotion_folders) przed dalszƒÖ analizƒÖ.

In [None]:
import os
from pathlib import Path

print("Zawarto≈õƒá katalogu AffectNet:")
print("="*60)

for root, dirs, files in os.walk(path):
    level = root.replace(path, '').count(os.sep)
    indent = ' ' * 2 * level
    print(f'{indent}{os.path.basename(root)}/')
    
    if dirs:
        subindent = ' ' * 2 * (level + 1)
        print(f'{subindent}Foldery: {dirs}')
    
    if files:
        subindent = ' ' * 2 * (level + 1)
        print(f'{subindent}Liczba plik√≥w: {len(files)}')
        for file in files[:3]:
            print(f'{subindent}  {file}')

print("\n" + "="*60)
print(f"≈öcie≈ºka bazowa: {path}")

## 5. Wy≈õwietlenie przyk≈Çadowych zdjƒôƒá z AffectNet

Wizualizacja 6 losowych zdjƒôƒá do sprawdzenia jako≈õci i r√≥≈ºnorodno≈õci danych.
**Metoda:** Rekursywne wyszukiwanie wszystkich plik√≥w graficznych (jpg, jpeg, png) w ca≈Çym katalogu.

In [None]:
from PIL import Image
import matplotlib.pyplot as plt
import glob

image_files = []
for ext in ['*.jpg', '*.jpeg', '*.png']:
    image_files.extend(glob.glob(os.path.join(path, '**', ext), recursive=True))

fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.ravel()

for i in range(min(6, len(image_files))):
    img = Image.open(image_files[i])
    axes[i].imshow(img)
    axes[i].axis('off')
    axes[i].set_title(f'Obraz {i+1}')

plt.tight_layout()
plt.show()

print(f"\nZnaleziono {len(image_files)} obraz√≥w w zbiorze AffectNet")

## 6. Analiza rozk≈Çadu emocji w AffectNet

Zliczamy obrazy wed≈Çug kategorii emocji na podstawie struktury folder√≥w.
**Jak to dzia≈Ça:** Ka≈ºda emocja ma osobny folder (np. `happy/`, `sad/`), wiƒôc analizujemy ≈õcie≈ºki plik√≥w i rozpoznajemy emocjƒô z nazwy folderu.

In [None]:
from collections import Counter

affectnet_emotions = {
    'neutral': 'Neutralny',
    'happy': 'Szczƒô≈õcie',
    'sad': 'Smutek',
    'surprise': 'Zaskoczenie',
    'fear': 'Strach',
    'disgust': 'Wstrƒôt',
    'anger': 'Z≈Ço≈õƒá',
    'contempt': 'Pogarda'
}

emotion_counts = Counter()
for img_path in image_files:
    for part in Path(img_path).parts:
        if part.lower() in affectnet_emotions:
            emotion_counts[affectnet_emotions[part.lower()]] += 1
            break

plt.figure(figsize=(14, 7))
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A', '#98D8C8', '#F7DC6F', '#BB8FCE', '#85C1E2']
plt.bar(emotion_counts.keys(), emotion_counts.values(), color=colors, edgecolor='black', linewidth=1.5)
plt.xlabel('Emocja', fontsize=13, fontweight='bold')
plt.ylabel('Liczba obraz√≥w', fontsize=13, fontweight='bold')
plt.title('Rozk≈Çad emocji w zbiorze AffectNet', fontsize=15, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("="*60)
print("STATYSTYKI AFFECTNET")
print("="*60)
total = sum(emotion_counts.values())
for emotion, count in sorted(emotion_counts.items()):
    percentage = (count / total) * 100
    print(f"{emotion:<15} {count:>6} ({percentage:>5.1f}%)")
print("-"*60)
print(f"{'≈ÅƒÑCZNIE':<15} {total:>6} (100.0%)")
print("="*60)

## 7. Wczytanie i eksploracja zbioru Emotion

Wy≈õwietlamy podstawowe informacje: strukturƒô zbioru, podzia≈Ç na train/validation/test oraz przyk≈Çadowe teksty z etykietami.
**Etykiety:** Emocje sƒÖ reprezentowane jako liczby 0-5, kt√≥re zaraz zmapujemy na czytelne nazwy.

In [None]:
print("Struktura zbioru Emotion:")
print(emotions)
print("\n" + "="*50 + "\n")

print("Podzia≈Ç zbioru:")
for split in emotions.keys():
    print(f"  {split}: {len(emotions[split])} przyk≈Çad√≥w")

print("\n" + "="*50 + "\n")

print("Przyk≈Çadowe dane ze zbioru treningowego:")
for i in range(3):
    print(f"\nPrzyk≈Çad {i+1}:")
    print(f"  Tekst: {emotions['train'][i]['text']}")
    print(f"  Emocja: {emotions['train'][i]['label']}")

## 8. Analiza rozk≈Çadu emocji w zbiorze tekstowym

Mapujemy numeryczne etykiety (0-5) na polskie nazwy emocji, zliczamy wystƒÖpienia i tworzymy wykres rozk≈Çadu.
**Dlaczego mapowanie:** Liczby sƒÖ nieczytelne dla cz≈Çowieka, nazwy emocji u≈ÇatwiajƒÖ interpretacjƒô wynik√≥w.

In [None]:
from collections import Counter

emotion_labels = {
    0: 'Smutek',
    1: 'Rado≈õƒá',
    2: 'Mi≈Ço≈õƒá',
    3: 'Z≈Ço≈õƒá',
    4: 'Strach',
    5: 'Zaskoczenie'
}

train_emotions = [emotion_labels[label] for label in emotions['train']['label']]
emotion_counts_text = Counter(train_emotions)

plt.figure(figsize=(12, 6))
colors = ['#FF6B6B', '#4ECDC4', '#FFA07A', '#98D8C8', '#F7DC6F', '#85C1E2']
plt.bar(emotion_counts_text.keys(), emotion_counts_text.values(), color=colors, edgecolor='black', linewidth=1.5)
plt.xlabel('Emocja', fontsize=13, fontweight='bold')
plt.ylabel('Liczba przyk≈Çad√≥w', fontsize=13, fontweight='bold')
plt.title('Rozk≈Çad emocji w zbiorze tekstowym Emotion', fontsize=15, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print("="*60)
print("STATYSTYKI EMOTION DATASET")
print("="*60)
total = len(emotions['train'])
for emotion, count in sorted(emotion_counts_text.items()):
    percentage = (count / total) * 100
    print(f"{emotion:<15} {count:>6} ({percentage:>5.1f}%)")
print("-"*60)
print(f"{'≈ÅƒÑCZNIE':<15} {total:>6} (100.0%)")
print("="*60)

## 9. Por√≥wnanie emocji miƒôdzy zbiorami

Mapujemy emocje z obu zbior√≥w na 5 wsp√≥lnych kategorii i por√≥wnujemy je side-by-side.
**Kluczowe:** "Rado≈õƒá" i "Mi≈Ço≈õƒá" z tekstu ≈ÇƒÖczymy w "Szczƒô≈õcie", poniewa≈º obie sƒÖ pozytywne i odpowiadajƒÖ kategorii "Happy" z AffectNet.

In [None]:
emotion_mapping = {
    'AffectNet': {
        'Szczƒô≈õcie': emotion_counts.get('Szczƒô≈õcie', 0),
        'Smutek': emotion_counts.get('Smutek', 0),
        'Z≈Ço≈õƒá': emotion_counts.get('Z≈Ço≈õƒá', 0),
        'Strach': emotion_counts.get('Strach', 0),
        'Zaskoczenie': emotion_counts.get('Zaskoczenie', 0)
    },
    'Emotion': {
        'Szczƒô≈õcie': emotion_counts_text.get('Rado≈õƒá', 0) + emotion_counts_text.get('Mi≈Ço≈õƒá', 0),
        'Smutek': emotion_counts_text.get('Smutek', 0),
        'Z≈Ço≈õƒá': emotion_counts_text.get('Z≈Ço≈õƒá', 0),
        'Strach': emotion_counts_text.get('Strach', 0),
        'Zaskoczenie': emotion_counts_text.get('Zaskoczenie', 0)
    }
}

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
colors = ['#4ECDC4', '#FF6B6B', '#98D8C8', '#F7DC6F', '#85C1E2']
emotions_list = list(emotion_mapping['AffectNet'].keys())

values_affectnet = list(emotion_mapping['AffectNet'].values())
ax1.bar(emotions_list, values_affectnet, color=colors, edgecolor='black', linewidth=1.5)
ax1.set_xlabel('Emocja', fontsize=13, fontweight='bold')
ax1.set_ylabel('Liczba przyk≈Çad√≥w', fontsize=13, fontweight='bold')
ax1.set_title('AffectNet (obrazy)', fontsize=15, fontweight='bold')
ax1.tick_params(axis='x', rotation=45)
ax1.grid(axis='y', alpha=0.3)

values_emotion = list(emotion_mapping['Emotion'].values())
ax2.bar(emotions_list, values_emotion, color=colors, edgecolor='black', linewidth=1.5)
ax2.set_xlabel('Emocja', fontsize=13, fontweight='bold')
ax2.set_ylabel('Liczba przyk≈Çad√≥w', fontsize=13, fontweight='bold')
ax2.set_title('Emotion Dataset (tekst)', fontsize=15, fontweight='bold')
ax2.tick_params(axis='x', rotation=45)
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("="*80)
print("POR√ìWNANIE WSP√ìLNYCH EMOCJI")
print("="*80)
print(f"{'Emocja':<15} {'AffectNet':<20} {'Emotion Dataset':<20}")
print("-"*80)
for emotion in emotions_list:
    affectnet_val = emotion_mapping['AffectNet'][emotion]
    emotion_val = emotion_mapping['Emotion'][emotion]
    print(f"{emotion:<15} {affectnet_val:>10} obraz√≥w    {emotion_val:>10} tekst√≥w")
print("="*80)
print(f"\nüí° Uwaga: Emotion 'Rado≈õƒá' i 'Mi≈Ço≈õƒá' zosta≈Çy zmapowane na 'Szczƒô≈õcie'")

## Podsumowanie

‚úÖ **AffectNet** - 30,518 obraz√≥w z 8 kategoriami emocji  
‚úÖ **Emotion Dataset** - 16,000 tekst√≥w z 6 kategoriami emocji  
‚úÖ **Wsp√≥lne emocje** - 5 kategorii: Szczƒô≈õcie, Smutek, Z≈Ço≈õƒá, Strach, Zaskoczenie

**Mapowanie:**
- Love (Mi≈Ço≈õƒá) ‚Üí Szczƒô≈õcie (pozytywna emocja)
- Joy (Rado≈õƒá) ‚Üí Szczƒô≈õcie
- Neutral ‚Üí tylko w AffectNet (brak w tek≈õcie)

Oba zbiory sƒÖ gotowe do trenowania modeli wykrywania emocji! üöÄ