# Analiza zbiorów danych z emocjami

Ten notatnik pobiera i analizuje dwa zbiory danych:
- **AffectNet** - zbiór obrazów z emocjami
- **Emotion** - zbiór tekstowy z emocjami

Celem jest porównanie i analiza emocji w obu zbiorach.

## 1. Instalacja bibliotek

Instalujemy wymagane biblioteki do pobierania i analizy danych.

In [None]:
!pip install kagglehub datasets matplotlib pillow

## 2. Pobranie zbioru AffectNet

Pobieramy zbiór danych AffectNet z Kaggle zawierający obrazy twarzy z różnymi emocjami.

In [None]:
import kagglehub

# Pobranie najnowszej wersji zbioru AffectNet
path = kagglehub.dataset_download("mstjebashazida/affectnet")

print("Ścieżka do plików zbioru AffectNet:", path)

## 3. Pobranie zbioru Emotion (tekstowy)

Pobieramy zbiór danych tekstowych z emocjami z Hugging Face.

In [None]:
from datasets import load_dataset

# Pobranie zbioru danych tekstowych z emocjami
emotions = load_dataset("dair-ai/emotion")

print("Zbiór Emotion został pobrany pomyślnie!")

## 4. Wczytanie i eksploracja AffectNet

Sprawdzamy strukturę katalogu i podstawowe informacje o zbiorze AffectNet.

In [None]:
import os
from pathlib import Path

# Wyświetlenie struktury katalogów
print("Zawartość katalogu AffectNet:")
for root, dirs, files in os.walk(path):
    level = root.replace(path, '').count(os.sep)
    indent = ' ' * 2 * level
    print(f'{indent}{os.path.basename(root)}/')
    subindent = ' ' * 2 * (level + 1)
    for file in files[:5]:  # Pokazujemy tylko pierwsze 5 plików
        print(f'{subindent}{file}')
    if len(files) > 5:
        print(f'{subindent}... i {len(files) - 5} więcej plików')
    if level > 2:  # Ograniczamy głębokość
        break

## 5. Wyświetlenie przykładowych zdjęć z AffectNet

Wyświetlamy przykładowe zdjęcia ze zbioru AffectNet.

In [None]:
from PIL import Image
import matplotlib.pyplot as plt
import glob

# Znajdź obrazy w katalogu
image_files = []
for ext in ['*.jpg', '*.jpeg', '*.png']:
    image_files.extend(glob.glob(os.path.join(path, '**', ext), recursive=True))

# Wyświetl pierwsze 6 obrazów
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.ravel()

for i in range(min(6, len(image_files))):
    img = Image.open(image_files[i])
    axes[i].imshow(img)
    axes[i].axis('off')
    axes[i].set_title(f'Obraz {i+1}')

plt.tight_layout()
plt.show()

print(f"\nZnaleziono {len(image_files)} obrazów w zbiorze AffectNet")

## 6. Analiza rozkładu emocji w AffectNet

Analizujemy rozkład kategorii emocji w zbiorze AffectNet na podstawie struktury katalogów.

In [None]:
import matplotlib.pyplot as plt
from collections import Counter

# Mapowanie kategorii emocji AffectNet
affectnet_emotions = {
    '0': 'Neutralny',
    '1': 'Szczęście',
    '2': 'Smutek',
    '3': 'Zaskoczenie',
    '4': 'Strach',
    '5': 'Wstręt',
    '6': 'Złość',
    '7': 'Pogarda'
}

# Zliczanie obrazów według kategorii
emotion_counts = Counter()

for img_path in image_files:
    # Próba wykrycia kategorii z nazwy pliku lub ścieżki
    parts = Path(img_path).parts
    for part in parts:
        if part in affectnet_emotions:
            emotion_counts[affectnet_emotions[part]] += 1
            break

# Jeśli nie znaleziono kategorii w ścieżce, dodaj ogólną kategorię
if not emotion_counts:
    emotion_counts['Wszystkie emocje'] = len(image_files)

# Wykres słupkowy
plt.figure(figsize=(12, 6))
plt.bar(emotion_counts.keys(), emotion_counts.values(), color='skyblue')
plt.xlabel('Emocja', fontsize=12)
plt.ylabel('Liczba obrazów', fontsize=12)
plt.title('Rozkład emocji w zbiorze AffectNet', fontsize=14, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

print("\nStatystyki zbioru AffectNet:")
for emotion, count in emotion_counts.items():
    print(f"{emotion}: {count} obrazów")

## 7. Wczytanie i eksploracja zbioru Emotion

Wyświetlamy strukturę i podstawowe informacje o zbiorze tekstowym Emotion.

In [None]:
# Wyświetlenie struktury zbioru
print("Struktura zbioru Emotion:")
print(emotions)
print("\n" + "="*50 + "\n")

# Wyświetlenie podziałów
print("Podział zbioru:")
for split in emotions.keys():
    print(f"  {split}: {len(emotions[split])} przykładów")

print("\n" + "="*50 + "\n")

# Wyświetlenie przykładowych danych
print("Przykładowe dane ze zbioru treningowego:")
for i in range(3):
    print(f"\nPrzykład {i+1}:")
    print(f"  Tekst: {emotions['train'][i]['text']}")
    print(f"  Emocja: {emotions['train'][i]['label']}")

## 8. Analiza rozkładu emocji w zbiorze tekstowym

Tworzymy wykres pokazujący rozkład emocji w zbiorze tekstowym Emotion.

In [None]:
from collections import Counter
import matplotlib.pyplot as plt

# Mapowanie etykiet na nazwy emocji
emotion_labels = {
    0: 'Smutek',
    1: 'Radość',
    2: 'Miłość',
    3: 'Złość',
    4: 'Strach',
    5: 'Zaskoczenie'
}

# Zliczanie emocji w zbiorze treningowym
train_emotions = [emotion_labels[label] for label in emotions['train']['label']]
emotion_counts_text = Counter(train_emotions)

# Wykres słupkowy
plt.figure(figsize=(12, 6))
plt.bar(emotion_counts_text.keys(), emotion_counts_text.values(), color='lightcoral')
plt.xlabel('Emocja', fontsize=12)
plt.ylabel('Liczba przykładów', fontsize=12)
plt.title('Rozkład emocji w zbiorze tekstowym Emotion (zbiór treningowy)', fontsize=14, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

print("\nStatystyki zbioru tekstowego Emotion:")
for emotion, count in emotion_counts_text.items():
    print(f"{emotion}: {count} przykładów")
print(f"\nŁącznie: {len(emotions['train'])} przykładów treningowych")

## 9. Porównanie kategorii emocji między zbiorami

Porównujemy kategorie emocji występujące w obu zbiorach i identyfikujemy wspólne emocje.

In [None]:
# Emocje z AffectNet
affectnet_emotion_set = set(affectnet_emotions.values())

# Emocje z zbioru tekstowego
text_emotion_set = set(emotion_labels.values())

print("PORÓWNANIE EMOCJI W OBU ZBIORACH")
print("=" * 60)

print("\nEmocje w zbiorze AffectNet:")
for emotion in sorted(affectnet_emotion_set):
    print(f"  - {emotion}")

print("\nEmocje w zbiorze tekstowym Emotion:")
for emotion in sorted(text_emotion_set):
    print(f"  - {emotion}")

# Wspólne emocje
common_emotions = affectnet_emotion_set.intersection(text_emotion_set)
print(f"\nWspólne emocje ({len(common_emotions)}):")
for emotion in sorted(common_emotions):
    print(f"  ✓ {emotion}")

# Unikalne dla każdego zbioru
affectnet_unique = affectnet_emotion_set - text_emotion_set
text_unique = text_emotion_set - affectnet_emotion_set

print(f"\nEmocje tylko w AffectNet ({len(affectnet_unique)}):")
for emotion in sorted(affectnet_unique):
    print(f"  - {emotion}")

print(f"\nEmocje tylko w zbiorze tekstowym ({len(text_unique)}):")
for emotion in sorted(text_unique):
    print(f"  - {emotion}")

# Wizualizacja porównania
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Wykres dla AffectNet
ax1.bar(range(len(affectnet_emotion_set)), [1]*len(affectnet_emotion_set), color='skyblue')
ax1.set_xticks(range(len(affectnet_emotion_set)))
ax1.set_xticklabels(sorted(affectnet_emotion_set), rotation=45, ha='right')
ax1.set_ylabel('Obecność')
ax1.set_title('Kategorie emocji w AffectNet', fontsize=14, fontweight='bold')
ax1.set_ylim(0, 1.5)

# Wykres dla zbioru tekstowego
ax2.bar(range(len(text_emotion_set)), [1]*len(text_emotion_set), color='lightcoral')
ax2.set_xticks(range(len(text_emotion_set)))
ax2.set_xticklabels(sorted(text_emotion_set), rotation=45, ha='right')
ax2.set_ylabel('Obecność')
ax2.set_title('Kategorie emocji w zbiorze tekstowym', fontsize=14, fontweight='bold')
ax2.set_ylim(0, 1.5)

plt.tight_layout()
plt.show()

## Podsumowanie

Przeanalizowaliśmy dwa zbiory danych z emocjami:
- **AffectNet** - zbiór obrazów zawierający 8 kategorii emocji
- **Emotion** - zbiór tekstowy zawierający 6 kategorii emocji

Wspólne emocje w obu zbiorach to podstawowe uczucia, które mogą być wykorzystane do budowy multimodalnego systemu rozpoznawania emocji.