# Datasets Équilibrés pour le Réentraînement de DialogueGCN

## Introduction
L'entraînement de DialogueGCN sur IEMOCAP présente un déséquilibre entre les classes émotionnelles, ce qui peut affecter la performance du modèle. Pour améliorer la robustesse et la généralisation du modèle, nous proposons deux datasets alternatifs plus équilibrés.

## 1. MELD (Multimodal EmotionLines Dataset)
### Description
MELD est une extension du dataset EmotionLines, contenant des dialogues multi-tour annotés avec des émotions. Ce dataset est mieux équilibré qu'IEMOCAP en termes de distribution des classes émotionnelles.

- **Nombre total d'énoncés** : ~13,000
- **Nombre de dialogues** : ~1,400
- **Classes émotionnelles** : Anger, Disgust, Fear, Joy, Neutral, Sadness, Surprise
- **Modalités** : Texte, Audio, Vidéo
- **Source** : Extraits de la série Friends

### Avantages
- Distribution plus homogène des émotions.
- Multimodalité permettant une meilleure capture des indices émotionnels.
- Environnement naturel de conversation issu d'un contexte social réel.

### Téléchargement
Le dataset est disponible sur [MELD Dataset](https://affective-meld.github.io/)

## 2. EmoryNLP Emotion Recognition Dataset
### Description
Ce dataset contient des dialogues annotés pour la reconnaissance des émotions, avec une distribution plus équilibrée que celle d'IEMOCAP.

- **Nombre total d'énoncés** : ~10,000
- **Nombre de dialogues** : ~700
- **Classes émotionnelles** : Joyful, Mad, Neutral, Peaceful, Powerful, Sad, Scared
- **Modalités** : Texte (principalement)
- **Source** : Transcriptions de dialogues télévisés

### Avantages
- Meilleure couverture des émotions, avec moins de biais envers certaines classes.
- Conçu spécifiquement pour la reconnaissance des émotions dans les conversations naturelles.
- Utilisable pour l'entraînement et l'évaluation de modèles de classification émotionnelle.

### Téléchargement
Le dataset est disponible sur [EmoryNLP](https://github.com/emorynlp/emotion-detection)

## Intégration avec DialogueGCN
### Étape 1 : Prétraitement des données
Adapter le format des datasets au modèle DialogueGCN en structurant les données sous forme de JSON.

```python
import json

def convert_to_dialoguegcn_format(input_file, output_file):
    with open(input_file, 'r') as f:
        data = json.load(f)
    
    formatted_data = []
    for dialogue in data:
        formatted_dialogue = {
            "utterances": [utt['text'] for utt in dialogue['utterances']],
            "speakers": [utt['speaker'] for utt in dialogue['utterances']],
            "labels": [utt['emotion'] for utt in dialogue['utterances']]
        }
        formatted_data.append(formatted_dialogue)
    
    with open(output_file, 'w') as f:
        json.dump(formatted_data, f)
```

### Étape 2 : Entraînement du modèle
Modifier le `DataLoader` pour charger les nouveaux datasets et exécuter l'entraînement.

```python
from dataset_loader import DialogueGCNDataset

train_dataset = DialogueGCNDataset("data/meld/train.json")
val_dataset = DialogueGCNDataset("data/meld/dev.json")

model.train(train_dataset, val_dataset)
```

## Conclusion
L'utilisation de MELD et EmoryNLP offre une meilleure distribution des émotions et permet d'améliorer la robustesse de DialogueGCN. Ces datasets garantissent un apprentissage plus équilibré et une meilleure performance du modèle sur des dialogues variés.