# Analyse de l’article : DialogueGCN – A Graph Convolutional Neural Network for Emotion Recognition in Conversation

## 📌 Problématique abordée

La tâche de **reconnaissance des émotions en conversation (ERC)** est essentielle pour développer des systèmes de dialogue empathiques et adaptés à l'utilisateur. La plupart des approches précédentes utilisent des réseaux récurrents (RNN, GRU, LSTM), mais ces derniers présentent des **limitations dans la modélisation du contexte à long terme** et ignorent souvent les **dépendances inter- et intra-locuteurs**.  
**DialogueGCN** cherche à surmonter ces limitations en modélisant les interactions conversationnelles comme un **graphe dirigé** où les **relations entre locuteurs** et les **positions relatives des énoncés** sont intégrées explicitement.

---

## 🧪 Méthodologie

DialogueGCN repose sur une architecture en trois parties :

1. **Encodage du contexte séquentiel** à l’aide d’un GRU bidirectionnel.
2. **Encodage du contexte au niveau du locuteur** via un réseau de neurones convolutif sur graphe (GCN).
3. **Classification émotionnelle** avec concaténation des représentations précédentes, suivie d'une attention contextuelle et d’un classifieur dense.

Chaque énoncé est traité comme un nœud d’un graphe, avec des **arêtes étiquetées selon les dépendances temporelles et les relations entre locuteurs**.

---

## 📐 Formulation mathématique du modèle

Soit une conversation contenant $$N$$ énoncés $$u_1, u_2, ..., u_N$$. Chaque énoncé $$u_i$$ est émis par un locuteur $$p_{s(u_i)}$$, et est représenté par un vecteur de caractéristiques $$u_i \in \mathbb{R}^{D_m}$$.

**Encodage séquentiel :**
$$
g_i = \overleftrightarrow{GRU}_S(g_{i(+,−)1}, u_i)
$$

**Construction du graphe** :  
Le graphe est défini comme $$G = (V, E, R, W)$$ où :

- $ V $ : ensemble des nœuds (énoncés),
- $ E $ : ensemble des arêtes dirigées,
- $ R $ : types de relations (ex: $$p_1 \rightarrow p_2$$, $$p_1 \rightarrow p_1$$, etc.),
- $ W $ : poids des arêtes définis par attention.

**Poids d’attention entre les nœuds :**
$$
\alpha_{ij} = \text{softmax}(g_i^T W_e [g_{i-p}, ..., g_{i+f}])
$$

**Propagation dans le graphe :**
1ère couche GCN :
$$
h_i^{(1)} = \sigma\left( \sum_{r \in R} \sum_{j \in \mathcal{N}_i^r} \frac{\alpha_{ij}}{c_{i,r}} W_r^{(1)} g_j + \alpha_{ii} W_0^{(1)} g_i \right)
$$

2e couche GCN :
$$
h_i^{(2)} = \sigma\left( \sum_{j \in \mathcal{N}_i^r} W^{(2)} h_j^{(1)} + W_0^{(2)} h_i^{(1)} \right)
$$

**Classification finale :**
$$
h_i = [g_i, h_i^{(2)}]
$$

$$
\beta_i = \text{softmax}(h_i^T W_\beta [h_1, ..., h_N])
$$

$$
\tilde{h}_i = \beta_i [h_1, ..., h_N]^T
$$

$$
P_i = \text{softmax}(W_{\text{softmax}}(\text{ReLU}(W_l \tilde{h}_i + b_l)) + b_{\text{softmax}})
$$

---

## 🧾 Jeux de données et métriques

### Jeux de données utilisés :
1. **IEMOCAP** : dialogues dyadiques annotés avec 6 émotions.
2. **AVEC** : dialogues homme-agent avec 4 dimensions émotionnelles continues.
3. **MELD** : dialogues multi-locuteurs issus de la série *Friends*, avec 7 émotions.

### Métriques de performance :
- **IEMOCAP & MELD** : $$F_1$$-score, exactitude (Accuracy).
- **AVEC** : **MAE** (mean absolute error) sur chaque dimension continue.

---

## 🌟 Contribution originale

1. Introduction d’un modèle **graphique convolutionnel (DialogueGCN)** pour modéliser explicitement les dépendances **inter- et intra-locuteurs**.
2. Construction dynamique du graphe avec des relations basées sur les **locuteurs** et les **positions temporelles**.
3. Encodage du **contexte local** à travers **deux couches de GCN**.
4. Amélioration significative par rapport à l’état de l’art, notamment DialogueRNN, sur **tous les jeux de données**.

---

## ✅ Points forts et limites

### ✅ Points forts :
- Modélisation explicite des **relations interpersonnelles** dans la conversation.
- Bonne capacité à capturer le **contexte long terme** via le graphe.
- Résultats **supérieurs à l’état de l’art** (ex: $$64.18\%$$ F1 sur IEMOCAP).

### ❌ Limites :
- **Coût computationnel élevé** dû à la construction du graphe complet.
- Dépendance à des **fenêtres de contexte pré-définies**.
- Moins performant dans des contextes à **plusieurs locuteurs avec peu d’énoncés chacun** (ex: MELD).
- Modèle **monomodale** (texte uniquement), sans exploitation des modalités audio/vidéo pourtant disponibles.

---

## 📈 Perspectives d’amélioration

- Intégration de **modalités supplémentaires** (audio, visuel).
- Réduction du **coût de construction des graphes** via des mécanismes d’attention ou de sparsité.
- Développement d’un modèle **plus adaptatif** aux conversations multi-parties.
- Exploration de **stratégies de pré-entraînement** sur des dialogues ouverts.

---


# Synthèse de l'article : *MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation*

## Problématique abordée
L'article s'attaque au problème de la reconnaissance des émotions dans les conversations (*Emotion Recognition in Conversation*, ERC), en contexte multimodal. La majorité des approches précédentes se focalisent sur la modalité textuelle seule ou fusionnent les modalités (texte, audio, visuel) de manière simple (par concaténation), sans considérer finement les dépendances inter- et intra-modales, ni l'information structurelle comme l'identité du locuteur ou les dépendances à longue distance dans les dialogues.

## Méthodologie proposée
Les auteurs introduisent **MMGCN** (*Multimodal fused Graph Convolutional Network*), un modèle à base de GCN en domaine spectral, profond, exploitant les trois modalités (texte, audio, visuel) et l'identité des locuteurs. Il s'appuie sur une construction de graphe où chaque énoncé est un triplet de nœuds (un par modalité), connectés à ceux des autres énoncés selon la similarité, la modalité, et le locuteur. Un encodeur de modalités extrait les caractéristiques contextuelles de chaque modalité (BiLSTM pour le texte, MLP pour audio/visuel), avant passage dans le GCN. La sortie est ensuite classifiée en émotions.

## Formulation mathématique du modèle

Un dialogue est une suite d'énoncés :
$$
\{u_1, u_2, ..., u_N\} \text{ où } u_i = \{u_i^a, u_i^v, u_i^t\}
$$

Encodage contextuel par modalité :
$$
\begin{align*}
h_i^t &= [\overrightarrow{\text{LSTM}}(u_i^t), \overleftarrow{\text{LSTM}}(u_i^t)] \\
h_i^a &= W_e^a u_i^a + b_e^a \\
h_i^v &= W_e^v u_i^v + b_e^v
\end{align*}
$$

Ajout de l'embedding locuteur :
$$
S_i = W_s s_i + b_s
$$

Construction du graphe :
- Nœuds : $$v_i^a = [h_i^a, S_i],\ v_i^v = [h_i^v, S_i],\ v_i^t = [h_i^t, S_i]$$
- Arêtes intra-modales pondérées par :
$$
A_{ij} = 1 - \frac{\arccos(\text{sim}(n_i, n_j))}{\pi}
$$
- Arêtes inter-modales pondérées par :
$$
A_{ij} = \gamma \left(1 - \frac{\arccos(\text{sim}(n_i, n_j))}{\pi}\right)
$$

Propagation GCN :
$$
H^{(l+1)} = \sigma\left(((1-\alpha) \tilde{P} H^{(l)} + \alpha H^{(0)}) ((1-\beta^{(l)}) I + \beta^{(l)} W^{(l)})\right)
$$
avec $$\beta^{(l)} = \log(\eta l + 1)$$

Classification :
$$
\begin{align*}
g_i &= [g_i^a, g_i^v, g_i^t] \\
e_i &= [h'_i, g_i] \\
l_i &= \text{ReLU}(W_l e_i + b_l) \\
P_i &= \text{Softmax}(W_{smax} l_i + b_{smax}) \\
\hat{y}_i &= \arg\max_k P_i[k]
\end{align*}
$$

Fonction de perte :
$$
\mathcal{L} = - \frac{1}{\sum_{s=1}^N c^{(s)}} \sum_{i=1}^N \sum_{j=1}^{c^{(i)}} \log P_{i,j}[y_{i,j}] + \lambda \|\theta\|^2
$$

## Jeux de données et métriques

- **IEMOCAP** : dialogues dyadiques (2 locuteurs), 151 dialogues, 7433 énoncés, 6 classes d'émotions
- **MELD** : dialogues multi-participants, 13708 énoncés, 7 émotions
- **Métrique** : F1-score moyen pondéré

## Contribution originale
- Introduction d'un **GCN spectral profond** multimodal avec résidus adaptatifs
- Fusion **fine** des modalités via un graphe complet, connecté intra/inter-modalité et enrichi par locuteur
- Amélioration **significative** des performances sur deux benchmarks ERC

## Forces et limites de la méthode

### Forces
- Exploite efficacement les **dépendances longues** dans le dialogue
- Intègre **modalités et locuteur** dans la structure du graphe
- Approche **généralisable** et extensible (fonctionne avec + de modalités / locuteurs)
- Meilleure performance SOTA sur IEMOCAP et MELD

### Limites
- Coûteux en **ressources de calcul** (graphe complet, GCN profonds)
- Besoin de **données alignées** modalité/locuteur
- Ne traite pas les cas d'information **manquante par modalité**



# Synthèse de l'article : *RBA-GCN: Relational Bilevel Aggregation Graph Convolutional Network for Emotion Recognition*

## Problématique abordée
Cet article aborde la reconnaissance des émotions dans les conversations (ERC), en mettant l'accent sur les limites des modèles GCN existants :
- perte d'information discriminante due à l'agrégation de nœuds redondants,
- incapacité à capturer efficacement les dépendances contextuelles à longue portée,
- fusion faible des modalités (texte, audio, visuel).

## Méthodologie proposée
Les auteurs proposent **RBA-GCN**, un modèle composé de trois modules principaux :
- **Graph Generation Module (GGM)** : construction d'un graphe où chaque énoncé est représenté par 3 nœuds (texte, audio, visuel), connectés selon l'ordre de la conversation et l'appartenance modale.
- **Similarity-based Cluster Building Module (SCBM)** : construction de clusters par similarité cosinus afin de filtrer les nœuds non informatifs.
- **Bilevel Aggregation Module (BiAM)** : agrégation hiérarchique (intra-cluster puis inter-cluster) des nœuds similaires pour mettre à jour les représentations.

## Formulation mathématique du modèle

- Représentation des modalités pour un énoncé $$u_i$$ :
$$
u_i = \{u_i^t, u_i^v, u_i^a\}
$$

- Encodage contextuel par BiLSTM :
$$
g_i^x = [\overrightarrow{\text{LSTM}}(u_i^x), \overleftarrow{\text{LSTM}}(u_i^x)] \text{ avec } x \in \{t, v, a\}
$$

- Similarité cosinus entre le nœud cible $$o$$ et un nœud $$u$$ :
$$
s(u, o) = 1 - \frac{\arccos(\text{sim}(f_u, f_o))}{\pi}
$$

- Définition des clusters :
$$
\tau(u, o) = \lfloor \gamma \cdot s(u, o) \rfloor, \text{ si } u \in C_g(o) \text{ ou } (u \in D_g(o) \wedge s(u,o) \geq \rho)
$$

- Agrégation hiérarchique niveau 1 (dans un cluster $$r$$) :
$$
e_o(r) = \frac{1}{|\text{Clusters}(r)|} \sum_{u \in S_s(o)} \delta(\tau(u,o), r) \cdot \sigma^{(r)}(g_u)
$$

- Agrégation niveau 2 (target node + clusters) :
$$
h_i = \sigma(W [e_o(r) \| g_i])
$$

- Prédiction finale :
$$
\begin{align*}
l_i &= \sigma(W_l h_i + b_l) \\
p_i &= \text{Softmax}(W_{smax} l_i + b_{smax}) \\
\hat{y}_i &= \arg\max(p_i)
\end{align*}
$$

- Fonction de perte :
$$
\mathcal{L} = - \frac{1}{\sum_i N_i} \sum_{i=1}^K \sum_{j=1}^{N_i} \sum_{m=1}^C y_{i,j}^{(m)} \log(p_{i,j}^{(m)})
$$

## Jeux de données et métriques

- **IEMOCAP** : 7433 énoncés, 6 émotions : \textit{happy, sad, neutral, angry, excited, frustrated}
- **MELD** : 13708 énoncés, 7 émotions : \textit{anger, disgust, fear, joy, neutral, sadness, surprise}
- **Métrique** : F1-score moyen pondéré (WAF1)

## Contribution originale
- Proposition d'un modèle **RBA-GCN** capturant les interactions multimodales et contextuelles via des clusters de similarité
- Introduction de l'agrégation hiérarchique **BiAM** préservant l'information discriminante
- Amélioration de 2 à 5 points de F1-score sur IEMOCAP et MELD

## Forces et limites de la méthode

### Forces
- Captation **efficace** des dépendances contextuelles longues sans GCN multi-couches
- **Filtrage intelligent** des nœuds peu informatifs par mesure de similarité
- Fusion multimodale plus **fine** et explicable que les concaténations
- Résultats SOTA sur deux benchmarks majeurs

### Limites
- Sensibilité au choix des **hyperparamètres** $$\gamma$$ et $$\rho$$
- Augmentation de la **complexité de calcul** par la construction de clusters et l'agrégation bi-niveau
- Besoin de modalités alignées pour chaque énoncé



# Synthèse de l'article : *Dynamic Graph Neural Ordinary Differential Equation Network for Multi-modal Emotion Recognition in Conversation*

## Problématique abordée
Cet article aborde la reconnaissance des émotions dans les conversations multimodales (texte, audio, vidéo). Les méthodes existantes basées sur les GCN souffrent de deux limitations majeures :
- surajustement et perte de généralisation des GCN profonds (over-smoothing)
- incapacité à modéliser les **dépendances temporelles continues** des émotions d'un locuteur

## Méthodologie proposée
Les auteurs proposent le modèle **DGODE** (Dynamic Graph Neural Ordinary Differential Equation), combinant :
- un **graphe adaptatif MixHop** pour capturer les relations d'ordre supérieur entre nœuds
- une modélisation dynamique par **équation différentielle ordinaire (ODE)** sur graphes, afin de suivre l'évolution continue des émotions dans le temps

Le pipeline inclut :
1. Extraction des caractéristiques multimodales via RoBERTa, DenseNet et openSMILE
2. Intégration de l'identité du locuteur dans les embeddings
3. Agrégation adaptative multi-hop
4. Modélisation temporelle avec ODE sur graphe

## Formulation mathématique du modèle

- Modélisation d'une conversation comme :
$$
C = [(u_1, s_1), (u_2, s_2), ..., (u_M, s_M)]
$$

- Intégration du locuteur dans les embeddings :
$$
P_i = W_p p_i \quad ; \quad h_i^m = c_i^m + S_i, \text{ avec } m \in \{t, a, v\}
$$

- Agrégation adaptive MixHop (discrète) :
$$
H^{(n+1)} = \sum_{n=1}^N \hat{A}^n H^{(n)} W + H^{(0)}
$$

- Modélisation ODE (continue) :
$$
\frac{dH(t)}{dt} = \frac{1}{N} \sum_{n=1}^N \left( \ln(\hat{A}) H(t) + H(t) \ln(W) + E \right)
$$

avec :
$$
H(t) = ODESolver\left( \frac{dH(t)}{dt}, H_0, t \right)
$$

- Prédiction d'émotion :
$$
\begin{align*}
l_i &= \text{ReLU}(W_l H_i + b_l) \\
p_i &= \text{Softmax}(W_{smax} l_i + b_{smax}) \\
\hat{y}_i &= \arg\max_j(p_{ij})
\end{align*}
$$

## Jeux de données et métriques
- **IEMOCAP** : 7433 énoncés, 6 émotions : happy, sad, neutral, angry, excited, frustrated
- **MELD** : 13708 énoncés, 7 émotions : anger, disgust, fear, joy, neutral, sadness, surprise
- **Métriques** : F1-score moyen pondéré (W-F1) et F1 standard

## Contribution originale
- Introduction de **DGODE**, premier modèle MERC à ODE sur graphe
- Intégration d'un **mécanisme MixHop adaptatif** pour explorer des voisins à plusieurs sauts
- Réduction du surajustement (overfitting) et sur-lissage (over-smoothing) dans les GCN profonds
- **Stabilité des performances** avec le nombre de couches GCN croissant

## Forces et limites de la méthode

### Forces
- Capture fine des **dépendances temporelles continues** entre les émotions
- Amélioration SOTA sur IEMOCAP et MELD
- Utilisation judicieuse des ODEs pour l'évolution dynamique des nœuds
- Études d'ablation complètes montrant l'apport de chaque composant

### Limites
- **Complexité numérique** due à la résolution d'ODEs
- Étiquetage global des émotions parfois incompatible avec une dynamique fine
- Moins performant sur les émotions **minoritaires ou similaires** (confusions entre "happy" et "excited")


# Synthèse de l'article : *MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations*

## Problématique abordée
L'article traite de la reconnaissance des émotions en conversation multimodale (ERC) en mettant en évidence trois problèmes principaux :
1. La **fusion multimodale insuffisante** : les méthodes existantes utilisent souvent la concaténation simple des modalités (texte, audio, visuel), sans modéliser leurs corrélations complexes.
2. La **mauvaise performance sur les classes minoritaires** : les classes d'émotions sont très déséquilibrées dans les benchmarks (notamment MELD).
3. La **difficulté à distinguer les émotions sémantiquement proches** (ex : anger vs. disgust).

## Méthodologie proposée
Les auteurs introduisent **MultiEMO**, un cadre de fusion multimodale sensible aux corrélations, composé de quatre modules principaux :
1. **VisExtNet** : un extracteur visuel basé sur MTCNN + ResNet-101 (préentrainé sur VGGFace2) pour extraire les expressions faciales.
2. **DialogueRNN** : pour la modélisation contextuelle dans les modalités audio et visuelle.
3. **MultiAttn** : module de fusion multimodale à base de multi-head cross-attention bidirectionnel.
4. **SWFC Loss** (Sample-Weighted Focal Contrastive Loss) : une fonction de perte adaptée aux classes déséquilibrées et sémantiquement proches.

## Formulation mathématique

Chaque énoncé $$u_i$$ est représenté par :
$$
u_i = \{u_i^t, u_i^a, u_i^v\}
$$

**Fusion multimodale via MultiAttn (simplifié)** :
1. Attention croissante texte ↔ audio :
$$
Q^{ta}_h = F_t^{(j-1)} W_Q^{ta}, \quad K^{ta}_h = C^a W_K^{ta}, \quad V^{ta}_h = C^a W_V^{ta}
$$
2. Sortie :
$$
A_h^{ta} = \text{Softmax}\left(\frac{Q_h^{ta} K_h^{taT}}{\sqrt{d}}\right) V_h^{ta}, \quad M^{ta} = \text{Concat}(A_1^{ta}, ..., A_H^{ta}) W_O^{ta}
$$
3. Attention texte-audio + visuel, répété sur $$T$$ couches :
$$
F_t^{(j)} = \text{LayerNorm}(F_{t,av}^{(j)} + FFN(F_{t,av}^{(j)}))
$$

**Fusion finale et classification** :
$$
\begin{align*}
f_i &= f_i^t \oplus f_i^a \oplus f_i^v \\
z_i &= W_z f_i + b_z \\
l_i &= \text{ReLU}(W_l z_i + b_l) \\
p_i &= \text{Softmax}(W_{\text{smax}} l_i + b_{\text{smax}}) \\
\hat{y}_i &= \arg\max_t p_i[t]
\end{align*}
$$

**Fonction de perte** (combinée) :
$$
\mathcal{L}_{\text{train}} = \frac{1}{N}(\mu_1 \mathcal{L}_{\text{SWFC}} + \mu_2 \mathcal{L}_{\text{Soft-HGR}} + (1 - \mu_1 - \mu_2) \mathcal{L}_{CE}) + \lambda \|\theta\|_2^2
$$

### SWFC Loss (Sample-Weighted Focal Contrastive)
$$
\mathcal{L}_{\text{SWFC}} = - \sum_{i=1}^M \sum_{j=1}^{C^{(i)}} \left(\frac{N}{n_{y_{ij}}}\right)^\alpha \cdot \frac{1}{|R_{ij}|} \sum_{z_g \in R_{ij}} (1 - s_{jg})^\gamma \log s_{jg}
$$
avec :
$$
s_{jg} = \frac{\exp(z_{ij}^T z_g / \tau)}{\sum_{z_s \in A_{ij}} \exp(z_{ij}^T z_s / \tau)}
$$

### Soft-HGR Loss (maximisation de la corrélation inter-modale)
$$
\mathcal{L}_{\text{Soft-HGR}} = - \sum_{Q \neq V \in \mathcal{F}} \left( \mathbb{E}[Q^T V] - \frac{1}{2} \text{Tr}(\text{cov}(Q) \text{cov}(V)) \right)
$$

## Jeux de données et métriques
- **IEMOCAP** : 7433 énoncés, 6 émotions : happy, sad, neutral, angry, excited, frustrated
- **MELD** : 13708 énoncés, 7 émotions : anger, disgust, fear, joy, neutral, sadness, surprise
- **Métrique** : Weighted-F1 (F1 pondéré)

## Contribution originale
- Proposition d’un **extracteur visuel VisExtNet** qui exclut les informations de scène non informatives
- Fusion **fine et bidirectionnelle** des modalités via **MultiAttn** (cross-attention)
- Nouvelle fonction de perte **SWFC** pour gérer le déséquilibre et la proximité sémantique
- **SOTA** sur MELD et IEMOCAP, en particulier sur les classes rares et ambiguës

## Forces et limites

### Forces
- Fusion multimodale avancée avec cross-attention bidirectionnel
- Traitement efficace des émotions difficiles à distinguer (ex : anger vs. disgust)
- Visualisation et analyse qualitatives approfondies (cf. heatmaps)
- Fonction de perte adaptative élaborée

### Limites
- **VisExtNet** ne distingue pas entre locuteurs et figurants → risque de bruit visuel
- **SWFC** nécessite des batchs très larges pour garantir des paires positives → coûteux
- Effets des hyperparamètres $$\alpha, \gamma, \tau$$ peu explorés
- Améliorations encore modestes pour les classes très rares


# Synthèse de l'article : *TelME – Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation*

## Problématique abordée

La reconnaissance des émotions en conversation (ERC) multimodale repose sur l'exploitation combinée des modalités textuelles, visuelles et audio. Toutefois :
- la **modalité texte domine** largement les performances,
- les modalités **non-verbales (audio/visuel)** sont souvent faibles et peu informatives,
- les approches actuelles traitent chaque modalité **de façon homogène**, sans considération pour leurs contributions inégales,
- la **fusion multimodale reste basique** (souvent concaténation), et ignore les spécificités entre modalités.

## Méthodologie proposée : TelME

TelME est un modèle de fusion multimodale dirigé par l'information de la modalité texte (forte) et destiné à :
- renforcer les modalités audio et visuelle par **distillation de connaissances croisées** (cross-modal KD),
- améliorer la fusion par un **shifting fusion attentionnel** (ASF) : les modalités faibles corrigent le professeur texte.

Il se compose de 3 modules :
1. **Encodage multimodal** (Roberta, Data2Vec, TimeSformer)
2. **Distillation croisée** (response-based + feature-based)
3. **Attention-based Shifting Fusion** (recalibrage dynamique)

## Formulation mathématique du modèle

### Encodage texte avec prompt
$$
\begin{align*}
C_k &= [\langle s_i \rangle, t_1, \langle s_j \rangle, t_2, ..., \langle s_i \rangle, t_k] \\
P_k &= \text{"Now }\langle s_i \rangle\text{ feels }\langle \text{mask} \rangle" \\
F_k^T &= \text{TextEncoder}(C_k\langle /s \rangle P_k)
\end{align*}
$$

### Encodage audio et visuel
$$
F_k^A = \text{AudioEncoder}(a_k), \quad F_k^V = \text{VisualEncoder}(v_k)
$$

### Distillation croisée : pertes combinées
$$
\mathcal{L}_{\text{student}} = \mathcal{L}_{\text{cls}} + \alpha \mathcal{L}_{\text{response}} + \beta \mathcal{L}_{\text{feature}}
$$

#### Pertes de distillation par corrélation
$$
\mathcal{L}_{\text{inter}} = \frac{\tau^2}{B} \sum_{i=1}^B \left(1 - \rho(Y_i^s, Y_i^t)\right), \quad \mathcal{L}_{\text{intra}} = \frac{\tau^2}{C} \sum_{j=1}^C \left(1 - \rho(Y_j^s, Y_j^t)\right)
$$
$$
\mathcal{L}_{\text{response}} = \mathcal{L}_{\text{inter}} + \mathcal{L}_{\text{intra}}
$$

#### Distillation par similarités inter-batch
$$
\mathcal{L}_{\text{feature}} = \frac{1}{B} \sum_{i=1}^B KL(P_i \parallel Q_i)
$$
avec : $$P_i = \text{softmax}(\frac{M_{ij}}{\tau}),\ Q_i = \text{softmax}(\frac{M'_{ij}}{\tau})$$

### Attention-based Shifting Fusion
$$
\begin{align*}
F^{\text{att}} &= \text{SelfAttn}(F_k^A \oplus F_k^V) \\
g_k &= R(W_1 \cdot [F_k^T, F^{\text{att}}] + b_1) \\
H_k &= g_k \cdot (W_2 \cdot F^{\text{att}} + b_2) \\
\lambda &= \min\left(\frac{\|F_k^T\|_2}{\|H_k\|_2} \cdot \theta, 1\right) \\
Z_k &= F_k^T + \lambda \cdot H_k
\end{align*}
$$

### Classification finale
$$
\hat{y}_k = \arg\max \text{Softmax}(W Z_k + b)
$$

## Jeux de données et métriques
- **MELD** : 13708 énoncés, 7 émotions (conversation multi-locuteurs)
- **IEMOCAP** : 7433 énoncés, 6 émotions (dyades)
- **Métrique** : Weighted F1-score

## Contribution originale
- Premier modèle ERC à utiliser **distillation croissante croisement modalité** pour renforcer les signaux faibles
- Fusion émotionnelle via **vecteurs de déplacement** (shifting fusion)
- Démonstration expérimentale : SOTA sur MELD, très fort sur IEMOCAP
- Amélioration de la classification des émotions minoritaires et ambiguës (e.g., fear, disgust)

## Forces et limites de la méthode

### Forces
- Distillation efficace (texte → audio/visuel) sans KL mais via corrélations
- Fusion dynamique émotionnelle : les signaux faibles influencent les forts
- Amélioration nette sur les classes difficiles (fear, disgust)
- Analyse poussée : ablation, modèles mono-modaux, confusion matrices

### Limites
- Moindre qualité de la modalité **visuelle** (bruit, courtes durées)
- Performances **limiteées par le déséquilibre des classes** (surtout sur MELD)
- Sensibilité aux hyperparamètres de température et de distillation

TelME ouvre une voie prometteuse pour la fusion multimodale guidée par un enseignant fort, tout en permettant aux modalités faibles d'enrichir la représentation finale de manière adaptative.

# Synthèse de l'article : *Bi-stream Graph Learning based Multimodal Fusion for Emotion Recognition in Conversation (BiGMF)*

## Problématique abordée

La reconnaissance des émotions en conversation (ERC) multimodale est difficile à cause :
- du **conflit entre modalités** lors de la fusion (texte, audio, visuel),
- de **l'hétérogénéité des données** multimodales,
- de la fusion égale de modalités de qualité variable (visuel vs texte),
- et de la difficulté à capter à la fois les **dépendances contextuelles intra-modales** et les **interactions inter-modales**.

## Méthodologie proposée : BiGMF

BiGMF est une architecture en **double flux de graphes** combinant :
- un **Unimodal Stream Graph Learning (UMGAT)** : pour capturer les dépendances longues *intra-modales* (par modalité)
- un **Cross-modal Stream Graph Learning (CMGAT)** : pour modéliser les interactions explicites entre modalités
- une **perte de consistance inter-modale** pour forcer la compatibilité entre représentations croisées
- un **module résiduel adaptatif** pour contrer l'over-smoothing des GNNs

## Formulation mathématique

### Encodage des modalités
$$
\begin{align*}
X^a &= \text{FC}(\text{Norm}(U^a)) \\
X^v &= \text{FC}(\text{Norm}(U^v)) \\
X^t &= \overleftrightarrow{\text{LSTM}}(\text{Norm}(U^t))
\end{align*}
$$

### Ajout des embeddings locuteur
$$
X_i^s = X_i + \eta_i S \quad \text{où } i \in \{a, t, v\}
$$

### Construction des graphes unimodaux (UMGAT)
- Graphe complet $$G_i = (V_i, E_i, W_i)$$ par modalité
- Poids des arêtes par self-attention :
$$
\alpha^i = \text{Softmax}\left(\frac{Q^i K^{iT}}{\sqrt{d_k}}\right)
$$

### Agrégation et mise à jour de nœud
$$
\text{Neibor}(x_j^i) = \big\|_{h=1}^H \sum_{k \in V_j^i} \alpha_{jk}^{i,h} W_v^{i,h} x_k^i
$$
$$
x_j'^i = W_2^i \cdot \sigma\left(W_1^i \left[(x_j^i + \text{Neibor}(x_j^i)) \| (x_j^i \odot \text{Neibor}(x_j^i))\right]\right)
$$

### Module résiduel adaptatif
$$
X_u^i = X_{s,L}^i + \text{Drop}(\text{Linear}(X^i))
$$

### Construction des graphes croisés (CMGAT)
- Noeuds : $$V_{i \cup j}$$ avec $$i \neq j$$
- Arêtes bidirectionnelles entre modalités
- Poids par co-attention :
$$
\alpha^{i|j} = \text{Softmax}\left(\frac{Q^i K^{jT}}{\sqrt{d_k}}\right)
$$

### Agrégation croisée sparse (top-K)
$$
\text{Neibor}(x_i^{i \cup j}) = \big\|_{h=1}^H \sum_{k \in N_K(i)} \alpha_{ik}^{i|j,h} W_v^{j|i,h} x_k^j
$$
$$
x_i' = W_2 \cdot \sigma\left(W_1[(x_i + \text{Neibor}(x_i)) \| (x_i \odot \text{Neibor}(x_i))]\right)
$$

### Fusion finale
$$
X = (X_u^a + X_c^a) \| (X_u^t + X_c^t) \| (X_u^v + X_c^v)
$$

### Prédiction
$$
p_i = \text{Softmax}(f_c(x_i)) \quad ; \quad \hat{y}_i = \arg\max p_i
$$

### Pertes totales
$$
\mathcal{L} = \mathcal{L}_{\text{avt}} + \zeta_a \mathcal{L}_a^{ce} + \zeta_t \mathcal{L}_t^{ce} + \zeta_v \mathcal{L}_v^{ce} + \gamma \mathcal{L}_{cl}
$$
avec perte de consistance :
$$
\mathcal{L}_{cl} = \|X_c^a - X_c^t\|_2^2 + \|X_c^a - X_c^v\|_2^2 + \|X_c^t - X_c^v\|_2^2
$$

## Jeux de données et métriques
- **IEMOCAP** : 7433 énoncés, 6 émotions
- **MELD** : 13708 énoncés, 7 émotions
- **Métrique** : Weighted-F1 (wa-F1) et Accuracy

## Contribution originale
- Double architecture GNN : **UMGATs** pour le contexte intra-modal et **CMGATs** pour l'interaction inter-modal
- Utilisation de **graphes hétérogènes** explicites pour réduire les conflits de fusion
- **Co-attention sparse** pour sélectionner les liens utiles
- Module résiduel adaptatif + perte de consistance multimodale
- Supériorité SOTA ou comparable sur IEMOCAP et MELD

## Forces et limites

### Forces
- Captation explicite des **dépendances inter-/intra-modalité**
- Architecture **modulaire et interprétable**
- Bonne gérance de l'hétérogénéité via bi-graphes
- Performances solides, même sur des dialogues courts (MELD)

### Limites
- CMGATs sensibles aux **bruits et redondances** (cross-modal)
- Complexité accrue pour graphes + attention multi-têtes
- Plus **difficile à paralléliser** que les modèles Transformer purs



# Synthèse de l'article : *Multimodal Emotion Recognition in Conversation Based on Hypergraphs (MER-HGraph)*

## Problématique abordée

Les méthodes classiques d'ERC multimodal (Emotion Recognition in Conversation) s'appuient sur des modèles séquentiels (ex : RNN) ou des GCNs, qui :
- n'exploitent pas les **interactions d'ordre supérieur** entre modalités,
- perdent des informations contextuelles riches,
- propagent uniquement des relations **binaires**, inadéquates pour les données multimodales.

## Méthodologie proposée : MER-HGraph

MER-HGraph introduit une architecture fondée sur les **hypergraphes** pour modéliser :
- les **dépendances intra-modales** via des hypergraphes intra (Intra-HGraph),
- les **interactions inter-modales** via des hypergraphes inter (Inter-HGraph),
- et un **module de fenêtrage temporel dynamique** (DTWB) pour extraire localement et globalement des signaux acoustiques fiables.

Le pipeline comprend :
1. Extraction des features : DenseNet (visuel), OpenSMILE (audio), TextCNN (texte).
2. Encodage des signaux audio par DTWB avec attention + Transformer
3. Intégration des embeddings de locuteur (one-hot)
4. Construction des hypergraphes (contextes passés/futurs et modalités croisées)
5. Convolution sur hypergraphe
6. Prédiction via couche dense + softmax

## Formulation mathématique

### Encodage mono-modal
$$
\begin{align*}
x_i^A &= u_i^{A_2} \oplus u_i^{A_3} \\
x_i^T &= \overleftrightarrow{\text{LSTM}}(u_i^T) \\
x_i^V &= W_e^V u_i^V + b_i^V
\end{align*}
$$

### Encodage locuteur
$$
S_i = W_s s_i + b_s
$$

### Construction de l'hypergraphe
- Intra-HGraph : connexions dans chaque modalité entre $$u_{i-P}, ..., u_i, ..., u_{i+F}$$
- Inter-HGraph : connexions entre $$u_i^A, u_i^T, u_i^V$$ (même énoncé, modalités différentes)

### Matrices :
- H : matrice d'incidence $$H \in \mathbb{R}^{N \times M}$$ entre noeuds et hyperarêtes
- D : degrés de sommets, B : degrés d'arêtes

### Convolution sur hypergraphe
$$
X^{(l+1)} = D^{-1} H W B^{-1} H^T X^{(l)}
$$

### Prédiction d'émotion
$$
\begin{align*}
z_i &= \text{ReLU}(W h_i + b) \\
p_i &= \text{Softmax}(W' z_i + b') \\
\hat{y}_i &= \arg\max_k p_i[k]
\end{align*}
$$

### Fonction de perte
$$
\mathcal{L} = - \sum_{i,j} y_{ij} \log p_{ij} + \lambda \|W_{ls}\|^2
$$

## Jeux de données et métriques
- **IEMOCAP** : 7433 énoncés (6 émotions)
- **MELD** : 13708 énoncés (7 émotions)
- **Métriques** : Accuracy, Weighted-F1

## Contribution originale
- Introduction de **hypergraphes intra- et inter-modaux** pour ERC
- Modélisation à haut niveau des dépendances dans les dialogues
- **DTWB** : fenêtrage dynamique attentionnel sur les signaux acoustiques
- SOTA sur IEMOCAP (Acc 70.81%, wa-F1 70.37%) et MELD (Acc 62.76%, wa-F1 59.13%)

## Forces et limites

### Forces
- Captation des **relations d'ordre supérieur** entre énoncés et modalités
- Robustesse accrue aux bruits audio grâce au DTWB
- Interprétabilité des structures hypergraphiques
- Performances SOTA ou très proches

### Limites
- Complexité du traitement hypergraphique (scalabilité, temps)
- Pas de mécanisme explicite d'attention dans la convolution
- Nécessite un bon tuning des fenêtres contextuelles $$P, F$$

MER-HGraph pose les bases d'une ERC hypergraphique multimodale fine, combinant dynamique temporelle, fusion explicite et haut-niveau d'interactions.

# Synthèse de l'article : *Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning*

## Problématique abordée

Les modèles ERC multimodaux classiques présentent deux faiblesses majeures :
1. Ils utilisent une fusion **naïve** entre modalités (ex. concaténation), sans distinguer les apports spécifiques (texte = contenu, audio = prosodie).
2. Ils ne traitent pas le **déséquilibre entre les classes d'émotions**, ce qui nuit à la détection des émotions rares.

## Méthodologie proposée

Les auteurs proposent un modèle en deux étapes :
- **Joint-based Fusion Module (JFM)** : permet une fusion audio-texte par des vecteurs joints appris, tout en maintenant l'indépendance de chaque modalité.
- **Inter-class Contrastive Learning (ICL)** : optimise la séparation entre classes d'émotions en rapprochant les échantillons de même classe et en éloignant les autres.

Le pipeline repose sur RoBERTa (texte), STFT + Transformer (audio), et un apprentissage contrastif supervisé par les étiquettes d'émotions.

## Formulation mathématique

### Tâche ERC
$$
D = \{(u_1, s_1), ..., (u_N, s_N)\}, \quad E = \{e_1, ..., e_N\}
$$

### Fusion croissante via vecteurs joints (JFM)
- Initialisation :
$$
F^t = \text{RoBERTa}(\text{text}), \quad F^m = \text{ViT}(\text{mel-spectrogram})
$$
- Pour chaque couche $$l$$ de fusion (JF block) :
$$
(F^l_{m\rightarrow t} \oplus v_j^l) = V\text{Trans}^l(F^{l-1}_{m\rightarrow t} \oplus v_j^l) \\
(F^{l+1}_{m\rightarrow t} \oplus \bar{v}_j^l) = L\text{Trans}^l(F^l_{t\rightarrow m} \oplus \text{MLP}(v_j^l))
$$
(Et symétriquement pour $$t\rightarrow m$$)

- Fusion finale :
$$
F = [F^N_{m\rightarrow t} \oplus F^N_{t\rightarrow m}]
$$

### Prédiction d'émotion
$$
\hat{y}_i = \text{Softmax}(W F + b), \quad \mathcal{L}_{\text{ERC}} = -\sum_i r_i \log(\hat{r}_i)
$$

### Apprentissage contrastif inter-classe (ICL)
$$
\mathcal{L}_{\text{ICL}} = \sum_{i \in I} - \frac{1}{|P(i)|} \sum_{p \in P(i)} \log \frac{\exp(F_i \cdot F_p / \tau)}{\sum_{j \neq i} \exp(F_i \cdot F_j / \tau)}
$$
avec $$P(i)$$ : les exemples positifs (même émotion), $$\tau$$ : température

### Fonction de perte totale
$$
\mathcal{L} = \mathcal{L}_{\text{ERC}} + \lambda \mathcal{L}_{\text{ICL}}
$$

## Jeux de données et métriques
- **IEMOCAP** : 7433 énoncés (6 émotions)
- **MELD** : 13708 énoncés (7 émotions)
- **Métriques** : Accuracy et Weighted-F1 (W-F1)

## Contribution originale
- **Fusion multimodale par vecteurs joints (JFM)** avec Transformers
- **Apprentissage contrastif supervisé** inter-classe via étiquettes d'émotions
- Résultats SOTA ou très compétitifs sur IEMOCAP et MELD
- Ablation fine : importance de chaque bloc fusion et vecteur joint quantifiée

## Forces et limites

### Forces
- Maintien de l'identité modale pendant la fusion (pas de mélange brutal)
- Gain net sur les classes rares grâce au ICL
- Approche modulaire et facilement extensible (plus de blocs, plus de modalités)
- Performance robuste en mono-modal aussi (texte ou audio)

### Limites
- Le modèle ne traite pas le **contexte de conversation** (pas de modélisation temporelle)
- Pas de gestion des données **multi-locuteurs**
- Sensible aux choix des hyperparamètres (longueur $$v_j$$, nombre de blocs $$N$$, $$\tau$$)

Ce modèle est une avancée forte pour la fusion audio-texte avec un apprentissage supervisé contrastif, mais il n'intègre pas encore la dynamique conversationnelle ou les aspects multi-locuteurs.

## **Comparaison des  methodes**

| Critères                    | Article 1: BiStream        | Article 2: EnhancedERC     | Article 3: DialogueGCN      | Article 4: Hypergraphs       | Article 5: MMGCN            | Article 6: MultiEMO         | Article 7: ODE               | Article 8: RBA-GCN           | Article 9: TelME             |
|----------------------------|----------------------------|----------------------------|-----------------------------|------------------------------|-----------------------------|-----------------------------|------------------------------|------------------------------|------------------------------|
| **Modèle utilisé**         | Bi-stream GNN (BiGMF)      | Cross-modal fusion + CL    | Graph CNN                  | Hypergraph GCN              | Deep GCN                   | Attention-based fusion     | GCN with ODE                 | Bilevel aggregation GCN      | Cross-modal distillation + fusion |
| **Type de données**        | Texte, audio, visuel       | Texte, audio               | Texte                      | Texte, audio, visuel        | Texte, audio, visuel       | Texte, audio, visuel       | Texte, audio, visuel         | Texte, audio, visuel         | Texte, audio, visuel         |
| **Gestion du contexte**    | Deux flux: intra/inter     | Contexte + vecteurs joints | Graphe dirigé, locuteur    | Hypergraphes intra/inter    | Connexions graphes         | Context via attention      | Dynamique temporelle (ODE)  | Agrégation par clusters      | Fusion adaptative contextuelle |
| **Méthode d'entraînement** | Supervisé                  | Supervisé + CL             | Supervisé                  | Supervisé                   | Supervisé                  | Supervisé + Focal loss     | Supervisé + ODE             | Supervisé avec BiAM          | Supervisé + distillation     |
| **Performance (précision)**| SOTA sur MELD/IEMOCAP     | Amélioration notable       | Meilleur que RNN/LSTM      | Supérieure aux baselines    | Supérieure aux SOTA       | Supérieure aux SOTA       | Meilleure stabilité         | 2-5% > SOTA sur F1           | SOTA sur MELD                |
| **Évaluation sur (dataset)**| MELD, IEMOCAP             | MELD, IEMOCAP              | IEMOCAP, MELD              | MELD, IEMOCAP               | IEMOCAP, MELD              | IEMOCAP, MELD              | IEMOCAP, MELD                | IEMOCAP, MELD                | MELD, IEMOCAP                |
| **Approche multimodale**   | Séparation explicite       | Vecteurs conjoints         | N/A (textuel seulement)    | Hypergraphes multi-modal    | Graphe fusion modalités    | Fusion via cross-attention | ODE sur graph multimodal    | Clustering modalités         | Distillation croisée multimodale |
| **Limites identifiées**    | Conflit modalités          | Redondance information     | Pas d'info intermodale     | Complexité de graphe        | Hétérogénéité ignorée      | Difficulté sur classes rares| Surapprentissage GCN        | Redondance info, bruit       | Dépendance au modèle textuel |
| **Applications principales**| ERC                       | ERC                        | ERC                        | ERC                         | ERC                        | ERC                        | ERC                          | ERC                          | ERC                          |
| **Améliorations proposées**| Flux bi-modaux parallèles  | Fusion adaptative + CL     | Graphe dirigé locuteurs    | Fenêtre acoustique dynamique| Fusion profonde            | SWFC + Soft-HGR            | MixHop + ODE                | Agrégation bilatérale        | Fusion modale hiérarchique  |
