# Analyse de l‚Äôarticle : DialogueGCN ‚Äì A Graph Convolutional Neural Network for Emotion Recognition in Conversation

## üìå Probl√©matique abord√©e

La t√¢che de **reconnaissance des √©motions en conversation (ERC)** est essentielle pour d√©velopper des syst√®mes de dialogue empathiques et adapt√©s √† l'utilisateur. La plupart des approches pr√©c√©dentes utilisent des r√©seaux r√©currents (RNN, GRU, LSTM), mais ces derniers pr√©sentent des **limitations dans la mod√©lisation du contexte √† long terme** et ignorent souvent les **d√©pendances inter- et intra-locuteurs**.  
**DialogueGCN** cherche √† surmonter ces limitations en mod√©lisant les interactions conversationnelles comme un **graphe dirig√©** o√π les **relations entre locuteurs** et les **positions relatives des √©nonc√©s** sont int√©gr√©es explicitement.

---

## üß™ M√©thodologie

DialogueGCN repose sur une architecture en trois parties :

1. **Encodage du contexte s√©quentiel** √† l‚Äôaide d‚Äôun GRU bidirectionnel.
2. **Encodage du contexte au niveau du locuteur** via un r√©seau de neurones convolutif sur graphe (GCN).
3. **Classification √©motionnelle** avec concat√©nation des repr√©sentations pr√©c√©dentes, suivie d'une attention contextuelle et d‚Äôun classifieur dense.

Chaque √©nonc√© est trait√© comme un n≈ìud d‚Äôun graphe, avec des **ar√™tes √©tiquet√©es selon les d√©pendances temporelles et les relations entre locuteurs**.

---

## üìê Formulation math√©matique du mod√®le

Soit une conversation contenant $$N$$ √©nonc√©s $$u_1, u_2, ..., u_N$$. Chaque √©nonc√© $$u_i$$ est √©mis par un locuteur $$p_{s(u_i)}$$, et est repr√©sent√© par un vecteur de caract√©ristiques $$u_i \in \mathbb{R}^{D_m}$$.

**Encodage s√©quentiel :**
$$
g_i = \overleftrightarrow{GRU}_S(g_{i(+,‚àí)1}, u_i)
$$

**Construction du graphe** :  
Le graphe est d√©fini comme $$G = (V, E, R, W)$$ o√π :

- $ V $ : ensemble des n≈ìuds (√©nonc√©s),
- $ E $ : ensemble des ar√™tes dirig√©es,
- $ R $ : types de relations (ex: $$p_1 \rightarrow p_2$$, $$p_1 \rightarrow p_1$$, etc.),
- $ W $ : poids des ar√™tes d√©finis par attention.

**Poids d‚Äôattention entre les n≈ìuds :**
$$
\alpha_{ij} = \text{softmax}(g_i^T W_e [g_{i-p}, ..., g_{i+f}])
$$

**Propagation dans le graphe :**
1√®re couche GCN :
$$
h_i^{(1)} = \sigma\left( \sum_{r \in R} \sum_{j \in \mathcal{N}_i^r} \frac{\alpha_{ij}}{c_{i,r}} W_r^{(1)} g_j + \alpha_{ii} W_0^{(1)} g_i \right)
$$

2e couche GCN :
$$
h_i^{(2)} = \sigma\left( \sum_{j \in \mathcal{N}_i^r} W^{(2)} h_j^{(1)} + W_0^{(2)} h_i^{(1)} \right)
$$

**Classification finale :**
$$
h_i = [g_i, h_i^{(2)}]
$$

$$
\beta_i = \text{softmax}(h_i^T W_\beta [h_1, ..., h_N])
$$

$$
\tilde{h}_i = \beta_i [h_1, ..., h_N]^T
$$

$$
P_i = \text{softmax}(W_{\text{softmax}}(\text{ReLU}(W_l \tilde{h}_i + b_l)) + b_{\text{softmax}})
$$

---

## üßæ Jeux de donn√©es et m√©triques

### Jeux de donn√©es utilis√©s :
1. **IEMOCAP** : dialogues dyadiques annot√©s avec 6 √©motions.
2. **AVEC** : dialogues homme-agent avec 4 dimensions √©motionnelles continues.
3. **MELD** : dialogues multi-locuteurs issus de la s√©rie *Friends*, avec 7 √©motions.

### M√©triques de performance :
- **IEMOCAP & MELD** : $$F_1$$-score, exactitude (Accuracy).
- **AVEC** : **MAE** (mean absolute error) sur chaque dimension continue.

---

## üåü Contribution originale

1. Introduction d‚Äôun mod√®le **graphique convolutionnel (DialogueGCN)** pour mod√©liser explicitement les d√©pendances **inter- et intra-locuteurs**.
2. Construction dynamique du graphe avec des relations bas√©es sur les **locuteurs** et les **positions temporelles**.
3. Encodage du **contexte local** √† travers **deux couches de GCN**.
4. Am√©lioration significative par rapport √† l‚Äô√©tat de l‚Äôart, notamment DialogueRNN, sur **tous les jeux de donn√©es**.

---

## ‚úÖ Points forts et limites

### ‚úÖ Points forts :
- Mod√©lisation explicite des **relations interpersonnelles** dans la conversation.
- Bonne capacit√© √† capturer le **contexte long terme** via le graphe.
- R√©sultats **sup√©rieurs √† l‚Äô√©tat de l‚Äôart** (ex: $$64.18\%$$ F1 sur IEMOCAP).

### ‚ùå Limites :
- **Co√ªt computationnel √©lev√©** d√ª √† la construction du graphe complet.
- D√©pendance √† des **fen√™tres de contexte pr√©-d√©finies**.
- Moins performant dans des contextes √† **plusieurs locuteurs avec peu d‚Äô√©nonc√©s chacun** (ex: MELD).
- Mod√®le **monomodale** (texte uniquement), sans exploitation des modalit√©s audio/vid√©o pourtant disponibles.

---

## üìà Perspectives d‚Äôam√©lioration

- Int√©gration de **modalit√©s suppl√©mentaires** (audio, visuel).
- R√©duction du **co√ªt de construction des graphes** via des m√©canismes d‚Äôattention ou de sparsit√©.
- D√©veloppement d‚Äôun mod√®le **plus adaptatif** aux conversations multi-parties.
- Exploration de **strat√©gies de pr√©-entra√Ænement** sur des dialogues ouverts.

---


# Synth√®se de l'article : *MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation*

## Probl√©matique abord√©e
L'article s'attaque au probl√®me de la reconnaissance des √©motions dans les conversations (*Emotion Recognition in Conversation*, ERC), en contexte multimodal. La majorit√© des approches pr√©c√©dentes se focalisent sur la modalit√© textuelle seule ou fusionnent les modalit√©s (texte, audio, visuel) de mani√®re simple (par concat√©nation), sans consid√©rer finement les d√©pendances inter- et intra-modales, ni l'information structurelle comme l'identit√© du locuteur ou les d√©pendances √† longue distance dans les dialogues.

## M√©thodologie propos√©e
Les auteurs introduisent **MMGCN** (*Multimodal fused Graph Convolutional Network*), un mod√®le √† base de GCN en domaine spectral, profond, exploitant les trois modalit√©s (texte, audio, visuel) et l'identit√© des locuteurs. Il s'appuie sur une construction de graphe o√π chaque √©nonc√© est un triplet de n≈ìuds (un par modalit√©), connect√©s √† ceux des autres √©nonc√©s selon la similarit√©, la modalit√©, et le locuteur. Un encodeur de modalit√©s extrait les caract√©ristiques contextuelles de chaque modalit√© (BiLSTM pour le texte, MLP pour audio/visuel), avant passage dans le GCN. La sortie est ensuite classifi√©e en √©motions.

## Formulation math√©matique du mod√®le

Un dialogue est une suite d'√©nonc√©s :
$$
\{u_1, u_2, ..., u_N\} \text{ o√π } u_i = \{u_i^a, u_i^v, u_i^t\}
$$

Encodage contextuel par modalit√© :
$$
\begin{align*}
h_i^t &= [\overrightarrow{\text{LSTM}}(u_i^t), \overleftarrow{\text{LSTM}}(u_i^t)] \\
h_i^a &= W_e^a u_i^a + b_e^a \\
h_i^v &= W_e^v u_i^v + b_e^v
\end{align*}
$$

Ajout de l'embedding locuteur :
$$
S_i = W_s s_i + b_s
$$

Construction du graphe :
- N≈ìuds : $$v_i^a = [h_i^a, S_i],\ v_i^v = [h_i^v, S_i],\ v_i^t = [h_i^t, S_i]$$
- Ar√™tes intra-modales pond√©r√©es par :
$$
A_{ij} = 1 - \frac{\arccos(\text{sim}(n_i, n_j))}{\pi}
$$
- Ar√™tes inter-modales pond√©r√©es par :
$$
A_{ij} = \gamma \left(1 - \frac{\arccos(\text{sim}(n_i, n_j))}{\pi}\right)
$$

Propagation GCN :
$$
H^{(l+1)} = \sigma\left(((1-\alpha) \tilde{P} H^{(l)} + \alpha H^{(0)}) ((1-\beta^{(l)}) I + \beta^{(l)} W^{(l)})\right)
$$
avec $$\beta^{(l)} = \log(\eta l + 1)$$

Classification :
$$
\begin{align*}
g_i &= [g_i^a, g_i^v, g_i^t] \\
e_i &= [h'_i, g_i] \\
l_i &= \text{ReLU}(W_l e_i + b_l) \\
P_i &= \text{Softmax}(W_{smax} l_i + b_{smax}) \\
\hat{y}_i &= \arg\max_k P_i[k]
\end{align*}
$$

Fonction de perte :
$$
\mathcal{L} = - \frac{1}{\sum_{s=1}^N c^{(s)}} \sum_{i=1}^N \sum_{j=1}^{c^{(i)}} \log P_{i,j}[y_{i,j}] + \lambda \|\theta\|^2
$$

## Jeux de donn√©es et m√©triques

- **IEMOCAP** : dialogues dyadiques (2 locuteurs), 151 dialogues, 7433 √©nonc√©s, 6 classes d'√©motions
- **MELD** : dialogues multi-participants, 13708 √©nonc√©s, 7 √©motions
- **M√©trique** : F1-score moyen pond√©r√©

## Contribution originale
- Introduction d'un **GCN spectral profond** multimodal avec r√©sidus adaptatifs
- Fusion **fine** des modalit√©s via un graphe complet, connect√© intra/inter-modalit√© et enrichi par locuteur
- Am√©lioration **significative** des performances sur deux benchmarks ERC

## Forces et limites de la m√©thode

### Forces
- Exploite efficacement les **d√©pendances longues** dans le dialogue
- Int√®gre **modalit√©s et locuteur** dans la structure du graphe
- Approche **g√©n√©ralisable** et extensible (fonctionne avec + de modalit√©s / locuteurs)
- Meilleure performance SOTA sur IEMOCAP et MELD

### Limites
- Co√ªteux en **ressources de calcul** (graphe complet, GCN profonds)
- Besoin de **donn√©es align√©es** modalit√©/locuteur
- Ne traite pas les cas d'information **manquante par modalit√©**



# Synth√®se de l'article : *RBA-GCN: Relational Bilevel Aggregation Graph Convolutional Network for Emotion Recognition*

## Probl√©matique abord√©e
Cet article aborde la reconnaissance des √©motions dans les conversations (ERC), en mettant l'accent sur les limites des mod√®les GCN existants :
- perte d'information discriminante due √† l'agr√©gation de n≈ìuds redondants,
- incapacit√© √† capturer efficacement les d√©pendances contextuelles √† longue port√©e,
- fusion faible des modalit√©s (texte, audio, visuel).

## M√©thodologie propos√©e
Les auteurs proposent **RBA-GCN**, un mod√®le compos√© de trois modules principaux :
- **Graph Generation Module (GGM)** : construction d'un graphe o√π chaque √©nonc√© est repr√©sent√© par 3 n≈ìuds (texte, audio, visuel), connect√©s selon l'ordre de la conversation et l'appartenance modale.
- **Similarity-based Cluster Building Module (SCBM)** : construction de clusters par similarit√© cosinus afin de filtrer les n≈ìuds non informatifs.
- **Bilevel Aggregation Module (BiAM)** : agr√©gation hi√©rarchique (intra-cluster puis inter-cluster) des n≈ìuds similaires pour mettre √† jour les repr√©sentations.

## Formulation math√©matique du mod√®le

- Repr√©sentation des modalit√©s pour un √©nonc√© $$u_i$$ :
$$
u_i = \{u_i^t, u_i^v, u_i^a\}
$$

- Encodage contextuel par BiLSTM :
$$
g_i^x = [\overrightarrow{\text{LSTM}}(u_i^x), \overleftarrow{\text{LSTM}}(u_i^x)] \text{ avec } x \in \{t, v, a\}
$$

- Similarit√© cosinus entre le n≈ìud cible $$o$$ et un n≈ìud $$u$$ :
$$
s(u, o) = 1 - \frac{\arccos(\text{sim}(f_u, f_o))}{\pi}
$$

- D√©finition des clusters :
$$
\tau(u, o) = \lfloor \gamma \cdot s(u, o) \rfloor, \text{ si } u \in C_g(o) \text{ ou } (u \in D_g(o) \wedge s(u,o) \geq \rho)
$$

- Agr√©gation hi√©rarchique niveau 1 (dans un cluster $$r$$) :
$$
e_o(r) = \frac{1}{|\text{Clusters}(r)|} \sum_{u \in S_s(o)} \delta(\tau(u,o), r) \cdot \sigma^{(r)}(g_u)
$$

- Agr√©gation niveau 2 (target node + clusters) :
$$
h_i = \sigma(W [e_o(r) \| g_i])
$$

- Pr√©diction finale :
$$
\begin{align*}
l_i &= \sigma(W_l h_i + b_l) \\
p_i &= \text{Softmax}(W_{smax} l_i + b_{smax}) \\
\hat{y}_i &= \arg\max(p_i)
\end{align*}
$$

- Fonction de perte :
$$
\mathcal{L} = - \frac{1}{\sum_i N_i} \sum_{i=1}^K \sum_{j=1}^{N_i} \sum_{m=1}^C y_{i,j}^{(m)} \log(p_{i,j}^{(m)})
$$

## Jeux de donn√©es et m√©triques

- **IEMOCAP** : 7433 √©nonc√©s, 6 √©motions : \textit{happy, sad, neutral, angry, excited, frustrated}
- **MELD** : 13708 √©nonc√©s, 7 √©motions : \textit{anger, disgust, fear, joy, neutral, sadness, surprise}
- **M√©trique** : F1-score moyen pond√©r√© (WAF1)

## Contribution originale
- Proposition d'un mod√®le **RBA-GCN** capturant les interactions multimodales et contextuelles via des clusters de similarit√©
- Introduction de l'agr√©gation hi√©rarchique **BiAM** pr√©servant l'information discriminante
- Am√©lioration de 2 √† 5 points de F1-score sur IEMOCAP et MELD

## Forces et limites de la m√©thode

### Forces
- Captation **efficace** des d√©pendances contextuelles longues sans GCN multi-couches
- **Filtrage intelligent** des n≈ìuds peu informatifs par mesure de similarit√©
- Fusion multimodale plus **fine** et explicable que les concat√©nations
- R√©sultats SOTA sur deux benchmarks majeurs

### Limites
- Sensibilit√© au choix des **hyperparam√®tres** $$\gamma$$ et $$\rho$$
- Augmentation de la **complexit√© de calcul** par la construction de clusters et l'agr√©gation bi-niveau
- Besoin de modalit√©s align√©es pour chaque √©nonc√©



# Synth√®se de l'article : *Dynamic Graph Neural Ordinary Differential Equation Network for Multi-modal Emotion Recognition in Conversation*

## Probl√©matique abord√©e
Cet article aborde la reconnaissance des √©motions dans les conversations multimodales (texte, audio, vid√©o). Les m√©thodes existantes bas√©es sur les GCN souffrent de deux limitations majeures :
- surajustement et perte de g√©n√©ralisation des GCN profonds (over-smoothing)
- incapacit√© √† mod√©liser les **d√©pendances temporelles continues** des √©motions d'un locuteur

## M√©thodologie propos√©e
Les auteurs proposent le mod√®le **DGODE** (Dynamic Graph Neural Ordinary Differential Equation), combinant :
- un **graphe adaptatif MixHop** pour capturer les relations d'ordre sup√©rieur entre n≈ìuds
- une mod√©lisation dynamique par **√©quation diff√©rentielle ordinaire (ODE)** sur graphes, afin de suivre l'√©volution continue des √©motions dans le temps

Le pipeline inclut :
1. Extraction des caract√©ristiques multimodales via RoBERTa, DenseNet et openSMILE
2. Int√©gration de l'identit√© du locuteur dans les embeddings
3. Agr√©gation adaptative multi-hop
4. Mod√©lisation temporelle avec ODE sur graphe

## Formulation math√©matique du mod√®le

- Mod√©lisation d'une conversation comme :
$$
C = [(u_1, s_1), (u_2, s_2), ..., (u_M, s_M)]
$$

- Int√©gration du locuteur dans les embeddings :
$$
P_i = W_p p_i \quad ; \quad h_i^m = c_i^m + S_i, \text{ avec } m \in \{t, a, v\}
$$

- Agr√©gation adaptive MixHop (discr√®te) :
$$
H^{(n+1)} = \sum_{n=1}^N \hat{A}^n H^{(n)} W + H^{(0)}
$$

- Mod√©lisation ODE (continue) :
$$
\frac{dH(t)}{dt} = \frac{1}{N} \sum_{n=1}^N \left( \ln(\hat{A}) H(t) + H(t) \ln(W) + E \right)
$$

avec :
$$
H(t) = ODESolver\left( \frac{dH(t)}{dt}, H_0, t \right)
$$

- Pr√©diction d'√©motion :
$$
\begin{align*}
l_i &= \text{ReLU}(W_l H_i + b_l) \\
p_i &= \text{Softmax}(W_{smax} l_i + b_{smax}) \\
\hat{y}_i &= \arg\max_j(p_{ij})
\end{align*}
$$

## Jeux de donn√©es et m√©triques
- **IEMOCAP** : 7433 √©nonc√©s, 6 √©motions : happy, sad, neutral, angry, excited, frustrated
- **MELD** : 13708 √©nonc√©s, 7 √©motions : anger, disgust, fear, joy, neutral, sadness, surprise
- **M√©triques** : F1-score moyen pond√©r√© (W-F1) et F1 standard

## Contribution originale
- Introduction de **DGODE**, premier mod√®le MERC √† ODE sur graphe
- Int√©gration d'un **m√©canisme MixHop adaptatif** pour explorer des voisins √† plusieurs sauts
- R√©duction du surajustement (overfitting) et sur-lissage (over-smoothing) dans les GCN profonds
- **Stabilit√© des performances** avec le nombre de couches GCN croissant

## Forces et limites de la m√©thode

### Forces
- Capture fine des **d√©pendances temporelles continues** entre les √©motions
- Am√©lioration SOTA sur IEMOCAP et MELD
- Utilisation judicieuse des ODEs pour l'√©volution dynamique des n≈ìuds
- √âtudes d'ablation compl√®tes montrant l'apport de chaque composant

### Limites
- **Complexit√© num√©rique** due √† la r√©solution d'ODEs
- √âtiquetage global des √©motions parfois incompatible avec une dynamique fine
- Moins performant sur les √©motions **minoritaires ou similaires** (confusions entre "happy" et "excited")


# Synth√®se de l'article : *MultiEMO: An Attention-Based Correlation-Aware Multimodal Fusion Framework for Emotion Recognition in Conversations*

## Probl√©matique abord√©e
L'article traite de la reconnaissance des √©motions en conversation multimodale (ERC) en mettant en √©vidence trois probl√®mes principaux :
1. La **fusion multimodale insuffisante** : les m√©thodes existantes utilisent souvent la concat√©nation simple des modalit√©s (texte, audio, visuel), sans mod√©liser leurs corr√©lations complexes.
2. La **mauvaise performance sur les classes minoritaires** : les classes d'√©motions sont tr√®s d√©s√©quilibr√©es dans les benchmarks (notamment MELD).
3. La **difficult√© √† distinguer les √©motions s√©mantiquement proches** (ex : anger vs. disgust).

## M√©thodologie propos√©e
Les auteurs introduisent **MultiEMO**, un cadre de fusion multimodale sensible aux corr√©lations, compos√© de quatre modules principaux :
1. **VisExtNet** : un extracteur visuel bas√© sur MTCNN + ResNet-101 (pr√©entrain√© sur VGGFace2) pour extraire les expressions faciales.
2. **DialogueRNN** : pour la mod√©lisation contextuelle dans les modalit√©s audio et visuelle.
3. **MultiAttn** : module de fusion multimodale √† base de multi-head cross-attention bidirectionnel.
4. **SWFC Loss** (Sample-Weighted Focal Contrastive Loss) : une fonction de perte adapt√©e aux classes d√©s√©quilibr√©es et s√©mantiquement proches.

## Formulation math√©matique

Chaque √©nonc√© $$u_i$$ est repr√©sent√© par :
$$
u_i = \{u_i^t, u_i^a, u_i^v\}
$$

**Fusion multimodale via MultiAttn (simplifi√©)** :
1. Attention croissante texte ‚Üî audio :
$$
Q^{ta}_h = F_t^{(j-1)} W_Q^{ta}, \quad K^{ta}_h = C^a W_K^{ta}, \quad V^{ta}_h = C^a W_V^{ta}
$$
2. Sortie :
$$
A_h^{ta} = \text{Softmax}\left(\frac{Q_h^{ta} K_h^{taT}}{\sqrt{d}}\right) V_h^{ta}, \quad M^{ta} = \text{Concat}(A_1^{ta}, ..., A_H^{ta}) W_O^{ta}
$$
3. Attention texte-audio + visuel, r√©p√©t√© sur $$T$$ couches :
$$
F_t^{(j)} = \text{LayerNorm}(F_{t,av}^{(j)} + FFN(F_{t,av}^{(j)}))
$$

**Fusion finale et classification** :
$$
\begin{align*}
f_i &= f_i^t \oplus f_i^a \oplus f_i^v \\
z_i &= W_z f_i + b_z \\
l_i &= \text{ReLU}(W_l z_i + b_l) \\
p_i &= \text{Softmax}(W_{\text{smax}} l_i + b_{\text{smax}}) \\
\hat{y}_i &= \arg\max_t p_i[t]
\end{align*}
$$

**Fonction de perte** (combin√©e) :
$$
\mathcal{L}_{\text{train}} = \frac{1}{N}(\mu_1 \mathcal{L}_{\text{SWFC}} + \mu_2 \mathcal{L}_{\text{Soft-HGR}} + (1 - \mu_1 - \mu_2) \mathcal{L}_{CE}) + \lambda \|\theta\|_2^2
$$

### SWFC Loss (Sample-Weighted Focal Contrastive)
$$
\mathcal{L}_{\text{SWFC}} = - \sum_{i=1}^M \sum_{j=1}^{C^{(i)}} \left(\frac{N}{n_{y_{ij}}}\right)^\alpha \cdot \frac{1}{|R_{ij}|} \sum_{z_g \in R_{ij}} (1 - s_{jg})^\gamma \log s_{jg}
$$
avec :
$$
s_{jg} = \frac{\exp(z_{ij}^T z_g / \tau)}{\sum_{z_s \in A_{ij}} \exp(z_{ij}^T z_s / \tau)}
$$

### Soft-HGR Loss (maximisation de la corr√©lation inter-modale)
$$
\mathcal{L}_{\text{Soft-HGR}} = - \sum_{Q \neq V \in \mathcal{F}} \left( \mathbb{E}[Q^T V] - \frac{1}{2} \text{Tr}(\text{cov}(Q) \text{cov}(V)) \right)
$$

## Jeux de donn√©es et m√©triques
- **IEMOCAP** : 7433 √©nonc√©s, 6 √©motions : happy, sad, neutral, angry, excited, frustrated
- **MELD** : 13708 √©nonc√©s, 7 √©motions : anger, disgust, fear, joy, neutral, sadness, surprise
- **M√©trique** : Weighted-F1 (F1 pond√©r√©)

## Contribution originale
- Proposition d‚Äôun **extracteur visuel VisExtNet** qui exclut les informations de sc√®ne non informatives
- Fusion **fine et bidirectionnelle** des modalit√©s via **MultiAttn** (cross-attention)
- Nouvelle fonction de perte **SWFC** pour g√©rer le d√©s√©quilibre et la proximit√© s√©mantique
- **SOTA** sur MELD et IEMOCAP, en particulier sur les classes rares et ambigu√´s

## Forces et limites

### Forces
- Fusion multimodale avanc√©e avec cross-attention bidirectionnel
- Traitement efficace des √©motions difficiles √† distinguer (ex : anger vs. disgust)
- Visualisation et analyse qualitatives approfondies (cf. heatmaps)
- Fonction de perte adaptative √©labor√©e

### Limites
- **VisExtNet** ne distingue pas entre locuteurs et figurants ‚Üí risque de bruit visuel
- **SWFC** n√©cessite des batchs tr√®s larges pour garantir des paires positives ‚Üí co√ªteux
- Effets des hyperparam√®tres $$\alpha, \gamma, \tau$$ peu explor√©s
- Am√©liorations encore modestes pour les classes tr√®s rares


# Synth√®se de l'article : *TelME ‚Äì Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation*

## Probl√©matique abord√©e

La reconnaissance des √©motions en conversation (ERC) multimodale repose sur l'exploitation combin√©e des modalit√©s textuelles, visuelles et audio. Toutefois :
- la **modalit√© texte domine** largement les performances,
- les modalit√©s **non-verbales (audio/visuel)** sont souvent faibles et peu informatives,
- les approches actuelles traitent chaque modalit√© **de fa√ßon homog√®ne**, sans consid√©ration pour leurs contributions in√©gales,
- la **fusion multimodale reste basique** (souvent concat√©nation), et ignore les sp√©cificit√©s entre modalit√©s.

## M√©thodologie propos√©e : TelME

TelME est un mod√®le de fusion multimodale dirig√© par l'information de la modalit√© texte (forte) et destin√© √† :
- renforcer les modalit√©s audio et visuelle par **distillation de connaissances crois√©es** (cross-modal KD),
- am√©liorer la fusion par un **shifting fusion attentionnel** (ASF) : les modalit√©s faibles corrigent le professeur texte.

Il se compose de 3 modules :
1. **Encodage multimodal** (Roberta, Data2Vec, TimeSformer)
2. **Distillation crois√©e** (response-based + feature-based)
3. **Attention-based Shifting Fusion** (recalibrage dynamique)

## Formulation math√©matique du mod√®le

### Encodage texte avec prompt
$$
\begin{align*}
C_k &= [\langle s_i \rangle, t_1, \langle s_j \rangle, t_2, ..., \langle s_i \rangle, t_k] \\
P_k &= \text{"Now }\langle s_i \rangle\text{ feels }\langle \text{mask} \rangle" \\
F_k^T &= \text{TextEncoder}(C_k\langle /s \rangle P_k)
\end{align*}
$$

### Encodage audio et visuel
$$
F_k^A = \text{AudioEncoder}(a_k), \quad F_k^V = \text{VisualEncoder}(v_k)
$$

### Distillation crois√©e : pertes combin√©es
$$
\mathcal{L}_{\text{student}} = \mathcal{L}_{\text{cls}} + \alpha \mathcal{L}_{\text{response}} + \beta \mathcal{L}_{\text{feature}}
$$

#### Pertes de distillation par corr√©lation
$$
\mathcal{L}_{\text{inter}} = \frac{\tau^2}{B} \sum_{i=1}^B \left(1 - \rho(Y_i^s, Y_i^t)\right), \quad \mathcal{L}_{\text{intra}} = \frac{\tau^2}{C} \sum_{j=1}^C \left(1 - \rho(Y_j^s, Y_j^t)\right)
$$
$$
\mathcal{L}_{\text{response}} = \mathcal{L}_{\text{inter}} + \mathcal{L}_{\text{intra}}
$$

#### Distillation par similarit√©s inter-batch
$$
\mathcal{L}_{\text{feature}} = \frac{1}{B} \sum_{i=1}^B KL(P_i \parallel Q_i)
$$
avec : $$P_i = \text{softmax}(\frac{M_{ij}}{\tau}),\ Q_i = \text{softmax}(\frac{M'_{ij}}{\tau})$$

### Attention-based Shifting Fusion
$$
\begin{align*}
F^{\text{att}} &= \text{SelfAttn}(F_k^A \oplus F_k^V) \\
g_k &= R(W_1 \cdot [F_k^T, F^{\text{att}}] + b_1) \\
H_k &= g_k \cdot (W_2 \cdot F^{\text{att}} + b_2) \\
\lambda &= \min\left(\frac{\|F_k^T\|_2}{\|H_k\|_2} \cdot \theta, 1\right) \\
Z_k &= F_k^T + \lambda \cdot H_k
\end{align*}
$$

### Classification finale
$$
\hat{y}_k = \arg\max \text{Softmax}(W Z_k + b)
$$

## Jeux de donn√©es et m√©triques
- **MELD** : 13708 √©nonc√©s, 7 √©motions (conversation multi-locuteurs)
- **IEMOCAP** : 7433 √©nonc√©s, 6 √©motions (dyades)
- **M√©trique** : Weighted F1-score

## Contribution originale
- Premier mod√®le ERC √† utiliser **distillation croissante croisement modalit√©** pour renforcer les signaux faibles
- Fusion √©motionnelle via **vecteurs de d√©placement** (shifting fusion)
- D√©monstration exp√©rimentale : SOTA sur MELD, tr√®s fort sur IEMOCAP
- Am√©lioration de la classification des √©motions minoritaires et ambigu√´s (e.g., fear, disgust)

## Forces et limites de la m√©thode

### Forces
- Distillation efficace (texte ‚Üí audio/visuel) sans KL mais via corr√©lations
- Fusion dynamique √©motionnelle : les signaux faibles influencent les forts
- Am√©lioration nette sur les classes difficiles (fear, disgust)
- Analyse pouss√©e : ablation, mod√®les mono-modaux, confusion matrices

### Limites
- Moindre qualit√© de la modalit√© **visuelle** (bruit, courtes dur√©es)
- Performances **limite√©es par le d√©s√©quilibre des classes** (surtout sur MELD)
- Sensibilit√© aux hyperparam√®tres de temp√©rature et de distillation

TelME ouvre une voie prometteuse pour la fusion multimodale guid√©e par un enseignant fort, tout en permettant aux modalit√©s faibles d'enrichir la repr√©sentation finale de mani√®re adaptative.

# Synth√®se de l'article : *Bi-stream Graph Learning based Multimodal Fusion for Emotion Recognition in Conversation (BiGMF)*

## Probl√©matique abord√©e

La reconnaissance des √©motions en conversation (ERC) multimodale est difficile √† cause :
- du **conflit entre modalit√©s** lors de la fusion (texte, audio, visuel),
- de **l'h√©t√©rog√©n√©it√© des donn√©es** multimodales,
- de la fusion √©gale de modalit√©s de qualit√© variable (visuel vs texte),
- et de la difficult√© √† capter √† la fois les **d√©pendances contextuelles intra-modales** et les **interactions inter-modales**.

## M√©thodologie propos√©e : BiGMF

BiGMF est une architecture en **double flux de graphes** combinant :
- un **Unimodal Stream Graph Learning (UMGAT)** : pour capturer les d√©pendances longues *intra-modales* (par modalit√©)
- un **Cross-modal Stream Graph Learning (CMGAT)** : pour mod√©liser les interactions explicites entre modalit√©s
- une **perte de consistance inter-modale** pour forcer la compatibilit√© entre repr√©sentations crois√©es
- un **module r√©siduel adaptatif** pour contrer l'over-smoothing des GNNs

## Formulation math√©matique

### Encodage des modalit√©s
$$
\begin{align*}
X^a &= \text{FC}(\text{Norm}(U^a)) \\
X^v &= \text{FC}(\text{Norm}(U^v)) \\
X^t &= \overleftrightarrow{\text{LSTM}}(\text{Norm}(U^t))
\end{align*}
$$

### Ajout des embeddings locuteur
$$
X_i^s = X_i + \eta_i S \quad \text{o√π } i \in \{a, t, v\}
$$

### Construction des graphes unimodaux (UMGAT)
- Graphe complet $$G_i = (V_i, E_i, W_i)$$ par modalit√©
- Poids des ar√™tes par self-attention :
$$
\alpha^i = \text{Softmax}\left(\frac{Q^i K^{iT}}{\sqrt{d_k}}\right)
$$

### Agr√©gation et mise √† jour de n≈ìud
$$
\text{Neibor}(x_j^i) = \big\|_{h=1}^H \sum_{k \in V_j^i} \alpha_{jk}^{i,h} W_v^{i,h} x_k^i
$$
$$
x_j'^i = W_2^i \cdot \sigma\left(W_1^i \left[(x_j^i + \text{Neibor}(x_j^i)) \| (x_j^i \odot \text{Neibor}(x_j^i))\right]\right)
$$

### Module r√©siduel adaptatif
$$
X_u^i = X_{s,L}^i + \text{Drop}(\text{Linear}(X^i))
$$

### Construction des graphes crois√©s (CMGAT)
- Noeuds : $$V_{i \cup j}$$ avec $$i \neq j$$
- Ar√™tes bidirectionnelles entre modalit√©s
- Poids par co-attention :
$$
\alpha^{i|j} = \text{Softmax}\left(\frac{Q^i K^{jT}}{\sqrt{d_k}}\right)
$$

### Agr√©gation crois√©e sparse (top-K)
$$
\text{Neibor}(x_i^{i \cup j}) = \big\|_{h=1}^H \sum_{k \in N_K(i)} \alpha_{ik}^{i|j,h} W_v^{j|i,h} x_k^j
$$
$$
x_i' = W_2 \cdot \sigma\left(W_1[(x_i + \text{Neibor}(x_i)) \| (x_i \odot \text{Neibor}(x_i))]\right)
$$

### Fusion finale
$$
X = (X_u^a + X_c^a) \| (X_u^t + X_c^t) \| (X_u^v + X_c^v)
$$

### Pr√©diction
$$
p_i = \text{Softmax}(f_c(x_i)) \quad ; \quad \hat{y}_i = \arg\max p_i
$$

### Pertes totales
$$
\mathcal{L} = \mathcal{L}_{\text{avt}} + \zeta_a \mathcal{L}_a^{ce} + \zeta_t \mathcal{L}_t^{ce} + \zeta_v \mathcal{L}_v^{ce} + \gamma \mathcal{L}_{cl}
$$
avec perte de consistance :
$$
\mathcal{L}_{cl} = \|X_c^a - X_c^t\|_2^2 + \|X_c^a - X_c^v\|_2^2 + \|X_c^t - X_c^v\|_2^2
$$

## Jeux de donn√©es et m√©triques
- **IEMOCAP** : 7433 √©nonc√©s, 6 √©motions
- **MELD** : 13708 √©nonc√©s, 7 √©motions
- **M√©trique** : Weighted-F1 (wa-F1) et Accuracy

## Contribution originale
- Double architecture GNN : **UMGATs** pour le contexte intra-modal et **CMGATs** pour l'interaction inter-modal
- Utilisation de **graphes h√©t√©rog√®nes** explicites pour r√©duire les conflits de fusion
- **Co-attention sparse** pour s√©lectionner les liens utiles
- Module r√©siduel adaptatif + perte de consistance multimodale
- Sup√©riorit√© SOTA ou comparable sur IEMOCAP et MELD

## Forces et limites

### Forces
- Captation explicite des **d√©pendances inter-/intra-modalit√©**
- Architecture **modulaire et interpr√©table**
- Bonne g√©rance de l'h√©t√©rog√©n√©it√© via bi-graphes
- Performances solides, m√™me sur des dialogues courts (MELD)

### Limites
- CMGATs sensibles aux **bruits et redondances** (cross-modal)
- Complexit√© accrue pour graphes + attention multi-t√™tes
- Plus **difficile √† parall√©liser** que les mod√®les Transformer purs



# Synth√®se de l'article : *Multimodal Emotion Recognition in Conversation Based on Hypergraphs (MER-HGraph)*

## Probl√©matique abord√©e

Les m√©thodes classiques d'ERC multimodal (Emotion Recognition in Conversation) s'appuient sur des mod√®les s√©quentiels (ex : RNN) ou des GCNs, qui :
- n'exploitent pas les **interactions d'ordre sup√©rieur** entre modalit√©s,
- perdent des informations contextuelles riches,
- propagent uniquement des relations **binaires**, inad√©quates pour les donn√©es multimodales.

## M√©thodologie propos√©e : MER-HGraph

MER-HGraph introduit une architecture fond√©e sur les **hypergraphes** pour mod√©liser :
- les **d√©pendances intra-modales** via des hypergraphes intra (Intra-HGraph),
- les **interactions inter-modales** via des hypergraphes inter (Inter-HGraph),
- et un **module de fen√™trage temporel dynamique** (DTWB) pour extraire localement et globalement des signaux acoustiques fiables.

Le pipeline comprend :
1. Extraction des features : DenseNet (visuel), OpenSMILE (audio), TextCNN (texte).
2. Encodage des signaux audio par DTWB avec attention + Transformer
3. Int√©gration des embeddings de locuteur (one-hot)
4. Construction des hypergraphes (contextes pass√©s/futurs et modalit√©s crois√©es)
5. Convolution sur hypergraphe
6. Pr√©diction via couche dense + softmax

## Formulation math√©matique

### Encodage mono-modal
$$
\begin{align*}
x_i^A &= u_i^{A_2} \oplus u_i^{A_3} \\
x_i^T &= \overleftrightarrow{\text{LSTM}}(u_i^T) \\
x_i^V &= W_e^V u_i^V + b_i^V
\end{align*}
$$

### Encodage locuteur
$$
S_i = W_s s_i + b_s
$$

### Construction de l'hypergraphe
- Intra-HGraph : connexions dans chaque modalit√© entre $$u_{i-P}, ..., u_i, ..., u_{i+F}$$
- Inter-HGraph : connexions entre $$u_i^A, u_i^T, u_i^V$$ (m√™me √©nonc√©, modalit√©s diff√©rentes)

### Matrices :
- H : matrice d'incidence $$H \in \mathbb{R}^{N \times M}$$ entre noeuds et hyperar√™tes
- D : degr√©s de sommets, B : degr√©s d'ar√™tes

### Convolution sur hypergraphe
$$
X^{(l+1)} = D^{-1} H W B^{-1} H^T X^{(l)}
$$

### Pr√©diction d'√©motion
$$
\begin{align*}
z_i &= \text{ReLU}(W h_i + b) \\
p_i &= \text{Softmax}(W' z_i + b') \\
\hat{y}_i &= \arg\max_k p_i[k]
\end{align*}
$$

### Fonction de perte
$$
\mathcal{L} = - \sum_{i,j} y_{ij} \log p_{ij} + \lambda \|W_{ls}\|^2
$$

## Jeux de donn√©es et m√©triques
- **IEMOCAP** : 7433 √©nonc√©s (6 √©motions)
- **MELD** : 13708 √©nonc√©s (7 √©motions)
- **M√©triques** : Accuracy, Weighted-F1

## Contribution originale
- Introduction de **hypergraphes intra- et inter-modaux** pour ERC
- Mod√©lisation √† haut niveau des d√©pendances dans les dialogues
- **DTWB** : fen√™trage dynamique attentionnel sur les signaux acoustiques
- SOTA sur IEMOCAP (Acc 70.81%, wa-F1 70.37%) et MELD (Acc 62.76%, wa-F1 59.13%)

## Forces et limites

### Forces
- Captation des **relations d'ordre sup√©rieur** entre √©nonc√©s et modalit√©s
- Robustesse accrue aux bruits audio gr√¢ce au DTWB
- Interpr√©tabilit√© des structures hypergraphiques
- Performances SOTA ou tr√®s proches

### Limites
- Complexit√© du traitement hypergraphique (scalabilit√©, temps)
- Pas de m√©canisme explicite d'attention dans la convolution
- N√©cessite un bon tuning des fen√™tres contextuelles $$P, F$$

MER-HGraph pose les bases d'une ERC hypergraphique multimodale fine, combinant dynamique temporelle, fusion explicite et haut-niveau d'interactions.

# Synth√®se de l'article : *Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning*

## Probl√©matique abord√©e

Les mod√®les ERC multimodaux classiques pr√©sentent deux faiblesses majeures :
1. Ils utilisent une fusion **na√Øve** entre modalit√©s (ex. concat√©nation), sans distinguer les apports sp√©cifiques (texte = contenu, audio = prosodie).
2. Ils ne traitent pas le **d√©s√©quilibre entre les classes d'√©motions**, ce qui nuit √† la d√©tection des √©motions rares.

## M√©thodologie propos√©e

Les auteurs proposent un mod√®le en deux √©tapes :
- **Joint-based Fusion Module (JFM)** : permet une fusion audio-texte par des vecteurs joints appris, tout en maintenant l'ind√©pendance de chaque modalit√©.
- **Inter-class Contrastive Learning (ICL)** : optimise la s√©paration entre classes d'√©motions en rapprochant les √©chantillons de m√™me classe et en √©loignant les autres.

Le pipeline repose sur RoBERTa (texte), STFT + Transformer (audio), et un apprentissage contrastif supervis√© par les √©tiquettes d'√©motions.

## Formulation math√©matique

### T√¢che ERC
$$
D = \{(u_1, s_1), ..., (u_N, s_N)\}, \quad E = \{e_1, ..., e_N\}
$$

### Fusion croissante via vecteurs joints (JFM)
- Initialisation :
$$
F^t = \text{RoBERTa}(\text{text}), \quad F^m = \text{ViT}(\text{mel-spectrogram})
$$
- Pour chaque couche $$l$$ de fusion (JF block) :
$$
(F^l_{m\rightarrow t} \oplus v_j^l) = V\text{Trans}^l(F^{l-1}_{m\rightarrow t} \oplus v_j^l) \\
(F^{l+1}_{m\rightarrow t} \oplus \bar{v}_j^l) = L\text{Trans}^l(F^l_{t\rightarrow m} \oplus \text{MLP}(v_j^l))
$$
(Et sym√©triquement pour $$t\rightarrow m$$)

- Fusion finale :
$$
F = [F^N_{m\rightarrow t} \oplus F^N_{t\rightarrow m}]
$$

### Pr√©diction d'√©motion
$$
\hat{y}_i = \text{Softmax}(W F + b), \quad \mathcal{L}_{\text{ERC}} = -\sum_i r_i \log(\hat{r}_i)
$$

### Apprentissage contrastif inter-classe (ICL)
$$
\mathcal{L}_{\text{ICL}} = \sum_{i \in I} - \frac{1}{|P(i)|} \sum_{p \in P(i)} \log \frac{\exp(F_i \cdot F_p / \tau)}{\sum_{j \neq i} \exp(F_i \cdot F_j / \tau)}
$$
avec $$P(i)$$ : les exemples positifs (m√™me √©motion), $$\tau$$ : temp√©rature

### Fonction de perte totale
$$
\mathcal{L} = \mathcal{L}_{\text{ERC}} + \lambda \mathcal{L}_{\text{ICL}}
$$

## Jeux de donn√©es et m√©triques
- **IEMOCAP** : 7433 √©nonc√©s (6 √©motions)
- **MELD** : 13708 √©nonc√©s (7 √©motions)
- **M√©triques** : Accuracy et Weighted-F1 (W-F1)

## Contribution originale
- **Fusion multimodale par vecteurs joints (JFM)** avec Transformers
- **Apprentissage contrastif supervis√©** inter-classe via √©tiquettes d'√©motions
- R√©sultats SOTA ou tr√®s comp√©titifs sur IEMOCAP et MELD
- Ablation fine : importance de chaque bloc fusion et vecteur joint quantifi√©e

## Forces et limites

### Forces
- Maintien de l'identit√© modale pendant la fusion (pas de m√©lange brutal)
- Gain net sur les classes rares gr√¢ce au ICL
- Approche modulaire et facilement extensible (plus de blocs, plus de modalit√©s)
- Performance robuste en mono-modal aussi (texte ou audio)

### Limites
- Le mod√®le ne traite pas le **contexte de conversation** (pas de mod√©lisation temporelle)
- Pas de gestion des donn√©es **multi-locuteurs**
- Sensible aux choix des hyperparam√®tres (longueur $$v_j$$, nombre de blocs $$N$$, $$\tau$$)

Ce mod√®le est une avanc√©e forte pour la fusion audio-texte avec un apprentissage supervis√© contrastif, mais il n'int√®gre pas encore la dynamique conversationnelle ou les aspects multi-locuteurs.

## **Comparaison des  methodes**

| Crit√®res                    | Article 1: BiStream        | Article 2: EnhancedERC     | Article 3: DialogueGCN      | Article 4: Hypergraphs       | Article 5: MMGCN            | Article 6: MultiEMO         | Article 7: ODE               | Article 8: RBA-GCN           | Article 9: TelME             |
|----------------------------|----------------------------|----------------------------|-----------------------------|------------------------------|-----------------------------|-----------------------------|------------------------------|------------------------------|------------------------------|
| **Mod√®le utilis√©**         | Bi-stream GNN (BiGMF)      | Cross-modal fusion + CL    | Graph CNN                  | Hypergraph GCN              | Deep GCN                   | Attention-based fusion     | GCN with ODE                 | Bilevel aggregation GCN      | Cross-modal distillation + fusion |
| **Type de donn√©es**        | Texte, audio, visuel       | Texte, audio               | Texte                      | Texte, audio, visuel        | Texte, audio, visuel       | Texte, audio, visuel       | Texte, audio, visuel         | Texte, audio, visuel         | Texte, audio, visuel         |
| **Gestion du contexte**    | Deux flux: intra/inter     | Contexte + vecteurs joints | Graphe dirig√©, locuteur    | Hypergraphes intra/inter    | Connexions graphes         | Context via attention      | Dynamique temporelle (ODE)  | Agr√©gation par clusters      | Fusion adaptative contextuelle |
| **M√©thode d'entra√Ænement** | Supervis√©                  | Supervis√© + CL             | Supervis√©                  | Supervis√©                   | Supervis√©                  | Supervis√© + Focal loss     | Supervis√© + ODE             | Supervis√© avec BiAM          | Supervis√© + distillation     |
| **Performance (pr√©cision)**| SOTA sur MELD/IEMOCAP     | Am√©lioration notable       | Meilleur que RNN/LSTM      | Sup√©rieure aux baselines    | Sup√©rieure aux SOTA       | Sup√©rieure aux SOTA       | Meilleure stabilit√©         | 2-5% > SOTA sur F1           | SOTA sur MELD                |
| **√âvaluation sur (dataset)**| MELD, IEMOCAP             | MELD, IEMOCAP              | IEMOCAP, MELD              | MELD, IEMOCAP               | IEMOCAP, MELD              | IEMOCAP, MELD              | IEMOCAP, MELD                | IEMOCAP, MELD                | MELD, IEMOCAP                |
| **Approche multimodale**   | S√©paration explicite       | Vecteurs conjoints         | N/A (textuel seulement)    | Hypergraphes multi-modal    | Graphe fusion modalit√©s    | Fusion via cross-attention | ODE sur graph multimodal    | Clustering modalit√©s         | Distillation crois√©e multimodale |
| **Limites identifi√©es**    | Conflit modalit√©s          | Redondance information     | Pas d'info intermodale     | Complexit√© de graphe        | H√©t√©rog√©n√©it√© ignor√©e      | Difficult√© sur classes rares| Surapprentissage GCN        | Redondance info, bruit       | D√©pendance au mod√®le textuel |
| **Applications principales**| ERC                       | ERC                        | ERC                        | ERC                         | ERC                        | ERC                        | ERC                          | ERC                          | ERC                          |
| **Am√©liorations propos√©es**| Flux bi-modaux parall√®les  | Fusion adaptative + CL     | Graphe dirig√© locuteurs    | Fen√™tre acoustique dynamique| Fusion profonde            | SWFC + Soft-HGR            | MixHop + ODE                | Agr√©gation bilat√©rale        | Fusion modale hi√©rarchique  |
