# Analyse de LMGEC

> Article analys√© : **LMGEC: Simultaneous Linear Multi-view Attributed Graph Representation Learning and Clustering**, WSDM 2023.


---


## Probl√©matique centrale  :  
LMGEC r√©pond √† la probl√©matique suivante :
‚ÄúComment apprendre des repr√©sentations partag√©es et effectuer un clustering efficace sur des graphes multi-vues attribu√©s, tout en garantissant simplicit√©, rapidit√©, et robustesse face √† l‚Äôh√©t√©rog√©n√©it√© des vues ?‚Äù
>

![Alt text](problem.png)


## üìÖ 1. M√©thodologie : quel type de fusion ?

LMGEC repose sur une **fusion lin√©aire pond√©e tardive** des vues. 

- Chaque vue est d'abord **filtr√©e localement** (1-hop) pour lisser les attributs : $$ H_v = S_v X_v $$
- Une **pond√©ration adaptative** des vues est appliqu√©e via des poids $$ \alpha_v $$, calcul√©s dynamiquement.
- Les embeddings obtenus sont projet√©s et **fusionn√©s dans un espace commun** pour effectuer le clustering.

> **Type de fusion :** tardive + pond√©ration adaptative (soft fusion)

---

## üîç 2. Hypoth√®ses sur les vues

- ‚úÖ M√™mes n≈ìuds dans toutes les vues
- ‚úÖ Vues potentiellement **tr√®s h√©t√©rog√®nes** (topologies ou attributs)
- ‚ùå Pas de traitement sp√©cial des vues **manquantes** ou d√©salign√©es
- ‚úÖ Le mod√®le peut att√©nuer les vues bruit√©es via la pond√©ration $$ \alpha_v $$

---

## üìä 3. Mod√®les math√©matiques

- **Filtrage de chaque vue :** $$ H_v = S_v X_v $$, o√π $$ S_v = \tilde{D}^{-1} (\tilde{A}_v) $$ avec self-loops.

- **Objectif :**
$$
\min_{G, F, W_1,\dots,W_V} \sum_{v=1}^{V} \alpha_v \| H_v - G F W_v^\top \|^2
$$
Avec :
  - $ G \in \{0,1\}^{n \times k} $ : clustering (soft or hard)
  - $ W_v \in \mathbb{R}^{d \times f} $, $ W_v W_v^\top = I $

- **Pond√©ration des vues :**
$$
\alpha_v = \text{softmax}\left(-\frac{I_v}{\tau}\right), \quad I_v = \| H_v - G_v F_v \|
$$

> Optimisation par **Bloc Coordinate Descent**

> 
![Alt text](recon.png)
---

## üìà 4. Types de donn√©es utilis√©es

- **Topologies diff√©rentes, m√™mes features :** ACM, DBLP, IMDB
- **M√™mes topologies, features diff√©rentes :** Amazon Photos
- **Topologies + features diff√©rentes :** Wiki

> LMGEC couvre **tous les cas multi-vues usuels**

---

## üìä 5. M√©triques d‚Äô√©valuation

Les performances sont mesur√©es avec 4 m√©triques standards en clustering :

| M√©trique | Description |
|----------|-------------|
| **NMI** | Normalized Mutual Information |
| **ARI** | Adjusted Rand Index |
| **ACC** | Accuracy (appliqu√©e au clustering) |
| **F1-score** | Pr√©cision + rappel |

---




# üéØ Contribution originale et √©valuation critique de LMGEC

## üß© Quelle est la **contribution originale** du papier ?

L‚Äôarticle propose **LMGEC**, un mod√®le lin√©aire simple et efficace pour :

- R√©aliser **simultan√©ment** l‚Äôapprentissage de repr√©sentation et le clustering sur des graphes multi-vues attribu√©s.
- Offrir une **formulation unifi√©e** int√©grant :
  - une √©tape de **propagation locale (1-hop)** par un filtre de graphe lin√©aire,
  - un **m√©canisme de pond√©ration adaptative des vues** (softmax sur l‚Äôinertie),
  - un objectif combin√© de **reconstruction + clustering**.
- √ätre **g√©n√©rique**, applicable √† :
  - plusieurs graphes avec une m√™me matrice de features,
  - plusieurs matrices de features sur un seul graphe,
  - ou un m√©lange des deux (cas du dataset Wiki).
- √ätre **beaucoup plus rapide** que les mod√®les existants tout en offrant des performances comparables, voire meilleures.
- Fournir une **analyse math√©matique et exp√©rimentale approfondie** ainsi que le **code open-source**.

## ‚úÖ **Points forts** de LMGEC

| Atout | D√©tail |
|-------|--------|
| ‚úÖ Simplicit√© | Formulation lin√©aire claire et interpr√©table |
| ‚úÖ Efficacit√© | Temps d'entra√Ænement **jusqu'√† 10√ó plus rapide** que les m√©thodes GCN ou autoencoder |
| ‚úÖ Robustesse | Capacit√© √† ignorer les vues peu informatives via le m√©canisme d'attention/inertie |
| ‚úÖ G√©n√©ralit√© | Supporte diff√©rents types de graphes multi-vues sans contraintes |
| ‚úÖ Formulation unifi√©e | Apprentissage de repr√©sentation + clustering dans un m√™me objectif |
| ‚úÖ Reproductibilit√© | Code disponible en open-source et r√©sultats d√©taill√©s sur 5 benchmarks |

## ‚ö†Ô∏è **Limites** de LMGEC

| Limite | D√©tail |
|--------|--------|
| ‚ùå M√©thode lin√©aire | Ne capture pas les non-lin√©arit√©s complexes, contrairement aux mod√®les deep |
| ‚ùå Pas de gestion des vues manquantes | Chaque vue est suppos√©e compl√®te et bien align√©e |
| ‚ùå Risque de sur-lissage √©vit√© uniquement via un filtrage 1-hop | Ce choix reste rigide dans certains cas |
| ‚ùå Pas de m√©canisme d'apprentissage end-to-end avec supervision √©ventuelle | Mod√®le strictement non supervis√© |
| ‚ùå Pas de m√©canisme explicite de fusion dynamique | Le poids est fix√© apr√®s initialisation (pas appris pendant optimisation) |

## üß† Conclusion
LMGEC se positionne comme une **alternative simple, rapide et robuste** aux m√©thodes complexes bas√©es sur GCN ou autoencodeurs. Il est particuli√®rement pertinent dans des contextes contraints en ressources ou n√©cessitant une interpr√©tabilit√© forte.

Cependant, pour des cas tr√®s non-lin√©aires ou avec des donn√©es partiellement align√©es, des m√©thodes plus expressives comme les mod√®les √† attention ou graph contrastif peuvent √™tre pr√©f√©r√©es.

## üåê R√©capitulatif Synth√©tique

| √âl√©ment | D√©scription |
|--------|-------------|
| **Fusion** | Tardive, lin√©aire, pond√©ration adaptative |
| **Hypoth√®ses sur les vues** | M√™mes n≈ìuds, h√©t√©rog√©n√©it√© support√©e |
| **Formulation** | Lin√©aire, objectif joint reconstruction + clustering |
| **Donn√©es** | Multi-vues topologiques, attributaires ou mixtes |
| **M√©triques** | NMI, ARI, ACC, F1 |

---