# 07 ‚Äî Results & Discussion

## Objectif

Analyser et interpr√©ter les r√©sultats obtenus dans :

- Graph Analysis (structure)
- Community Detection
- Link Prediction
- Classification

Nous discutons :
- Des propri√©t√©s structurelles du graphe
- Du r√¥le des communaut√©s
- De la comparaison structure vs s√©mantique
- De l‚Äôimpact des features sur la classification
- Des limites du projet
- Des perspectives futures

In [1]:
import os
import json
import pandas as pd
import numpy as np

## 1) Analyse structurelle du graphe

On charge les m√©triques calcul√©es dans le Notebook 03.

In [2]:
with open("results/graph_metrics.json", "r") as f:
    graph_metrics = json.load(f)

graph_metrics

{'n_nodes': 390,
 'n_edges': 1200,
 'density': 0.015819655922483685,
 'n_components': 1,
 'largest_component': 390,
 'avg_degree_cv': 4.0,
 'avg_degree_job': 13.333333333333334,
 'max_degree_cv': 4,
 'max_degree_job': 29}

### Interpr√©tation d√©taill√©e des propri√©t√©s structurelles

#### 1Ô∏è‚É£ Taille du graphe

Le graphe contient :

- **390 n≈ìuds**
- **1200 ar√™tes**

Ce volume correspond √† un march√© simul√© de taille moyenne,
avec un nombre raisonnable d‚Äôinteractions CV‚ÄìJob.

---

#### 2Ô∏è‚É£ Densit√© du graphe (‚âà 0.0158)

La densit√© est faible (~1.6%).

Cela signifie que :

- Seule une petite fraction des paires CV‚ÄìJob possibles sont connect√©es.
- Le graphe est **clairsem√©**, ce qui est coh√©rent avec un syst√®me r√©el de recrutement :
  un CV ne correspond qu'√† un sous-ensemble limit√© d'offres.

Cette faible densit√© rend la t√¢che de **link prediction pertinente et non triviale**.

---

#### 3Ô∏è‚É£ Composantes connexes

- Nombre de composantes = **1**
- Taille de la plus grande composante = **390**

Le graphe est donc **enti√®rement connect√©**.

Cela signifie que :

- Il existe toujours un chemin reliant n‚Äôimporte quel CV √† n‚Äôimporte quel Job.
- Le march√© simul√© est globalement interconnect√©.
- Il n‚Äôexiste pas de sous-march√©s totalement isol√©s.

Dans un dataset r√©el, on pourrait observer plusieurs composantes
correspondant √† des niches professionnelles isol√©es.

---

#### 4Ô∏è‚É£ Analyse des degr√©s

##### C√¥t√© CV :
- Degr√© moyen = **4**
- Degr√© maximal = **4**

Chaque CV est connect√© √† environ 4 offres en moyenne,
et le maximum est √©galement 4.

Cela sugg√®re que :

- Le dataset a √©t√© g√©n√©r√© avec un nombre fixe (ou quasi fixe) de correspondances par CV.
- Il n‚Äôy a pas de CV extr√™mement polyvalents (pas de "super hubs").

---

##### C√¥t√© Job :
- Degr√© moyen ‚âà **13.33**
- Degr√© maximal = **29**

Certaines offres attirent beaucoup plus de CV que d‚Äôautres.

Cela refl√®te :

- Des postes g√©n√©riques ou populaires (forte attractivit√©)
- Des domaines tr√®s demand√©s

La forte variance c√¥t√© Job indique une structure plus h√©t√©rog√®ne que c√¥t√© CV.

---

#### 5Ô∏è‚É£ Asym√©trie structurelle

On observe une asym√©trie :

- Les CV ont un degr√© born√© (‚âà 4)
- Les Jobs ont un degr√© tr√®s variable (jusqu'√† 29)

Cela correspond √† un m√©canisme r√©aliste :

- Un candidat postule √† peu d'offres
- Une offre peut recevoir beaucoup de candidatures

Cette asym√©trie est typique des graphes bipartis de recommandation.

---

### Conclusion structurelle

Le graphe pr√©sente :

- Une structure clairesem√©e
- Une composante unique dominante
- Une forte asym√©trie CV‚ÄìJob

Ce contexte est particuli√®rement adapt√© pour :
- La d√©tection de communaut√©s
- La pr√©diction de liens
- La classification des profils selon leur position structurelle

## 2) Communaut√©s d√©tect√©es (Louvain)

Les communaut√©s d√©tect√©es sur la projection CV‚ÄìCV repr√©sentent
des groupes de CV partageant des offres similaires.

Cela peut correspondre √† :
- Domaines professionnels
- Niveaux d‚Äôexp√©rience
- Sp√©cialisations techniques

In [3]:
cv_comm = pd.read_csv("results/cv_with_communities.csv")

community_sizes = cv_comm["community_id"].value_counts().sort_values(ascending=False)
community_sizes.head(10)

Unnamed: 0_level_0,count
community_id,Unnamed: 1_level_1
3,60
6,50
5,49
0,46
1,37
2,36
4,22


### Interpr√©tation des communaut√©s d√©tect√©es (projection CV‚ÄìCV)

La d√©tection Louvain a identifi√© **7 communaut√©s distinctes**
avec les tailles suivantes :

- Community 3 ‚Üí 60 CV
- Community 6 ‚Üí 50 CV
- Community 5 ‚Üí 49 CV
- Community 0 ‚Üí 46 CV
- Community 1 ‚Üí 37 CV
- Community 2 ‚Üí 36 CV
- Community 4 ‚Üí 22 CV

---

### 1Ô∏è‚É£ Structure globale

On observe une distribution relativement √©quilibr√©e des tailles,
avec plusieurs communaut√©s majeures (entre 45 et 60 CV).

Cela sugg√®re que :

- Le march√© simul√© est structur√© en **plusieurs p√¥les professionnels comparables**
- Il n‚Äôexiste pas une communaut√© ultra-dominante
- Le r√©seau n‚Äôest pas fragment√© en micro-niches isol√©es

---

### 2Ô∏è‚É£ Interpr√©tation structurelle

Dans la projection CV‚ÄìCV :

Deux CV sont connect√©s s‚Äôils partagent des offres similaires.

Donc une communaut√© correspond √† :

‚Üí Un groupe de CV ayant des correspondances structurellement proches  
‚Üí Probablement un **domaine professionnel commun**  
‚Üí Ou un **niveau d'exp√©rience similaire**

Les grandes communaut√©s (3, 6, 5, 0) peuvent correspondre √† :

- Data / Software
- Finance / Business
- Marketing
- Management

Les plus petites communaut√©s (ex: community 4 ‚Üí 22 CV)
peuvent repr√©senter :

- Des profils sp√©cialis√©s
- Des niches techniques
- Des combinaisons rares de comp√©tences

---

### 3Ô∏è‚É£ Signification en termes de march√©

La pr√©sence de plusieurs communaut√©s significatives indique :

- Une segmentation naturelle du march√© du travail
- Une coh√©rence structurelle entre profils et offres
- Une organisation modulaire du graphe

Cette modularit√© est un signal fort que :

‚Üí Le graphe capture bien la similarit√© professionnelle  
‚Üí Les communaut√©s peuvent servir de **feature pertinente pour la classification**

---



### Conclusion

La structure communautaire du graphe confirme
l'existence de groupes professionnels distincts.

Cela valide l'utilisation de la d√©tection de communaut√©s
comme outil d'analyse structurelle et comme feature pour les t√¢ches supervis√©es.

## 3) Link Prediction : Structure vs S√©mantique

Nous comparons :
- M√©thode structurelle (2-hop CN)
- M√©thode s√©mantique (embeddings + cosine)

Crit√®re d‚Äô√©valuation : Precision@K

In [4]:
with open("results/linkpred_metrics.json", "r") as f:
    link_metrics = json.load(f)

link_metrics

{'precision_at_200_struct_cn': 0.015,
 'precision_at_500_struct_cn': 0.014,
 'precision_at_200_semantic': 0.05,
 'precision_at_500_semantic': 0.076,
 'n_candidates_scored': 20000,
 'test_edges': 240}

### Analyse comparative : Structure vs S√©mantique

Les r√©sultats obtenus sont :

| M√©thode        | Precision@200 | Precision@500 |
|---------------|---------------|---------------|
| Structure (2-hop CN) | 0.015 | 0.014 |
| S√©mantique (Embeddings) | 0.050 | 0.076 |

---

### 1Ô∏è‚É£ Performance structurelle (2-hop CN)

La m√©thode purement structurelle obtient une pr√©cision faible (~1.5%).

Cela signifie que :

- La topologie seule capture peu d'information pr√©dictive.
- Le nombre de chemins 2-hop n'est pas suffisant pour discriminer correctement les correspondances.
- Le graphe √©tant relativement clairsem√©, la structure locale est limit√©e.

La m√©thode structurelle repose uniquement sur la proximit√© dans le graphe,
sans tenir compte du contenu des profils ou des offres.

---

### 2Ô∏è‚É£ Performance s√©mantique (embeddings + cosine)

La m√©thode s√©mantique obtient :

- Precision@200 ‚âà 5%
- Precision@500 ‚âà 7.6%

Cela repr√©sente une am√©lioration significative par rapport √† la m√©thode structurelle.

Interpr√©tation :

- Les embeddings capturent efficacement la similarit√© textuelle.
- La correspondance CV ‚Üî Job est fortement d√©pendante du contenu s√©mantique.
- Le texte contient une information discriminante que la topologie seule ne refl√®te pas.

On observe m√™me une augmentation de la pr√©cision en passant de 200 √† 500,
ce qui sugg√®re que le classement s√©mantique est relativement stable.

---

### 3Ô∏è‚É£ Comparaison directe

La m√©thode s√©mantique est environ :

- 3 √† 5 fois plus performante que la m√©thode structurelle.

Cela indique que :

‚Üí Dans ce dataset, le contenu textuel est plus informatif que la structure du graphe.
‚Üí La similarit√© s√©mantique est un signal dominant pour le matching.

---

### 4Ô∏è‚É£ Implications pour un syst√®me r√©el

Pour un moteur de recommandation CV‚ÄìJob :

- Une approche uniquement structurelle serait insuffisante.
- Une approche uniquement s√©mantique est d√©j√† performante.
- La meilleure solution serait une approche hybride :
    - Score_final = Œ± * score_structure + Œ≤ * score_s√©mantique

Cette combinaison permettrait de capturer :
- La coh√©rence structurelle
- La similarit√© m√©tier r√©elle

---

### Conclusion

Les r√©sultats confirment que :

La mod√©lisation textuelle via LLM (embeddings) apporte
une am√©lioration substantielle dans la pr√©diction de liens,
et constitue un √©l√©ment central pour un syst√®me de matching intelligent.

## 4) Classification des CV

Nous avons test√© diff√©rentes configurations :

1. Degree only
2. Degree + Community
3. Degree + Community + Embeddings

In [5]:
ablation = pd.read_csv("results/cv_ablation_results.csv")
ablation

Unnamed: 0,setting,accuracy,f1_weighted
0,degree_only,0.483333,0.314981
1,degree+community,0.483333,0.314981
2,degree+community+emb,0.983333,0.983364


### Analyse d√©taill√©e des r√©sultats de classification

Les performances observ√©es sont :

| Configuration | Accuracy | F1-weighted |
|---------------|----------|-------------|
| Degree only | 0.483 | 0.315 |
| Degree + Community | 0.483 | 0.315 |
| Degree + Community + Embeddings | 0.983 | 0.983 |

---

### 1Ô∏è‚É£ Structure seule (degree only)

La performance est faible (~48% accuracy, F1 ‚âà 0.31).

Cela signifie que :

- Le degr√© biparti contient peu d'information discriminante.
- Tous les CV ont un degr√© similaire (‚âà4), donc la variance est faible.
- La structure locale ne suffit pas √† distinguer les niveaux (junior/intermediate/senior).

Conclusion :
La topologie seule n'est pas un signal suffisant pour la classification.

---

### 2Ô∏è‚É£ Ajout des communaut√©s

L‚Äôajout de `community_id` ne change pas les performances.

Interpr√©tation :

- Les communaut√©s refl√®tent principalement des similarit√©s m√©tier (domaines).
- La variable cible (`level`) est probablement ind√©pendante des clusters structurels.
- Les communaut√©s capturent une segmentation horizontale (domaines),
  tandis que le niveau est une segmentation verticale (exp√©rience).

Cela explique l‚Äôabsence d‚Äôam√©lioration.

---

### 3Ô∏è‚É£ Ajout des embeddings (texte)

L‚Äôint√©gration des embeddings entra√Æne une performance quasi parfaite (~98%).

Cela indique que :

- Le texte du CV contient une information tr√®s discriminante.
- Les embeddings capturent efficacement les diff√©rences entre niveaux.
- Le mod√®le apprend des signaux s√©mantiques forts li√©s √† l'exp√©rience.

Cette am√©lioration spectaculaire confirme que :

‚Üí La dimension s√©mantique domine la dimension structurelle dans cette t√¢che.

---

### 4Ô∏è‚É£ Analyse critique

Une performance proche de 1.0 peut indiquer :

- Une s√©paration tr√®s claire entre classes dans le dataset synth√©tique.
- Une forte corr√©lation entre texte et niveau (dans la g√©n√©ration des donn√©es).
- Un risque potentiel d‚Äôoverfitting si le dataset est trop simple.

Dans un dataset r√©el, on s‚Äôattendrait √† des performances plus mod√©r√©es.

---

### Conclusion classification

Les r√©sultats montrent clairement que :

- La structure du graphe seule est insuffisante pour pr√©dire le niveau.
- Les communaut√©s sont utiles pour segmentation m√©tier, mais pas pour le niveau.
- Les embeddings textuels sont le signal dominant pour la classification.

Cela confirme que :

üëâ Pour des t√¢ches li√©es au profil individuel (niveau, sp√©cialisation),
le contenu s√©mantique est plus informatif que la topologie globale.