# Analyse descriptive des codes MeSH
Ce notebook calcule :
* la similarité (Jaccard) entre `pubmed_mesh` et `mesh_from_gliner` pour chaque cas clinique ;
* des statistiques descriptives (min, max, moyenne, écart‑type, quartiles) sur le **nombre** de codes dans chaque colonne.

> **Dataset utilisé :** `clairedhx/edu3-clinical-fr-mesh-2` (split `train`). Assurez‑vous d’avoir installé `datasets` : `pip install datasets`.

In [None]:
from datasets import load_dataset
import pandas as pd, numpy as np


In [None]:
ds = load_dataset("clairedhx/edu3-clinical-fr-mesh-2", split="train")
print("Nombre d'exemples :", len(ds))


In [None]:
def jaccard(a, b):
    if not a and not b:
        return np.nan
    inter = len(set(a) & set(b))
    union = len(set(a) | set(b))
    return inter / union if union else np.nan

jaccards = []
n_gliner = []
n_pubmed = []

for ex in ds:
    m_g = ex["mesh_from_gliner"]
    m_p = ex["pubmed_mesh"]
    n_gliner.append(len(m_g))
    n_pubmed.append(len(m_p))
    jaccards.append(jaccard(m_g, m_p))

df = pd.DataFrame({
    "jaccard": jaccards,
    "n_gliner": n_gliner,
    "n_pubmed": n_pubmed
})
df.head()


In [None]:
print("### Statistiques descriptives Jaccard")
display(df["jaccard"].describe())

print("\n### Nombre de codes MeSH (GLiNER)")
display(df["n_gliner"].describe())

print("\n### Nombre de codes MeSH (PubMed)")
display(df["n_pubmed"].describe())
