# Classification Mesh 


Le MeSH (Medical Subject Headings) est un vocabulaire contrôlé utilisé pour organiser et indexer les articles médicaux. Il est structuré de manière hiérarchique en “arbres” (MeSH trees), où chaque concept est associé à un code unique appelé numéro d’arbre.

“Catégorie principale des Maladies nutritionnelles et métaboliques” est ainsi associé au code C14, où “C” représente la catégorie des maladies et “14” spécifie le groupe des maladies nutritionnelles et métaboliques. Cette organisation facilite la navigation du général au spécifique, aidant ainsi les chercheurs à trouver des informations précises.

Mais il est aussi d'être plus precis en selectionnant des maladies plus loin dans l'**arborescences**.

Par le Diabete de type 1 correspond au code MeSH C18.452.394.750.124 qui se décompose comme suit :

*   C : Catégorie des maladies
*   C18 : Catégorie principale des Maladies nutritionnelles et métaboliques.
*   C18.452 : Sous-catégorie des Maladies métaboliques.
*   C18.452.394 : Sous-sous-catégorie des Troubles du métabolisme du glucose.
*   C18.452.394.750 : Sous-sous-sous-catégorie du Diabète sucré.
*   C18.452.394.750.124 : Terme spécifique pour le Diabète sucré de type 1.

Cette hiérarchie reflète l’organisation des termes MeSH, permettant de situer chaque condition médicale dans un contexte plus large et de naviguer efficacement dans les informations médicales.

In [1]:
import pandas as pd
import numpy as np

In [2]:
import sys
import os

# Ajouter le dossier courant au PATH si ce n'est pas déjà fait
sys.path.append(os.path.abspath("."))

import MeSH
print(MeSH.Hello())

Hello from MeSH!


Le dictionnaire est disponible au format XML à cet [URL](https://nlmpubs.nlm.nih.gov/projects/mesh/MESH_FILES/xmlmesh/?_gl=1*1vhz8wv*_ga*MTkwNTMyNjEyOC4xNzM2Njg2Mzcy*_ga_7147EPK006*MTczNzEwNTQ1MS4xMi4xLjE3MzcxMDU4OTMuMC4wLjA.*_ga_P1FPTH9PL4*MTczNzEwNTQ1MS4xNC4xLjE3MzcxMDU4OTMuMC4wLjA)

In [3]:
import requests

# URL et chemin local du fichier XML
url_fichier = "https://nlmpubs.nlm.nih.gov/projects/mesh/MESH_FILES/xmlmesh/desc2025.xml"
chemin_fichier = "data/desc2025.xml"  # Nom du fichier local

# Vérifier si le fichier existe déjà
if not os.path.exists(chemin_fichier):
    try:
        response = requests.get(url_fichier)
        response.raise_for_status()  # Vérifie si la requête a réussi

        with open(chemin_fichier, "wb") as fichier:
            fichier.write(response.content)

        print(f"Fichier téléchargé avec succès : {chemin_fichier}")
    except requests.RequestException as e:
        print(f"Erreur lors du téléchargement du fichier XML : {e}")
        exit(1)  # Arrête l'exécution en cas d'échec
else:
    print(f"Le fichier {chemin_fichier} existe déjà. Pas de téléchargement nécessaire.")

# Analyse du fichier téléchargé
racine = MeSH.chargement_arbre_mesh(chemin_fichier)

Le fichier data/desc2025.xml existe déjà. Pas de téléchargement nécessaire.
Fichier XML analysé avec succès : data/desc2025.xml


## Chargement données

In [4]:
df = pd.read_parquet('data/df_final')
df.head(3)

Unnamed: 0,pmcid,title,gender,case_text,keywords,major_mesh_terms,mesh_terms,journal,doi
0,PMC5287946,Malignant adenohypophysis spindle cell oncocyt...,Male,A 30-year-old man came to Peking Union Medical...,,"[Adenoma, Oxyphilic / pathology, Ki-67 Antigen...","[Adenoma, Oxyphilic / pathology, Ki-67 Antigen...",Medicine (Baltimore),10.1097/MD.0000000000005657
1,PMC3678730,Misclassification of pregnancy-related deaths ...,Female,"For each death, the DSS has systematically rec...",,"[Cause of Death, Data Collection / standards, ...","[Cause of Death, Data Collection / standards, ...",Trop Med Int Health,10.1111/tmi.12012
2,PMC7201103,Gender Differences in Patients With COVID-19: ...,Female,The demographic and clinical characteristics a...,"[covid-19, sars, sars-cov-2, female, gender, m...","[COVID-19 / epidemiology, COVID-19 / mortality...","[COVID-19 / epidemiology, COVID-19 / mortality...",Front Public Health,10.3389/fpubh.2020.00152


In [5]:
print(type(df.major_mesh_terms[4]))
print(type(MeSH.list_to_dict(df.major_mesh_terms[4])))
print(MeSH.list_to_dict(df.major_mesh_terms[4]))

<class 'numpy.ndarray'>
<class 'dict'>
{'therapy': {'Arteriovenous Fistula', 'Intracranial Arteriovenous Malformations'}, 'pathology': {'Carotid Artery, Internal', 'Cavernous Sinus'}, 'complications': {'Ehlers-Danlos Syndrome'}, 'methods': {'Endovascular Procedures', 'Embolization, Therapeutic'}}


In [6]:
df['dict_mesh'] = df.major_mesh_terms.apply(MeSH.list_to_dict)
df.head()

Unnamed: 0,pmcid,title,gender,case_text,keywords,major_mesh_terms,mesh_terms,journal,doi,dict_mesh
0,PMC5287946,Malignant adenohypophysis spindle cell oncocyt...,Male,A 30-year-old man came to Peking Union Medical...,,"[Adenoma, Oxyphilic / pathology, Ki-67 Antigen...","[Adenoma, Oxyphilic / pathology, Ki-67 Antigen...",Medicine (Baltimore),10.1097/MD.0000000000005657,"{'pathology': {'Neoplasm Recurrence, Local', '..."
1,PMC3678730,Misclassification of pregnancy-related deaths ...,Female,"For each death, the DSS has systematically rec...",,"[Cause of Death, Data Collection / standards, ...","[Cause of Death, Data Collection / standards, ...",Trop Med Int Health,10.1111/tmi.12012,"{'No Qualifier': {'Mortality', 'Maternal Morta..."
2,PMC7201103,Gender Differences in Patients With COVID-19: ...,Female,The demographic and clinical characteristics a...,"[covid-19, sars, sars-cov-2, female, gender, m...","[COVID-19 / epidemiology, COVID-19 / mortality...","[COVID-19 / epidemiology, COVID-19 / mortality...",Front Public Health,10.3389/fpubh.2020.00152,{'epidemiology': {'Severe Acute Respiratory Sy...
3,PMC4108191,Acute pulmonary embolism caused by enlarged ut...,Female,"A 42-year-old, non-smoking, virgin woman prese...","[echocardiography, leiomyoma, pulmonary emboli...","[Pulmonary Embolism / etiology, Uterine Neopla...","[Pulmonary Embolism / etiology, Uterine Neopla...",Am J Case Rep,10.12659/AJCR.890607,"{'etiology': {'Pulmonary Embolism'}, 'complica..."
4,PMC4508704,Transvenous embolization for carotid-cavernous...,Female,The patient was a 37-year-old woman with a his...,,"[Arteriovenous Fistula / therapy, Carotid Arte...","[Arteriovenous Fistula / therapy, Carotid Arte...",Neurol Med Chir (Tokyo),10.2176/nmc.cr.2013-0007,"{'therapy': {'Arteriovenous Fistula', 'Intracr..."


In [16]:
from collections import OrderedDict

i = 4
set_final = set()

#rajouter fonction qui prend en arg un dict

for key in df.dict_mesh[i].keys():
    mesh_terms = df.dict_mesh[i][key]  # C'est un set
    print("\nQualificateur :", key)

    for term in mesh_terms:  # Itérer sur le set (même si un seul élément)
        list_mesh = MeSH.recherche_descripteur(racine, str(term), format_reponse='numero_mesh')
        
        # Filtrer, extraire et ajouter les éléments au set
        set_final.update(item.split('.')[0][-2:] for item in list_mesh if item.startswith('C'))
    
    print(sorted(set_final))  # Affichage trié

# Conversion finale en liste triée
result = sorted(set_final)

print("\nListe finale triée :", result)




Qualificateur : therapy
['10', '14', '16', '23']

Qualificateur : pathology
['10', '14', '16', '23']

Qualificateur : complications
['10', '14', '15', '16', '17', '23']

Qualificateur : methods
['10', '14', '15', '16', '17', '23']

Liste finale triée : ['10', '14', '15', '16', '17', '23']


In [None]:
from collections import OrderedDict

i = 4
set_final = set()

#rajouter fonction qui prend en arg un dict

for key in df.dict_mesh[i].keys():
    mesh_terms = df.dict_mesh[i][key]  # C'est un set
    print("\nQualificateur :", key)

    for term in mesh_terms:  # Itérer sur le set (même si un seul élément)
        list_mesh = MeSH.recherche_descripteur(racine, str(term), format_reponse='numero_mesh')
        
        # Filtrer, extraire et ajouter les éléments au set
        set_final.update(MeSH.categorie_haute(racine, item, level=1) for item in list_mesh if item.startswith('C'))
    
    print(sorted(set_final))  # Affichage trié

# Conversion finale en liste triée
result = sorted(set_final)

print("\nListe finale triée :", result)