In [1]:
import pandas as pd
import re
from difflib import get_close_matches

NORMALISATION DES TRAITEMENTS VIH

In [2]:
# ------------------------------------------------------------------
# 1. Charger les fichiers
# ------------------------------------------------------------------
df_ref = pd.read_excel("data/vih.xlsx")
df_arv = pd.read_excel("data/out/arv_abbr.xlsx")

print(f"‚Üí {len(df_ref)} m√©dicaments dans le dictionnaire VIH")
print(f"‚Üí {len(df_arv)} lignes ARV √† traiter")


‚Üí 8248 m√©dicaments dans le dictionnaire VIH
‚Üí 19220 lignes ARV √† traiter


In [3]:
# ------------------------------------------------------------------
# 2. Pr√©paration du dictionnaire VIH
# ------------------------------------------------------------------
df_ref["nom_commercial"] = df_ref["nom_commercial"].fillna("").astype(str)
df_ref["dci"] = df_ref["dci"].fillna("").astype(str)


In [4]:
# Liste des m√©dicaments (nom commercial + nom de base + dci)
medicaments = []

for _, row in df_ref.iterrows():
    nom = row["nom_commercial"].strip()
    dci = row["dci"].strip()

    if nom and dci:
        nom_base = re.split(r'\s+\d|,|\s+\(', nom)[0].strip().upper()
        medicaments.append({
            "nom_complet": nom,
            "nom_base": nom_base,
            "nom_base_lower": nom_base.lower(),
            "dci": dci
        })

In [5]:
# Set des DCI pour recherche rapide
dci_set = set()
for d in df_ref["dci"]:
    if d:
        dci_set.add(d.lower())
        for comp in re.split(r"[\+/]", d):
            comp = comp.strip()
            if comp:
                dci_set.add(comp.lower())

print(f"‚úì Dictionnaire charg√© : {len(medicaments)} m√©dicaments")

‚úì Dictionnaire charg√© : 8237 m√©dicaments


In [6]:
# ------------------------------------------------------------------
# 3. Fonctions utilitaires simples
# ------------------------------------------------------------------

def extraire_nom_commercial(txt):
    m = re.search(r"\(([^)]+)\)", txt)
    return m.group(1).strip() if m else None

def enlever_parentheses(txt):
    return re.sub(r"\s*\([^)]*\)", "", txt).strip()

def chercher_dci(med_str):
    if not med_str or not med_str.strip():
        return "VIDE"

    med_str = med_str.strip()

    # 1. regarder parenth√®ses ‚Üí nom commercial
    nom_com = extraire_nom_commercial(med_str)
    if nom_com:
        cle = nom_com.strip().upper()
    else:
        cle = enlever_parentheses(med_str).upper()

    cle_lower = cle.lower()

    # 2. correspondance exacte sur nom de base
    for med in medicaments:
        if med["nom_base"] == cle:
            return med["dci"]

    # 3. correspondance partielle
    for med in medicaments:
        if med["nom_base"].startswith(cle) or cle.startswith(med["nom_base"]):
            return med["dci"]

    # 4. recherche dans nom complet
    for med in medicaments:
        if cle in med["nom_complet"].upper():
            return med["dci"]

    # 5. matching approx
    bases = [m["nom_base_lower"] for m in medicaments]
    match = get_close_matches(cle_lower, bases, n=1, cutoff=0.8)
    if match:
        for m in medicaments:
            if m["nom_base_lower"] == match[0]:
                return m["dci"]

    # 6. d√©j√† une DCI ?
    if cle_lower in dci_set:
        for m in medicaments:
            if cle_lower in m["dci"].lower():
                return m["dci"]

    # 7 matching approx dans DCI
    match = get_close_matches(cle_lower, list(dci_set), n=1, cutoff=0.8)
    if match:
        for m in medicaments:
            if match[0] in m["dci"].lower():
                return m["dci"]

    return f"INTROUVABLE ({cle})"


In [7]:
# ------------------------------------------------------------------
# 4. Normalisation du traitement ARV
# ------------------------------------------------------------------

def normaliser_traitement(traitement):
    if pd.isna(traitement) or not str(traitement).strip():
        return "VIDE"

    items = [t.strip() for t in str(traitement).split("+")]

    dcis = []
    for item in items:
        if item:
            d = chercher_dci(item)
            d = d.replace(" + ", " / ")
            dcis.append(d)

    return " + ".join(dcis)

In [8]:
# ------------------------------------------------------------------
# 5. Appliquer sur tout le DataFrame
# ------------------------------------------------------------------

print("\nTraitement en cours...")
df_arv["DCI"] = df_arv["ARV"].apply(normaliser_traitement)

nb_introuv = df_arv["DCI"].str.contains("INTROUVABLE", na=False).sum()
nb_vides = (df_arv["DCI"] == "VIDE").sum()

print(f"‚úì Normalisation termin√©e")
print(f"  ‚Üí Trouv√©s : {len(df_arv) - nb_introuv - nb_vides}")
print(f"  ‚Üí Introuvables : {nb_introuv}")
print(f"  ‚Üí Vides : {nb_vides}")



Traitement en cours...
‚úì Normalisation termin√©e
  ‚Üí Trouv√©s : 19151
  ‚Üí Introuvables : 69
  ‚Üí Vides : 0


In [9]:
# ------------------------------------------------------------------
# 6. Sauvegarde
# ------------------------------------------------------------------
df_arv.to_excel("data/out/arv_dci.xlsx", index=False)
print("\nFichier cr√©√© : data/out/arv_dci.xlsx")
print("="*60)



Fichier cr√©√© : data/out/arv_dci.xlsx


# ATC

In [10]:
print("Lecture des fichiers...")
df_arv = pd.read_excel("data/out/arv_dci.xlsx")
df_vih = pd.read_excel("data/vih.xlsx")

print(f"   ‚Üí {len(df_arv)} lignes ARV")
print(f"   ‚Üí {len(df_vih)} lignes VIH")

Lecture des fichiers...
   ‚Üí 19220 lignes ARV
   ‚Üí 8248 lignes VIH


In [11]:
# ------------------------------------------------------------
# 1) NORMALISER LES DCI
# ------------------------------------------------------------
def norm(x):
    return " ".join(str(x).lower().strip().split())


In [12]:
# ------------------------------------------------------------
# 2) CR√âATION DU MAPPING DCI ‚Üí ATC
# ------------------------------------------------------------

mapping = {}

for _, row in df_vih.iterrows():
    dci = str(row["dci"])
    atc = str(row["atc"])

    # DCI compl√®te
    dci_norm = norm(dci)
    mapping[dci_norm] = atc

    # Si combinaison (lamivudine + zidovudine)
    if "+" in dci:
        parts = [norm(p) for p in dci.split("+")]
        for p in parts:
            if p not in mapping:
                mapping[p] = atc

    # Si "/" dans le fichier VIH
    if "/" in dci:
        dci_slash = norm(dci.replace("/", "+"))
        mapping[dci_slash] = atc

print(f"üîó Mapping cr√©√© : {len(mapping)} cl√©s DCI")


üîó Mapping cr√©√© : 2126 cl√©s DCI


In [13]:
# ------------------------------------------------------------
# 3) G√âN√âRATION DE LA COLONNE ATC
# ------------------------------------------------------------

ATC_output = []

for _, row in df_arv.iterrows():
    dci_full = str(row["DCI"])

    # S√©paration des m√©dicaments d‚Äôun traitement
    meds = [m.strip() for m in dci_full.split("+")]

    atc_codes = []

    for med in meds:

        med_norm = norm(med)

        # 1) recherche directe
        if med_norm in mapping:
            atc_codes.append(mapping[med_norm])
            continue

        # 2) si "/" dans la DCI normalis√©e
        if "/" in med:
            med_plus = med_norm.replace("/", "+")
            if med_plus in mapping:
                atc_codes.append(mapping[med_plus])
                continue

        # 3) essayer permutations pour combinaisons
        if "/" in med or "+" in med:

            # extraire composants
            parts = re.split(r"[+/]", med)
            parts = [norm(p) for p in parts]

            combo1 = " + ".join(parts)
            combo2 = " + ".join(parts[::-1])

            if combo1 in mapping:
                atc_codes.append(mapping[combo1])
                continue
            if combo2 in mapping:
                atc_codes.append(mapping[combo2])
                continue

        # 4) rien trouv√©
        # print(f"‚ö†Ô∏è ATC non trouv√© pour: {med}")
        atc_codes.append("NON_TROUVE")

    ATC_output.append(" + ".join(atc_codes))



In [14]:

# ------------------------------------------------------------
# 4) AJOUTER LA COLONNE ET SAUVEGARDER
# ------------------------------------------------------------

df_arv["ATC"] = ATC_output

out = "data/out/arv_dci_atc.xlsx"
df_arv.to_excel(out, index=False)

print("\n Fichier g√©n√©r√© :", out)
print("\n APER√áU :")
print(df_arv[["ARV", "DCI", "ATC"]].head(10).to_string())

# Statistique
nb_missing = df_arv["ATC"].str.contains("NON_TROUVE").sum()
print("\n ATC NON TROUV√âS :", nb_missing)



 Fichier g√©n√©r√© : data/out/arv_dci_atc.xlsx

 APER√áU :
                                   ARV                                                                            DCI                          ATC
0                   Combivir + Kal√©tra                                LAMIVUDINE / ZIDOVUDINE + LOPINAVIR / RITONAVIR            J05AR01 + J05AR10
1                  Isentress + Truvada    RALT√âGRAVIR POTASSIQUE + EMTRICITABINE / T√âNOFOVIR DISOPROXIL (FUMARATE DE)            J05AJ01 + J05AR03
2                   Isentress + Kivexa                    RALT√âGRAVIR POTASSIQUE + ABACAVIR (SULFATE D') / LAMIVUDINE            J05AJ01 + J05AR02
3                              Triumeq                         DOLUT√âGRAVIR SODIQUE / LAMIVUDINE / SULFATE D'ABACAVIR                      J05AR13
4                              Genvoya  COBICISTAT / ELVIT√âGRAVIR / EMTRICITABINE / FUMARATE DE T√âNOFOVIR ALAF√âNAMIDE                      J05AR18
5                             Biktarvy        BICT

In [19]:
import pandas as pd
import numpy as np

# Charger le fichier
df = pd.read_excel("data/out/arv_dci_atc.xlsx")

# Remplacer NaN par des cha√Ænes vides pour √©viter l'erreur split
df[["ARV", "DCI", "ATC"]] = df[["ARV", "DCI", "ATC"]].fillna("")

# Trouver le nombre max de m√©dicaments dans tout le fichier
df["n_meds"] = df["ARV"].apply(lambda x: len([m.strip() for m in str(x).split("+")]))
max_meds = df["n_meds"].max()

# Fonction de transformation
def process_row(row):
    arv_list = [x.strip() for x in str(row["ARV"]).split("+") if x.strip() != ""]
    dci_list = [x.strip() for x in str(row["DCI"]).split("+") if x.strip() != ""]
    atc_list = [x.strip() for x in str(row["ATC"]).split("+") if x.strip() != ""]

    data = {}

    for i in range(max_meds):
        data[f"Med_{i+1}"]      = arv_list[i] if i < len(arv_list) else np.nan
        data[f"DCI_Med{i+1}"]   = dci_list[i] if i < len(dci_list) else np.nan
        data[f"ATC_Med{i+1}"]   = atc_list[i] if i < len(atc_list) else np.nan

    return pd.Series(data)

# Appliquer √† toutes les lignes
new_cols = df.apply(process_row, axis=1)

# Fusionner
df_final = pd.concat([df, new_cols], axis=1)

df_final.head()


Unnamed: 0,ARV,ARV_normalise,DCI,ATC,n_meds,Med_1,DCI_Med1,ATC_Med1,Med_2,DCI_Med2,...,ATC_Med8,Med_9,DCI_Med9,ATC_Med9,Med_10,DCI_Med10,ATC_Med10,Med_11,DCI_Med11,ATC_Med11
0,Combivir + Kal√©tra,Combivir + Kal√©tra,LAMIVUDINE / ZIDOVUDINE + LOPINAVIR / RITONAVIR,J05AR01 + J05AR10,2,Combivir,LAMIVUDINE / ZIDOVUDINE,J05AR01,Kal√©tra,LOPINAVIR / RITONAVIR,...,,,,,,,,,,
1,Isentress + Truvada,Isentress + Truvada,RALT√âGRAVIR POTASSIQUE + EMTRICITABINE / T√âNOF...,J05AJ01 + J05AR03,2,Isentress,RALT√âGRAVIR POTASSIQUE,J05AJ01,Truvada,EMTRICITABINE / T√âNOFOVIR DISOPROXIL (FUMARATE...,...,,,,,,,,,,
2,Isentress + Kivexa,Isentress + Kivexa,RALT√âGRAVIR POTASSIQUE + ABACAVIR (SULFATE D')...,J05AJ01 + J05AR02,2,Isentress,RALT√âGRAVIR POTASSIQUE,J05AJ01,Kivexa,ABACAVIR (SULFATE D') / LAMIVUDINE,...,,,,,,,,,,
3,Triumeq,Triumeq,DOLUT√âGRAVIR SODIQUE / LAMIVUDINE / SULFATE D'...,J05AR13,1,Triumeq,DOLUT√âGRAVIR SODIQUE / LAMIVUDINE / SULFATE D'...,J05AR13,,,...,,,,,,,,,,
4,Genvoya,Genvoya,COBICISTAT / ELVIT√âGRAVIR / EMTRICITABINE / FU...,J05AR18,1,Genvoya,COBICISTAT / ELVIT√âGRAVIR / EMTRICITABINE / FU...,J05AR18,,,...,,,,,,,,,,


In [20]:
# Sauvegarder
df_final.to_excel("data/out/arv_dci_atc_split.xlsx", index=False)