In [4]:
# le plus important

import pandas as pd
import re

print("="*60)
print("NORMALISATION DES TRAITEMENTS VIH ‚Äì ABR√âVIATIONS")
print("="*60)

# ------------------------------------------------------------------
# 1. Charger les fichiers
# ------------------------------------------------------------------
df_arv = pd.read_excel("data/ARV.xlsx")
df_acronym = pd.read_excel("data/medicaments_acronym.xlsx")

print(f"‚Üí {len(df_acronym)} abr√©viations dans le dictionnaire")
print(f"‚Üí {len(df_arv)} lignes ARV √† traiter")

# ------------------------------------------------------------------
# 2. Pr√©paration du dictionnaire d'abr√©viations
# ------------------------------------------------------------------
df_acronym["Abbreviation"] = df_acronym["Abbreviation"].fillna("").astype(str).str.strip()
df_acronym["Definition"] = df_acronym["Definition"].fillna("").astype(str).str.strip()

acronym_dict = {
    row["Abbreviation"]: row["Definition"]
    for _, row in df_acronym.iterrows()
    if row["Abbreviation"] and row["Definition"]
}

# Trier par longueur d√©croissante
acronym_dict = dict(sorted(acronym_dict.items(), key=lambda x: len(x[0]), reverse=True))

print(f"‚úì Dictionnaire charg√© : {len(acronym_dict)} abr√©viations")

# ------------------------------------------------------------------
# 3. Liste des abr√©viations effectivement utilis√©es
# ------------------------------------------------------------------
abrevs_trouvees = set()

# ------------------------------------------------------------------
# 4. Fonction de remplacement
# ------------------------------------------------------------------

def remplacer_abreviations(traitement):

    if pd.isna(traitement) or not str(traitement).strip():
        return traitement

    traitement_str = str(traitement).strip()
    items = [t.strip() for t in traitement_str.split("+")]

    resultats = []

    for item in items:
        item_modifie = item

        for abbrev, definition in acronym_dict.items():
            pattern = r'\b' + re.escape(abbrev) + r'\b'

            if re.search(pattern, item_modifie, flags=re.IGNORECASE):

                # üî• enregistrer l‚Äôabr√©viation trouv√©e
                abrevs_trouvees.add(abbrev)

                item_modifie = re.sub(
                    pattern,
                    definition,
                    item_modifie,
                    flags=re.IGNORECASE
                )
                break

        resultats.append(item_modifie)

    return " + ".join(resultats)

# ------------------------------------------------------------------
# 5. Application sur le DataFrame
# ------------------------------------------------------------------
print("\nTraitement en cours...")
df_arv["ARV_normalise"] = df_arv["ARV"].apply(remplacer_abreviations)

nb_changes = (df_arv["ARV"].astype(str) != df_arv["ARV_normalise"].astype(str)).sum()
nb_total = len(df_arv)

print(f"‚úì Normalisation termin√©e")
print(f"  ‚Üí Total de lignes trait√©es : {nb_total}")
print(f"  ‚Üí Lignes modifi√©es : {nb_changes}")
print(f"  ‚Üí Lignes inchang√©es : {nb_total - nb_changes}")

# ------------------------------------------------------------------
# 6. Cr√©er le DataFrame des abr√©viations trouv√©es
# ------------------------------------------------------------------
df_abrevs = pd.DataFrame({
    "Abbreviation": sorted(list(abrevs_trouvees))
})
df_abrevs["Definition"] = df_abrevs["Abbreviation"].map(acronym_dict)

print("\nAbr√©viations r√©ellement trouv√©es dans les donn√©es :", len(df_abrevs))

# Sauvegarde
df_abrevs.to_excel("data/out/abrevs_utilisees.xlsx", index=False)
print("‚úì Fichier cr√©√© : data/out/abrevs_utilisees.xlsx")

# ------------------------------------------------------------------
# 7. Sauvegarde du fichier ARV normalis√©
# ------------------------------------------------------------------
# df_arv.to_excel("data/out/arv_abbr.xlsx", index=False)
# print("\n" + "="*60)
# print("Fichier cr√©√© : data/out/arv_abbr.xlsx")
# print("="*60)


NORMALISATION DES TRAITEMENTS VIH ‚Äì ABR√âVIATIONS
‚Üí 323 abr√©viations dans le dictionnaire
‚Üí 19220 lignes ARV √† traiter
‚úì Dictionnaire charg√© : 313 abr√©viations

Traitement en cours...
‚úì Normalisation termin√©e
  ‚Üí Total de lignes trait√©es : 19220
  ‚Üí Lignes modifi√©es : 130
  ‚Üí Lignes inchang√©es : 19090

Abr√©viations r√©ellement trouv√©es dans les donn√©es : 6
‚úì Fichier cr√©√© : data/out/abrevs_utilisees.xlsx


In [1]:
# le plus important

import pandas as pd
import re

print("="*60)
print("NORMALISATION DES TRAITEMENTS VIH ‚Äì ABR√âVIATIONS")
print("="*60)

# ------------------------------------------------------------------
# 1. Charger les fichiers
# ------------------------------------------------------------------
df_arv = pd.read_excel("data/ARV.xlsx")
df_acronym = pd.read_excel("data/medicaments_acronym.xlsx")

print(f"‚Üí {len(df_acronym)} abr√©viations dans le dictionnaire")
print(f"‚Üí {len(df_arv)} lignes ARV √† traiter")

# ------------------------------------------------------------------
# 2. Pr√©paration du dictionnaire d'abr√©viations
# ------------------------------------------------------------------
df_acronym["Abbreviation"] = df_acronym["Abbreviation"].fillna("").astype(str).str.strip()
df_acronym["Definition"] = df_acronym["Definition"].fillna("").astype(str).str.strip()

# Cr√©er un dictionnaire tri√© par longueur d√©croissante
# (pour traiter les abr√©viations longues en premier, ex: "ATV/c" avant "ATV")
acronym_dict = {}
for _, row in df_acronym.iterrows():
    abbrev = row["Abbreviation"].strip()
    definition = row["Definition"].strip()
    if abbrev and definition:
        acronym_dict[abbrev] = definition

# Trier par longueur d√©croissante
acronym_dict = dict(sorted(acronym_dict.items(), key=lambda x: len(x[0]), reverse=True))

print(f"‚úì Dictionnaire charg√© : {len(acronym_dict)} abr√©viations")

# ------------------------------------------------------------------
# 3. Fonction de remplacement des abr√©viations
# ------------------------------------------------------------------

def remplacer_abreviations(traitement):
    """
    Remplace les abr√©viations trouv√©es par leurs d√©finitions.
    Garde le texte original pour ce qui n'est pas trouv√©.
    """
    if pd.isna(traitement) or not str(traitement).strip():
        return traitement

    traitement_str = str(traitement).strip()

    # S√©parer par "+" pour traiter chaque m√©dicament individuellement
    items = [t.strip() for t in traitement_str.split("+")]

    resultats = []
    for item in items:
        if not item:
            continue

        item_original = item
        item_modifie = item

        # Essayer de remplacer chaque abr√©viation dans l'item
        for abbrev, definition in acronym_dict.items():
            # Chercher l'abr√©viation dans l'item (insensible √† la casse)
            # Pattern: l'abr√©viation doit √™tre un mot entier ou suivi d'un espace/chiffre
            pattern = r'\b' + re.escape(abbrev) + r'\b'

            if re.search(pattern, item_modifie, flags=re.IGNORECASE):
                # Remplacer en pr√©servant la casse originale si possible
                item_modifie = re.sub(
                    pattern,
                    definition,
                    item_modifie,
                    flags=re.IGNORECASE
                )
                # On sort de la boucle apr√®s le premier remplacement r√©ussi
                break

        resultats.append(item_modifie)

    return " + ".join(resultats)

# ------------------------------------------------------------------
# 4. Appliquer sur tout le DataFrame
# ------------------------------------------------------------------

print("\nTraitement en cours...")
df_arv["ARV_normalise"] = df_arv["ARV"].apply(remplacer_abreviations)

# Statistiques
nb_changes = (df_arv["ARV"].astype(str) != df_arv["ARV_normalise"].astype(str)).sum()
nb_total = len(df_arv)

print(f"‚úì Normalisation termin√©e")
print(f"  ‚Üí Total de lignes trait√©es : {nb_total}")
print(f"  ‚Üí Lignes modifi√©es : {nb_changes}")
print(f"  ‚Üí Lignes inchang√©es : {nb_total - nb_changes}")

# ------------------------------------------------------------------
# 5. Afficher quelques exemples
# ------------------------------------------------------------------
print("\n" + "="*60)
print("EXEMPLES DE TRANSFORMATION:")
print("="*60)

# Afficher les 15 premi√®res lignes o√π il y a eu un changement
exemples = df_arv[df_arv["ARV"].astype(str) != df_arv["ARV_normalise"].astype(str)].head(15)
if len(exemples) > 0:
    for idx, row in exemples.iterrows():
        print(f"\nAvant : {row['ARV']}")
        print(f"Apr√®s : {row['ARV_normalise']}")
else:
    print("Aucune transformation effectu√©e.")

# Afficher quelques exemples sp√©cifiques pour v√©rification
print("\n" + "="*60)
print("V√âRIFICATION DES CAS SP√âCIFIQUES:")
print("="*60)

# Chercher des exemples avec "ABT", "Videx", "Zerit"
test_cases = df_arv[df_arv["ARV"].astype(str).str.contains("ABT|Videx|Zerit", case=False, na=False)].head(5)
for idx, row in test_cases.iterrows():
    print(f"\nAvant : {row['ARV']}")
    print(f"Apr√®s : {row['ARV_normalise']}")

# ------------------------------------------------------------------
# 6. Sauvegarde
# ------------------------------------------------------------------
df_arv.to_excel("data/out/arv_abbr.xlsx", index=False)
print("\n" + "="*60)
print("Fichier cr√©√© : data/out/arv_abbr.xlsx")
print("="*60)

NORMALISATION DES TRAITEMENTS VIH ‚Äì ABR√âVIATIONS
‚Üí 323 abr√©viations dans le dictionnaire
‚Üí 19220 lignes ARV √† traiter
‚úì Dictionnaire charg√© : 313 abr√©viations

Traitement en cours...
‚úì Normalisation termin√©e
  ‚Üí Total de lignes trait√©es : 19220
  ‚Üí Lignes modifi√©es : 130
  ‚Üí Lignes inchang√©es : 19090

EXEMPLES DE TRANSFORMATION:

Avant : Cobicistat + Emtriva + Prezista + TAF
Apr√®s : Cobicistat + Emtriva + Prezista + tenofovir alafenamide

Avant : Celsentri + Dolutegravir  + Norvir + Prezista + Truvada
Apr√®s : Celsentri + Dolutegravir + Norvir + Prezista + Truvada

Avant : Emtriva + N√©virapine (Viramune) + TAF
Apr√®s : Emtriva + N√©virapine (Viramune) + tenofovir alafenamide

Avant : E/C/F TAF
Apr√®s : E/C/F tenofovir alafenamide

Avant : GSK1265744 LA (Cabotegravir) + TMC278 LA (Rilpivirine)
Apr√®s : GSK1265744 long-acting (Cabotegravir) + TMC278 long-acting (Rilpivirine)

Avant : Dolutegravir  + Truvada
Apr√®s : Dolutegravir + Truvada

Avant : DRV/COBI/TAF/

In [2]:
df_modifie = df_arv[df_arv["ARV"].astype(str) != df_arv["ARV_normalise"].astype(str)]


In [3]:
df_modifie 


Unnamed: 0,ARV,ARV_normalise
48,Cobicistat + Emtriva + Prezista + TAF,Cobicistat + Emtriva + Prezista + tenofovir al...
105,Celsentri + Dolutegravir + Norvir + Prezista ...,Celsentri + Dolutegravir + Norvir + Prezista +...
183,Emtriva + N√©virapine (Viramune) + TAF,Emtriva + N√©virapine (Viramune) + tenofovir al...
667,E/C/F TAF,E/C/F tenofovir alafenamide
894,GSK1265744 LA (Cabotegravir) + TMC278 LA (Rilp...,GSK1265744 long-acting (Cabotegravir) + TMC278...
...,...,...
18113,Dolutegravir + Fuzeon,Dolutegravir + Fuzeon
18263,Celsentri + Dolutegravir + Emtriva + Intelenc...,Celsentri + Dolutegravir + Emtriva + Intelence...
18634,GSK1265744 LA (Cabotegravir),GSK1265744 long-acting (Cabotegravir)
18694,Dolutegravir + Norvir + Reyataz,Dolutegravir + Norvir + Reyataz


In [3]:
import pandas as pd 
df = pd.read_excel("data/out/arv_abbr.xlsx")

In [5]:
df


Unnamed: 0,ARV,ARV_normalise
0,Combivir + Kal√©tra,Combivir + Kal√©tra
1,Isentress + Truvada,Isentress + Truvada
2,Isentress + Kivexa,Isentress + Kivexa
3,Triumeq,Triumeq
4,Genvoya,Genvoya
...,...,...
19215,Fuzeon + Trizivir + Viread + TMC 114,Fuzeon + Trizivir + Viread + TMC 114
19216,Norvir + Truvada + Ziagen + TMC 114 (Darunavir...,Norvir + Truvada + Ziagen + TMC 114 (Darunavir...
19217,Norvir + Prezista + Truvada + Ziagen + TMC 125...,Norvir + Prezista + Truvada + Ziagen + TMC 125...
19218,Norvir + Prezista + Truvada + Ziagen + Maravir...,Norvir + Prezista + Truvada + Ziagen + Maravir...


In [7]:
df = df.drop(columns=['ARV'])          # Supprime la colonne ARV
df = df.rename(columns={'ARV_normalise': 'ARV'})   # Renomme ARV_normalise ‚Üí ARV


In [9]:
df

Unnamed: 0,ARV
0,Combivir + Kal√©tra
1,Isentress + Truvada
2,Isentress + Kivexa
3,Triumeq
4,Genvoya
...,...
19215,Fuzeon + Trizivir + Viread + TMC 114
19216,Norvir + Truvada + Ziagen + TMC 114 (Darunavir...
19217,Norvir + Prezista + Truvada + Ziagen + TMC 125...
19218,Norvir + Prezista + Truvada + Ziagen + Maravir...


In [11]:
df.to_excel("data/out/arv_abbr.xlsx", index=False)
