In [1]:
import pandas as pd 

In [2]:
df = pd.read_csv("data/PRESCRIPTION.csv")

In [3]:
df

Unnamed: 0,ID,Date,Prelibt,CIP,Prepost,DCI,ATC,DOSE,Freq,Durée
0,1,2004-04-14,BACTRIM cp Ad,3001069,"1 Comprimé(s), 1 fois / jour pendant 30 jour(s)",,,,,
1,1,2004-04-14,KALETRA caps,3566794,"3 Capsule(s), Toutes les 12 heures pendant 30 ...",,,,,
2,1,2004-04-14,COMBIVIR cp enrobé,3466271,"1 Comprimé(s), Toutes les 12 heures pendant 30...",,,,,
3,2,2013-10-01,TRUVADA 200MG/245MG CPR 30,3656563,1 comprimé par jour pendant 1 mois,,,,,
4,2,2013-10-01,ISENTRESS 400MG CPR 60,3830848,2 comprimés par jour pendant 1 mois,,,,,
...,...,...,...,...,...,...,...,...,...,...
1048570,16524,2016-04-28,INSPRA 25MG CPR 30,3665705,"1 comprimé, 1 fois par jour(s) pendant 28 jour(s)",,,,,
1048571,16524,2016-12-15,INSPRA 25MG CPR 30,3665705,"1 comprimé, 1 fois par jour(s) pendant 28 jour(s)",,,,,
1048572,16524,2016-12-15,UVEDOSE 100 000UI/2ML AMP BUV 1,3322218,"1 ampoule, tous les 6 mois pendant 6 mois",,,,,
1048573,16524,2016-12-15,CLOPIDOGREL 75MG BIOGARAN CPR 30,3968423,"1 comprimé, par jour(s) pendant 30 jour(s)",,,,,


In [4]:
# Extraire Durée : tout ce qui est après "pendant"
df["Durée"] = df["Prepost"].str.extract(r'pendant\s*(.*)$', expand=False)

# Extraire DOSE et Freq ensemble : tout avant "pendant"
pre_before = df["Prepost"].str.replace(r'\s*pendant.*$', '', regex=True)

# Extraire DOSE : tout avant le premier "par" ou "fois"
df["DOSE"] = pre_before.str.extract(r'^(\d+\s*\w+)', expand=False)

# Extraire Freq : tout le reste après la DOSE
df["Freq"] = pre_before.str.replace(r'^(\d+\s*\w+)\s*', '', regex=True)

In [5]:
df

Unnamed: 0,ID,Date,Prelibt,CIP,Prepost,DCI,ATC,DOSE,Freq,Durée
0,1,2004-04-14,BACTRIM cp Ad,3001069,"1 Comprimé(s), 1 fois / jour pendant 30 jour(s)",,,1 Comprimé,"(s), 1 fois / jour",30 jour(s)
1,1,2004-04-14,KALETRA caps,3566794,"3 Capsule(s), Toutes les 12 heures pendant 30 ...",,,3 Capsule,"(s), Toutes les 12 heures",30 jour(s)
2,1,2004-04-14,COMBIVIR cp enrobé,3466271,"1 Comprimé(s), Toutes les 12 heures pendant 30...",,,1 Comprimé,"(s), Toutes les 12 heures",30 jour(s)
3,2,2013-10-01,TRUVADA 200MG/245MG CPR 30,3656563,1 comprimé par jour pendant 1 mois,,,1 comprimé,par jour,1 mois
4,2,2013-10-01,ISENTRESS 400MG CPR 60,3830848,2 comprimés par jour pendant 1 mois,,,2 comprimés,par jour,1 mois
...,...,...,...,...,...,...,...,...,...,...
1048570,16524,2016-04-28,INSPRA 25MG CPR 30,3665705,"1 comprimé, 1 fois par jour(s) pendant 28 jour(s)",,,1 comprimé,", 1 fois par jour(s)",28 jour(s)
1048571,16524,2016-12-15,INSPRA 25MG CPR 30,3665705,"1 comprimé, 1 fois par jour(s) pendant 28 jour(s)",,,1 comprimé,", 1 fois par jour(s)",28 jour(s)
1048572,16524,2016-12-15,UVEDOSE 100 000UI/2ML AMP BUV 1,3322218,"1 ampoule, tous les 6 mois pendant 6 mois",,,1 ampoule,", tous les 6 mois",6 mois
1048573,16524,2016-12-15,CLOPIDOGREL 75MG BIOGARAN CPR 30,3968423,"1 comprimé, par jour(s) pendant 30 jour(s)",,,1 comprimé,", par jour(s)",30 jour(s)


In [6]:

def clean_freq(text):
    if pd.isna(text):
        return text
    
    text = str(text).strip()             # enlever espaces début/fin
    
    # Si virgule : garder uniquement après la première virgule
    if "," in text:
        text = text.split(",", 1)[1].strip()
    else:
        text = text.strip()
    
    return text

df["Freq"] = df["Freq"].apply(clean_freq)


In [9]:
import pandas as pd
import re
from difflib import get_close_matches

print("="*60)
print("NORMALISATION DES MÉDICAMENTS VIH")
print("="*60)

# ------------------------------------------------------------------
# 1. Charger le dictionnaire VIH
# ------------------------------------------------------------------
df_ref = pd.read_excel("data/vih.xlsx")

print(f"→ {len(df_ref)} médicaments dans le dictionnaire VIH")
print(f"→ {len(df)} lignes à traiter dans df")

# ------------------------------------------------------------------
# 2. Préparation du dictionnaire VIH
# ------------------------------------------------------------------
df_ref["nom_commercial"] = df_ref["nom_commercial"].fillna("").astype(str)
df_ref["dci"] = df_ref["dci"].fillna("").astype(str)

# Liste des médicaments (nom commercial + nom de base + dci)
medicaments = []

for _, row in df_ref.iterrows():
    nom = row["nom_commercial"].strip()
    dci = row["dci"].strip()

    if nom and dci:
        nom_base = re.split(r'\s+\d|,|\s+\(', nom)[0].strip().upper()
        medicaments.append({
            "nom_complet": nom,
            "nom_base": nom_base,
            "nom_base_lower": nom_base.lower(),
            "dci": dci
        })

# Set des DCI pour recherche rapide
dci_set = set()
for d in df_ref["dci"]:
    if d:
        dci_set.add(d.lower())
        for comp in re.split(r"[\+/]", d):
            comp = comp.strip()
            if comp:
                dci_set.add(comp.lower())

print(f" Dictionnaire chargé : {len(medicaments)} médicaments")

# ------------------------------------------------------------------
# 3. Fonction de recherche DCI
# ------------------------------------------------------------------

def chercher_dci(med_str):
    if not med_str or not str(med_str).strip():
        return None  # Retourne None au lieu de "VIDE"

    med_str = str(med_str).strip()
    
    # Extraire le PREMIER MOT seulement
    cle = med_str.split()[0].strip().upper()
    cle_lower = cle.lower()

    # 1. Correspondance exacte sur nom de base
    for med in medicaments:
        if med["nom_base"] == cle:
            return med["dci"]

    # 2. Correspondance partielle
    for med in medicaments:
        if med["nom_base"].startswith(cle) or cle.startswith(med["nom_base"]):
            return med["dci"]

    # 3. Recherche dans nom complet
    for med in medicaments:
        if cle in med["nom_complet"].upper():
            return med["dci"]

    # 4. Matching approximatif
    bases = [m["nom_base_lower"] for m in medicaments]
    match = get_close_matches(cle_lower, bases, n=1, cutoff=0.8)
    if match:
        for m in medicaments:
            if m["nom_base_lower"] == match[0]:
                return m["dci"]

    # 5. Déjà une DCI ?
    if cle_lower in dci_set:
        for m in medicaments:
            if cle_lower in m["dci"].lower():
                return m["dci"]

    # 6. Matching approximatif dans DCI
    match = get_close_matches(cle_lower, list(dci_set), n=1, cutoff=0.8)
    if match:
        for m in medicaments:
            if match[0] in m["dci"].lower():
                return m["dci"]

    return None  # Retourne None au lieu de "INTROUVABLE"

# ------------------------------------------------------------------
# 4. Appliquer sur le DataFrame df
# ------------------------------------------------------------------

print("\nTraitement en cours...")
df["DCI"] = df["Prelibt"].apply(chercher_dci)

nb_trouves = df["DCI"].notna().sum()
nb_vides = df["DCI"].isna().sum()

print(f" Normalisation terminée")
print(f"  → Trouvés : {nb_trouves}")
print(f"  → Non trouvés (laissés vides) : {nb_vides}")

print("="*60)


NORMALISATION DES MÉDICAMENTS VIH
→ 271 médicaments dans le dictionnaire VIH
→ 1048575 lignes à traiter dans df
 Dictionnaire chargé : 271 médicaments

Traitement en cours...
 Normalisation terminée
  → Trouvés : 408355
  → Non trouvés (laissés vides) : 640220


In [28]:
import pandas as pd

# Charger les fichiers
# df = pd.read_excel("prescriptions.xlsx")  # ton fichier principal
vih = pd.read_excel("data/vih.xlsx")           # fichier VIH

# Normaliser les noms pour éviter les problèmes majuscules/minuscules
df['Prelibt_clean'] = df['Prelibt'].str.upper().str.strip()
vih['nom_commercial_clean'] = vih['nom_commercial'].str.upper().str.strip()

# Faire un mapping simple basé sur le nom commercial
# Créer un dictionnaire : nom -> (DCI, ATC)
vih_dict = vih.set_index('nom_commercial_clean')[['dci','atc']].to_dict('index')

# Fonction pour chercher le DCI et ATC
def get_dci_atc(nom):
    if nom in vih_dict:
        return pd.Series([vih_dict[nom]['dci'], vih_dict[nom]['atc']])
    else:
        return pd.Series([None, None])

# Appliquer le mapping
df[['DCI_mapped','ATC_mapped']] = df['Prelibt_clean'].apply(get_dci_atc)


In [None]:
atc

In [11]:
import pandas as pd

print("="*60)
print("REMPLISSAGE DE LA COLONNE ATC")
print("="*60)

# ------------------------------------------------------------------
# 1. Charger le dictionnaire VIH
# ------------------------------------------------------------------
df_ref = pd.read_excel("data/vih.xlsx")

print(f"→ {len(df_ref)} médicaments dans le dictionnaire VIH")
print(f"→ {len(df)} lignes à traiter dans df")

# ------------------------------------------------------------------
# 2. Préparation du dictionnaire DCI -> ATC
# ------------------------------------------------------------------
df_ref["dci"] = df_ref["dci"].fillna("").astype(str)
df_ref["atc"] = df_ref["atc"].fillna("").astype(str)

# Créer un dictionnaire de correspondance DCI -> ATC
dci_to_atc = {}

for _, row in df_ref.iterrows():
    dci = row["dci"].strip()
    atc = row["atc"].strip()
    
    if dci and atc:
        # Normaliser la clé en minuscule pour recherche insensible à la casse
        dci_to_atc[dci.lower()] = atc

print(f"✓ Dictionnaire DCI->ATC chargé : {len(dci_to_atc)} correspondances")

# ------------------------------------------------------------------
# 3. Fonction de recherche ATC
# ------------------------------------------------------------------

def chercher_atc(dci_value):
    if not dci_value or pd.isna(dci_value) or not str(dci_value).strip():
        return None
    
    dci_str = str(dci_value).strip().lower()
    
    # Recherche exacte
    if dci_str in dci_to_atc:
        return dci_to_atc[dci_str]
    
    # Recherche partielle (si le DCI contient plusieurs composants séparés par + ou /)
    # On prend le premier ATC trouvé
    for dci_key, atc_value in dci_to_atc.items():
        if dci_key in dci_str or dci_str in dci_key:
            return atc_value
    
    return None

# ------------------------------------------------------------------
# 4. Appliquer sur le DataFrame df
# ------------------------------------------------------------------

print("\nTraitement en cours...")
df["ATC"] = df["DCI"].apply(chercher_atc)

nb_trouves = df["ATC"].notna().sum()
nb_vides = df["ATC"].isna().sum()

print(f"Remplissage ATC terminé")
print(f"  → Trouvés : {nb_trouves}")
print(f"  → Non trouvés (laissés vides) : {nb_vides}")

print("="*60)


REMPLISSAGE DE LA COLONNE ATC
→ 271 médicaments dans le dictionnaire VIH
→ 1048575 lignes à traiter dans df
✓ Dictionnaire DCI->ATC chargé : 84 correspondances

Traitement en cours...
Remplissage ATC terminé
  → Trouvés : 408355
  → Non trouvés (laissés vides) : 640220


In [12]:
df

Unnamed: 0,ID,Date,Prelibt,CIP,Prepost,DCI,ATC,DOSE,Freq,Durée
0,1,2004-04-14,BACTRIM cp Ad,3001069,"1 Comprimé(s), 1 fois / jour pendant 30 jour(s)",,,1 Comprimé,1 fois / jour,30 jour(s)
1,1,2004-04-14,KALETRA caps,3566794,"3 Capsule(s), Toutes les 12 heures pendant 30 ...",LOPINAVIR + RITONAVIR,J05AR10,3 Capsule,Toutes les 12 heures,30 jour(s)
2,1,2004-04-14,COMBIVIR cp enrobé,3466271,"1 Comprimé(s), Toutes les 12 heures pendant 30...",LAMIVUDINE + ZIDOVUDINE,J05AR01,1 Comprimé,Toutes les 12 heures,30 jour(s)
3,2,2013-10-01,TRUVADA 200MG/245MG CPR 30,3656563,1 comprimé par jour pendant 1 mois,EMTRICITABINE + TÉNOFOVIR DISOPROXIL (FUMARATE...,J05AR03,1 comprimé,par jour,1 mois
4,2,2013-10-01,ISENTRESS 400MG CPR 60,3830848,2 comprimés par jour pendant 1 mois,RALTÉGRAVIR POTASSIQUE,J05AJ01,2 comprimés,par jour,1 mois
...,...,...,...,...,...,...,...,...,...,...
1048570,16524,2016-04-28,INSPRA 25MG CPR 30,3665705,"1 comprimé, 1 fois par jour(s) pendant 28 jour(s)",,,1 comprimé,1 fois par jour(s),28 jour(s)
1048571,16524,2016-12-15,INSPRA 25MG CPR 30,3665705,"1 comprimé, 1 fois par jour(s) pendant 28 jour(s)",,,1 comprimé,1 fois par jour(s),28 jour(s)
1048572,16524,2016-12-15,UVEDOSE 100 000UI/2ML AMP BUV 1,3322218,"1 ampoule, tous les 6 mois pendant 6 mois",,,1 ampoule,tous les 6 mois,6 mois
1048573,16524,2016-12-15,CLOPIDOGREL 75MG BIOGARAN CPR 30,3968423,"1 comprimé, par jour(s) pendant 30 jour(s)",,,1 comprimé,par jour(s),30 jour(s)


In [14]:
df.to_excel("data/out/result.xlsx")

In [17]:
df[df['DCI_mapped'].isna()][['Prelibt']]


Unnamed: 0,Prelibt
0,BACTRIM cp Ad
5,UVEDOSE 100 000UI/2ML AMP BUV 1
6,AZITHROMYCINE 250MG ALMUS CPR 6
7,PEVARYL 1% EMULS FL 30ML
10,UVEDOSE 100 000UI/2ML AMP BUV 1
...,...
1048569,UVEDOSE 100 000UI/2ML AMP BUV 1
1048570,INSPRA 25MG CPR 30
1048571,INSPRA 25MG CPR 30
1048572,UVEDOSE 100 000UI/2ML AMP BUV 1
