In [57]:
import pandas as pd
from pathlib import Path

In [None]:
current_dir = Path().resolve()
raw_data_dir = current_dir.parent / "raw_data"
processed_dir = current_dir.parent / "processed"


class CIP:
    def __init__(self, years, base_path) :
        self.years = years
        self.base_path = base_path
        self.merged_data = {}

    def clean_columns(self) :
        for year, df in self.merged_data.items() :
            df.columns = [col.replace(' ', '_') for col in df.columns]

    def drop_last_row(self) :
        for year in self.merged_data :
            self.merged_data[year] = self.merged_data[year].iloc[:-1]

    def run(self) :

        for year in years :
        sheet = f"{year}_cip13_100_non_100"
        fichier_head = self.base_path / f"{year}_head.xlsx"
        fichier_tail = self.base_path / f"{year}_tail.xlsx"

            try:
                df_head = pd.read_excel(fichier_head, sheet_name=sheet, skiprows=5)
                df_tail = pd.read_excel(fichier_tail, sheet_name=sheet, skiprows=5)
                merged_df = pd.merge(df_head, df_tail, on='Code ATC5')
    
                self.merged_data[year] = merged_df
    
                print(f"Année {year} fusionné avec succès.")
            except Exception as e:
                print(f"Erreur lors de la lecture des fichiers : {e}")
    
        self.clean_columns()
        self.drop_last_row()
        return self.merged_data


if __name__ == "__main__" :
    merger = CIP(
        years = [2021, 2022, 2023, 2024]
        base_path = raw_data_dir
    )
    merged_data = merger.run()


KeyboardInterrupt: 

In [26]:
print(merged_data.keys())


dict_keys(['2021', '2022', '2023', '2024'])


In [41]:
merged_data['2021'].columns

Index(['CIP13_x', 'NOM_COURT_x', 'PRODUIT_x', 'Code_ATC2_x', 'Libellé_ATC2_x',
       'Code_ATC5', 'Libellé_ATC5_x', 'Code_EphMRA_x', 'Classe_EphMRA_x',
       'Taux_de_remboursement_x', 'Base_de_remboursement_2021-01',
       'Nombre_de_boites_remboursées_\n2021-01', 'Montant_remboursé_\n2021-01',
       'Base_de_remboursement_2021-02',
       'Nombre_de_boites_remboursées_\n2021-02', 'Montant_remboursé_\n2021-02',
       'Base_de_remboursement_2021-03',
       'Nombre_de_boites_remboursées_\n2021-03', 'Montant_remboursé_\n2021-03',
       'Base_de_remboursement_2021-04',
       'Nombre_de_boites_remboursées_\n2021-04', 'Montant_remboursé_\n2021-04',
       'Base_de_remboursement_2021-05',
       'Nombre_de_boites_remboursées_\n2021-05', 'Montant_remboursé_\n2021-05',
       'Base_de_remboursement_2021-06',
       'Nombre_de_boites_remboursées_\n2021-06', 'Montant_remboursé_\n2021-06',
       'CIP13_y', 'NOM_COURT_y', 'PRODUIT_y', 'Code_ATC2_y', 'Libellé_ATC2_y',
       'Libellé_ATC5_

In [36]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [54]:
merged_data['2021'].drop(merged_data['2021'].tail(1).index,inplace=True)

In [55]:
merged_data['2021'][merged_data['2021'].isna().any(axis=1)]

Unnamed: 0,CIP13_x,NOM_COURT_x,PRODUIT_x,Code_ATC2_x,Libellé_ATC2_x,Code_ATC5,Libellé_ATC5_x,Code_EphMRA_x,Classe_EphMRA_x,Taux_de_remboursement_x,Base_de_remboursement_2021-01,Nombre_de_boites_remboursées_\n2021-01,Montant_remboursé_\n2021-01,Base_de_remboursement_2021-02,Nombre_de_boites_remboursées_\n2021-02,Montant_remboursé_\n2021-02,Base_de_remboursement_2021-03,Nombre_de_boites_remboursées_\n2021-03,Montant_remboursé_\n2021-03,Base_de_remboursement_2021-04,Nombre_de_boites_remboursées_\n2021-04,Montant_remboursé_\n2021-04,Base_de_remboursement_2021-05,Nombre_de_boites_remboursées_\n2021-05,Montant_remboursé_\n2021-05,Base_de_remboursement_2021-06,Nombre_de_boites_remboursées_\n2021-06,Montant_remboursé_\n2021-06,CIP13_y,NOM_COURT_y,PRODUIT_y,Code_ATC2_y,Libellé_ATC2_y,Libellé_ATC5_y,Code_EphMRA_y,Classe_EphMRA_y,Taux_de_remboursement_y,Base_de_remboursement_2021-07,Nombre_de_boites_remboursées_\n2021-07,Montant_remboursé_\n2021-07,Base_de_remboursement_2021-08,Nombre_de_boites_remboursées_\n2021-08,Montant_remboursé_\n2021-08,Base_de_remboursement_2021-09,Nombre_de_boites_remboursées_\n2021-09,Montant_remboursé_\n2021-09,Base_de_remboursement_2021-10,Nombre_de_boites_remboursées_\n2021-10,Montant_remboursé_\n2021-10,Base_de_remboursement_2021-11,Nombre_de_boites_remboursées_\n2021-11,Montant_remboursé_\n2021-11,Base_de_remboursement_2021-12,Nombre_de_boites_remboursées_\n2021-12,Montant_remboursé_\n2021-12


In [46]:
merged_data['2022'].shape

(2845734, 55)

In [None]:
merged_data['2022'].drop(df.tail(1).index,inplace=True)

In [49]:
merged_data['2022'].shape

(2845734, 55)

In [43]:
merged_data['2022'][merged_data['2022'].isna().any(axis=1)]

Unnamed: 0,CIP13_x,NOM_COURT_x,PRODUIT_x,Code_ATC2_x,Libellé_ATC2_x,Code_ATC5,Libellé_ATC5_x,Code_EphMRA_x,Classe_EphMRA_x,Taux_de_remboursement_x,Base_de_remboursement_2022-01,Nombre_de_boites_remboursées_\n2022-01,Montant_remboursé_\n2022-01,Base_de_remboursement_2022-02,Nombre_de_boites_remboursées_\n2022-02,Montant_remboursé_\n2022-02,Base_de_remboursement_2022-03,Nombre_de_boites_remboursées_\n2022-03,Montant_remboursé_\n2022-03,Base_de_remboursement_2022-04,Nombre_de_boites_remboursées_\n2022-04,Montant_remboursé_\n2022-04,Base_de_remboursement_2022-05,Nombre_de_boites_remboursées_\n2022-05,Montant_remboursé_\n2022-05,Base_de_remboursement_2022-06,Nombre_de_boites_remboursées_\n2022-06,Montant_remboursé_\n2022-06,CIP13_y,NOM_COURT_y,PRODUIT_y,Code_ATC2_y,Libellé_ATC2_y,Libellé_ATC5_y,Code_EphMRA_y,Classe_EphMRA_y,Taux_de_remboursement_y,Base_de_remboursement_2022-07,Nombre_de_boites_remboursées_\n2022-07,Montant_remboursé_\n2022-07,Base_de_remboursement_2022-08,Nombre_de_boites_remboursées_\n2022-08,Montant_remboursé_\n2022-08,Base_de_remboursement_2022-09,Nombre_de_boites_remboursées_\n2022-09,Montant_remboursé_\n2022-09,Base_de_remboursement_2022-10,Nombre_de_boites_remboursées_\n2022-10,Montant_remboursé_\n2022-10,Base_de_remboursement_2022-11,Nombre_de_boites_remboursées_\n2022-11,Montant_remboursé_\n2022-11,Base_de_remboursement_2022-12,Nombre_de_boites_remboursées_\n2022-12,Montant_remboursé_\n2022-12
2845733,Total,,,,,,,,,,2025920000.0,188694942,1762389000.0,1993688000.0,182815416,1735380000.0,2361393000.0,218824585,2049192000.0,2098102000.0,194902246,1820363000.0,2266176000.0,202669294,1970652000.0,2232837000.0,199242532,1942862000.0,Total,,,,,,,,,2144581000.0,187534544,1875792000.0,2169056000.0,182439034,1911136000.0,2245860000.0,193917875,1960332000.0,2251749000.0,201533027,1949406000.0,2344676000.0,206104971,2029572000.0,2376858000.0,216947257,2057250000.0


In [9]:
med1_2021.columns

Index(['CIP13', 'NOM_COURT', 'PRODUIT', 'Code_ATC2', 'Libellé_ATC2',
       'Code_ATC5', 'Libellé_ATC5', 'Code_EphMRA', 'Classe_EphMRA',
       'Taux_de_remboursement', 'Base_de_remboursement_2021-01',
       'Nombre_de_boites_remboursées_\n2021-01', 'Montant_remboursé_\n2021-01',
       'Base_de_remboursement_2021-02',
       'Nombre_de_boites_remboursées_\n2021-02', 'Montant_remboursé_\n2021-02',
       'Base_de_remboursement_2021-03',
       'Nombre_de_boites_remboursées_\n2021-03', 'Montant_remboursé_\n2021-03',
       'Base_de_remboursement_2021-04',
       'Nombre_de_boites_remboursées_\n2021-04', 'Montant_remboursé_\n2021-04',
       'Base_de_remboursement_2021-05',
       'Nombre_de_boites_remboursées_\n2021-05', 'Montant_remboursé_\n2021-05',
       'Base_de_remboursement_2021-06',
       'Nombre_de_boites_remboursées_\n2021-06',
       'Montant_remboursé_\n2021-06'],
      dtype='object')

In [13]:
med1_2021.drop(['NOM_COURT', 'PRODUIT'], axis=1, inplace=True)

In [14]:
med1_2021.head()

Unnamed: 0,CIP13,Code_ATC2,Libellé_ATC2,Code_ATC5,Libellé_ATC5,Code_EphMRA,Classe_EphMRA,Taux_de_remboursement,Base_de_remboursement_2021-01,Nombre_de_boites_remboursées_\n2021-01,...,Montant_remboursé_\n2021-03,Base_de_remboursement_2021-04,Nombre_de_boites_remboursées_\n2021-04,Montant_remboursé_\n2021-04,Base_de_remboursement_2021-05,Nombre_de_boites_remboursées_\n2021-05,Montant_remboursé_\n2021-05,Base_de_remboursement_2021-06,Nombre_de_boites_remboursées_\n2021-06,Montant_remboursé_\n2021-06
0,3400921604696,S01,MEDICAMENTS OPHTALMOLOGIQUES,S01BC11,BROMFENAC SODIUM SESQUIHYDRATE,S01R,ANTIINFLAMMATOIRES NON STEROIDIENS OPHTALMIQUES,100%,3676.0,953,...,4409.15,3733.78,962,3733.78,3411.5,889,3411.5,4364.37,1154,4364.37
1,3400921604696,S01,MEDICAMENTS OPHTALMOLOGIQUES,S01BC11,BROMFENAC SODIUM SESQUIHYDRATE,S01R,ANTIINFLAMMATOIRES NON STEROIDIENS OPHTALMIQUES,non à 100%,25019.54,6862,...,20251.212,26267.55,7179,17063.101,23830.54,6520,15487.918,30742.08,8396,19973.2485
2,3400921605068,A02,MEDICAMENTS POUR LES TROUBLES DE L'ACIDITE,A02BC05,ESOMEPRAZOLE,A02B2,INHIBITEURS DE LA POMPE A PROTONS,100%,0.0,0,...,0.0,0.0,0,0.0,0.0,0,0.0,0.0,0,0.0
3,3400921607888,A02,MEDICAMENTS POUR LES TROUBLES DE L'ACIDITE,A02BC05,ESOMEPRAZOLE,A02B2,INHIBITEURS DE LA POMPE A PROTONS,non à 100%,0.0,0,...,0.0,0.0,0,0.0,0.0,0,0.0,1.51,1,0.9815
4,3400921607949,A02,MEDICAMENTS POUR LES TROUBLES DE L'ACIDITE,A02BC05,ESOMEPRAZOLE,A02B2,INHIBITEURS DE LA POMPE A PROTONS,non à 100%,0.0,0,...,0.0,0.0,0,0.0,2.7,1,1.755,0.0,0,0.0
