# Traitement des données

## Imports

In [4]:
import pandas as pd
import numpy as np

## Chargement des données de dépenses de santé

In [5]:
df = pd.read_csv("../original_data/cns_sha.csv", sep=";")

In [6]:
display(df)

Unnamed: 0,Annee,HC,HP,HF,Valeur
0,2022,HC_64,TOTAL,HF_2,2254
1,2022,HC_65,TOTAL,HF_2,17
2,2023,HC_11,TOTAL,HF_3,849
3,2023,HC_12,TOTAL,HF_2,190
4,2023,HC_12,TOTAL,HF_3,93
...,...,...,...,...,...
3541,2022,HC_42,TOTAL,HF_1,4474
3542,2022,HC_43,TOTAL,HF_3,155
3543,2022,HC_52,TOTAL,HF_3,3148
3544,2022,HC_63,TOTAL,HF_3,159


## Chargement de la table de mapping des types de soins

In [7]:
hc_map = pd.read_csv("../original_data/HC_mapping.csv", sep=";")

In [8]:
display(hc_map)

Unnamed: 0,HC,HC_L1,HC_L2,HC_L3,HC_level
0,HC_1,Soins curatifs,,,1
1,HC_11,Soins curatifs,Soins curatifs hospitaliers,,2
2,HC_111,Soins curatifs,Soins curatifs hospitaliers,Soins curatifs hospitaliers generaux,3
3,HC_112,Soins curatifs,Soins curatifs hospitaliers,Soins curatifs hospitaliers specialises,3
4,HC_12,Soins curatifs,Soins curatifs de jour,,2
5,HC_121,Soins curatifs,Soins curatifs de jour,Soins curatifs de jour generaux,3
6,HC_122,Soins curatifs,Soins curatifs de jour,Soins curatifs de jour specialises,3
7,HC_13,Soins curatifs,Soins curatifs ambulatoires,,2
8,HC_131,Soins curatifs,Soins curatifs ambulatoires,Soins curatifs ambulatoires generaux,3
9,HC_132,Soins curatifs,Soins curatifs ambulatoires,Soins dentaires ambulatoires,3


## Chargement de la table de mapping des acteurs des soins

In [9]:
hp_map = pd.read_csv("../original_data/HP_mapping.csv", sep=";")

In [10]:
display(hp_map)

Unnamed: 0,HP,HP_L1,HP_L2,HP_L3,HP_level
0,HP_1,Hopitaux,,,1
1,HP_11,Hopitaux,Hopitaux generaux,,2
2,HP_12,Hopitaux,Hopitaux de sante mentale,,2
3,HP_13,Hopitaux,Hopitaux specialises (hors sante mentale),,2
4,HP_2,Etablissements de soins de longue duree,,,1
5,HP_21,Etablissements de soins de longue duree,Etablissements de soins infirmiers de longue d...,,2
6,HP_22,Etablissements de soins de longue duree,Etablissements de sante mentale et de traiteme...,,2
7,HP_29,Etablissements de soins de longue duree,Autres etablissements residentiels de soins de...,,2
8,HP_3,Prestataires de soins ambulatoires,,,1
9,HP_31,Prestataires de soins ambulatoires,Cabinets medicaux,,2


## Chargement de la table de mapping des financeurs de soins

In [11]:
hf_map = pd.read_csv("../original_data/HF_mapping.csv", sep=";")

In [12]:
display(hf_map)

Unnamed: 0,HF,HF_L1,HF_L2,HF_L3,HF_level
0,HF_1,Regimes publics et obligatoires,,,1
1,HF_11,Regimes publics et obligatoires,Regimes publics (Etat et collectivites),,2
2,HF_12,Regimes publics et obligatoires,Assurance maladie obligatoire contributive,,2
3,HF_121,Regimes publics et obligatoires,Assurance maladie obligatoire contributive,Prestations en nature,3
4,HF_122,Regimes publics et obligatoires,Assurance maladie obligatoire contributive,Prestations en especes,3
5,HF_2,Regimes volontaires,,,1
6,HF_21,Regimes volontaires,Assurance maladie volontaire,,2
7,HF_22,Regimes volontaires,Autres regimes volontaires,,2
8,HF_23,Regimes volontaires,Autres regimes volontaires (Residuel),,2
9,HF_3,Paiements directs des menages,,,1


## Filtre des mappings en fonction des données présentes dans cns

In [13]:
HC_cns = df["HC"].unique()
HP_cns = df["HP"].unique()
HF_cns = df["HF"].unique()

In [14]:
hc_map = hc_map[hc_map["HC"].isin(HC_cns)]
hp_map = hp_map[hp_map["HP"].isin(HP_cns)]
hf_map = hf_map[hf_map["HF"].isin(HF_cns)]

## Ajouter une colonne dans les mappings pour indiquer si la ligne est le niveau le plus fin de sa catégorie

In [15]:
def is_most_precise(code, all_codes):
    if code == "TOTAL":
        return 1
    for other in all_codes:
        if other != code and other.startswith(code):
            return 0
    return 1

### HC

In [16]:
hc_codes = hc_map["HC"].tolist()
hc_map["Most_precise"] = hc_map["HC"].apply(lambda x: is_most_precise(x, hc_codes))
hc_map = (
    hc_map[hc_map["Most_precise"] == 1]
    .drop(columns=["Most_precise"])
    .reset_index(drop=True)
)

### HP

In [17]:
hp_codes = hp_map["HP"].tolist()
hp_map["Most_precise"] = hp_map["HP"].apply(lambda x: is_most_precise(x, hp_codes))
hp_map = (
    hp_map[hp_map["Most_precise"] == 1]
    .drop(columns=["Most_precise"])
    .reset_index(drop=True)
)

### HF

In [18]:
hf_codes = hf_map["HF"].tolist()
hf_map["Most_precise"] = hf_map["HF"].apply(lambda x: is_most_precise(x, hf_codes))
hf_map = (
    hf_map[hf_map["Most_precise"] == 1]
    .drop(columns=["Most_precise"])
    .reset_index(drop=True)
)

## Création des tables mapping à importer sur PowerBi

In [19]:
hc_map.to_csv("../processed_data/HC_mapping.csv", sep=';', index=False)
hp_map.to_csv("../processed_data/HP_mapping.csv", sep=';', index=False)
hf_map.to_csv("../processed_data/HF_mapping.csv", sep=';', index=False)

## Filtre de la table csn

In [20]:
df = df[df["HC"].isin(hc_map["HC"])]
df = df[df["HP"].isin(hp_map["HP"])]
df = df[df["HF"].isin(hf_map["HF"])]

## Création de la table csn à importer sur PowerBi

In [21]:
df.to_csv("../processed_data/cns_sha.csv", sep=';', index=False)