# Analyse concernant l'utilisation et l'alimentation du Dossier Médical Partagé (DMP) / Espace Numérique en santé (ENS)

Libraries nécessaires :

In [1]:
# Pandas is a software library written for the Python programming language for data manipulation and analysis.
import pandas as pd
# NumPy is a library for the Python programming language, adding support for large, multi-dimensional arrays and matrices, along with a large collection of high-level mathematical functions to operate on these arrays
import numpy as np
# Datetime is a library that allows us to represent dates
#import datetime

# Setting this option will print all collumns of a dataframe
pd.set_option('display.max_columns', None)
# Setting this option will print all of the data in a feature
pd.set_option('display.max_colwidth', None)

## Importation des données concernant l'utilisation du DMP :

In [20]:
df_utilisateurs_dmp=pd.read_csv(r"C:\Users\Julien\Desktop\Project_analyse_donnees_PS\utilisateurs_dmp_donnees INSi.csv", sep = ';')

### Pré-traitements des données

### première visualisation du dataframe :

In [21]:
df_utilisateurs_dmp

Unnamed: 0,Départements,Type d'acteur,2023-10,2023-09,2023-08,2023-07,2023-06,2023-05,2023-04,2023-03,2023-02,2023-01,2022-12,2022-11
0,01 - Ain,ES,17,16,15,16,14,14,14,15,14,13,13,13
1,01 - Ain,ESMS,1,,,,,,,,,,,
2,01 - Ain,PSL - Autres Etablissements de Soins et Prévention,1,,,,,,,,,,,
3,01 - Ain,PSL - Autres médecins spécialistes,77,76,65,62,62,60,54,56,55,44,30,38
4,01 - Ain,PSL - Centres de santé,8,8,7,7,7,7,1,2,1,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1761,NR - NON_RENSEIGNE,PSL - Etablissements Relevant de la Loi Hospitalière,,,,,,1,,,,,,
1762,NR - NON_RENSEIGNE,Social,,,,,2,1,,,2,,,
1763,NR - NON_RENSEIGNE,NR,1 084,881,646,550,541,468,421,447,355,45 085,54 265,316
1764,NR - NON_RENSEIGNE,TOTAL,1 169,934,682,600,592,512,459,475,379,45 105,54 288,336


Nous allons changer le nom de la colonne 'Départements afin de la rendre cohérente avec les noms d'autres fichiers: 

In [22]:
df_utilisateurs_dmp.rename(columns={'Départements':'Dep',}, inplace=True)

In [23]:
#df_utilisateurs_dmp.drop("Type d'acteur", axis = 1, inplace=True)

In [24]:
df_utilisateurs_dmp.head()

Unnamed: 0,Dep,Type d'acteur,2023-10,2023-09,2023-08,2023-07,2023-06,2023-05,2023-04,2023-03,2023-02,2023-01,2022-12,2022-11
0,01 - Ain,ES,17,16.0,15.0,16.0,14.0,14.0,14.0,15.0,14.0,13.0,13.0,13.0
1,01 - Ain,ESMS,1,,,,,,,,,,,
2,01 - Ain,PSL - Autres Etablissements de Soins et Prévention,1,,,,,,,,,,,
3,01 - Ain,PSL - Autres médecins spécialistes,77,76.0,65.0,62.0,62.0,60.0,54.0,56.0,55.0,44.0,30.0,38.0
4,01 - Ain,PSL - Centres de santé,8,8.0,7.0,7.0,7.0,7.0,1.0,2.0,1.0,,,


On constate la presence de NaN, qui reflète l'absence de certaine données. 
On considère ici que l'absence de données correspond à une valeur de zéro. 

#### Traitements de lignes vides : 

On vérifie d'abord, le nombre de cellules vides par colonnes. 

In [6]:
df_utilisateurs_dmp.isnull().sum()

Dep                1
Type d'acteur      0
2023-10          184
2023-09          211
2023-08          287
2023-07          281
2023-06          277
2023-05          289
2023-04          309
2023-03          303
2023-02          338
2023-01          346
2022-12          491
2022-11          374
dtype: int64

On va remplacer ces cellules vides par 0 afin de faciliter l'analyse. 

In [25]:
df_utilisateurs_dmp.replace(np.nan, 0, inplace=True)

Nous vérifications tout d'abord que les NaN ont bien été remplacés : 

In [26]:
df_utilisateurs_dmp

Unnamed: 0,Dep,Type d'acteur,2023-10,2023-09,2023-08,2023-07,2023-06,2023-05,2023-04,2023-03,2023-02,2023-01,2022-12,2022-11
0,01 - Ain,ES,17,16,15,16,14,14,14,15,14,13,13,13
1,01 - Ain,ESMS,1,0,0,0,0,0,0,0,0,0,0,0
2,01 - Ain,PSL - Autres Etablissements de Soins et Prévention,1,0,0,0,0,0,0,0,0,0,0,0
3,01 - Ain,PSL - Autres médecins spécialistes,77,76,65,62,62,60,54,56,55,44,30,38
4,01 - Ain,PSL - Centres de santé,8,8,7,7,7,7,1,2,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1761,NR - NON_RENSEIGNE,PSL - Etablissements Relevant de la Loi Hospitalière,0,0,0,0,0,1,0,0,0,0,0,0
1762,NR - NON_RENSEIGNE,Social,0,0,0,0,2,1,0,0,2,0,0,0
1763,NR - NON_RENSEIGNE,NR,1 084,881,646,550,541,468,421,447,355,45 085,54 265,316
1764,NR - NON_RENSEIGNE,TOTAL,1 169,934,682,600,592,512,459,475,379,45 105,54 288,336


Puis nous vérifions colonne par colonne, le nombre de celulles vides. 

In [27]:
df_utilisateurs_dmp.isnull().sum()

Dep              0
Type d'acteur    0
2023-10          0
2023-09          0
2023-08          0
2023-07          0
2023-06          0
2023-05          0
2023-04          0
2023-03          0
2023-02          0
2023-01          0
2022-12          0
2022-11          0
dtype: int64

On va transposer les colonnes contenant les dates afin d'avoir une cohérence entre les différents dataframes.

In [28]:
df_utilisateurs_dmp=df_utilisateurs_dmp.melt(["Dep","Type d'acteur"], var_name="Date", value_name="Utilisateurs_uniques")

In [29]:
df_utilisateurs_dmp.head()

Unnamed: 0,Dep,Type d'acteur,Date,Utilisateurs_uniques
0,01 - Ain,ES,2023-10,17
1,01 - Ain,ESMS,2023-10,1
2,01 - Ain,PSL - Autres Etablissements de Soins et Prévention,2023-10,1
3,01 - Ain,PSL - Autres médecins spécialistes,2023-10,77
4,01 - Ain,PSL - Centres de santé,2023-10,8


Nous constatons la présence de ligne pour lesquelles le département n'est pas renseigné. Ainsi que la ligne Total. Nous allons supprimer ces lignes afin de pouvoir résonner par département. 

In [30]:
df_utilisateurs_dmp=df_utilisateurs_dmp[df_utilisateurs_dmp["Dep"].str.contains("NR - NON_RENSEIGNE") == False]

In [31]:
df2 = df_utilisateurs_dmp.loc[df_utilisateurs_dmp["Type d'acteur"] != 'TOTAL']

In [14]:
df_utilisateurs_dmp

Unnamed: 0,Dep,Type d'acteur,Date,Utilisateurs_uniques
0,01 - Ain,ES,2023-10,17
1,01 - Ain,ESMS,2023-10,1
2,01 - Ain,PSL - Autres Etablissements de Soins et Prévention,2023-10,1
3,01 - Ain,PSL - Autres médecins spécialistes,2023-10,77
4,01 - Ain,PSL - Centres de santé,2023-10,8
...,...,...,...,...
21176,976 - Mayotte,PSL - Orthophonistes,2022-11,1
21177,976 - Mayotte,PSL - Orthoptistes,2022-11,0
21178,976 - Mayotte,PSL - Pharmacies,2022-11,6
21179,976 - Mayotte,PSL - Sages-femmes,2022-11,0


De nouveau afin de concerver une cohérence entre les fichiers, nous allons, séparer la colonne "Dep" en 2 afin d'avoir le nom du département d'un côté et le code département de l'autre. 

In [32]:
df2[["Code_dep","Dep"]] = df_utilisateurs_dmp["Dep"].str.split(" - ",expand=True)

Nous allons réorganiser les colonnes : 

In [33]:
df_utilisateurs_dmp = df_utilisateurs_dmp[["Dep", "Code_dep", "Date", "Type d'acteur","Utilisateurs_uniques"]]

In [34]:
df_utilisateurs_dmp.head()

Unnamed: 0,Dep,Code_dep,Date,Type d'acteur,Utilisateurs_uniques
0,Ain,1,2023-10,ES,17
1,Ain,1,2023-10,ESMS,1
2,Ain,1,2023-10,PSL - Autres Etablissements de Soins et Prévention,1
3,Ain,1,2023-10,PSL - Autres médecins spécialistes,77
4,Ain,1,2023-10,PSL - Centres de santé,8


Regroupons les données afin de disposer des données mensuelles sans précisions sur le type d'acteur.

In [35]:
df_utilisateurs_dmp2 = df_utilisateurs_dmp

In [19]:
df_utilisateurs_dmp2['Utilisateurs_uniques'] = pd.to_numeric(df_utilisateurs_dmp2['Utilisateurs_uniques'])

ValueError: Unable to parse string "2 209" at position 100

In [None]:
#df_utilisateurs_dmp2.loc[~df_utilisateurs_dmp2['Utilisateurs_uniques'].str.isdigit(), 'Utilisateurs_uniques'].tolist()

In [None]:
#df_utilisateurs_dmp2['Utilisateurs_uniques'].astype(float)

In [None]:
df_utilisateurs_dmp2.groupby(['Dep'])['Utilisateurs_uniques'].sum()

In [None]:
#df_utilisateurs_dmp['Utilisateurs_uniques'].astype(float)

In [None]:
#df_utilisateurs_dmp.to_csv('test_df_utilisateurs_dmp.csv')

In [None]:
df_utilisateurs_dmp2

In [36]:
df_utilisateurs_dmp2.to_csv('test_df_utilisateurs_dmp_float.csv')

Import du second fichier :

In [None]:
df_alimentation_dmp=pd.read_csv(r"C:\Users\Julien\Desktop\Project_analyse_donnees_PS\alimentation_DMP.csv", sep = ';')

In [None]:
df_alimentation_dmp

Vérifions qu'il n'y ait pas de cellules vides

In [None]:
df_alimentation_dmp.isnull().sum()

### Fusion des 2 fichiers concernant l'alimentation et l'utilisation du DMP

Tout d'abord, traitons les différences de noms entre les 2 fichiers. Nous allons remplacer la valeur "Corse-du-Sud" par "Corse" dans le fichier consernant l'alimentation du DMP. En effet, nous n'avons pas de précision dans le premier fichier (utilisateurs du DMP) afin de savoir si Corse fait référence à Corse du Sud ou Haute Corse.

In [None]:
df_alimentation_dmp['Dep'] = df_alimentation_dmp['Dep'].replace(['Corse-du-Sud'], 'Corse')

In [None]:
#df_alimentation_dmp.to_csv('test_alimentation_df_dmpa.csv')

In [None]:
df_dmp = pd.merge(df_utilisateurs_dmp, df_alimentation_dmp, how='inner', on=['Dep','Date'])

In [None]:
df_dmp

In [None]:
#df_dmp.to_csv('test_df_dmpa.csv')

Supprimons les colonnes en doublons :

In [None]:
df_dmp.rename(columns={'Code_dep_y':'Code_dep'}, inplace=True)

In [None]:
df_dmp.drop('Code_dep_x', axis = 1, inplace=True)

Réorganisons une nouvelle fois les colonnes :

In [None]:
df_dmp = df_dmp[["Reg",
                 "Dep",
                 "Code_dep",
                 "Date",
                 "Moy_doc_par_hab",
                 "Tot_doc_hors_HR",
                 "Pop_au_01/01/2023",
                 "Type d'acteur",
                 "Utilisateurs_uniques"]]

In [None]:
df_dmp

In [None]:
df_dmp.isnull().sum()

In [None]:
#df_dmp.to_csv('test_df_dmp.csv')

Nous pouvons poursuivre l'analyse en nous intéressant à l'impact de l'alimentation des ES/laboratoire/pharmacie.
L'urbanisation d'un territoire/l'âge de la population (patiens et PS) ont-ils un impact également? 
De même concernant l'accès à internet

### Couverture en haut-débit filaire

Nous avons choisi de nous concentre sur l'accès par internet par voix filaire car il s'agit aujourd'hui de la méthode d'accès la plus simple et la plus abordable (trouver une statistique qui le confirme). 

In [None]:
df_acces_internet=pd.read_csv(r"C:\Users\Julien\Desktop\Project_analyse_donnees_PS\departement_debit_filaire.csv"
                              , sep = ';')

In [None]:
df_acces_internet

Afin de rendre la lecture du fichier plus simple, nous allons supprimer certains colonnes et renommer les colonnes. 

In [None]:
df_acces_internet.drop(['code_reg','type','date','elig_thd1g'], axis = 1, inplace=True)

In [None]:
df_acces_internet.rename(columns={'nom_dep':'Dep',
                                  'nbr':'nb_points_acces',
                                    'inel_hd':'non_eligible',
                                    'elig_hd05': 'hd_500kbs',
                                    'elig_hd3': 'hd_3mbs',
                                    'elig_bhd8': 'bhd_8mbs',
                                    'elig_thd30': 'thd_30mbs',
                                    'elig_thd100': 'thd_100mbs_et_plus'},
                                    inplace=True)

In [None]:
df_acces_internet

Ici, les offres sont comptées dans chaque catégories dans lesquelles elles sont éligibles (l'offre à 8mbs est également comptée dans l'offres à 3mbs et à 500kbs par exemple). Afin de déterminer le nombre d'offres réelles dans chaques catégorie, nous allons soustraire une à une chaque colonne. Nous établierons ensuite la proportions de chaque offres. 

In [None]:
df_acces_internet['hd_500kbs'] = df_acces_internet['hd_500kbs'] - df_acces_internet['hd_3mbs']
df_acces_internet['hd_3mbs'] = df_acces_internet['hd_3mbs'] - df_acces_internet['bhd_8mbs']
df_acces_internet['bhd_8mbs'] = df_acces_internet['bhd_8mbs'] - df_acces_internet['thd_30mbs']
df_acces_internet['thd_100mbs_et_plus'] = df_acces_internet['thd_100mbs_et_plus']

In [None]:
df_acces_internet

Transformons maintenant les données en part du nombre de points d'accès

In [None]:
df_acces_internet['non_eligible'] = df_acces_internet['non_eligible'] / df_acces_internet['nb_points_acces'] * 100
df_acces_internet['hd_500kbs'] = df_acces_internet['hd_500kbs'] / df_acces_internet['nb_points_acces'] * 100
df_acces_internet['hd_3mbs'] = df_acces_internet['hd_3mbs']  / df_acces_internet['nb_points_acces'] * 100
df_acces_internet['bhd_8mbs'] = df_acces_internet['bhd_8mbs']  / df_acces_internet['nb_points_acces'] * 100
df_acces_internet['thd_30mbs'] = df_acces_internet['thd_30mbs'] / df_acces_internet['nb_points_acces'] * 100
df_acces_internet['thd_100mbs_et_plus'] = df_acces_internet['thd_100mbs_et_plus'] / df_acces_internet['nb_points_acces'] * 100

In [None]:
df_acces_internet

Vérifions qu'il n'y ait pas cellule vide.

In [None]:
df_acces_internet.isnull().sum()

Fusionnons maintenant le dateframe avec le dataframe précédent sur le DMP. 

In [None]:
df_dmp_debit = df_dmp

In [None]:
df_dmp_debit

In [None]:
df_dmp_debit = pd.merge(df_dmp, df_acces_internet, how='left', on='Dep')

In [None]:
df_dmp_debit

In [None]:
df_dmp_debit.drop(['code_dep'], axis = 1, inplace=True)

In [None]:
df_dmp_debit