In [12]:
import os

import csv
import pandas as pd

%matplotlib inline

In [13]:
# Déclaration des constantes
DATA_DIR = '../data/external/'
PROCESSED_DIR = '../data/processed/'

CITIES_FILENAME = 'base-cc-filosofi-2015.xls'
PS_CITIES_FILENAME = 'PS_Communes.csv'
ANALYSIS_FILENAME = 'analyse.csv'

In [14]:
analyse_df = pd.read_csv(os.path.join(PROCESSED_DIR, ANALYSIS_FILENAME),
                                 sep=';',
                                 dtype={'CODGEO':str, 'codecommuneetablissement':str},
                                 )

In [15]:
dept_df = (analyse_df
          .dropna(subset=['CODGEO', 'NBPERSMENFISC15'])
          .assign(departement = lambda df: df.CODGEO.str[:2])
          .groupby('departement')
           [['NBPERSMENFISC15','ambulance', 'analyse_medicale', 'autre',
       'autre_specialiste', 'chirurgien', 'dentiste', 'generaliste', 'hopital',
       'infirmiers', 'organe', 'radiologiste', 'reeducateur_podologue',]]
           .sum()
          )

In [16]:
dept_df.rename(columns={'NBPERSMENFISC15':'population', 'radiologiste':'radiologue'}, inplace=True)
dept_df = dept_df.rename_axis('code_dept')
dept_df = dept_df.drop('97') # Suppression de l'observation des départements qui ne sont pas en France métropolitaine et commencent donc par 97

### Ajout des régions dans le df département

In [17]:
# On récupère sur github un fichier de mapping entre départements et régions
regions_df = pd.read_csv('https://gist.githubusercontent.com/gzurbach/b0ccdeda51ec2fe135d5/raw/b89e3d2ac21ddb251b1aed0528ddc9437a07818f/departments_regions_france_2016.csv',
                         dtype=str, sep = ",",
                        )

# On renomme les colonnes
regions_df.rename(columns={'departmentCode':'code_dept',
                           'departmentName':'nom_dept',
                           'regionName':'nom_region'
                          }, inplace=True)

# On passe la colonne en upper case pour que les codes de la corse ("2a" et "2b") soient correctement formatés.
regions_df['code_dept'] = regions_df['code_dept'].str.upper()

In [18]:
# On fusionne le df précédemment créé avec le df des Départements
# En utilisant le code du département comme clé
dept_df = pd.merge(dept_df,
                     regions_df[['nom_region','code_dept','nom_dept']],
                     how='left', on='code_dept'
                    ).set_index('code_dept')

##### Calcul de tous les taux pour 100 000 habitants

In [19]:
# On créé une fonction qui ajoute des colonnes au dataframe contenant le taux pour 100 000 habitants
def tx_par_hab(list_of_columns):
    for column in list_of_columns:
        dept_df[column +'_habitant'] = 100_000 * dept_df[column] / dept_df['population']

In [20]:
# On définit la liste des colonnes à processer
columns_to_process = ['generaliste','infirmiers','hopital',
                      'ambulance', 'analyse_medicale', 'autre',
                      'autre_specialiste', 'chirurgien', 'dentiste',
                      'organe','radiologue','reeducateur_podologue']

# Execution de la fonction
tx_par_hab(columns_to_process)

### Calcul d'un indice

Il existe une grande variété d'indicateurs utilisés pour calculer un désert médical, car ce [concept est multidimensionnel](https://drees.solidarites-sante.gouv.fr/IMG/pdf/dd17.pdf). Il ne s'agit pas que de la simple présence, ou distance, entre un professionnel de santé et des patients. La démographie des territoires, l'âge des praticiens, leur disponibilité, les équipements connexes (pharmacie, locaux adaptés etc.) sont autant de facteurs qui entrent en jeu.

Il existe cependant une définition plus simpliste émanant du ministère de la Santé si on [considère](http://www.leparisien.fr/societe/grand-debat-et-si-on-forcait-les-medecins-a-s-installer-dans-les-deserts-medicaux-26-02-2019-8020416.php) qu’un territoire rentre dans la catégorie du désert médical lorsque la densité de médecins par rapport à la population est de 30 % inférieure à la moyenne nationale.

En France il y a en moyenne, pour 100 000 habitants, [82 médecins généralistes et 85 spécialistes.](http://www.securite-sociale.fr/IMG/pdf/2_demographie_des_medecins_liberaux_et_remboursements_de_l_assurance_maladie.pdf). Malheureusement, les données utilisées pour notre étude, issues de la base SIREN, nous amènent à surévaluer ces des résultats puisque notre moyenne se situe à 142 généralistes par habitants. Cependant, on peut garder l'idée comme quoi les rapports entre les différents départements ainsi que les écarts par rapport à la moyenne nationale restent des indicateurs pertinents pour déceler des territoires sujets à un déficit de personnel de santé.

Afin de garder un indice cohérent nous ne prendrons que 3 variables en compte : la moyenne des généralistes par habitant, celle des infirmiers et celle des hôpitaux.

##### Calcul des moyennes pour le taux d'Hopitaux par habitants, d'infirmiers par habitants et de généralistes par habitants (pour 100 000 personnes) 

In [21]:
# Moyennes globales pour trois variables utilisées pour construire l'indice :

MOY_GENERALISTES_PAR_HAB = dept_df['generaliste_habitant'].mean()
MOY_INFIRMIERS_PAR_HAB = dept_df['infirmiers_habitant'].mean()
MOY_HOPITAUX_PAR_HAB = dept_df['hopital_habitant'].mean()

On définit une fonction qui calcule l'écart à la moyenne pour trois des indices les plus importants, effectue ensuite la moyenne de ces écarts et multiplie le tout par 100. Plus l'indice est bas, plus le département a des carences en terme d'accès aux professionnels de santé.

In [22]:
    

def indice(tx_generalistes,tx_infirmiers,tx_hopitaux):
    
    # On créé des variables supplémentaires pour pouvoir les utiliser dans le dashboard
    
        dept_df['indice_generaliste_habitant'] = (tx_generalistes / MOY_GENERALISTES_PAR_HAB) * (100/3)
        dept_df['indice_infirmiers_habitant'] = (tx_infirmiers / MOY_INFIRMIERS_PAR_HAB) * (100/3)
        dept_df['indice_hopital_habitant'] = (tx_hopitaux / MOY_HOPITAUX_PAR_HAB) * (100/3)

        
        # On calcule l'indice
        
        indice = (((tx_generalistes / MOY_GENERALISTES_PAR_HAB)
                        +(tx_infirmiers / MOY_INFIRMIERS_PAR_HAB)
                        +(tx_hopitaux / MOY_HOPITAUX_PAR_HAB))
                       ) * (100/3)
        return indice

In [23]:
# Execution de la fonction
dept_df['indice'] = indice(dept_df['generaliste_habitant'],dept_df['infirmiers_habitant'],dept_df['hopital_habitant'])

##### Export du fichier en format csv

In [65]:
dept_df.to_csv('indices_dept_et_regions.csv', sep=',', encoding='utf-8', quotechar='"', index=True, quoting=csv.QUOTE_ALL)