In [11]:
# Import librairies

import pandas as pd

In [12]:
pd.set_option("display.max_columns", None)

# APL dataset

- Dataset with APL indicator per municipalities, 
  source : https://drees.shinyapps.io/carto-apl/

In [13]:
# URL of the CSV file of APL data
apl_url = 'https://medical-deserts-project.s3.eu-north-1.amazonaws.com/APL_mg_2016.csv'

# Read the CSV file from the URL into a DataFrame
apl_df = pd.read_csv(apl_url, sep = ';', encoding='utf-8')

In [14]:
# Dataset customization

# Change columns name
apl_df = apl_df.rename(columns={'Libellé de la commune': 'Ville'})

# Focus on metropolitan France
apl_df = apl_df[~apl_df['Code commune'].str.startswith(('97', '98'))]

# Transform APL columns in float type
apl_df["APL aux médecins généralistes (sans borne d'âge)"] = apl_df["APL aux médecins généralistes (sans borne d'âge)"].str.replace(',', '.').astype(float)
apl_df["APL aux médecins généralistes de 65 ans et moins"] = apl_df["APL aux médecins généralistes de 65 ans et moins"].str.replace(',', '.').astype(float)
apl_df["APL aux médecins généralistes de 62 ans et moins"] = apl_df["APL aux médecins généralistes de 62 ans et moins"].str.replace(',', '.').astype(float)

# Replace null values by median value in APL columns
apl_df["APL aux médecins généralistes (sans borne d'âge)"] = apl_df["APL aux médecins généralistes (sans borne d'âge)"].fillna(apl_df["APL aux médecins généralistes (sans borne d'âge)"].median())
apl_df["APL aux médecins généralistes de 65 ans et moins"] = apl_df["APL aux médecins généralistes de 65 ans et moins"].fillna(apl_df["APL aux médecins généralistes de 65 ans et moins"].median())
apl_df["APL aux médecins généralistes de 62 ans et moins"] = apl_df["APL aux médecins généralistes de 62 ans et moins"].fillna(apl_df["APL aux médecins généralistes de 65 ans et moins"].median())

In [15]:
print('Number of rows :', apl_df.shape[0])
print('Number of columns :', apl_df.shape[1])
print()

# Show first rows of the dataset
print('First rows of the dataset :')
display(apl_df.head())
print()

# Dataset statistics
print('Basics statistics :')
summary_stats_all = apl_df.describe(include='all')
display(summary_stats_all)
print()

# Missing values percentage
missing_percentages = (apl_df.isna().mean() * 100).round(2)
print('Percentage of missing values: ')
print(missing_percentages)

Number of rows : 35798
Number of columns : 7

First rows of the dataset :


Unnamed: 0,Code commune,Ville,Population totale,APL aux médecins généralistes (sans borne d'âge),APL aux médecins généralistes de 65 ans et moins,APL aux médecins généralistes de 62 ans et moins,Population standardisée par la consommation de soins par tranche d'âge
0,1001,L'Abergement-Clémenciat,767.0,2.293,2.01,1.546,765296
1,1002,L'Abergement-de-Varey,239.0,2.6,2.511,2.384,239164
2,1004,Ambérieu-en-Bugey,14022.0,4.079,3.976,3.558,13806292
3,1005,Ambérieux-en-Dombes,1627.0,4.378,4.378,3.782,1597628
4,1006,Ambléon,109.0,1.069,0.92,0.92,114565



Basics statistics :


Unnamed: 0,Code commune,Ville,Population totale,APL aux médecins généralistes (sans borne d'âge),APL aux médecins généralistes de 65 ans et moins,APL aux médecins généralistes de 62 ans et moins,Population standardisée par la consommation de soins par tranche d'âge
count,35798.0,35753,35792.0,35798.0,35798.0,35798.0,35792.0
unique,35798.0,33360,,,,,35318.0
top,1001.0,Sainte-Colombe,,,,,156174.0
freq,1.0,13,,,,,4.0
mean,,,1788.890199,3.269597,3.000157,2.627924,
std,,,8252.85373,1.277951,1.202274,1.115096,
min,,,1.0,0.0,0.0,0.0,
25%,,,197.0,2.48725,2.253,1.931,
50%,,,443.0,3.209,2.9425,2.574,
75%,,,1104.0,3.98575,3.686,3.266,



Percentage of missing values: 
Code commune                                                              0.00
Ville                                                                     0.13
Population totale                                                         0.02
APL aux médecins généralistes (sans borne d'âge)                          0.00
APL aux médecins généralistes de 65 ans et moins                          0.00
APL aux médecins généralistes de 62 ans et moins                          0.00
Population standardisée par la consommation de soins par tranche d'âge    0.02
dtype: float64


# Geographical coordinates dataset

- Dataset with geographical coordinates per municipalities,
  source : https://www.data.gouv.fr/fr/datasets/villes-de-france/

In [16]:
# URL of the CSV file of cities data
cities_url = 'https://medical-deserts-project.s3.eu-north-1.amazonaws.com/cities.csv'

# Read the CSV file from the URL into a DataFrame
cities_df = pd.read_csv(cities_url)

In [17]:
# Dataset customization

# Change columns name
cities_df = cities_df.rename(columns={'city_code': 'Ville', 'insee_code': 'Code commune'})

# Focus on metropolitan France
cities_df = cities_df[~cities_df['Code commune'].str.startswith(('97', '98'))]

In [18]:
print('Number of rows :', cities_df.shape[0])
print('Number of columns :', cities_df.shape[1])
print()

# Show first rows of the dataset
print('First rows of the dataset :')
display(cities_df.head())
print()

# Dataset statistics
print('Basics statistics :')
summary_stats_all = cities_df.describe(include='all')
display(summary_stats_all)
print()

# Missing values percentage
missing_percentages = (cities_df.isna().mean() * 100).round(2)
print('Percentage of missing values: ')
print(missing_percentages)

Number of rows : 38717
Number of columns : 10

First rows of the dataset :


Unnamed: 0,Code commune,Ville,zip_code,label,latitude,longitude,department_name,department_number,region_name,region_geojson_name
0,25620,ville du pont,25650,ville du pont,46.999873,6.498147,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté
1,25624,villers grelot,25640,villers grelot,47.361512,6.235167,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté
2,25615,villars les blamont,25310,villars les blamont,47.368384,6.871415,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté
3,25619,les villedieu,25240,les villedieu,46.713906,6.265831,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté
4,25622,villers buzon,25170,villers buzon,47.228558,5.852187,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté



Basics statistics :


Unnamed: 0,Code commune,Ville,zip_code,label,latitude,longitude,department_name,department_number,region_name,region_geojson_name
count,38717.0,38717,38717.0,38717,38717.0,38717.0,38717,38717.0,38717,38717
unique,34868.0,32579,,32560,,,96,96.0,13,13
top,14654.0,livarot pays d auge,,marseille,,,pas-de-calais,62.0,grand est,Grand Est
freq,22.0,22,,27,,,915,915.0,5674,5674
mean,,,46175.516698,,46.972916,2.777771,,,,
std,,,25421.524971,,2.208628,2.688881,,,,
min,,,1000.0,,41.435023,-5.086014,,,,
25%,,,24530.0,,45.176588,0.675359,,,,
50%,,,48400.0,,47.399768,2.686532,,,,
75%,,,66800.0,,48.828093,4.963732,,,,



Percentage of missing values: 
Code commune           0.0
Ville                  0.0
zip_code               0.0
label                  0.0
latitude               0.0
longitude              0.0
department_name        0.0
department_number      0.0
region_name            0.0
region_geojson_name    0.0
dtype: float64


# INSEE dataset

- Dataset with INSEE information per municipalities, 
source : https://www.data.gouv.fr/fr/datasets/data-insee-sur-les-communes/

In [19]:
# URL of the CSV file of INSEE data
insee_url = 'https://medical-deserts-project.s3.eu-north-1.amazonaws.com/MDB-INSEE-V2.csv'

# Read the CSV file from the URL into a DataFrame
insee_df = pd.read_csv(insee_url, sep = ';', encoding='utf-8')

  insee_df = pd.read_csv(insee_url, sep = ';', encoding='utf-8')


In [20]:
# Dataset customization

# Change columns name
insee_df = insee_df.rename(columns={'LIBGEO': 'Ville', 'CODGEO': 'Code commune'})

# Convert the 'Code commune' column to strings
insee_df['Code commune'] = insee_df['Code commune'].astype(str)

# Focus on metropolitan France
insee_df = insee_df[~insee_df['Code commune'].str.startswith(('97', '98'))]

# Add a zero if "Code commune" has only 4 characters
insee_df['Code commune'] = insee_df['Code commune'].apply(lambda x: '0' + x if len(x) == 4 else x)

# Add APL data from apl_df
insee_df = insee_df.merge(apl_df[["Code commune", "APL aux médecins généralistes (sans borne d'âge)"]], on="Code commune", how="left")
insee_df = insee_df.merge(apl_df[["Code commune", "APL aux médecins généralistes de 65 ans et moins"]], on="Code commune", how="left")
insee_df = insee_df.merge(apl_df[["Code commune", "APL aux médecins généralistes de 62 ans et moins"]], on="Code commune", how="left")

# Add geographical coordonates from cities_df
insee_df = insee_df.merge(cities_df[["Code commune", "latitude"]], on="Code commune", how="left")
insee_df = insee_df.merge(cities_df[["Code commune", "longitude"]], on="Code commune", how="left")

# Remove useless columns
insee_df = insee_df.drop([
    "Code commune", 
    "Nb Pharmacies et parfumerie", 
    "Orientation Economique",
    "Indice Evasion Client",
    "Score Evasion Client", 
    "Score Synergie Médicale",
    "Ville", 
    "REG", 
    "DEP", 
    "Score Démographique", 
    "Score Ménages", 
    "Urbanité Ruralité",
    "Capacité Fiscale", 
    "Taux Evasion Client",
    "SEG Environnement Démographique Obsolète", 
    "SYN MEDICAL", 
    "CP"
    ], 
    axis=1)

# Remove useless columns - Departemental or regional datas
insee_df = insee_df.drop([
    "Indice Fiscal Partiel", # Duplicate with "Moyenne Revenus Fiscaux Régionaux"
    "Score Fiscal", # Duplicate with "Moyenne Revenus Fiscaux Régionaux"
    #"Moyenne Revenus Fiscaux Départementaux", 
    #"Moyenne Revenus Fiscaux Régionaux", 
    #"Dep Moyenne Salaires Horaires", 
    #"Dep Moyenne Salaires Cadre Horaires", 
    #"Dep Moyenne Salaires Prof Intermédiaire Horaires", 
    #"Dep Moyenne Salaires Employé Horaires", 
    #"Dep Moyenne Salaires Ouvrié Horaires", 
    #"Reg Moyenne Salaires Horaires", 
    #"Reg Moyenne Salaires Cadre Horaires", 
    #"Reg Moyenne Salaires Prof Intermédiaire Horaires", 
    #"Reg Moyenne Salaires Employé Horaires", 
    #"Reg Moyenne Salaires Ouvrié Horaires", 
    #"Valeur ajoutée régionale", 
    #"Moyenne Revnus fiscaux", 
    #"Nb Industries des biens intermédiaires", 
    #"Nb de Commerce", 
    #"Nb de Services aux particuliers", 
    #"Nb institution de Education, santé, action sociale, administration", 
    #"PIB Régionnal", 
    "Score VA Région", # Indice VA already in the dataframe
    "Score PIB"#,  # Indice PIB already in the dataframe
    #"Seg Cap Fiscale",
    ], 
    axis=1)

# Remove useless columns - Departemental or regional datas
insee_df = insee_df.drop([
    "Population", 
    "Evolution Population", 
    "Evolution Pop %", 
    "Nb Femme", 
    "Nb Homme", 
    "Nb Mineurs", 
    "Nb Majeurs", 
    "Nb Etudiants", 
    "Taux étudiants",
    "Score Croissance Population"
    ], 
    axis=1)

# Transform Object column in numeric column
insee_df["Indice Synergie Médicale"] = insee_df["Indice Synergie Médicale"].str.replace(',', '.').astype(float)
insee_df["Densité Médicale BV"] = insee_df["Densité Médicale BV"].str.replace(',', '.').astype(float)
insee_df["Indice Démographique"] = insee_df["Indice Démographique"].str.replace(',', '.').astype(float)
insee_df["Indice Ménages"] = insee_df["Indice Ménages"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Horaires"] = insee_df["Dep Moyenne Salaires Horaires"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Cadre Horaires"] = insee_df["Dep Moyenne Salaires Cadre Horaires"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Prof Intermédiaire Horaires"] = insee_df["Dep Moyenne Salaires Prof Intermédiaire Horaires"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Employé Horaires"] = insee_df["Dep Moyenne Salaires Employé Horaires"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Ouvrié Horaires"] = insee_df["Dep Moyenne Salaires Ouvrié Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Horaires"] = insee_df["Reg Moyenne Salaires Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Cadre Horaires"] = insee_df["Reg Moyenne Salaires Cadre Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Prof Intermédiaire Horaires"] = insee_df["Reg Moyenne Salaires Prof Intermédiaire Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Employé Horaires"] = insee_df["Reg Moyenne Salaires Employé Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Ouvrié Horaires"] = insee_df["Reg Moyenne Salaires Ouvrié Horaires"].str.replace(',', '.').astype(float)
insee_df["Valeur ajoutée régionale"] = insee_df["Valeur ajoutée régionale"].str.replace(',', '.').astype(float)
insee_df["Score Urbanité"] = insee_df["Score Urbanité"].str.replace(',', '.').astype(float)
insee_df["Moyenne Revnus fiscaux"] = insee_df["Moyenne Revnus fiscaux"].str.replace(',', '.').astype(float)
insee_df["Score Croissance Entrepreneuriale"] = insee_df["Score Croissance Entrepreneuriale"].str.replace(',', '.').astype(float)

# Remove rows with missing values in the "longitude" and "latitude" columns
#insee_df.dropna(subset=['longitude', 'latitude'], inplace=True)
insee_df = insee_df.dropna()

In [21]:
print('Number of rows :', insee_df.shape[0])
print('Number of columns :', insee_df.shape[1])
print()

# Show first rows of the dataset
print('First rows of the dataset :')
display(insee_df.head())
print()

# Dataset statistics
print('Basics statistics :')
summary_stats_all = insee_df.describe(include='all')
display(summary_stats_all)
print()

# Missing values percentage
missing_percentages = (insee_df.isna().mean() * 100).round(2)
print('Percentage of missing values: ')
print(missing_percentages)

Number of rows : 56414
Number of columns : 75

First rows of the dataset :


Unnamed: 0,Dynamique Entrepreneuriale,Dynamique Entrepreneuriale Service et Commerce,Synergie Médicale COMMUNE,Indice Synergie Médicale,SEG Croissance POP,Nb Omnipraticiens BV,Nb Infirmiers Libéraux BV,Nb dentistes Libéraux BV,Nb pharmaciens Libéraux BV,Densité Médicale BV,Score équipement de santé BV,Indice Démographique,Indice Ménages,Nb Ménages,Nb Résidences Principales,Nb propriétaire,Nb Logement,Nb Résidences Secondaires,Nb Log Vacants,Nb Occupants Résidence Principale,Nb Entreprises Secteur Services,Nb Entreprises Secteur Commerce,Nb Entreprises Secteur Construction,Nb Entreprises Secteur Industrie,Nb Création Enteprises,Nb Création Industrielles,Nb Création Construction,Nb Création Commerces,Nb Création Services,Moyenne Revenus Fiscaux Départementaux,Moyenne Revenus Fiscaux Régionaux,Dep Moyenne Salaires Horaires,Dep Moyenne Salaires Cadre Horaires,Dep Moyenne Salaires Prof Intermédiaire Horaires,Dep Moyenne Salaires Employé Horaires,Dep Moyenne Salaires Ouvrié Horaires,Reg Moyenne Salaires Horaires,Reg Moyenne Salaires Cadre Horaires,Reg Moyenne Salaires Prof Intermédiaire Horaires,Reg Moyenne Salaires Employé Horaires,Reg Moyenne Salaires Ouvrié Horaires,Valeur ajoutée régionale,Score Urbanité,Nb Atifs,Nb Actifs Salariés,Nb Actifs Non Salariés,Nb Logement Secondaire et Occasionnel,Nb Hotel,Capacité Hotel,Nb Camping,Capacité Camping,Dynamique Démographique BV,Taux Propriété,Dynamique Démographique INSEE,Capacité Fisc,Moyenne Revnus fiscaux,"Nb Education, santé, action sociale",Nb Services personnels et domestiques,"Nb Santé, action sociale",Nb Industries des biens intermédiaires,Nb de Commerce,Nb de Services aux particuliers,"Nb institution de Education, santé, action sociale, administration",PIB Régionnal,Score Croissance Entrepreneuriale,Environnement Démographique,Fidélité,Seg Cap Fiscale,Seg Dyn Entre,DYN SetC,APL aux médecins généralistes (sans borne d'âge),APL aux médecins généralistes de 65 ans et moins,APL aux médecins généralistes de 62 ans et moins,latitude,longitude
0,57.0,23.0,114,114.56713,en croissance démographique,9,14,7,7,0.09286,4,44.19769,37.22029,247,248,196,289,32,9,728,7.0,11.0,2.0,2.0,4.0,0.0,2.0,1.0,1.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,0.0,295.0,254.0,41.0,32.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,67,-1,117,11483.5,3.0,1.0,0.0,9364,9350,3372,15105,173681,0.01585,Bassin Industriel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,2.293,2.01,1.546,46.153721,4.92585
1,45.0,4.0,143,143.71141,en croissance démographique,31,36,18,18,0.099229,4,10.18071,10.09619,67,67,61,142,71,4,168,4.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,0.0,57.0,49.0,8.0,71.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,42,0,110,11483.5,0.0,0.0,0.0,9364,9350,3372,15105,173681,0.00173,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,2.6,2.511,2.384,46.009606,5.428088
2,634.0,828.0,366,367.8208,en croissance démographique,31,36,18,18,0.099229,4,696.92134,699.19896,4640,4635,1968,5184,135,414,11015,342.0,301.0,58.0,108.0,83.0,4.0,14.0,27.0,38.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,37.5,4556.0,4203.0,353.0,135.0,2.0,52.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,37,-55,250,11483.5,113.0,41.0,118.0,9364,9350,3372,15105,173681,0.38471,Bassin Résidentiel en croissance démographique,Pop Mobile,Fiscalité moyenne,Dynamique Economique,Bonne Dynamique Entreprise Serv et Com,4.079,3.976,3.558,45.961049,5.372275
3,113.0,62.0,132,132.65668,en croissance démographique,12,12,6,6,1.0,1,85.774,71.2761,473,473,344,505,14,18,1406,22.0,26.0,17.0,10.0,6.0,0.0,4.0,2.0,0.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,0.0,621.0,535.0,86.0,14.0,2.0,17.0,1.0,72.0,Grande Ville,68,-3,127,11483.5,5.0,2.0,7.0,9364,9350,3372,15105,173681,0.02824,Bassin Urbain en croissance démographique,Pop Mobile,Fiscalité moyenne,Moyenne dynamique,Faible Dynamique Serv et Com,4.378,4.378,3.782,45.996164,4.911967
4,42.0,1.0,121,121.60196,en croissance démographique,26,21,10,10,0.100905,3,5.24276,6.17827,41,41,28,57,13,3,86,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,0.0,37.0,33.0,4.0,13.0,0.0,0.0,0.0,0.0,3.Accroissement par excédent migratoire,49,0,109,11483.5,0.0,0.0,0.0,9364,9350,3372,15105,173681,0.0,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,1.069,0.92,0.92,45.749886,5.594585



Basics statistics :


Unnamed: 0,Dynamique Entrepreneuriale,Dynamique Entrepreneuriale Service et Commerce,Synergie Médicale COMMUNE,Indice Synergie Médicale,SEG Croissance POP,Nb Omnipraticiens BV,Nb Infirmiers Libéraux BV,Nb dentistes Libéraux BV,Nb pharmaciens Libéraux BV,Densité Médicale BV,Score équipement de santé BV,Indice Démographique,Indice Ménages,Nb Ménages,Nb Résidences Principales,Nb propriétaire,Nb Logement,Nb Résidences Secondaires,Nb Log Vacants,Nb Occupants Résidence Principale,Nb Entreprises Secteur Services,Nb Entreprises Secteur Commerce,Nb Entreprises Secteur Construction,Nb Entreprises Secteur Industrie,Nb Création Enteprises,Nb Création Industrielles,Nb Création Construction,Nb Création Commerces,Nb Création Services,Moyenne Revenus Fiscaux Départementaux,Moyenne Revenus Fiscaux Régionaux,Dep Moyenne Salaires Horaires,Dep Moyenne Salaires Cadre Horaires,Dep Moyenne Salaires Prof Intermédiaire Horaires,Dep Moyenne Salaires Employé Horaires,Dep Moyenne Salaires Ouvrié Horaires,Reg Moyenne Salaires Horaires,Reg Moyenne Salaires Cadre Horaires,Reg Moyenne Salaires Prof Intermédiaire Horaires,Reg Moyenne Salaires Employé Horaires,Reg Moyenne Salaires Ouvrié Horaires,Valeur ajoutée régionale,Score Urbanité,Nb Atifs,Nb Actifs Salariés,Nb Actifs Non Salariés,Nb Logement Secondaire et Occasionnel,Nb Hotel,Capacité Hotel,Nb Camping,Capacité Camping,Dynamique Démographique BV,Taux Propriété,Dynamique Démographique INSEE,Capacité Fisc,Moyenne Revnus fiscaux,"Nb Education, santé, action sociale",Nb Services personnels et domestiques,"Nb Santé, action sociale",Nb Industries des biens intermédiaires,Nb de Commerce,Nb de Services aux particuliers,"Nb institution de Education, santé, action sociale, administration",PIB Régionnal,Score Croissance Entrepreneuriale,Environnement Démographique,Fidélité,Seg Cap Fiscale,Seg Dyn Entre,DYN SetC,APL aux médecins généralistes (sans borne d'âge),APL aux médecins généralistes de 65 ans et moins,APL aux médecins généralistes de 62 ans et moins,latitude,longitude
count,56414.0,56414.0,56414.0,56414.0,56414,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414.0,56414,56414,56414,56414,56414,56414.0,56414.0,56414.0,56414.0,56414.0
unique,,,,,2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,7,,,,,,,,,,,,,,7,2,3,3,3,,,,,
top,,,,,en croissance démographique,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.Accroissement par excédent naturel et migrat...,,,,,,,,,,,,,,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,,,,,
freq,,,,,56403,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,12402,,,,,,,,,,,,,,24469,39034,45583,38559,40619,,,,,
mean,216.745418,272.81416,137.004485,137.686064,,16.209115,16.001773,7.682526,7.682526,0.295712,2.48254,235.310856,251.918337,1671.771759,1670.903109,771.666466,2017.115787,190.032067,156.180611,3748.673149,111.375705,100.700287,22.108147,33.589074,22.79911,1.309888,3.515528,5.857589,12.116106,10280.434431,10277.336831,10.950882,21.177406,12.432828,8.657549,9.025651,11.107464,21.243917,12.491197,8.67431,9.091158,39521.368119,9.841972,1453.67049,1282.537367,171.133123,189.972915,1.368472,49.083969,0.444411,56.299305,,54.760715,-12.985465,-162.330237,10278.885631,31.06805,9.676056,32.882636,3076.023682,4394.087797,1750.693409,7709.059932,77285.037508,0.09175,,,,,,3.298298,3.031462,2.660037,47.170504,2.417447
std,1117.781938,1677.843823,391.520197,393.467959,,12.676738,13.825494,6.649198,6.649198,0.374648,1.351979,1194.698314,1417.386223,9406.009473,9382.116483,3457.660713,11030.927228,1035.311247,1143.563665,18953.77883,682.268969,624.932096,110.637545,175.109517,148.197901,6.413732,25.108467,34.823288,83.567181,1446.303459,1047.850879,0.890082,0.761982,0.372253,0.223183,0.389,0.708977,0.563711,0.301954,0.18834,0.29039,42293.56029,22.30273,7159.961433,6421.173476,761.800175,1035.229491,7.087131,358.020421,1.702821,341.03587,,15.636947,98.729832,4311.92858,982.9567,200.396811,54.00645,200.734714,2504.476974,4621.622988,3062.186653,6464.62177,82070.981224,0.565837,,,,,,1.238916,1.163633,1.073509,2.112188,2.79161
min,1.0,1.0,13.0,13.06467,,1.0,0.0,0.0,0.0,0.032518,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6282.0,7748.0,9.8625,19.75,11.74,8.261905,8.3,10.57451,20.509549,12.17538,8.453394,8.725,3021.411002,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,-1929.0,-140594.0,7664.0,0.0,0.0,0.0,30.0,342.0,187.0,828.0,6358.0,0.0,,,,,,0.0,0.0,0.0,41.435023,-5.086014
25%,23.0,7.0,56.0,56.27859,,8.0,8.0,3.0,3.0,0.082132,1.0,15.66732,15.06894,100.0,100.0,77.0,137.0,13.0,8.0,255.0,4.0,2.0,2.0,2.0,1.0,0.0,0.0,0.0,0.0,9570.0,9929.0,10.4,20.655714,12.16,8.532468,8.76,10.653774,21.013953,12.253774,8.569608,8.848889,19749.43799,0.0,100.0,75.0,21.0,13.0,0.0,0.0,0.0,0.0,,45.0,-3.0,73.0,9750.5,0.0,0.0,0.0,1393.0,2050.0,779.0,4162.0,35310.0,0.00173,,,,,,2.539,2.32,1.991,45.566135,0.050955
50%,47.0,24.0,75.0,75.37312,,12.0,12.0,6.0,6.0,0.098894,3.0,41.57631,39.17925,260.0,260.0,186.0,335.0,33.0,19.0,673.0,11.0,9.0,5.0,5.0,3.0,0.0,0.0,1.0,1.0,10073.0,10458.0,10.7,21.0525,12.4,8.606667,8.9525,10.873021,21.095475,12.430189,8.618653,8.984906,26472.26855,0.0,271.0,219.0,47.0,33.0,0.0,0.0,0.0,0.0,,55.0,0.0,83.0,10220.5,1.0,1.0,2.0,2576.0,3125.0,925.0,5986.0,55218.0,0.01066,,,,,,3.186,2.9475,2.584,47.661441,2.183312
75%,123.0,109.0,109.0,109.54226,,19.0,18.0,9.0,9.0,0.158565,4.0,113.99955,114.67466,761.0,761.0,460.0,917.0,70.75,55.0,1827.0,47.0,35.0,14.0,19.0,9.0,1.0,1.0,2.0,4.0,11014.0,11150.0,11.211688,21.503226,12.576623,8.76,9.271429,11.295855,21.640496,12.673103,8.74,9.239535,38930.86531,12.5,742.0,624.0,116.0,70.0,1.0,8.0,0.0,0.0,,66.0,1.0,103.0,10891.0,13.0,4.0,15.0,2916.0,4858.0,1552.0,8683.0,79920.0,0.0389,,,,,,3.994,3.696,3.25875,48.918435,4.823433



Percentage of missing values: 
Dynamique Entrepreneuriale                          0.0
Dynamique Entrepreneuriale Service et Commerce      0.0
Synergie Médicale COMMUNE                           0.0
Indice Synergie Médicale                            0.0
SEG Croissance POP                                  0.0
                                                   ... 
APL aux médecins généralistes (sans borne d'âge)    0.0
APL aux médecins généralistes de 65 ans et moins    0.0
APL aux médecins généralistes de 62 ans et moins    0.0
latitude                                            0.0
longitude                                           0.0
Length: 75, dtype: float64


In [22]:
insee_csvtest = 'C:\\Users\\alexa\\Downloads\\insee_test.csv'

insee_df.to_csv(insee_csvtest, index=False)

In [23]:
"""
def create_column_types_csv(df, output_file):
    # Créer un DataFrame avec les noms de colonnes et leurs types de données
    column_types_df = pd.DataFrame(df.dtypes).reset_index()
    column_types_df.columns = ['Nom de la colonne', 'Type de données']

    # Compter le nombre de valeurs nulles dans chaque colonne
    null_counts = df.isnull().sum(axis=0).reset_index()
    null_counts.columns = ['Nom de la colonne', 'Nombre de valeurs nulles']

    # Ajouter la première ligne du DataFrame contenant les valeurs des colonnes
    first_row = df.iloc[0].reset_index()
    first_row.columns = ['Nom de la colonne', 'Valeur de la première ligne']

    # Fusionner les DataFrames
    result_df = pd.merge(column_types_df, first_row, on='Nom de la colonne', how='left')
    result_df = pd.merge(result_df, null_counts, on='Nom de la colonne', how='left')

    # Enregistrer le DataFrame dans un fichier CSV
    result_df.to_csv(output_file, index=False)

# Exemple d'utilisation
# Remplacez 'votre_dataframe' par votre DataFrame réel
# et 'chemin/vers/votre/fichier.csv' par le chemin et le nom de fichier souhaités pour le fichier CSV de sortie
create_column_types_csv(insee_df, 'C:\\Users\\alexa\\Downloads\\insee_columns.csv')
"""

"\ndef create_column_types_csv(df, output_file):\n    # Créer un DataFrame avec les noms de colonnes et leurs types de données\n    column_types_df = pd.DataFrame(df.dtypes).reset_index()\n    column_types_df.columns = ['Nom de la colonne', 'Type de données']\n\n    # Compter le nombre de valeurs nulles dans chaque colonne\n    null_counts = df.isnull().sum(axis=0).reset_index()\n    null_counts.columns = ['Nom de la colonne', 'Nombre de valeurs nulles']\n\n    # Ajouter la première ligne du DataFrame contenant les valeurs des colonnes\n    first_row = df.iloc[0].reset_index()\n    first_row.columns = ['Nom de la colonne', 'Valeur de la première ligne']\n\n    # Fusionner les DataFrames\n    result_df = pd.merge(column_types_df, first_row, on='Nom de la colonne', how='left')\n    result_df = pd.merge(result_df, null_counts, on='Nom de la colonne', how='left')\n\n    # Enregistrer le DataFrame dans un fichier CSV\n    result_df.to_csv(output_file, index=False)\n\n# Exemple d'utilisation