In [2]:
# Import librairies

import pandas as pd

In [3]:
pd.set_option("display.max_columns", None)

# APL dataset

- Dataset with APL indicator per municipalities, 
  source : https://drees.shinyapps.io/carto-apl/

In [4]:
# URL of the CSV file of APL data
apl_url = 'https://medical-deserts-project.s3.eu-north-1.amazonaws.com/APL_mg_2016.csv'

# Read the CSV file from the URL into a DataFrame
apl_df = pd.read_csv(apl_url, sep = ';', encoding='utf-8')

In [5]:
# Dataset customization

# Change columns name
apl_df = apl_df.rename(columns={'Libellé de la commune': 'Ville'})

# Focus on metropolitan France
apl_df = apl_df[~apl_df['Code commune'].str.startswith(('97', '98'))]

# Add a zero if "Code commune" has only 4 characters
apl_df['Code commune'] = apl_df['Code commune'].apply(lambda x: '0' + x if len(x) == 4 else x)

# Transform APL columns in float type
apl_df["APL aux médecins généralistes (sans borne d'âge)"] = apl_df["APL aux médecins généralistes (sans borne d'âge)"].str.replace(',', '.').astype(float)
apl_df["APL aux médecins généralistes de 65 ans et moins"] = apl_df["APL aux médecins généralistes de 65 ans et moins"].str.replace(',', '.').astype(float)
apl_df["APL aux médecins généralistes de 62 ans et moins"] = apl_df["APL aux médecins généralistes de 62 ans et moins"].str.replace(',', '.').astype(float)

# Replace null values by median value in APL columns
apl_df["APL aux médecins généralistes (sans borne d'âge)"] = apl_df["APL aux médecins généralistes (sans borne d'âge)"].fillna(apl_df["APL aux médecins généralistes (sans borne d'âge)"].median())
apl_df["APL aux médecins généralistes de 65 ans et moins"] = apl_df["APL aux médecins généralistes de 65 ans et moins"].fillna(apl_df["APL aux médecins généralistes de 65 ans et moins"].median())
apl_df["APL aux médecins généralistes de 62 ans et moins"] = apl_df["APL aux médecins généralistes de 62 ans et moins"].fillna(apl_df["APL aux médecins généralistes de 65 ans et moins"].median())

In [6]:
print('Number of rows :', apl_df.shape[0])
print('Number of columns :', apl_df.shape[1])
print()

# Show first rows of the dataset
print('First rows of the dataset :')
display(apl_df.head())
print()

# Dataset statistics
print('Basics statistics :')
summary_stats_all = apl_df.describe(include='all')
display(summary_stats_all)
print()

# Missing values percentage
missing_percentages = (apl_df.isna().mean() * 100).round(2)
print('Percentage of missing values: ')
print(missing_percentages) 

Number of rows : 35798
Number of columns : 7

First rows of the dataset :


Unnamed: 0,Code commune,Ville,Population totale,APL aux médecins généralistes (sans borne d'âge),APL aux médecins généralistes de 65 ans et moins,APL aux médecins généralistes de 62 ans et moins,Population standardisée par la consommation de soins par tranche d'âge
0,1001,L'Abergement-Clémenciat,767.0,2.293,2.01,1.546,765296
1,1002,L'Abergement-de-Varey,239.0,2.6,2.511,2.384,239164
2,1004,Ambérieu-en-Bugey,14022.0,4.079,3.976,3.558,13806292
3,1005,Ambérieux-en-Dombes,1627.0,4.378,4.378,3.782,1597628
4,1006,Ambléon,109.0,1.069,0.92,0.92,114565



Basics statistics :


Unnamed: 0,Code commune,Ville,Population totale,APL aux médecins généralistes (sans borne d'âge),APL aux médecins généralistes de 65 ans et moins,APL aux médecins généralistes de 62 ans et moins,Population standardisée par la consommation de soins par tranche d'âge
count,35798.0,35753,35792.0,35798.0,35798.0,35798.0,35792.0
unique,35798.0,33360,,,,,35318.0
top,1001.0,Sainte-Colombe,,,,,156174.0
freq,1.0,13,,,,,4.0
mean,,,1788.890199,3.269597,3.000157,2.627924,
std,,,8252.85373,1.277951,1.202274,1.115096,
min,,,1.0,0.0,0.0,0.0,
25%,,,197.0,2.48725,2.253,1.931,
50%,,,443.0,3.209,2.9425,2.574,
75%,,,1104.0,3.98575,3.686,3.266,



Percentage of missing values: 
Code commune                                                              0.00
Ville                                                                     0.13
Population totale                                                         0.02
APL aux médecins généralistes (sans borne d'âge)                          0.00
APL aux médecins généralistes de 65 ans et moins                          0.00
APL aux médecins généralistes de 62 ans et moins                          0.00
Population standardisée par la consommation de soins par tranche d'âge    0.02
dtype: float64


# Geographical coordinates dataset

- Dataset with geographical coordinates per municipalities,
  source : https://www.data.gouv.fr/fr/datasets/villes-de-france/

In [7]:
# URL of the CSV file of cities data
cities_url = 'https://medical-deserts-project.s3.eu-north-1.amazonaws.com/cities.csv'

# Read the CSV file from the URL into a DataFrame
cities_df = pd.read_csv(cities_url)

In [8]:
# Dataset customization

# Change columns name
cities_df = cities_df.rename(columns={'city_code': 'Ville', 'insee_code': 'Code commune'})

# Focus on metropolitan France
cities_df = cities_df[~cities_df['Code commune'].str.startswith(('97', '98'))]

In [9]:
print('Number of rows :', cities_df.shape[0])
print('Number of columns :', cities_df.shape[1])
print()

# Show first rows of the dataset
print('First rows of the dataset :')
display(cities_df.head())
print()

# Dataset statistics
print('Basics statistics :')
summary_stats_all = cities_df.describe(include='all')
display(summary_stats_all)
print()

# Missing values percentage
missing_percentages = (cities_df.isna().mean() * 100).round(2)
print('Percentage of missing values: ')
print(missing_percentages)

Number of rows : 38717
Number of columns : 10

First rows of the dataset :


Unnamed: 0,Code commune,Ville,zip_code,label,latitude,longitude,department_name,department_number,region_name,region_geojson_name
0,25620,ville du pont,25650,ville du pont,46.999873,6.498147,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté
1,25624,villers grelot,25640,villers grelot,47.361512,6.235167,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté
2,25615,villars les blamont,25310,villars les blamont,47.368384,6.871415,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté
3,25619,les villedieu,25240,les villedieu,46.713906,6.265831,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté
4,25622,villers buzon,25170,villers buzon,47.228558,5.852187,doubs,25,bourgogne-franche-comté,Bourgogne-Franche-Comté



Basics statistics :


Unnamed: 0,Code commune,Ville,zip_code,label,latitude,longitude,department_name,department_number,region_name,region_geojson_name
count,38717.0,38717,38717.0,38717,38717.0,38717.0,38717,38717.0,38717,38717
unique,34868.0,32579,,32560,,,96,96.0,13,13
top,14654.0,livarot pays d auge,,marseille,,,pas-de-calais,62.0,grand est,Grand Est
freq,22.0,22,,27,,,915,915.0,5674,5674
mean,,,46175.516698,,46.972916,2.777771,,,,
std,,,25421.524971,,2.208628,2.688881,,,,
min,,,1000.0,,41.435023,-5.086014,,,,
25%,,,24530.0,,45.176588,0.675359,,,,
50%,,,48400.0,,47.399768,2.686532,,,,
75%,,,66800.0,,48.828093,4.963732,,,,



Percentage of missing values: 
Code commune           0.0
Ville                  0.0
zip_code               0.0
label                  0.0
latitude               0.0
longitude              0.0
department_name        0.0
department_number      0.0
region_name            0.0
region_geojson_name    0.0
dtype: float64


# Population Statistics dataset

In [10]:
population_stats = pd.read_csv('https://medical-deserts.s3.eu-west-3.amazonaws.com/population_stat.csv', sep = ',', encoding='utf-8')

  population_stats = pd.read_csv('https://medical-deserts.s3.eu-west-3.amazonaws.com/population_stat.csv', sep = ',', encoding='utf-8')


In [11]:
population_stats = population_stats.rename(columns={'CODGEO': 'Code commune'})

# Convert the 'Code commune' column to strings
population_stats['Code commune'] = population_stats['Code commune'].astype(str)

# Focus on metropolitan France
population_stats = population_stats[~population_stats['Code commune'].str.startswith(('97', '98'))]

# Urbanisation dataset

In [12]:
urbanisation_df = pd.read_csv('https://medical-deserts.s3.eu-west-3.amazonaws.com/urbanisation_ville.csv', sep = ',', encoding='utf-8')

In [13]:
urbanisation_df.rename(columns={'CODGEO': 'Code commune'}, inplace = True)



In [14]:
urbanisation_df.head()

Unnamed: 0,Code commune,Catégorie commune dans aire d'attraction des villes 2020,Tranche détaillée d'aire d'attraction des villes 2020,Libellé degré de densité
0,1001,Commune de la couronne,Aire de moins de 10 000 habitants,Rural à habitat dispersé
1,1002,Commune hors attraction des pôles,Commune hors attraction des villes,Rural à habitat dispersé
2,1004,Commune-centre,Aire de 30 000 à moins de 50 000 habitants,Centres urbains intermédiaires
3,1005,Commune de la couronne,Aire de 1 000 000 d’habitants ou plus (hors Pa...,Bourgs ruraux
4,1006,Commune de la couronne,Aire de 20 000 à moins de 30 000 habitants,Rural à habitat dispersé


# INSEE dataset

- Dataset with INSEE information per municipalities, 
source : https://www.data.gouv.fr/fr/datasets/data-insee-sur-les-communes/

In [15]:
# URL of the CSV file of INSEE data
insee_url = 'https://medical-deserts-project.s3.eu-north-1.amazonaws.com/MDB-INSEE-V2.csv'

# Read the CSV file from the URL into a DataFrame
insee_df_original = pd.read_csv(insee_url, sep = ';', encoding='utf-8')

  insee_df_original = pd.read_csv(insee_url, sep = ';', encoding='utf-8')


In [16]:
insee_df = insee_df_original.copy()

In [17]:
insee_df.head()

Unnamed: 0,CODGEO,Nb Pharmacies et parfumerie,Dynamique Entrepreneuriale,Dynamique Entrepreneuriale Service et Commerce,Synergie Médicale COMMUNE,Orientation Economique,Indice Fiscal Partiel,Score Fiscal,Indice Evasion Client,Score Evasion Client,Indice Synergie Médicale,Score Synergie Médicale,SEG Croissance POP,LIBGEO,REG,DEP,Nb Omnipraticiens BV,Nb Infirmiers Libéraux BV,Nb dentistes Libéraux BV,Nb pharmaciens Libéraux BV,Densité Médicale BV,Score équipement de santé BV,Indice Démographique,Score Démographique,Indice Ménages,Score Ménages,Population,Evolution Population,Evolution Pop %,Nb Ménages,Nb Résidences Principales,Nb propriétaire,Nb Logement,Nb Résidences Secondaires,Nb Log Vacants,Nb Occupants Résidence Principale,Nb Femme,Nb Homme,Nb Mineurs,Nb Majeurs,Nb Etudiants,Nb Entreprises Secteur Services,Nb Entreprises Secteur Commerce,Nb Entreprises Secteur Construction,Nb Entreprises Secteur Industrie,Nb Création Enteprises,Nb Création Industrielles,Nb Création Construction,Nb Création Commerces,Nb Création Services,Moyenne Revenus Fiscaux Départementaux,Moyenne Revenus Fiscaux Régionaux,Dep Moyenne Salaires Horaires,Dep Moyenne Salaires Cadre Horaires,Dep Moyenne Salaires Prof Intermédiaire Horaires,Dep Moyenne Salaires Employé Horaires,Dep Moyenne Salaires Ouvrié Horaires,Reg Moyenne Salaires Horaires,Reg Moyenne Salaires Cadre Horaires,Reg Moyenne Salaires Prof Intermédiaire Horaires,Reg Moyenne Salaires Employé Horaires,Reg Moyenne Salaires Ouvrié Horaires,Valeur ajoutée régionale,Urbanité Ruralité,Score Urbanité,Nb Atifs,Nb Actifs Salariés,Nb Actifs Non Salariés,Nb Logement Secondaire et Occasionnel,Nb Hotel,Capacité Hotel,Nb Camping,Capacité Camping,Dynamique Démographique BV,Taux étudiants,Taux Propriété,Dynamique Démographique INSEE,Capacité Fisc,Capacité Fiscale,Moyenne Revnus fiscaux,Taux Evasion Client,"Nb Education, santé, action sociale",Nb Services personnels et domestiques,"Nb Santé, action sociale",Nb Industries des biens intermédiaires,Nb de Commerce,Nb de Services aux particuliers,"Nb institution de Education, santé, action sociale, administration",PIB Régionnal,SEG Environnement Démographique Obsolète,Score Croissance Population,Score Croissance Entrepreneuriale,Score VA Région,Score PIB,Environnement Démographique,Fidélité,SYN MEDICAL,Seg Cap Fiscale,Seg Dyn Entre,DYN SetC,CP
0,1001,0.0,57.0,23.0,114,Bassin Industriel,10193878,5904139,0,0,11456713,13481,en croissance démographique,L' Abergement-Clémenciat,82,1,9,14,7,7,92859537,4,4419769,341,3722029,2223,725,16,2,247,248,196,289,32,9,728,694,714,909,499,51,7.0,11.0,2.0,2.0,4.0,0.0,2.0,1.0,1.0,12509,10458,1141034483,219637931,1255862069,8743103448,9268965517,1187302231,2178782961,127040568,87831643,9301419878,8695745836,Com rurale < 2 000 m habts,0,295.0,254.0,41.0,32.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,0,67,-1,117,117,114835,0,3.0,1.0,0.0,9364,9350,3372,15105,173681,Zone rurale en croissance démographique,7213115,1585,3242578,3383811,Bassin Industriel en croissance démographique,Pop Sédentaire,Synergie Médicale,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,1
1,1002,0.0,45.0,4.0,143,Bassin Résidentiel,10193878,5904139,0,0,14371141,17351,en croissance démographique,L' Abergement-de-Varey,82,1,31,36,18,18,99228964,4,1018071,786,1009619,603,167,4,2,67,67,61,142,71,4,168,162,164,202,124,5,4.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,12509,10458,1141034483,219637931,1255862069,8743103448,9268965517,1187302231,2178782961,127040568,87831643,9301419878,8695745836,Com rurale < 2 000 m habts,0,57.0,49.0,8.0,71.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,0,42,0,110,110,114835,0,0.0,0.0,0.0,9364,9350,3372,15105,173681,Zone rurale en croissance démographique,7213115,173,3242578,3383811,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Forte Synergie Médicale,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,1
2,1004,0.0,634.0,828.0,366,Bassin Résidentiel,10193878,5904139,24845549,10621,3678208,47115,en croissance démographique,Ambérieu-en-Bugey,82,1,31,36,18,18,99228964,4,69692134,53776,69919896,41767,11432,512,4,4640,4635,1968,5184,135,414,11015,11350,10878,13624,8604,904,342.0,301.0,58.0,108.0,83.0,4.0,14.0,27.0,38.0,12509,10458,1141034483,219637931,1255862069,8743103448,9268965517,1187302231,2178782961,127040568,87831643,9301419878,8695745836,Com < 50 m habts,375,4556.0,4203.0,353.0,135.0,2.0,52.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,0,37,-55,250,250,114835,2,113.0,41.0,118.0,9364,9350,3372,15105,173681,Zone rurale en croissance démographique,7295082,38471,3242578,3383811,Bassin Résidentiel en croissance démographique,Pop Mobile,Forte Synergie Médicale,Fiscalité moyenne,Dynamique Economique,Bonne Dynamique Entreprise Serv et Com,1
3,1005,0.0,113.0,62.0,132,Bassin Urbain,10193878,5904139,24845549,10621,13265668,15883,en croissance démographique,Ambérieux-en-Dombes,82,1,12,12,6,6,1,1,85774,6619,712761,4258,1407,39,2,473,473,344,505,14,18,1406,1324,1402,1758,968,97,22.0,26.0,17.0,10.0,6.0,0.0,4.0,2.0,0.0,12509,10458,1141034483,219637931,1255862069,8743103448,9268965517,1187302231,2178782961,127040568,87831643,9301419878,8695745836,Com rurale < 2 000 m habts,0,621.0,535.0,86.0,14.0,2.0,17.0,1.0,72.0,Grande Ville,0,68,-3,127,127,114835,2,5.0,2.0,7.0,9364,9350,3372,15105,173681,Com rurale < 2 000 m habts en croissance démog...,7213115,2824,3242578,3383811,Bassin Urbain en croissance démographique,Pop Mobile,Forte Synergie Médicale,Fiscalité moyenne,Moyenne dynamique,Faible Dynamique Serv et Com,1
4,1006,0.0,42.0,1.0,121,Bassin Résidentiel,10193878,5904139,0,0,12160196,14415,en croissance démographique,Ambléon,82,1,26,21,10,10,100905129,3,524276,405,617827,369,86,-8,-9,41,41,28,57,13,3,86,86,86,101,71,2,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12509,10458,1141034483,219637931,1255862069,8743103448,9268965517,1187302231,2178782961,127040568,87831643,9301419878,8695745836,Com rurale < 2 000 m habts,0,37.0,33.0,4.0,13.0,0.0,0.0,0.0,0.0,3.Accroissement par excédent migratoire,0,49,0,109,109,114835,0,0.0,0.0,0.0,9364,9350,3372,15105,173681,Zone rurale en croissance démographique,6762295,0,3242578,3383811,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Forte Synergie Médicale,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,1


In [18]:
# Dataset customization

# Change columns name
insee_df = insee_df.rename(columns={'LIBGEO': 'Ville', 'CODGEO': 'Code commune'})

# Convert the 'Code commune' column to strings
insee_df['Code commune'] = insee_df['Code commune'].astype(str)

# Focus on metropolitan France
insee_df = insee_df[~insee_df['Code commune'].str.startswith(('97', '98'))]

# Add a zero if "Code commune" has only 4 characters
insee_df['Code commune'] = insee_df['Code commune'].apply(lambda x: '0' + x if len(x) == 4 else x)

# Add geographical coordonates from cities_df
insee_df = insee_df.merge(cities_df[["Code commune", "latitude", "longitude"]], on="Code commune", how="left")

#Add urbanisation caracteristics
insee_df = insee_df.merge(urbanisation_df[["Code commune",
                                            "Catégorie commune dans aire d'attraction des villes 2020",
                                            "Tranche détaillée d'aire d'attraction des villes 2020",
                                            "Libellé degré de densité"]], on= "Code commune", how = "left")

# Add population statistics data from population_stats 
insee_df = insee_df.merge(population_stats[["Code commune", 
                                            "Population en 2014 (princ)",
                                            "Pop 0-14 ans en 2014 (princ)",	
                                            "Pop 15-29 ans en 2014 (princ)",	
                                            "Pop 30-44 ans en 2014 (princ)",	
                                            "Pop 45-59 ans en 2014 (princ)",	
                                            "Pop 60-74 ans en 2014 (princ)",	
                                            "Pop 75-89 ans en 2014 (princ)",
                                            "Pop 15 ans ou plus en 2014 (compl)",
                                            "Pop 15 ans ou plus Agriculteurs exploitants en 2014 (compl)",
                                            "Pop 15 ans ou plus Artisans, Comm., Chefs entr. en 2014 (compl)",
                                            "Pop 15 ans ou plus Cadres, Prof. intel. sup. en 2014 (compl)",
                                            "Pop 15 ans ou plus Prof. intermédiaires  en 2014 (compl)",
                                            "Pop 15 ans ou plus Employés en 2014 (compl)",
                                            "Pop 15 ans ou plus Ouvriers en 2014 (compl)",
                                            "Pop 15 ans ou plus Retraités  en 2014 (compl)",
                                            "Pop 15 ans ou plus Autres en 2014 (compl)",
                                            "taux chômage(15-64 ans)"
                                            ]], on="Code commune", how="left")

# Add APL data from apl_df
insee_df = insee_df.merge(apl_df[["Code commune", "APL aux médecins généralistes (sans borne d'âge)"]], on="Code commune", how="left")
insee_df = insee_df.merge(apl_df[["Code commune", "APL aux médecins généralistes de 65 ans et moins"]], on="Code commune", how="left")
insee_df = insee_df.merge(apl_df[["Code commune", "APL aux médecins généralistes de 62 ans et moins"]], on="Code commune", how="left")

# Remove useless columns
insee_df = insee_df.drop([
    "Code commune", 
    "Nb Pharmacies et parfumerie", 
    "Orientation Economique",
    "Indice Evasion Client",
    "Score Evasion Client", 
    "Score Synergie Médicale",
    "Ville", 
    "REG", 
    "DEP", 
    "Score Démographique", 
    "Score Ménages", 
    "Urbanité Ruralité",
    "Capacité Fiscale", 
    "Taux Evasion Client",
    "SEG Environnement Démographique Obsolète", 
    "SYN MEDICAL", 
    "CP",
    ], 
    axis=1)

# Remove useless columns - Departemental or regional datas
insee_df = insee_df.drop([
    "Indice Fiscal Partiel", # Duplicate with "Moyenne Revenus Fiscaux Régionaux"
    "Score Fiscal", # Duplicate with "Moyenne Revenus Fiscaux Régionaux"
    #"Moyenne Revenus Fiscaux Départementaux", 
    #"Moyenne Revenus Fiscaux Régionaux", 
    #"Dep Moyenne Salaires Horaires", 
    #"Dep Moyenne Salaires Cadre Horaires", 
    #"Dep Moyenne Salaires Prof Intermédiaire Horaires", 
    #"Dep Moyenne Salaires Employé Horaires", 
    #"Dep Moyenne Salaires Ouvrié Horaires", 
    #"Reg Moyenne Salaires Horaires", 
    #"Reg Moyenne Salaires Cadre Horaires", 
    #"Reg Moyenne Salaires Prof Intermédiaire Horaires", 
    #"Reg Moyenne Salaires Employé Horaires", 
    #"Reg Moyenne Salaires Ouvrié Horaires", 
    #"Valeur ajoutée régionale", 
    #"Moyenne Revnus fiscaux", 
    #"Nb Industries des biens intermédiaires", 
    #"Nb de Commerce", 
    #"Nb de Services aux particuliers", 
    #"Nb institution de Education, santé, action sociale, administration", 
    #"PIB Régionnal", 
    "Score VA Région", # Indice VA already in the dataframe
    "Score PIB"#,  # Indice PIB already in the dataframe
    #"Seg Cap Fiscale",
    ], 
    axis=1)

# Remove useless columns - Departemental or regional datas
insee_df = insee_df.drop([
    "Population", 
    "Evolution Population", 
    "Evolution Pop %", 
    "Nb Femme", 
    "Nb Homme", 
    "Nb Mineurs", 
    "Nb Majeurs", 
    "Nb Etudiants", 
    "Taux étudiants",
    "Score Croissance Population",
    "Nb Atifs",
    "Nb Actifs Salariés",
    "Nb Actifs Non Salariés"
    ], 
    axis=1)

# Transform Object column in numeric column
insee_df["Indice Synergie Médicale"] = insee_df["Indice Synergie Médicale"].str.replace(',', '.').astype(float)
insee_df["Densité Médicale BV"] = insee_df["Densité Médicale BV"].str.replace(',', '.').astype(float)
insee_df["Indice Démographique"] = insee_df["Indice Démographique"].str.replace(',', '.').astype(float)
insee_df["Indice Ménages"] = insee_df["Indice Ménages"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Horaires"] = insee_df["Dep Moyenne Salaires Horaires"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Cadre Horaires"] = insee_df["Dep Moyenne Salaires Cadre Horaires"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Prof Intermédiaire Horaires"] = insee_df["Dep Moyenne Salaires Prof Intermédiaire Horaires"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Employé Horaires"] = insee_df["Dep Moyenne Salaires Employé Horaires"].str.replace(',', '.').astype(float)
insee_df["Dep Moyenne Salaires Ouvrié Horaires"] = insee_df["Dep Moyenne Salaires Ouvrié Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Horaires"] = insee_df["Reg Moyenne Salaires Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Cadre Horaires"] = insee_df["Reg Moyenne Salaires Cadre Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Prof Intermédiaire Horaires"] = insee_df["Reg Moyenne Salaires Prof Intermédiaire Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Employé Horaires"] = insee_df["Reg Moyenne Salaires Employé Horaires"].str.replace(',', '.').astype(float)
insee_df["Reg Moyenne Salaires Ouvrié Horaires"] = insee_df["Reg Moyenne Salaires Ouvrié Horaires"].str.replace(',', '.').astype(float)
insee_df["Valeur ajoutée régionale"] = insee_df["Valeur ajoutée régionale"].str.replace(',', '.').astype(float)
insee_df["Score Urbanité"] = insee_df["Score Urbanité"].str.replace(',', '.').astype(float)
insee_df["Moyenne Revnus fiscaux"] = insee_df["Moyenne Revnus fiscaux"].str.replace(',', '.').astype(float)
insee_df["Score Croissance Entrepreneuriale"] = insee_df["Score Croissance Entrepreneuriale"].str.replace(',', '.').astype(float)

# Remove rows with missing values in the "longitude" and "latitude" columns
#insee_df.dropna(subset=['longitude', 'latitude'], inplace=True)
insee_df = insee_df.dropna()

In [19]:
print('Number of rows :', insee_df.shape[0])
print('Number of columns :', insee_df.shape[1])
print()

# Show first rows of the dataset
print('First rows of the dataset :')
display(insee_df.head())
print()

# Dataset statistics
print('Basics statistics :')
summary_stats_all = insee_df.describe(include='all')
display(summary_stats_all)
print()

# Missing values percentage
missing_percentages = (insee_df.isna().mean() * 100).round(2)
print('Percentage of missing values: ')
print(missing_percentages)

Number of rows : 38590
Number of columns : 92

First rows of the dataset :


Unnamed: 0,Dynamique Entrepreneuriale,Dynamique Entrepreneuriale Service et Commerce,Synergie Médicale COMMUNE,Indice Synergie Médicale,SEG Croissance POP,Nb Omnipraticiens BV,Nb Infirmiers Libéraux BV,Nb dentistes Libéraux BV,Nb pharmaciens Libéraux BV,Densité Médicale BV,Score équipement de santé BV,Indice Démographique,Indice Ménages,Nb Ménages,Nb Résidences Principales,Nb propriétaire,Nb Logement,Nb Résidences Secondaires,Nb Log Vacants,Nb Occupants Résidence Principale,Nb Entreprises Secteur Services,Nb Entreprises Secteur Commerce,Nb Entreprises Secteur Construction,Nb Entreprises Secteur Industrie,Nb Création Enteprises,Nb Création Industrielles,Nb Création Construction,Nb Création Commerces,Nb Création Services,Moyenne Revenus Fiscaux Départementaux,Moyenne Revenus Fiscaux Régionaux,Dep Moyenne Salaires Horaires,Dep Moyenne Salaires Cadre Horaires,Dep Moyenne Salaires Prof Intermédiaire Horaires,Dep Moyenne Salaires Employé Horaires,Dep Moyenne Salaires Ouvrié Horaires,Reg Moyenne Salaires Horaires,Reg Moyenne Salaires Cadre Horaires,Reg Moyenne Salaires Prof Intermédiaire Horaires,Reg Moyenne Salaires Employé Horaires,Reg Moyenne Salaires Ouvrié Horaires,Valeur ajoutée régionale,Score Urbanité,Nb Logement Secondaire et Occasionnel,Nb Hotel,Capacité Hotel,Nb Camping,Capacité Camping,Dynamique Démographique BV,Taux Propriété,Dynamique Démographique INSEE,Capacité Fisc,Moyenne Revnus fiscaux,"Nb Education, santé, action sociale",Nb Services personnels et domestiques,"Nb Santé, action sociale",Nb Industries des biens intermédiaires,Nb de Commerce,Nb de Services aux particuliers,"Nb institution de Education, santé, action sociale, administration",PIB Régionnal,Score Croissance Entrepreneuriale,Environnement Démographique,Fidélité,Seg Cap Fiscale,Seg Dyn Entre,DYN SetC,latitude,longitude,Catégorie commune dans aire d'attraction des villes 2020,Tranche détaillée d'aire d'attraction des villes 2020,Libellé degré de densité,Population en 2014 (princ),Pop 0-14 ans en 2014 (princ),Pop 15-29 ans en 2014 (princ),Pop 30-44 ans en 2014 (princ),Pop 45-59 ans en 2014 (princ),Pop 60-74 ans en 2014 (princ),Pop 75-89 ans en 2014 (princ),Pop 15 ans ou plus en 2014 (compl),Pop 15 ans ou plus Agriculteurs exploitants en 2014 (compl),"Pop 15 ans ou plus Artisans, Comm., Chefs entr. en 2014 (compl)","Pop 15 ans ou plus Cadres, Prof. intel. sup. en 2014 (compl)",Pop 15 ans ou plus Prof. intermédiaires en 2014 (compl),Pop 15 ans ou plus Employés en 2014 (compl),Pop 15 ans ou plus Ouvriers en 2014 (compl),Pop 15 ans ou plus Retraités en 2014 (compl),Pop 15 ans ou plus Autres en 2014 (compl),taux chômage(15-64 ans),APL aux médecins généralistes (sans borne d'âge),APL aux médecins généralistes de 65 ans et moins,APL aux médecins généralistes de 62 ans et moins
0,57.0,23.0,114,114.56713,en croissance démographique,9,14,7,7,0.09286,4,44.19769,37.22029,247,248,196,289,32,9,728,7.0,11.0,2.0,2.0,4.0,0.0,2.0,1.0,1.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,0.0,32.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,67,-1,117,11483.5,3.0,1.0,0.0,9364,9350,3372,15105,173681,0.01585,Bassin Industriel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,46.153721,4.92585,Commune de la couronne,Aire de moins de 10 000 habitants,Rural à habitat dispersé,767.0,161.0,102.0,132.0,189.0,125.0,53.0,605.0,15.0,20.0,75.0,95.0,100.0,125.0,145.0,30.0,8.776596,2.293,2.01,1.546
1,45.0,4.0,143,143.71141,en croissance démographique,31,36,18,18,0.099229,4,10.18071,10.09619,67,67,61,142,71,4,168,4.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,0.0,71.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,42,0,110,11483.5,0.0,0.0,0.0,9364,9350,3372,15105,173681,0.00173,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,46.009606,5.428088,Commune hors attraction des pôles,Commune hors attraction des villes,Rural à habitat dispersé,239.0,54.0,28.0,69.0,36.0,33.0,17.0,192.0,0.0,20.0,15.0,25.0,39.0,10.0,64.0,20.0,8.130081,2.6,2.511,2.384
2,634.0,828.0,366,367.8208,en croissance démographique,31,36,18,18,0.099229,4,696.92134,699.19896,4640,4635,1968,5184,135,414,11015,342.0,301.0,58.0,108.0,83.0,4.0,14.0,27.0,38.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,37.5,135.0,2.0,52.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,37,-55,250,11483.5,113.0,41.0,118.0,9364,9350,3372,15105,173681,0.38471,Bassin Résidentiel en croissance démographique,Pop Mobile,Fiscalité moyenne,Dynamique Economique,Bonne Dynamique Entreprise Serv et Com,45.961049,5.372275,Commune-centre,Aire de 30 000 à moins de 50 000 habitants,Centres urbains intermédiaires,14022.0,2778.0,2958.0,2642.0,2603.0,1853.0,1045.0,11228.0,3.0,334.0,743.0,1777.0,1918.0,1818.0,2878.0,1757.0,15.859777,4.079,3.976,3.558
3,113.0,62.0,132,132.65668,en croissance démographique,12,12,6,6,1.0,1,85.774,71.2761,473,473,344,505,14,18,1406,22.0,26.0,17.0,10.0,6.0,0.0,4.0,2.0,0.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,0.0,14.0,2.0,17.0,1.0,72.0,Grande Ville,68,-3,127,11483.5,5.0,2.0,7.0,9364,9350,3372,15105,173681,0.02824,Bassin Urbain en croissance démographique,Pop Mobile,Fiscalité moyenne,Moyenne dynamique,Faible Dynamique Serv et Com,45.996164,4.911967,Commune de la couronne,Aire de 1 000 000 d’habitants ou plus (hors Pa...,Bourgs ruraux,1627.0,336.0,251.0,323.0,376.0,232.0,99.0,1337.0,5.0,60.0,106.0,231.0,241.0,231.0,312.0,151.0,7.875895,4.378,4.378,3.782
4,42.0,1.0,121,121.60196,en croissance démographique,26,21,10,10,0.100905,3,5.24276,6.17827,41,41,28,57,13,3,86,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,0.0,13.0,0.0,0.0,0.0,0.0,3.Accroissement par excédent migratoire,49,0,109,11483.5,0.0,0.0,0.0,9364,9350,3372,15105,173681,0.0,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,45.749886,5.594585,Commune de la couronne,Aire de 20 000 à moins de 30 000 habitants,Rural à habitat dispersé,109.0,12.0,16.0,15.0,29.0,27.0,10.0,89.0,0.0,0.0,5.0,25.0,15.0,15.0,25.0,5.0,13.793103,1.069,0.92,0.92



Basics statistics :


Unnamed: 0,Dynamique Entrepreneuriale,Dynamique Entrepreneuriale Service et Commerce,Synergie Médicale COMMUNE,Indice Synergie Médicale,SEG Croissance POP,Nb Omnipraticiens BV,Nb Infirmiers Libéraux BV,Nb dentistes Libéraux BV,Nb pharmaciens Libéraux BV,Densité Médicale BV,Score équipement de santé BV,Indice Démographique,Indice Ménages,Nb Ménages,Nb Résidences Principales,Nb propriétaire,Nb Logement,Nb Résidences Secondaires,Nb Log Vacants,Nb Occupants Résidence Principale,Nb Entreprises Secteur Services,Nb Entreprises Secteur Commerce,Nb Entreprises Secteur Construction,Nb Entreprises Secteur Industrie,Nb Création Enteprises,Nb Création Industrielles,Nb Création Construction,Nb Création Commerces,Nb Création Services,Moyenne Revenus Fiscaux Départementaux,Moyenne Revenus Fiscaux Régionaux,Dep Moyenne Salaires Horaires,Dep Moyenne Salaires Cadre Horaires,Dep Moyenne Salaires Prof Intermédiaire Horaires,Dep Moyenne Salaires Employé Horaires,Dep Moyenne Salaires Ouvrié Horaires,Reg Moyenne Salaires Horaires,Reg Moyenne Salaires Cadre Horaires,Reg Moyenne Salaires Prof Intermédiaire Horaires,Reg Moyenne Salaires Employé Horaires,Reg Moyenne Salaires Ouvrié Horaires,Valeur ajoutée régionale,Score Urbanité,Nb Logement Secondaire et Occasionnel,Nb Hotel,Capacité Hotel,Nb Camping,Capacité Camping,Dynamique Démographique BV,Taux Propriété,Dynamique Démographique INSEE,Capacité Fisc,Moyenne Revnus fiscaux,"Nb Education, santé, action sociale",Nb Services personnels et domestiques,"Nb Santé, action sociale",Nb Industries des biens intermédiaires,Nb de Commerce,Nb de Services aux particuliers,"Nb institution de Education, santé, action sociale, administration",PIB Régionnal,Score Croissance Entrepreneuriale,Environnement Démographique,Fidélité,Seg Cap Fiscale,Seg Dyn Entre,DYN SetC,latitude,longitude,Catégorie commune dans aire d'attraction des villes 2020,Tranche détaillée d'aire d'attraction des villes 2020,Libellé degré de densité,Population en 2014 (princ),Pop 0-14 ans en 2014 (princ),Pop 15-29 ans en 2014 (princ),Pop 30-44 ans en 2014 (princ),Pop 45-59 ans en 2014 (princ),Pop 60-74 ans en 2014 (princ),Pop 75-89 ans en 2014 (princ),Pop 15 ans ou plus en 2014 (compl),Pop 15 ans ou plus Agriculteurs exploitants en 2014 (compl),"Pop 15 ans ou plus Artisans, Comm., Chefs entr. en 2014 (compl)","Pop 15 ans ou plus Cadres, Prof. intel. sup. en 2014 (compl)",Pop 15 ans ou plus Prof. intermédiaires en 2014 (compl),Pop 15 ans ou plus Employés en 2014 (compl),Pop 15 ans ou plus Ouvriers en 2014 (compl),Pop 15 ans ou plus Retraités en 2014 (compl),Pop 15 ans ou plus Autres en 2014 (compl),taux chômage(15-64 ans),APL aux médecins généralistes (sans borne d'âge),APL aux médecins généralistes de 65 ans et moins,APL aux médecins généralistes de 62 ans et moins
count,38590.0,38590.0,38590.0,38590.0,38590,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590,38590,38590,38590,38590,38590.0,38590.0,38590,38590,38590,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0
unique,,,,,2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,7,,,,,,,,,,,,,,7,2,3,3,3,,,5,17,7,,,,,,,,,,,,,,,,,,,,
top,,,,,en croissance démographique,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Grande Ville,,,,,,,,,,,,,,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,,,Commune de la couronne,Commune hors attraction des villes,Rural à habitat dispersé,,,,,,,,,,,,,,,,,,,,
freq,,,,,38579,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,9137,,,,,,,,,,,,,,17697,30448,30182,30481,32296,,,26427,9904,19922,,,,,,,,,,,,,,,,,,,,
mean,122.059031,131.970614,107.723218,108.259127,,16.670951,16.542187,8.038248,8.038248,0.313389,2.527961,130.105343,133.675955,887.09575,886.984789,457.078751,1074.334672,110.603265,76.74623,2080.99816,53.855895,48.923944,12.886033,17.892459,11.400985,0.693807,1.876315,2.931718,5.899145,10349.030319,10253.58681,10.996303,21.204149,12.464435,8.662656,9.053691,11.167877,21.281051,12.519946,8.686405,9.115599,41731.992599,8.473698,110.553537,0.672687,23.236927,0.278984,34.060767,,57.411791,-7.4383,8.614615,10301.308564,14.450998,4.66398,15.330707,3259.704172,4630.877611,1881.694195,8076.407126,81328.806841,0.045904,,,,,,46.974702,2.774471,,,,2403.482197,430.765924,453.174216,458.560041,467.76893,363.083519,202.945996,1972.782716,15.344312,67.002047,170.923555,275.980254,324.198575,253.273128,533.623063,332.432547,10.820448,3.292126,3.021991,2.647335
std,632.82766,948.912967,230.556624,231.703613,,12.968793,14.425287,6.929272,6.929272,0.383459,1.320803,706.006127,821.657358,5452.654165,5442.792045,2018.634015,6353.290844,683.544659,632.693386,11205.841451,388.455819,351.468468,62.453891,100.035842,82.514154,3.719735,13.865073,19.891236,46.36077,1564.368493,1086.882824,0.949628,0.807518,0.377483,0.244586,0.399395,0.750011,0.592066,0.298912,0.204727,0.295514,46193.354235,21.963248,683.459612,4.141992,209.61803,1.204422,246.912501,,15.61373,65.947977,2267.481665,1052.613147,112.080711,30.743394,113.227901,2586.215602,5041.672809,3397.38884,6993.429302,89322.777725,0.319206,,,,,,2.206645,2.69044,,,,12563.813825,2028.827534,3402.185602,2486.489904,2120.364937,1621.59859,983.293809,10559.841653,29.968274,310.565795,1410.3288,1566.104206,1708.012664,1065.921715,2372.100805,2401.530829,4.840921,1.279848,1.203097,1.11598
min,1.0,0.0,13.0,13.06467,,1.0,0.0,0.0,0.0,0.032518,0.0,0.06096,0.15069,1.0,1.0,0.0,2.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6282.0,7748.0,9.8625,19.75,11.74,8.261905,8.3,10.57451,20.509549,12.17538,8.453394,8.725,3021.411002,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,-1929.0,-140594.0,7664.0,0.0,0.0,0.0,30.0,342.0,187.0,828.0,6358.0,0.0,,,,,,41.435023,-5.086014,,,,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,20.0,6.0,52.0,52.25869,,9.0,8.0,4.0,4.0,0.083808,1.0,11.58284,11.15102,74.0,74.0,58.0,103.0,9.0,5.0,189.0,3.0,2.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,9523.0,9716.0,10.4,20.686207,12.220833,8.51875,8.790698,10.679167,21.017098,12.339819,8.569608,8.915652,20389.52153,0.0,9.0,0.0,0.0,0.0,0.0,,48.0,-1.0,72.0,9643.0,0.0,0.0,0.0,1935.0,2425.0,776.0,4406.0,40484.0,0.0,,,,,,45.182952,0.669468,,,,214.0,37.0,27.0,39.0,47.0,37.0,17.0,175.0,0.0,5.0,5.0,20.0,25.0,25.0,52.0,20.0,7.636364,2.507,2.276,1.948
50%,33.0,13.0,72.0,72.35819,,12.0,12.0,6.0,6.0,0.104593,3.0,26.39669,25.01445,166.0,166.0,127.0,219.0,23.0,13.0,428.0,6.0,5.0,4.0,3.0,2.0,0.0,0.0,0.0,1.0,10159.0,10458.0,10.708276,21.0525,12.437931,8.622581,9.038462,10.992609,21.101282,12.435217,8.634906,9.082927,30848.56372,0.0,23.0,0.0,0.0,0.0,0.0,,59.0,0.0,81.0,10304.5,0.0,0.0,0.0,2576.0,3333.0,925.0,6903.0,55218.0,0.00346,,,,,,47.400393,2.683102,,,,507.5,94.0,68.0,97.0,110.0,84.0,39.0,410.0,8.0,17.0,20.0,53.0,65.0,63.0,119.0,48.0,10.090842,3.229,2.96,2.591
75%,75.0,46.0,105.0,105.52236,,19.0,19.0,9.0,9.0,0.180691,4.0,68.03396,64.34439,427.0,428.0,310.0,533.0,56.0,32.0,1094.0,20.0,16.0,9.0,10.0,5.0,0.0,1.0,1.0,2.0,11072.0,11150.0,11.321212,21.695833,12.640404,8.767647,9.2925,11.295855,21.640496,12.673103,8.783164,9.239535,38930.86531,0.0,56.0,0.0,0.0,0.0,0.0,,69.0,0.0,96.0,10942.5,4.0,2.0,5.0,3268.0,4858.0,1552.0,8683.0,79920.0,0.01931,,,,,,48.82634,4.958665,,,,1339.0,253.0,187.0,255.0,286.0,222.0,111.0,1084.0,18.0,46.0,61.0,149.75,176.0,161.0,324.0,133.0,13.303515,4.009,3.71,3.29075



Percentage of missing values: 
Dynamique Entrepreneuriale                          0.0
Dynamique Entrepreneuriale Service et Commerce      0.0
Synergie Médicale COMMUNE                           0.0
Indice Synergie Médicale                            0.0
SEG Croissance POP                                  0.0
                                                   ... 
Pop 15 ans ou plus Autres en 2014 (compl)           0.0
taux chômage(15-64 ans)                             0.0
APL aux médecins généralistes (sans borne d'âge)    0.0
APL aux médecins généralistes de 65 ans et moins    0.0
APL aux médecins généralistes de 62 ans et moins    0.0
Length: 92, dtype: float64


In [20]:
insee_csvtest = 'C:\\Users\\alexa\\Downloads\\insee_test.csv'

insee_df.to_csv(insee_csvtest, index=False)

In [21]:
"""
def create_column_types_csv(df, output_file):
    # Créer un DataFrame avec les noms de colonnes et leurs types de données
    column_types_df = pd.DataFrame(df.dtypes).reset_index()
    column_types_df.columns = ['Nom de la colonne', 'Type de données']

    # Compter le nombre de valeurs nulles dans chaque colonne
    null_counts = df.isnull().sum(axis=0).reset_index()
    null_counts.columns = ['Nom de la colonne', 'Nombre de valeurs nulles']

    # Ajouter la première ligne du DataFrame contenant les valeurs des colonnes
    first_row = df.iloc[0].reset_index()
    first_row.columns = ['Nom de la colonne', 'Valeur de la première ligne']

    # Fusionner les DataFrames
    result_df = pd.merge(column_types_df, first_row, on='Nom de la colonne', how='left')
    result_df = pd.merge(result_df, null_counts, on='Nom de la colonne', how='left')

    # Enregistrer le DataFrame dans un fichier CSV
    result_df.to_csv(output_file, index=False)

# Exemple d'utilisation
# Remplacez 'votre_dataframe' par votre DataFrame réel
# et 'chemin/vers/votre/fichier.csv' par le chemin et le nom de fichier souhaités pour le fichier CSV de sortie
create_column_types_csv(insee_df, 'C:\\Users\\alexa\\Downloads\\insee_columns.csv')
"""

"\ndef create_column_types_csv(df, output_file):\n    # Créer un DataFrame avec les noms de colonnes et leurs types de données\n    column_types_df = pd.DataFrame(df.dtypes).reset_index()\n    column_types_df.columns = ['Nom de la colonne', 'Type de données']\n\n    # Compter le nombre de valeurs nulles dans chaque colonne\n    null_counts = df.isnull().sum(axis=0).reset_index()\n    null_counts.columns = ['Nom de la colonne', 'Nombre de valeurs nulles']\n\n    # Ajouter la première ligne du DataFrame contenant les valeurs des colonnes\n    first_row = df.iloc[0].reset_index()\n    first_row.columns = ['Nom de la colonne', 'Valeur de la première ligne']\n\n    # Fusionner les DataFrames\n    result_df = pd.merge(column_types_df, first_row, on='Nom de la colonne', how='left')\n    result_df = pd.merge(result_df, null_counts, on='Nom de la colonne', how='left')\n\n    # Enregistrer le DataFrame dans un fichier CSV\n    result_df.to_csv(output_file, index=False)\n\n# Exemple d'utilisation