In [9]:
# Import librairies

import pandas as pd

import plotly.figure_factory as ff

In [10]:
# URL of the CSV file of INSEE data
insee_url = 'https://medical-deserts-project.s3.eu-north-1.amazonaws.com/insee_clean.csv'

# Read the CSV file from the URL into a DataFrame
insee_df = pd.read_csv(insee_url, sep = ',', encoding='utf-8')

In [11]:
# Remove useless columns
insee_df = insee_df.drop(["APL aux médecins généralistes de 65 ans et moins", "APL aux médecins généralistes de 62 ans et moins"], axis=1)

# APL column at the end of dataset
APL_column = insee_df.pop("APL aux médecins généralistes (sans borne d'âge)")
insee_df["APL aux médecins généralistes (sans borne d'âge)"] = APL_column


In [12]:
# Select only numerical columns for the correlation matrix
numeric_columns = insee_df.select_dtypes(include=['float64', 'int64'])

# Calculate the correlation matrix
corr_matrix = numeric_columns.corr().round(2)

fig = ff.create_annotated_heatmap(corr_matrix.values,
                                  x=corr_matrix.columns.tolist(),
                                  y=corr_matrix.index.tolist())

fig.update_layout(height=2400, width=3200)

fig.show()

In [13]:
corr_matrix = numeric_columns.corr().round(2)

high_corr_list = []
cols = corr_matrix.columns

for j in cols:
    for i, item in corr_matrix[j].items():
        if (i!=j) and abs(item) > 0.9:
            high_corr_list.append((i,j))
high_corr_list

no_keep = [high_corr_list[i][0] for i in range(len(high_corr_list)) if i%2 == 0]
print("Columns to be dropped:", no_keep)

Columns to be dropped: ['Dynamique Entrepreneuriale Service et Commerce', 'Indice Synergie Médicale', 'Indice Ménages', 'Nb Résidences Principales', 'Nb Logement', 'Nb Occupants Résidence Principale', 'Nb Entreprises Secteur Commerce', 'Nb Entreprises Secteur Industrie', 'Nb Création Industrielles', 'Nb Création Commerces', 'Nb Atifs', 'Nb Actifs Non Salariés', 'Nb Services personnels et domestiques', 'Score Croissance Entrepreneuriale', 'Synergie Médicale COMMUNE', 'Indice Démographique', 'Nb Ménages', 'Nb propriétaire', 'Nb Log Vacants', 'Nb Entreprises Secteur Services', 'Nb Entreprises Secteur Construction', 'Nb Création Enteprises', 'Nb Création Construction', 'Nb Création Services', 'Nb Actifs Salariés', 'Nb Education, santé, action sociale', 'Nb Santé, action sociale', 'Dynamique Entrepreneuriale', 'Indice Synergie Médicale', 'Indice Ménages', 'Nb Résidences Principales', 'Nb Logement', 'Nb Occupants Résidence Principale', 'Nb Entreprises Secteur Commerce', 'Nb Entreprises Secte

In [14]:
# Remove columns to be dropped
numeric_columns_filtered = insee_df.select_dtypes(include=['float64', 'int64']).drop(columns=no_keep)

# Re-calculate the correlation matrix
corr_matrix_filtered = numeric_columns_filtered.corr().round(2)

print("New correlation matrix:")
print(corr_matrix_filtered)

fig = ff.create_annotated_heatmap(corr_matrix_filtered.values,
                                  x=corr_matrix_filtered.columns.tolist(),
                                  y=corr_matrix_filtered.index.tolist())

fig.update_layout(height=1200, width=1600)

fig.show()

New correlation matrix:
                                                  Nb Infirmiers Libéraux BV  \
Nb Infirmiers Libéraux BV                                              1.00   
Nb pharmaciens Libéraux BV                                             0.84   
Densité Médicale BV                                                   -0.13   
Score équipement de santé BV                                           0.49   
Moyenne Revenus Fiscaux Départementaux                                -0.01   
Moyenne Revenus Fiscaux Régionaux                                      0.06   
Dep Moyenne Salaires Horaires                                         -0.06   
Dep Moyenne Salaires Cadre Horaires                                   -0.08   
Dep Moyenne Salaires Prof Intermédiaire Horaires                      -0.10   
Dep Moyenne Salaires Employé Horaires                                 -0.13   
Dep Moyenne Salaires Ouvrié Horaires                                  -0.13   
Reg Moyenne Salaires Cadre H