# Chapitre 2 - Visualisation et Analyse descriptive des données départementales

In [None]:
# Paramètre(s) du notebook

# VERBOSE=True
VERBOSE=False

OPTIONS=""
if not VERBOSE:
    OPTIONS="--quiet"


In [None]:
!pip install geopandas $OPTIONS
!pip install plotly $OPTIONS
!pip install seaborn $OPTIONS
!pip install missingno $OPTIONS

In [None]:
import matplotlib.pyplot as plt
import geopandas as gpd
import seaborn as sns
import plotly.express as px
import numpy as np
from IPython.core.display import display, HTML
import pandas as pd
import missingno as msno

In [None]:
DEPARTEMENTS_IDF=['75','77','78','91','92','93','94','95']

## 1) Chargement des données (Récup_données) et téléchargement de la localisation des départements français (restreint au champ métropolitain puis champ Ile de France)

In [None]:
%store -r donnees_2018_hab
donnees_2018_hab

In [None]:
%matplotlib inline
msno.matrix(donnees_2018_hab)
print("Il y a des données manquantes pour les crimes et délits pour les gendarmeries. Pour simplifier l'étude, nous n'imputons pas de valeurs explicites autres que 0.")

In [None]:
url_dep = 'https://www.data.gouv.fr/fr/datasets/r/90b9341a-e1f7-4d75-a73c-bbc010c7feeb'
departements = gpd.read_file(url_dep)
departements = departements.set_index("code")
departements.drop(['nom'], axis=1, inplace = True)

In [None]:
#Restriction au champ IDF pour une sous-carte
departements_idf = departements.loc[departements.index.isin(DEPARTEMENTS_IDF)]

## 2) Sélection des items que l'on souhaite représenter (au champ métropolitain puis IDF) 

In [None]:
donnees_2018_hab.index.names = ['CODDEP']
donnees_2018_hab.describe()

In [None]:
donnees_2018_hab_pauvrete = donnees_2018_hab.drop(['REG','MED18','D118','D918','RD18','T1_2018','Nb_PN_GN_dep_100k_hab','Crim_Del_PN_GN','Nb_Boucherie_dep_hab','Crim_Del_GN_hab','Crim_Del_PN_hab','Crim_Del_PN_GN_hab'], axis=1)
donnees_2018_hab_rev_median = donnees_2018_hab.drop(['REG','TP6018','D118','D918','RD18','T1_2018','Nb_PN_GN_dep_100k_hab','Crim_Del_PN_GN','Nb_Boucherie_dep_hab','Crim_Del_GN_hab','Crim_Del_PN_hab','Crim_Del_PN_GN_hab'], axis=1)
donnees_2018_hab_ratio_d1_d9 = donnees_2018_hab.drop(['REG','TP6018','D118','D918','MED18','T1_2018','Nb_PN_GN_dep_100k_hab','Crim_Del_PN_GN','Nb_Boucherie_dep_hab','Crim_Del_GN_hab','Crim_Del_PN_hab','Crim_Del_PN_GN_hab'], axis=1)
donnees_2018_hab_chomage = donnees_2018_hab.drop(['REG','TP6018','D118','D918','MED18','RD18','Nb_PN_GN_dep_100k_hab','Crim_Del_PN_GN','Nb_Boucherie_dep_hab','Crim_Del_GN_hab','Crim_Del_PN_hab','Crim_Del_PN_GN_hab'], axis=1)
donnees_2018_hab_boucherie = donnees_2018_hab.drop(['REG','TP6018','D118','D918','MED18','RD18','Nb_PN_GN_dep_100k_hab','Crim_Del_PN_GN','T1_2018','Crim_Del_GN_hab','Crim_Del_PN_hab','Crim_Del_PN_GN_hab'], axis=1)
donnees_2018_hab_nb_pn_gn = donnees_2018_hab.drop(['REG','TP6018','D118','D918','MED18','RD18','Nb_Boucherie_dep_hab','Crim_Del_PN_GN','T1_2018','Crim_Del_GN_hab','Crim_Del_PN_hab','Nb_Boucherie_dep_hab', 'Crim_Del_PN_GN_hab'], axis=1)
donnees_2018_hab_nb_crimes_delits = donnees_2018_hab.drop(['REG','TP6018','D118','D918','MED18','RD18','Nb_PN_GN_dep_100k_hab','Crim_Del_PN_GN','T1_2018','Crim_Del_GN_hab','Crim_Del_PN_hab','Nb_Boucherie_dep_hab'], axis=1)
donnees_2018_hab_crimes_delits = donnees_2018_hab.drop(['REG','TP6018','D118','D918','MED18','RD18','Nb_PN_GN_dep_100k_hab','Crim_Del_PN_GN','T1_2018','Crim_Del_GN_hab','Crim_Del_PN_hab','Nb_Boucherie_dep_hab'], axis=1)


In [None]:
carto_pauvrete=departements.merge(donnees_2018_hab_pauvrete,left_index=True,right_index=True)
carto_rev_median=departements.merge(donnees_2018_hab_rev_median,left_index=True,right_index=True)
carto_ratio_d1_d9=departements.merge(donnees_2018_hab_ratio_d1_d9,left_index=True,right_index=True)
carto_chomage=departements.merge(donnees_2018_hab_chomage,left_index=True,right_index=True)
carto_boucherie=departements.merge(donnees_2018_hab_boucherie,left_index=True,right_index=True)
carto_nb_pn_gn=departements.merge(donnees_2018_hab_nb_pn_gn,left_index=True,right_index=True)
carto_crimes_delits=departements.merge(donnees_2018_hab_crimes_delits,left_index=True,right_index=True)

#Restriction au champ IDF pour une sous-carte

carto_pauvrete_idf = carto_pauvrete.loc[carto_pauvrete.index.isin(DEPARTEMENTS_IDF)]
carto_rev_median_idf = carto_rev_median.loc[carto_rev_median.index.isin(DEPARTEMENTS_IDF)]
carto_ratio_d1_d9_idf = carto_ratio_d1_d9.loc[carto_ratio_d1_d9.index.isin(DEPARTEMENTS_IDF)]
carto_chomage_idf = carto_chomage.loc[carto_chomage.index.isin(DEPARTEMENTS_IDF)]
carto_boucherie_idf = carto_boucherie.loc[carto_boucherie.index.isin(DEPARTEMENTS_IDF)]
carto_nb_pn_gn_idf = carto_nb_pn_gn.loc[carto_nb_pn_gn.index.isin(DEPARTEMENTS_IDF)]
carto_crimes_delits_idf = carto_crimes_delits.loc[carto_crimes_delits.index.isin(DEPARTEMENTS_IDF)]


## 3) Représentation cartographique cloropèthe (au champ France Métropolitaine puis champ Ile de France) 

* Taux de pauvreté monétaire

In [None]:

fig, ax = plt.subplots(figsize=(10,10))

departements.plot(color='gray', ax=ax)
carto_pauvrete.plot(column='TP6018', 
                    cmap='Purples', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Taux de pauvreté monétaire (au seuil de 60% du niveau de vie médian)', 'orientation': "horizontal"})
ax.set_axis_off()

In [None]:

fig, ax = plt.subplots(figsize=(10,10))

departements_idf.plot(color='gray', ax=ax)
carto_pauvrete_idf.plot(column='TP6018', 
                    cmap='Purples', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Taux de pauvreté monétaire (au seuil de 60% du niveau de vie médian)', 'orientation': "horizontal"})
ax.set_axis_off()

* Niveau de vie médian

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements.plot(color='gray', ax=ax)
carto_rev_median.plot(column='MED18', 
                    cmap='Oranges', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Niveau de vie médian (en euros)', 'orientation': "horizontal"})
ax.set_axis_off()

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements_idf.plot(color='gray', ax=ax)
carto_rev_median_idf.plot(column='MED18', 
                    cmap='Oranges', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Niveau de vie médian (en euros)', 'orientation': "horizontal"})
ax.set_axis_off()

* Ratio inter-décile de niveau de vie 

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements.plot(color='gray', ax=ax)
carto_ratio_d1_d9.plot(column='RD18', 
                    cmap='RdPu', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Ratio inter-décile de niveau de vie', 'orientation': "horizontal"})
ax.set_axis_off()

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements_idf.plot(color='gray', ax=ax)
carto_ratio_d1_d9_idf.plot(column='RD18', 
                    cmap='RdPu', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Ratio inter-décile de niveau de vie', 'orientation': "horizontal"})
ax.set_axis_off()

* Taux de chômage localisé

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements.plot(color='gray', ax=ax)
carto_chomage.plot(column='T1_2018', 
                    cmap='Greens', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Taux de chômage localisé (en pourcentage)', 'orientation': "horizontal"})
ax.set_axis_off()

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements_idf.plot(color='gray', ax=ax)
carto_chomage_idf.plot(column='T1_2018', 
                    cmap='Greens', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Taux de chômage localisé (en pourcentage)', 'orientation': "horizontal"})
ax.set_axis_off()

* Nombre de boucheries pour 100k habitants

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements.plot(color='gray', ax=ax)
carto_boucherie.plot(column='Nb_Boucherie_dep_hab', 
                    cmap='Reds', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Nombre de boucheries-charcuteries pour 100 000 habitants', 'orientation': "horizontal"})
ax.set_axis_off()

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements_idf.plot(color='gray', ax=ax)
carto_boucherie_idf.plot(column='Nb_Boucherie_dep_hab', 
                    cmap='Reds', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Nombre de boucheries-charcuteries pour 100 000 habitants', 'orientation': "horizontal"})
ax.set_axis_off()

* Nombre de policiers et gendarmes (2019) pour 100k habitants

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements.plot(color='gray', ax=ax)
carto_nb_pn_gn.plot(column='Nb_PN_GN_dep_100k_hab', 
                    cmap='YlOrBr', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Nombre de policiers et gendarmes (2019) pour 100 000 habitants', 'orientation': "horizontal"})
ax.set_axis_off()

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements_idf.plot(color='gray', ax=ax)
carto_nb_pn_gn_idf.plot(column='Nb_PN_GN_dep_100k_hab', 
                    cmap='YlOrBr', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Nombre de policiers et gendarmes (2019) pour 100 000 habitants', 'orientation': "horizontal"})
ax.set_axis_off()

* Nombre de crimes et délits répertoriés pour 100k habitants

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements.plot(color='gray', ax=ax)
carto_crimes_delits.plot(column='Crim_Del_PN_GN_hab', 
                    cmap='YlGnBu', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Nombre de crimes et délits répertoriés pour 100 000 habitants', 'orientation': "horizontal"})
ax.set_axis_off()

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements_idf.plot(color='gray', ax=ax)
carto_crimes_delits_idf.plot(column='Crim_Del_PN_GN_hab', 
                    cmap='YlGnBu', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Nombre de crimes et délits répertoriés pour 100 000 habitants', 'orientation': "horizontal"})
ax.set_axis_off()

# 4) Analyse univariée 

In [None]:
donnees_2018_hab.info()

donnees_2018_hab_mini=donnees_2018_hab.drop(["D918","D118","REG","Crim_Del_GN_hab","Crim_Del_PN_hab","Crim_Del_PN_GN"],axis=1)

In [None]:
plt.figure(figsize=(16, 6))
mask = np.triu(np.ones_like(donnees_2018_hab_mini.corr(), dtype=np.bool))
heatmap = sns.heatmap(donnees_2018_hab_mini.corr(), mask=mask, vmin=-1, vmax=1, annot=True, cmap='BrBG')

In [None]:
donnees_2018_hab_mini.reset_index()
fig = px.box(donnees_2018_hab_mini, y="TP6018",hover_data=[ 'Libellé'], labels=dict(TP6018 = 'Taux de pauvreté monétaire au seuil de 60%'))

fig.write_html('figure_TP6018.html', auto_open=True)
display(HTML("figure_TP6018.html"))

In [None]:
fig2 = px.box(donnees_2018_hab_mini, y="MED18",hover_data=[ 'Libellé'],labels=dict(MED18 = 'Niveau de vie médian'))

fig2.write_html('figure_MED18.html', auto_open=True)
display(HTML("figure_MED18.html"))

In [None]:
fig3= px.box(donnees_2018_hab_mini, y="RD18",hover_data=[ 'Libellé'], labels=dict(RD18 = 'Ratio inter-décile'))

fig3.write_html('figure_RD_2018.html', auto_open=True)
display(HTML("figure_RD_2018.html"))

In [None]:
fig4 = px.box(donnees_2018_hab_mini, y="T1_2018",hover_data=[ 'Libellé'], labels=dict(T1_2018 = 'Taux de chômage'))

fig4.write_html('figure_T1_2018.html', auto_open=True)
display(HTML("figure_T1_2018.html"))

In [None]:
fig5 = px.box(donnees_2018_hab_mini, y="Nb_Boucherie_dep_hab",hover_data=[ 'Libellé'], labels=dict(Nb_Boucherie_dep_hab = 'Nombre de boucheries pour 100 000 habitants'))

fig5.write_html('figure_Nb_Boucherie_dep_hab.html', auto_open=True)
display(HTML("figure_Nb_Boucherie_dep_hab.html"))


In [None]:
fig6 = px.box(donnees_2018_hab_mini, y="Nb_PN_GN_dep_100k_hab",hover_data=[ 'Libellé'], labels=dict(Nb_PN_GN_dep_100k_hab = 'Nombre de policiers et gendarmes pour 100 000 habitants'))

fig6.write_html('figure_Nb_PN_GN_dep_100k_hab.html', auto_open=True)
display(HTML("figure_Nb_PN_GN_dep_100k_hab.html"))

In [None]:
fig7 = px.box(donnees_2018_hab_mini, y="Crim_Del_PN_GN_hab",hover_data=[ 'Libellé'], labels=dict(Crim_Del_PN_GN_hab= 'Nombre de crimes et délits reportés pour 100 000 habitants'))

fig7.write_html('figure_Crim_Del_PN_GN_hab.html', auto_open=True)
display(HTML("figure_Crim_Del_PN_GN_hab.html"))

In [None]:
sns.pairplot(donnees_2018_hab_mini[['TP6018','MED18', 'RD18', 'T1_2018', 'Nb_Boucherie_dep_hab', 'Nb_PN_GN_dep_100k_hab', 'Crim_Del_PN_GN_hab']])

In [None]:
sns.lmplot(x="Nb_Boucherie_dep_hab", y='Crim_Del_PN_GN_hab', data=donnees_2018_hab_mini)

# 5) Analyse bivariée 

In [None]:
sns.pairplot(donnees_2018_hab_mini[['TP6018','MED18', 'RD18', 'T1_2018', 'Nb_Boucherie_dep_hab', 'Nb_PN_GN_dep_100k_hab', 'Crim_Del_PN_GN_hab']])

In [None]:

sns.lmplot(x="Nb_Boucherie_dep_hab", y='Crim_Del_PN_GN_hab', data=donnees_2018_hab_mini)
plt.title('Crimes et délits rapportés en fonction du nombre de boucheries pour 100 000 habitants')

sns.lmplot(x="TP6018", y='Crim_Del_PN_GN_hab', data=donnees_2018_hab_mini)
plt.title('Crimes et délits rapportés en fonction du taux de pauvreté monétaire')

sns.lmplot(x="RD18", y='Crim_Del_PN_GN_hab', data=donnees_2018_hab_mini)
plt.title('Crimes et délits rapportés en fonction du ratio inter-décile de niveau de vie')

sns.lmplot(x="MED18", y='Crim_Del_PN_GN_hab', data=donnees_2018_hab_mini)
plt.title('Crimes et délits rapportés en fonction du niveau de vie médian')

sns.lmplot(x="T1_2018", y='Crim_Del_PN_GN_hab', data=donnees_2018_hab_mini)
plt.title('Crimes et délits rapportés en fonction du taux de chômage')

sns.lmplot(x="Nb_PN_GN_dep_100k_hab", y='Crim_Del_PN_GN_hab', data=donnees_2018_hab_mini)
plt.title('Crimes et délits rapportés en fonction du nombre de policiers et gendarmes pour 100 000 habitants')


# 6) Analyse multivariée

In [None]:
plt.figure(figsize=(16, 6))
mask = np.triu(np.ones_like(donnees_2018_hab_mini.corr(), dtype=np.bool))
heatmap = sns.heatmap(donnees_2018_hab_mini.corr(), mask=mask, vmin=-1, vmax=1, annot=True, cmap='BrBG')

In [None]:
!pip install prince

In [None]:
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import scipy.cluster.hierarchy as shc
from scipy.cluster.hierarchy import dendrogram,linkage
import prince

In [None]:
X=donnees_2018_hab_mini[['TP6018','MED18', 'RD18', 'T1_2018', 'Nb_Boucherie_dep_hab', 'Nb_PN_GN_dep_100k_hab', 'Crim_Del_PN_GN_hab']]

In [None]:
pca = prince.PCA(
     n_components=10,
     n_iter=3,
     rescale_with_mean=True,
     rescale_with_std=True,
     copy=True,
     check_input=True,
     engine='auto',
     random_state=42 )
pca = pca.fit(X)

In [None]:
pca.eigenvalues_

In [None]:
pca.explained_inertia_

In [None]:
plt.figure(figsize=(20,5))

plt.subplot(1, 2, 1)
plt.plot(pca.eigenvalues_,marker='*')
plt.title('Valeurs Propres')

plt.subplot(1, 2, 2)
plt.plot(np.cumsum(pca.explained_inertia_),marker='*')
plt.title('Inertie cumulée')

plt.show()

Critère du coude : 3 variables, critère de Kaiser (VP>1) : 2 variables, critère de l'inertie : 2 variables

In [None]:
resPCA=pca.transform(X)

In [None]:
inertias = []

# Creating 10 K-Mean models while varying the number of clusters (k)
for k in range(1,10):
    model = KMeans(n_clusters=k)
    
    # Fit model to samples
    model.fit(resPCA.iloc[:,:3])
    
    # Append the inertia to the list of inertias
    inertias.append(model.inertia_)
    
plt.plot(range(1,10), inertias, '-p', color='gold')
plt.xlabel('number of clusters, k')
plt.ylabel('inertia')
#plt.xticks(ks)
plt.show()

Critère du coude suggère 5 clusters

In [None]:
plt.figure(figsize=(20, 5))
plt.title("Customer Dendograms")
dend = shc.dendrogram(shc.linkage(resPCA, method='ward'))

In [None]:
model = KMeans(n_clusters=3)
model.fit(resPCA.iloc[:,:2])
labels = model.predict(resPCA.iloc[:,:2])
plt.scatter(resPCA[0], resPCA[1], c=labels)
plt.show()

In [None]:
resKM=KMeans(n_clusters=3)
resKM.fit(resPCA)

In [None]:
resKM

In [None]:
X["Cluster"]=resKM.labels_

In [None]:
X.groupby("Cluster").mean()[['TP6018','MED18', 'RD18', 'T1_2018', 'Nb_Boucherie_dep_hab', 'Nb_PN_GN_dep_100k_hab', 'Crim_Del_PN_GN_hab']].round(2).transpose()

In [None]:
X.groupby("Cluster").describe()

In [None]:
X

In [None]:
sns.scatterplot(x="Nb_Boucherie_dep_hab",y="Crim_Del_PN_GN_hab",data=X,hue="Cluster")

On distingue 3 cluster 

Le cluster 1 pour la spécificité du département de Paris

Le cluster 2 avec 26 départements, une criminalité plus faible que la moyenne avec un ratio inter décile plus faible, un taux dde chomage plus faible et moins de boucheries pour 100 000 habitants que dans le cluster 0 et également moins de policiers

In [None]:
X_cluster = X.drop(['TP6018','MED18', 'RD18', 'T1_2018', 'Nb_Boucherie_dep_hab', 'Nb_PN_GN_dep_100k_hab', 'Crim_Del_PN_GN_hab'], axis=1)
X_cluster.astype(int)

In [None]:
carto_cluster=departements.merge(X_cluster,left_index=True,right_index=True)
carto_cluster

In [None]:
fig, ax = plt.subplots(figsize=(10,10))

departements.plot(color='gray', ax=ax)
carto_cluster.plot(column='Cluster', 
                    cmap='Reds', 
                    linewidth=0.5, 
                    edgecolor='black',
                    ax=ax, 
                    legend=True,
                    legend_kwds={'label': 'Cluster', 'orientation': "horizontal"})
ax.set_axis_off()