<img align=center src="https://afouda-datascience.com/wp-content/uploads/2020/12/afoudalogo.png"></img>
**<h1 align=center>ANALYSE EXPLORATOIRE DES DONNEES DANS PYTHON</h1>**

 Par [Josué AFOUDA](https://afouda-datascience.com/)

Les données brutes que vous avez collecté ne sont pas encore des informations (*insights*) ni des réponses. Pour passer des données aux réponses, vous devez effectuer une **analyse exploratoire de ces données**. L'analyse exploratoire des données est un processus permettant d'explorer des ensembles de données, de répondre à des questions et de visualiser les résultats. 

Dans ce cours, je vais vous montrer quelques techniques graphiques et numériques que vous pouvez utiliser pour découvrir des informations contenues dans vos ensembles de données. 

# <font color=red> Importation des données

Pour ce cours, nous utiliserons un réel jeu de données. Il s'agit des données collectées sur d'anciens clients d'une banque ayant contracté des crédits.

In [1]:
# Librairies Pandas et Numpy

import pandas as pd

import numpy as np

In [2]:
# Données

url_data = 'https://github.com/JosueAfouda/Credit-Risk-Modeling/raw/master/data_credit.txt'

df = pd.read_csv(url_data)

df.head()

Unnamed: 0,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
0,22,59000,RENT,123.0,PERSONAL,D,35000,16.02,1,0.59,Y,3
1,21,9600,OWN,5.0,EDUCATION,B,1000,11.14,0,0.1,N,2
2,25,9600,MORTGAGE,1.0,MEDICAL,C,5500,12.87,1,0.57,N,3
3,23,65500,RENT,4.0,MEDICAL,C,35000,15.23,1,0.53,N,2
4,24,54400,RENT,8.0,MEDICAL,C,35000,14.27,1,0.55,Y,4


In [3]:
# Structure des données

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32581 entries, 0 to 32580
Data columns (total 12 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   person_age                  32581 non-null  int64  
 1   person_income               32581 non-null  int64  
 2   person_home_ownership       32581 non-null  object 
 3   person_emp_length           31686 non-null  float64
 4   loan_intent                 32581 non-null  object 
 5   loan_grade                  32581 non-null  object 
 6   loan_amnt                   32581 non-null  int64  
 7   loan_int_rate               29465 non-null  float64
 8   loan_status                 32581 non-null  int64  
 9   loan_percent_income         32581 non-null  float64
 10  cb_person_default_on_file   32581 non-null  object 
 11  cb_person_cred_hist_length  32581 non-null  int64  
dtypes: float64(3), int64(5), object(4)
memory usage: 3.0+ MB


Les données proviennent de [Kaggle](https://www.kaggle.com/laotse/credit-risk-dataset) qui la plus célèbre plateforme de compétitions en Data Science.

L'ensemble des données compte 12 variables et 32581 observations (lignes) historiques. Chaque observation correspond à une personne ayant contracté un prêt. On a des variables qui décrivent le prêt (montant, statut, taux d'intérêt, etc.) et d'autres variables qui décrivent la personne ayant ontracté ce prêt (age, revenu, etc.). Nous allons donc utiliser ces données historiques afin de construire le modèle de *scoring* qui va prédire le statut des nouveaux candidats à un crédit.               
Il est très important de comprendre les variables de notre jeu de données :    
* ***person_age*** : variable indiquant l'âge de la personne ;           
* ***person_income*** : variable indiquant le revenu annuel (ou encore le salaire) de la personne ;             
* ***person_home_ownership*** : variable indiquant le statut de la personne par rapport à son lieu d'habitation (popriétaire, locataire, etc.) ;        
* ***person_emp_length*** : variable indiquant la durée (en mois) depuis laquelle la personne est en activité professionnelle ;           
* ***loan_intent*** : variable indiquant le motif du crédit ;          
* ***loan_grade*** : Notation de la solvabilité du client. classes de A à G avec A indiquant la classe de solvabilité la plus élevée et G la plus basse ;           
* ***loan_amnt*** : variable indiquant le montant du prêt ;                 
* ***loan_int_rate*** : variable indiquant le taux d'intérêt du crédit ;       
* ***loan_status*** : c'est la variable d'intérêt. Elle indique si la personne est en défaut de paiement (1) ou pas (0) ;       
* ***loan_percent_income*** : variable indiquant le pourcentage du crédit par rapport au revenu (ratio dette / revenu) ;          
* ***cb_person_default_on_file*** : variable indiquant si la personne a été en défaut de paiement ou pas dans le passé                  
* ***cb_person_cred_hist_length*** : variable indiquant la durée des antécédents de crédits.

In [4]:
# Echantillon aléatoire de 5 observations

df.sample(5)

Unnamed: 0,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
15018,26,120000,MORTGAGE,8.0,DEBTCONSOLIDATION,A,4000,7.14,0,0.03,N,3
22277,35,69000,RENT,5.0,DEBTCONSOLIDATION,D,6400,16.77,1,0.09,Y,8
13163,24,113000,RENT,4.0,DEBTCONSOLIDATION,A,12000,7.49,0,0.11,N,2
18246,27,78000,RENT,4.0,PERSONAL,B,24000,10.99,1,0.31,N,10
2858,23,56500,RENT,7.0,DEBTCONSOLIDATION,D,3000,14.84,1,0.05,Y,3


Vous pouvez utiliser la méthode ***describe*** pour afficher les statistiques descriptives de vos données.

In [5]:
# Résumé statistique

df.describe()

Unnamed: 0,person_age,person_income,person_emp_length,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_cred_hist_length
count,32581.0,32581.0,31686.0,32581.0,29465.0,32581.0,32581.0,32581.0
mean,27.7346,66074.85,4.789686,9589.371106,11.011695,0.218164,0.170203,5.804211
std,6.348078,61983.12,4.14263,6322.086646,3.240459,0.413006,0.106782,4.055001
min,20.0,4000.0,0.0,500.0,5.42,0.0,0.0,2.0
25%,23.0,38500.0,2.0,5000.0,7.9,0.0,0.09,3.0
50%,26.0,55000.0,4.0,8000.0,10.99,0.0,0.15,4.0
75%,30.0,79200.0,7.0,12200.0,13.47,0.0,0.23,8.0
max,144.0,6000000.0,123.0,35000.0,23.22,1.0,0.83,30.0


In [6]:
# Résumé statistique d'une seule colonne

df['loan_intent'].describe()

count         32581
unique            6
top       EDUCATION
freq           6453
Name: loan_intent, dtype: object

Sur les 32581 crédits, il y a 6 uniques motifs d'emprunt. Le motif le plus fréquent est l'Education représentant 6453 crédits.

Pour afficher la table de fréquence d'une varielle catégorielle, vous pouvez utiliser la méthode **value_counts**. Par exemple, affichons la table de fréquence de la variable *person_home_ownership* qui indique le statut du client en matière de propriété immobilière.

In [7]:
# Table de fréquence de la variable 'person_home_ownership'

df['person_home_ownership'].value_counts()

RENT        16446
MORTGAGE    13444
OWN          2584
OTHER         107
Name: person_home_ownership, dtype: int64

On peut afficher la fréquence des modalités en % :

In [8]:
df['person_home_ownership'].value_counts(normalize = True)

RENT        0.504773
MORTGAGE    0.412633
OWN         0.079310
OTHER       0.003284
Name: person_home_ownership, dtype: float64

Pour connaître le nombre de valeurs manquantes qu'il y a dans chaque colonne, vous pouvez utiliser un enchaînement des méthodes **isnull** et **sum** :

In [9]:
# Nombre de valeurs manquantes par colonne

df.isnull().sum()

person_age                       0
person_income                    0
person_home_ownership            0
person_emp_length              895
loan_intent                      0
loan_grade                       0
loan_amnt                        0
loan_int_rate                 3116
loan_status                      0
loan_percent_income              0
cb_person_default_on_file        0
cb_person_cred_hist_length       0
dtype: int64

Il existe un outil puissant qui vous permet de faire une analyse exploratoire rapide er plus ou moins complète en une seule ligne de code. Il s'agit de la méthode **ProfileReport** du package **pandas_profiling**. Cette méthode vous génère un rapport html de l'analyse.

In [10]:
# Installation de pandas-profiling

#!pip install -U pandas-profiling

In [11]:
# Rapport d'analyse exploratoire

from pandas_profiling import ProfileReport

profile = ProfileReport(df, title = "Rapport sur les crédits bancaires", explorative = True)

profile

Output hidden; open in https://colab.research.google.com to view.

In [12]:
# Générer un rapport en html

profile.to_file("output.html")

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Commençons par explorer par des graphiques, la relation entre cahque caractéristique et la variable cible (*loan_status*).

In [13]:
# Variables numérique

vars_num = df.select_dtypes(exclude = 'object').columns.to_list()

vars_num.remove('loan_status')

vars_num

['person_age',
 'person_income',
 'person_emp_length',
 'loan_amnt',
 'loan_int_rate',
 'loan_percent_income',
 'cb_person_cred_hist_length']

In [14]:
import plotly.express as px

In [15]:
# Relation entre chaque caractéristique numérique et la variable cible

for variable in vars_num:
  fig = px.box(df, x = "loan_status", y = variable, title = variable + " VS loan_status", color = "loan_status")
  fig.show()

Analysons maintenant les variables cétégorielles.

In [16]:
# Variables catégorielles

vars_cat = [x for x in df.columns.to_list() if x not in vars_num]

vars_cat.remove('loan_status')

vars_cat

['person_home_ownership',
 'loan_intent',
 'loan_grade',
 'cb_person_default_on_file']

In [20]:
# Relation entre chaque variable catégorielle et la variable cible

for variable in vars_cat:
  data = df.groupby(by=[variable, 'loan_status']).size().reset_index(name="counts")
  fig = px.bar(data, x = variable, y = "counts", title = variable, color = 'loan_status', facet_col = 'loan_status')
  fig.show()