## Données :
**Dans ce projet, vous travaillez pour une Banque vous demandant d’élaborer un outil automatisant le
process d’octroi de crédit à ses futurs clients. La banque dispose d’un historique des crédits effectués
par ses clients, avec des informations personnelles sur le client et s’il a fait défaut ou non pendant la
période de remboursement du crédit. Les données contiennent les informations ci-dessous :**
- *SK_ID_CURR* : identifiant du client
- *GOOD_PAYER* : 1 s’il n’y a pas eu de retard de remboursement, 0 sinon
- *CODE_GENDER* : le genre du client
- *FLAG_OWN_CAR* : le client possède une voiture
- *FLAG_OWN_REALTY* : le client est propriétaire
- *CNT_CHILDREN* : nombre d’enfant du client
- *AMT_INCOME_TOTAL* : les revenus du client
- *AMT_CREDIT* : le montant du crédit
- *AMT_GOODS_PRICE* : le montant du produit pour lequel le crédit a été pris
- *NAME_INCOME_TYPE* : le type de revenus du client
- *NAME_EDUCATION_TYPE* : niveau académique du client
- *NAME_FAMILY_STATUS*: status familial du client
- *NAME_CONTRACT_TYPE*: crédit comptant ou en revolving
- *NAME_HOUSING_TYPE*: situation habitat
- *TOTALAREA_MODE*: surface normalisée d’habitation- DAYS_BIRTH: Age du client
- *DAYS_EMPLOYED* : nombre d’année consécutif du dernier emploi du client
- *OCCUPATION_TYPE* : profession du client
- *ORGANIZATION_TYPE* : secteur d’emploi
- *EXT_SOURCE_1* : score de crédit bureau 1
- *EXT_SOURCE_2* : score de crédit bureau 2
- *EXT_SOURCE_3* : score de crédit bureau 3
- *AMT_REQ_CREDIT_BUREAU_YEAR*: nombre de demande de crédit effectué par le client
dans l’année précédente

### Objectifs 1 : analyser les données dans le but de décrire le portfolio des clients pour la Banque
- Analyse univariée et bivariée :
- Moyenne, médiane, quartile, comptage
- Corrélation : variables explicatives et la variable cible (anova, pearson)
- Distribution des variables (ex : kurtosis, distribution normal)
- Analyse des valeurs extrêmes / aberrantes (ex : Interquartile Range Method)

### Traitement des valeurs manquantes
- Taux de risque / %BP et %MP selon les modalités (Analyse Marginale)
Visualisation des données : boxplot, histogramme, piechart, nuage de point
- Calcul de métrique d’importances des variables :
- WOE, IV, GINI
- Test de significativité

In [None]:
import pandas as pd
import os 
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import shapiro
from scipy.stats import normaltest

# Obtenir le répertoire courant
script_dir = os.getcwd()

# Construire le chemin relatif
relative_path = os.path.join(script_dir, '../ressources_prof/client_credit_granting.csv')

# Charger les données
df = pd.read_csv(relative_path)

# Identifier les types de variables
categorical_vars = [
    'CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY',
    'NAME_INCOME_TYPE', 'NAME_EDUCATION_TYPE', 'NAME_FAMILY_STATUS',
    'NAME_CONTRACT_TYPE', 'NAME_HOUSING_TYPE', 'OCCUPATION_TYPE', 'ORGANIZATION_TYPE'
]
binary_vars = ['GOOD_PAYER']
quantitative_vars = [
    'CNT_CHILDREN', 'AMT_INCOME_TOTAL', 'AMT_CREDIT', 'AMT_GOODS_PRICE',
    'DAYS_BIRTH', 'DAYS_EMPLOYED', 'TOTALAREA_MODE',
    'EXT_SOURCE_1', 'EXT_SOURCE_2', 'EXT_SOURCE_3', 'AMT_REQ_CREDIT_BUREAU_YEAR'
]

# Analyse univariée : variables quantitatives
for var in quantitative_vars:
    print(f'--- Analyse pour la variable : {var} ---')
    
    # Calculs descriptifs
    mean_val = df[var].mean()
    std_val = df[var].std()
    print(f' - Moyenne : {mean_val}')
    print(f' - Écart-type : {std_val}')
    
    # Test de Shapiro-Wilk pour la normalité
    clean_data = df[var].dropna()  # Retirer les valeurs manquantes
    print(clean_data.head())
    stat, p_value = normaltest(clean_data)
    print(f'Test de D’Agostino-Pearson : p-value = {p_value}')
    if p_value < 0.05:
        print(f'   => Distribution non normale.')
    else:
        print(f'   => Distribution normale.')
    
    # Histogramme de la distribution
    df[var].plot(kind='hist', bins=50, title=f'Distribution de {var}', alpha=0.7)
    plt.xlabel(var)
    plt.ylabel('Fréquence')
    plt.show()

    # Boxplot de la variable
    df[var].plot(kind='box', title=f'Boxplot de {var}')
    plt.ylabel(var)
    plt.show()



--- Analyse pour la variable : CNT_CHILDREN ---
 - Moyenne : 0.4170517477423572
 - Écart-type : 0.7221213844376252
0    0
1    0
2    0
3    0
4    0
Name: CNT_CHILDREN, dtype: int64
Test de D’Agostino-Pearson : p-value = 0.0
   => Distribution non normale.
