# Préparation manuelle des données

## Identification des colonnes numériques / catégorielles

In [2]:
import pandas as pd

df = pd.read_csv("../data/dataset_risque_defaut.csv")

# Colonnes catégorielles = type object
colonnes_categorielle = df.select_dtypes(include=['object']).columns.tolist()

# Colonnes numériques = le reste
colonnes_numeriques = df.select_dtypes(exclude=['object']).columns.tolist()
colonnes_numeriques.remove('defaut')  # on retire la cible

print("Colonnes catégorielles :", colonnes_categorielle)
print("Colonnes numériques :", colonnes_numeriques)


Colonnes catégorielles : ['sexe', 'situation_familiale', 'type_contrat_travail', 'type_credit']
Colonnes numériques : ['age', 'revenu_mensuel', 'anciennete_travail_mois', 'montant_credit', 'duree_mois', 'taux_interet', 'nb_retards_30j', 'nb_retards_60j', 'nb_retards_90j', 'taux_endettement', 'ratio_dette_revenu']


## Encodage des variables catégorielles

In [3]:
df_encoded = pd.get_dummies(df, columns=colonnes_categorielle, drop_first=True)


## Normalisation des colonnes numériques

In [4]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

df_encoded[colonnes_numeriques] = scaler.fit_transform(df_encoded[colonnes_numeriques])


## Dataset final

In [5]:
df_prepared = df_encoded.copy()
df_prepared.head()


Unnamed: 0,age,revenu_mensuel,anciennete_travail_mois,montant_credit,duree_mois,taux_interet,nb_retards_30j,nb_retards_60j,nb_retards_90j,taux_endettement,...,defaut,sexe_H,situation_familiale_divorce,situation_familiale_marie,type_contrat_travail_CDI,type_contrat_travail_Independant,type_contrat_travail_Informel,type_credit_conso,type_credit_immobilier,type_credit_scolaire
0,1.09624,0.078371,-0.822534,-0.116949,-1.091756,-1.256237,-0.703722,-0.442693,-0.304579,1.686919,...,1,True,False,False,True,False,False,False,True,False
1,0.357126,0.307724,-0.692174,-1.170284,-0.879645,-1.249274,2.11907,-0.442693,-0.304579,0.397337,...,1,False,False,False,False,True,False,False,False,True
2,-0.677635,1.585558,0.162408,1.050228,-0.455423,-1.634595,0.707674,-0.442693,-0.304579,1.363829,...,1,True,False,True,False,False,True,False,False,False
3,1.391886,0.237411,1.17632,-0.580257,1.08238,-1.309625,0.707674,-0.442693,-0.304579,1.422615,...,1,True,False,False,False,False,True,False,True,False
4,-1.195016,-1.175039,-1.546756,1.236413,-0.932673,1.48744,-0.703722,1.799926,-0.304579,-1.396785,...,1,True,False,False,False,True,False,False,True,False


## Exportation du Dataset

In [6]:
df_prepared.to_csv("../data/dataset_risque_defaut_prepared.csv", index=False)
