L'objectif est de construire un modèle de réseau de neurones artificiel (ANN) capable de prédire si un client est solvable ou non, en se basant sur des données financières et démographiques, des données classiques de scoring de crédit pour prédire la probabilité de remboursement d’un prêt.

### Prérequis
- Connaissances de base en machine learning et en statistiques.
- Familiarité avec les réseaux de neurones (perceptrons et ANN).
- Python et TensorFlow/Keras installés.

### Dataset
Données suggérées : German Credit Data (GCD) ou Statlog (German Credit Data), un dataset souvent utilisé pour prédire la solvabilité de clients en utilisant des attributs financiers et personnels. Ce jeu de données est disponible sur UCI Machine Learning Repository.

Caractéristiques : Les données comprennent 20 attributs, tels que le montant du crédit, la durée, l'âge, l'historique de crédit, l'état civil, l'emploi, etc.
Classes : Deux classes de sortie : "solvable" (1) et "non solvable" (0).

1. Préparation des données  


 1.1 Charger le dataset et examiner ses caractéristiques (types de données, valeurs manquantes, distribution des classes).  
 1.2 Encodage des variables catégorielles en valeurs numériques (par exemple, One-Hot Encoding pour les variables comme l’état civil).  
 1.3 Normalisation des données numériques (par exemple, montant du crédit, durée, etc.) pour que chaque feature soit sur une même échelle.  
 1.4 Diviser les données en ensembles d’entraînement et de test (80% pour l’entraînement, 20% pour le test).

In [None]:
import pandas as pd

# Define column names from german.doc file documentation
columns = [
    "Status of existing checking account", "Duration in month", "Credit history", 
    "Purpose", "Credit amount", "Savings account/bonds", "Present employment since", 
    "Installment rate in percentage of disposable income", "Personal status and sex", 
    "Other debtors / guarantors", "Present residence since", "Property", 
    "Age in years", "Other installment plans", "Housing", 
    "Number of existing credits at this bank", "Job", "Number of people being liable to provide maintenance for", 
    "Telephone", "foreign worker", "Good/Bad"
]

# Load the data
data = pd.read_csv("german.data",  header=None, names=columns)

# Save as CSV
data.to_csv("german_credit_data.csv", index=False)


In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

# Charger le dataset
data = pd.read_csv('german_credit_data.csv')





In [14]:
data.head

<bound method NDFrame.head of                    Status of existing checking account  Duration in month  \
0    A11 6 A34 A43 1169 A65 A75 4 A93 A101 4 A121 6...                NaN   
1    A12 48 A32 A43 5951 A61 A73 2 A92 A101 2 A121 ...                NaN   
2    A14 12 A34 A46 2096 A61 A74 2 A93 A101 3 A121 ...                NaN   
3    A11 42 A32 A42 7882 A61 A74 2 A93 A103 4 A122 ...                NaN   
4    A11 24 A33 A40 4870 A61 A73 3 A93 A101 4 A124 ...                NaN   
..                                                 ...                ...   
995  A14 12 A32 A42 1736 A61 A74 3 A92 A101 4 A121 ...                NaN   
996  A11 30 A32 A41 3857 A61 A73 4 A91 A101 4 A122 ...                NaN   
997  A14 12 A32 A43 804 A61 A75 4 A93 A101 4 A123 3...                NaN   
998  A11 45 A32 A43 1845 A61 A73 4 A93 A101 4 A124 ...                NaN   
999  A12 45 A34 A41 4576 A62 A71 3 A93 A101 4 A123 ...                NaN   

     Credit history  Purpose  Credit amount  

In [None]:
# Encodage des variables catégorielles
data = pd.get_dummies(data, drop_first=True)


In [None]:
# Séparation des données
X = data.drop('Good/Bad', axis=1)
y = data['Good/Bad']



In [None]:
# Normalisation
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Division des données
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

In [None]:
print(X_train.shape[1])

In [None]:
X.shape

2. Création du Modèle de Réseau de Neurones

1. Définir une architecture de base avec Keras en utilisant une couche d’entrée, des couches cachées, et une couche de sortie.
2. Choisir les fonctions d'activation : par exemple, ReLU pour les couches cachées et Sigmoid pour la couche de sortie.
3. Compiler le modèle avec une fonction de perte adaptée (binaire dans ce cas) et un optimiseur comme Adam.

In [None]:
%pip install tensorflow

In [None]:
import tensorflow as tf
mnist = tf.keras.datasets.mnist

In [None]:
!python -m ensurepip --upgrade

In [None]:
%pip install --upgrade setuptools


In [None]:
import tensorflow as tf
print("TensorFlow version:", tf.__version__)

In [None]:
import tensorflow as tf

# Construction du modèle
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(units=1080, input_dim=X_train.shape[1], activation='relu'),
    tf.keras.layers.Dense(32,  activation='relu'),    #define your own number of neurons
    tf.keras.layers.Dense(16,  activation='relu'),    #define your own number of neurons
    tf.keras.layers.Dense(1,  activation='sigmoid') #sortie binaire pour la solvabilité
])

# Compilation du modèle
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])



3. Entraînement et Validation du Modèle

1. Entraîner le modèle en utilisant l’ensemble d’entraînement.
2. Observer l’évolution de la précision et de la perte au cours des epochs.
3. Évaluer le modèle sur l’ensemble de test et calculer la précision finale.

In [None]:
# Entraînement du modèle
history = model.fit(X_train, y_train, epochs=10, batch_size=10, validation_split=0.2)

# Évaluation du modèle
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Précision sur l’ensemble de test : {accuracy * 100:.2f}%')


4. Analyse et Interprétation des Résultats

1. Générer des matrices de confusion pour voir les vrais positifs et faux négatifs.
2. Utiliser des métriques comme la précision, le rappel et la courbe ROC pour évaluer le modèle.
3. Discuter de l'importance de la précision dans un contexte bancaire et des implications d’un mauvais classement (prêter à un client insolvable par erreur, par exemple).

In [None]:
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score

# Prédictions sur l’ensemble de test
y_pred = (model.predict(X_test) > 0.5).astype("int32")

# Matrice de confusion et rapport de classification
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Calcul de l’AUC pour voir la performance globale du modèle
auc = roc_auc_score(y_test, y_pred)
print(f'Score AUC : {auc:.2f}')


5. Discussions et Améliorations du Modèle

1. Utilisation d’un réseau plus profond ou de couches de dropout pour éviter le surapprentissage.
2. Ajout de variables supplémentaires (d’autres indicateurs économiques).
3. Collecte de plus de données pour une meilleure représentativité des clients.
3. Essayer d'autres algorithmes (forêt aléatoire, machines à vecteurs de support) pour comparaison.