In [None]:
## Projet  Analyse et Prédiction des Risques de Crédit

## Nom : NADEGE KANGNI-SOUKPE


In [None]:
## Création de la base de données et des tables

In [19]:
import sqlite3

# Connexion à la base de données SQLite (si elle n'existe pas, elle sera créée)
conn = sqlite3.connect('credit_risk.db')
cursor = conn.cursor()

# Création de la table Clients
cursor.execute("""
CREATE TABLE IF NOT EXISTS Clients (
    client_id INTEGER PRIMARY KEY AUTOINCREMENT,
    nom TEXT,
    prenom TEXT,
    age INTEGER,
    sexe TEXT,
    situation_pro TEXT,
    revenu_annuel INTEGER,
    historique_credit TEXT
);
""")

# Création de la table Prêts
cursor.execute("""
CREATE TABLE IF NOT EXISTS Prets (
    pret_id INTEGER PRIMARY KEY AUTOINCREMENT,
    client_id INTEGER,
    montant INTEGER,
    taux_interet REAL,
    duree_mois INTEGER,
    statut_paiement TEXT,
    FOREIGN KEY (client_id) REFERENCES Clients(client_id)
);
""")

# Création de la table Paiements
cursor.execute("""
CREATE TABLE IF NOT EXISTS Paiements (
    paiement_id INTEGER PRIMARY KEY AUTOINCREMENT,
    pret_id INTEGER,
    date_paiement DATE,
    montant_paye INTEGER,
    statut TEXT,
    FOREIGN KEY (pret_id) REFERENCES Prets(pret_id)
);
""")

# Création de la table Transactions
cursor.execute("""
CREATE TABLE IF NOT EXISTS Transactions (
    transaction_id INTEGER PRIMARY KEY AUTOINCREMENT,
    client_id INTEGER,
    type_transaction TEXT,
    montant INTEGER,
    date_transaction DATE,
    solde_apres INTEGER,
    FOREIGN KEY (client_id) REFERENCES Clients(client_id)
);
""")

# Commit et fermeture de la connexion
conn.commit()


In [21]:
pip install faker


Collecting faker
  Downloading faker-37.1.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.1.0-py3-none-any.whl (1.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m35.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-37.1.0


In [22]:
## Génération de Données Simulées avec Faker

from faker import Faker
import random

# Initialisation de Faker
fake = Faker()

# Générer des données pour 1000 clients
clients = []
for _ in range(1000):
    client = {
        'nom': fake.last_name(),
        'prenom': fake.first_name(),
        'age': random.randint(18, 80),
        'sexe': random.choice(['M', 'F']),
        'situation_pro': random.choice(['Employed', 'Self-employed', 'Unemployed']),
        'revenu_annuel': random.randint(20000, 100000),
        'historique_credit': random.choice(['Bon', 'Moyenne', 'Mauvais'])
    }
    clients.append(client)

# Affichage des premiers clients générés
for client in clients[:5]:
    print(client)


{'nom': 'Rogers', 'prenom': 'Monique', 'age': 80, 'sexe': 'M', 'situation_pro': 'Unemployed', 'revenu_annuel': 36487, 'historique_credit': 'Bon'}
{'nom': 'Rogers', 'prenom': 'Annette', 'age': 21, 'sexe': 'F', 'situation_pro': 'Employed', 'revenu_annuel': 73701, 'historique_credit': 'Moyenne'}
{'nom': 'Doyle', 'prenom': 'Chase', 'age': 42, 'sexe': 'F', 'situation_pro': 'Self-employed', 'revenu_annuel': 97237, 'historique_credit': 'Bon'}
{'nom': 'Martin', 'prenom': 'Christine', 'age': 47, 'sexe': 'F', 'situation_pro': 'Employed', 'revenu_annuel': 29852, 'historique_credit': 'Moyenne'}
{'nom': 'Stevens', 'prenom': 'Katelyn', 'age': 62, 'sexe': 'F', 'situation_pro': 'Unemployed', 'revenu_annuel': 69901, 'historique_credit': 'Bon'}


In [6]:
# Génération de Données pour les Prêts, Paiements et Transactions

In [25]:
## Génération de Données pour les Prêts, Paiements et Transactions

import random
from faker import Faker

# Initialisation de Faker
fake = Faker()

# Nombre de clients à générer
num_clients = 100

# Génération des clients
clients = []
for i in range(num_clients):
    client = {
        'client_id': i + 1,  # Assigner un identifiant unique pour chaque client
        'nom': fake.last_name(),
        'prenom': fake.first_name(),
        'age': random.randint(18, 80),
        'sexe': random.choice(['Homme', 'Femme']),
        'situation_pro': random.choice(['Salarié', 'Indépendant', 'Chômage', 'Retraité']),
        'revenu_annuel': random.randint(20000, 100000),
        'historique_credit': random.choice(['Bon', 'Moyen', 'Mauvais']),
    }
    clients.append(client)

# Génération des prêts
prets = []
for client in clients:
    if random.random() > 0.5:  # 50% de chance qu'un client ait un prêt
        pret = {
            'pret_id': f"pret_{client['client_id']}",
            'client_id': client['client_id'],
            'montant': random.randint(5000, 50000),
            'taux_interet': round(random.uniform(1.5, 6.5), 2),
            'duree_mois': random.randint(12, 60),
            'statut_paiement': random.choice(['Remboursé', 'En cours', 'En retard']),
        }
        prets.append(pret)

# Génération des transactions
transactions = []
for client in clients:
    num_transactions = random.randint(1, 10)  # Chaque client aura entre 1 et 10 transactions
    for _ in range(num_transactions):
        transaction = {
            'transaction_id': f"trans_{client['client_id']}_{_}",
            'client_id': client['client_id'],
            'type_transaction': random.choice(['Dépôt', 'Retrait']),
            'montant': random.randint(100, 10000),
            'date_transaction': fake.date_this_decade(),
            'solde_apres': random.randint(1000, 50000),  # Solde après la transaction
        }
        transactions.append(transaction)

# Affichage des 5 premiers clients, prêts et transactions
print("Clients:")
for client in clients[:5]:
    print(client)

print("\nPrêts:")
for pret in prets[:5]:
    print(pret)

print("\nTransactions:")
for transaction in transactions[:5]:
    print(transaction)


Clients:
{'client_id': 1, 'nom': 'Mcconnell', 'prenom': 'Chad', 'age': 68, 'sexe': 'Femme', 'situation_pro': 'Retraité', 'revenu_annuel': 58270, 'historique_credit': 'Moyen'}
{'client_id': 2, 'nom': 'Allen', 'prenom': 'Kimberly', 'age': 69, 'sexe': 'Femme', 'situation_pro': 'Salarié', 'revenu_annuel': 69557, 'historique_credit': 'Bon'}
{'client_id': 3, 'nom': 'Stephens', 'prenom': 'Donald', 'age': 59, 'sexe': 'Femme', 'situation_pro': 'Chômage', 'revenu_annuel': 33081, 'historique_credit': 'Mauvais'}
{'client_id': 4, 'nom': 'Valdez', 'prenom': 'Samuel', 'age': 45, 'sexe': 'Homme', 'situation_pro': 'Retraité', 'revenu_annuel': 32823, 'historique_credit': 'Moyen'}
{'client_id': 5, 'nom': 'Smith', 'prenom': 'Brandon', 'age': 40, 'sexe': 'Homme', 'situation_pro': 'Chômage', 'revenu_annuel': 97055, 'historique_credit': 'Mauvais'}

Prêts:
{'pret_id': 'pret_3', 'client_id': 3, 'montant': 37032, 'taux_interet': 3.74, 'duree_mois': 32, 'statut_paiement': 'En cours'}
{'pret_id': 'pret_7', 'clien

In [9]:
##   Insertion des Données dans la Base SQL

In [26]:
# Connexion à la base de données SQLite
conn = sqlite3.connect('credit_risk.db')
cursor = conn.cursor()

# Insertion des données Clients
for client in clients:
    cursor.execute("""
        INSERT INTO Clients (nom, prenom, age, sexe, situation_pro, revenu_annuel, historique_credit)
        VALUES (?, ?, ?, ?, ?, ?, ?)
    """, (client['nom'], client['prenom'], client['age'], client['sexe'], client['situation_pro'], client['revenu_annuel'], client['historique_credit']))

# Insertion des données Prêts
for pret in prets:
    cursor.execute("""
        INSERT INTO Prets (client_id, montant, taux_interet, duree_mois, statut_paiement)
        VALUES (?, ?, ?, ?, ?)
    """, (pret['client_id'], pret['montant'], pret['taux_interet'], pret['duree_mois'], pret['statut_paiement']))

# Insertion des données Paiements
for paiement in paiements:
    cursor.execute("""
        INSERT INTO Paiements (pret_id, date_paiement, montant_paye, statut)
        VALUES (?, ?, ?, ?)
    """, (paiement['pret_id'], paiement['date_paiement'], paiement['montant_paye'], paiement['statut']))

# Insertion des données Transactions
for transaction in transactions:
    cursor.execute("""
        INSERT INTO Transactions (client_id, type_transaction, montant, date_transaction, solde_apres)
        VALUES (?, ?, ?, ?, ?)
    """, (transaction['client_id'], transaction['type_transaction'], transaction['montant'], transaction['date_transaction'], transaction['solde_apres']))

# Commit et fermeture de la connexion
conn.commit()
conn.close()


In [29]:
df

Unnamed: 0,age,revenu_annuel,montant,taux_interet,duree_mois,statut_paiement
0,35,45000.0,10000.0,3.5,36,1.0
1,29,30000.0,15000.0,5.0,48,-1.0
2,50,25000.0,5000.0,2.0,24,1.0
3,40,27000.0,8000.0,4.0,36,
4,50,25000.0,37032.0,3.74,32,0.0
5,59,33081.0,39952.0,1.8,18,-1.0
6,45,32823.0,30485.0,5.76,47,-1.0
7,40,97055.0,14087.0,2.08,39,-1.0
8,57,53036.0,49246.0,5.71,24,1.0
9,56,93749.0,13318.0,3.37,50,-1.0


In [30]:
print(df.isnull().sum())

age                0
revenu_annuel      0
montant            0
taux_interet       0
duree_mois         0
statut_paiement    1
dtype: int64


In [31]:
df['statut_paiement'] = df['statut_paiement'].fillna('Non payé')  # Remplir les NaN avec une valeur spécifique


In [33]:
print(df.isnull().sum())

age                0
revenu_annuel      0
montant            0
taux_interet       0
duree_mois         0
statut_paiement    0
dtype: int64


In [35]:
print(y_test.isnull().sum())


1


In [45]:
# Supprimer la ligne avec NaN dans y_test
y_test = y_test.dropna()

# Assure-toi que X_test correspond à la ligne de y_test après suppression
X_test = X_test.loc[y_test.index]

# Vérifier si y_test est propre maintenant
print(y_test.isnull().sum())


0


In [46]:
y_pred = model.predict(X_test)
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

        -1.0       0.50      0.50      0.50         4
         0.0       0.50      0.50      0.50         6
         1.0       0.71      0.71      0.71         7

    accuracy                           0.59        17
   macro avg       0.57      0.57      0.57        17
weighted avg       0.59      0.59      0.59        17



In [11]:
## Entraînement d'un Modèle de Prédiction avec Scikit-learn

In [47]:
import pandas as pd
import numpy as np

# Supposons que X_train, X_test, y_train, y_test sont déjà définis

# Vérification des valeurs manquantes dans les données d'entraînement et de test
print("Nombre de valeurs manquantes dans X_train :")
print(X_train.isna().sum())
print("Nombre de valeurs manquantes dans X_test :")
print(X_test.isna().sum())
print("Nombre de valeurs manquantes dans y_train :")
print(y_train.isna().sum())
print("Nombre de valeurs manquantes dans y_test :")
print(y_test.isna().sum())

# Si des NaN sont trouvés, tu peux les supprimer ou les remplacer :
# Option 1 : Supprimer les lignes contenant des NaN
X_train = X_train.dropna()
y_train = y_train[X_train.index]  # Assure-toi de garder les mêmes indices

X_test = X_test.dropna()
y_test = y_test[X_test.index]

# Option 2 : Remplacer les NaN par une valeur par défaut (par exemple, la moyenne ou la médiane)
# X_train = X_train.fillna(X_train.mean())
# X_test = X_test.fillna(X_test.mean())
# y_train = y_train.fillna(y_train.mode()[0])
# y_test = y_test.fillna(y_test.mode()[0])

# Re-essayer l'entraînement du modèle après avoir nettoyé les données
model.fit(X_train, y_train)

# Prédire et évaluer le modèle
y_pred = model.predict(X_test)
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))


Nombre de valeurs manquantes dans X_train :
age              0
revenu_annuel    0
montant          0
taux_interet     0
duree_mois       0
dtype: int64
Nombre de valeurs manquantes dans X_test :
age              0
revenu_annuel    0
montant          0
taux_interet     0
duree_mois       0
dtype: int64
Nombre de valeurs manquantes dans y_train :
0
Nombre de valeurs manquantes dans y_test :
0
              precision    recall  f1-score   support

        -1.0       0.50      0.50      0.50         4
         0.0       0.50      0.50      0.50         6
         1.0       0.71      0.71      0.71         7

    accuracy                           0.59        17
   macro avg       0.57      0.57      0.57        17
weighted avg       0.59      0.59      0.59        17



In [54]:
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

# Normaliser les données
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Initialiser le modèle KNN
knn_model = KNeighborsClassifier(n_neighbors=3)

# Entraîner le modèle
knn_model.fit(X_train_scaled, y_train)

# Prédictions
knn_pred = knn_model.predict(X_test_scaled)

# Évaluation du modèle
print(classification_report(y_test, knn_pred))


              precision    recall  f1-score   support

        -1.0       0.30      0.75      0.43         4
         0.0       0.40      0.33      0.36         6
         1.0       0.50      0.14      0.22         7

    accuracy                           0.35        17
   macro avg       0.40      0.41      0.34        17
weighted avg       0.42      0.35      0.32        17



In [55]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(n_estimators=100)
rf_model.fit(X_train_scaled, y_train)
rf_pred = rf_model.predict(X_test_scaled)
print(classification_report(y_test, rf_pred))


              precision    recall  f1-score   support

        -1.0       0.33      0.50      0.40         4
         0.0       0.40      0.33      0.36         6
         1.0       0.50      0.43      0.46         7

    accuracy                           0.41        17
   macro avg       0.41      0.42      0.41        17
weighted avg       0.43      0.41      0.41        17



In [56]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5, 10]
}

grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train_scaled, y_train)

print(f"Meilleurs paramètres : {grid_search.best_params_}")
rf_best = grid_search.best_estimator_
rf_best_pred = rf_best.predict(X_test_scaled)
print(classification_report(y_test, rf_best_pred))


Meilleurs paramètres : {'max_depth': 10, 'min_samples_split': 10, 'n_estimators': 50}
              precision    recall  f1-score   support

        -1.0       0.40      0.50      0.44         4
         0.0       0.29      0.33      0.31         6
         1.0       0.20      0.14      0.17         7

    accuracy                           0.29        17
   macro avg       0.30      0.33      0.31        17
weighted avg       0.28      0.29      0.28        17



In [61]:
import pandas as pd
import numpy as np
from sklearn.metrics import classification_report

# Supposons que X_train, X_test, y_train, y_test sont déjà définis

# Vérification des valeurs manquantes
print("Nombre de valeurs manquantes dans X_train :")
print(X_train.isna().sum())
print("Nombre de valeurs manquantes dans X_test :")
print(X_test.isna().sum())
print("Nombre de valeurs manquantes dans y_train :")
print(y_train.isna().sum())
print("Nombre de valeurs manquantes dans y_test :")
print(y_test.isna().sum())

# Si des NaN sont trouvés, on les supprime
X_train = X_train.dropna()
y_train = y_train[X_train.index]  # Garder les mêmes indices pour y_train

X_test = X_test.dropna()
y_test = y_test[X_test.index]  # Garder les mêmes indices pour y_test

# Assurez-vous que le modèle est bien défini avant d'entraîner
# Exemple avec un modèle, supposons que c'est un LogisticRegression
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()

# Entraînement du modèle
model.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Affichage du rapport de classification
print(classification_report(y_test, y_pred))


Nombre de valeurs manquantes dans X_train :
age              0
revenu_annuel    0
montant          0
taux_interet     0
duree_mois       0
dtype: int64
Nombre de valeurs manquantes dans X_test :
age              0
revenu_annuel    0
montant          0
taux_interet     0
duree_mois       0
dtype: int64
Nombre de valeurs manquantes dans y_train :
0
Nombre de valeurs manquantes dans y_test :
0
              precision    recall  f1-score   support

        -1.0       0.25      0.25      0.25         4
         0.0       0.29      0.33      0.31         6
         1.0       0.33      0.29      0.31         7

    accuracy                           0.29        17
   macro avg       0.29      0.29      0.29        17
weighted avg       0.30      0.29      0.29        17



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [62]:
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [63]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

model = LogisticRegression(max_iter=1000)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)


In [65]:
print(y_train.value_counts())


statut_paiement
 1.0    14
 0.0    14
-1.0    14
Name: count, dtype: int64


In [64]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred_rf))


              precision    recall  f1-score   support

        -1.0       0.50      0.50      0.50         4
         0.0       0.50      0.50      0.50         6
         1.0       0.71      0.71      0.71         7

    accuracy                           0.59        17
   macro avg       0.57      0.57      0.57        17
weighted avg       0.59      0.59      0.59        17



In [66]:
## Générer un score de risque pour chaque client


In [69]:
# Probabilité pour chaque classe
y_prob = model.predict_proba(X_test_scaled)

# Si tu veux seulement la probabilité d'être à risque (ex: classe 1)
risque_proba = y_prob[:, list(model.classes_).index(1.0)]  # adapte selon ta classe "à risque"


In [68]:
## Créer un DataFrame avec les résultats

In [70]:
results_df = X_test.copy()
results_df["y_test"] = y_test
results_df["y_pred"] = y_pred
results_df["score_risque"] = risque_proba

results_df.head()


Unnamed: 0,age,revenu_annuel,montant,taux_interet,duree_mois,y_test,y_pred,score_risque
0,35,45000.0,10000.0,3.5,36,1.0,-1.0,0.269752
5,59,33081.0,39952.0,1.8,18,-1.0,0.0,0.200789
36,76,80115.0,30443.0,5.46,36,1.0,1.0,0.480244
45,51,55201.0,10046.0,5.93,35,0.0,1.0,0.349156
13,42,86518.0,17564.0,1.95,20,-1.0,-1.0,0.23471


In [None]:
## Insérer dans SQLite

In [72]:
import sqlite3

# Connexion à ta base SQLite
conn = sqlite3.connect("credit_risque.db")  # mets ici le bon nom si différent

# Insérer dans une nouvelle table (écrase si elle existe déjà)
results_df.to_sql("ScoresRisque", conn, if_exists="replace", index=False)

# Vérifier que tout est bien inséré
print(pd.read_sql("SELECT * FROM ScoresRisque LIMIT 5", conn))

# Fermer la connexion
conn.close()


   age  revenu_annuel  montant  taux_interet  duree_mois  y_test  y_pred  \
0   35        45000.0  10000.0          3.50          36     1.0    -1.0   
1   59        33081.0  39952.0          1.80          18    -1.0     0.0   
2   76        80115.0  30443.0          5.46          36     1.0     1.0   
3   51        55201.0  10046.0          5.93          35     0.0     1.0   
4   42        86518.0  17564.0          1.95          20    -1.0    -1.0   

   score_risque  
0      0.269752  
1      0.200789  
2      0.480244  
3      0.349156  
4      0.234710  


In [74]:
clients_risque = results_df[results_df["score_risque"] > 0.5]
print(clients_risque)


    age  revenu_annuel  montant  taux_interet  duree_mois  y_test  y_pred  \
46   49        55366.0  37508.0          5.02          52     0.0     1.0   

    score_risque  
46      0.506866  


In [76]:
import sqlite3

# Réouvrir la base si elle est fermée
conn = sqlite3.connect("base_credit.db")  # remplace par le nom exact de ta base si différent


In [77]:
##  Créer une nouvelle table pour les clients à risque élevé

In [78]:
clients_risque = results_df[results_df["score_risque"] > 0.5]
clients_risque.to_sql("ClientsRisque", conn, if_exists="replace", index=False)


1