# Phase 5 ‚Äî Mod√®le PD (r√©gression logistique)

## Objectif
Entra√Æner un premier mod√®le de probabilit√© de d√©faut (PD) √† partir des features de la Phase 4.
Le mod√®le choisi est une r√©gression logistique car :
- interpr√©table (coefficients)
- standard en risque de cr√©dit

## Livrables
- m√©triques : AUC, accuracy, confusion matrix
- importance/interpr√©tation : coefficients
- exports : fichiers CSV dans `reports/tableau_exports/`


In [45]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, accuracy_score, confusion_matrix, classification_report, recall_score, precision_score

In [4]:
#importation of features and target
X = pd.read_csv("../data/processed/X_features.csv")
y = pd.read_csv("../data/processed/y_target.csv").squeeze()

X.shape, y.shape

((250000, 10), (250000,))

In [6]:
#train and test the moel

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

X_train.shape, X_test.shape

((200000, 10), (50000, 10))

In [9]:
#Standardisation 
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)


In [11]:
#modeling
model = LogisticRegression(max_iter=1000)
model.fit(X_train_scaled, y_train)

In [29]:
#Predictions (probabilities et classes)
y_proba = model.predict_proba(X_test_scaled)[:,1]
y_pred = model.predict(X_test_scaled)

y_proba[:5], y_pred[:5]

(array([0.23693699, 0.30098   , 0.37173634, 0.20773532, 0.04972834]),
 array([0, 0, 0, 0, 0]))

In [30]:
# √âvaluer le mod√®le (AUC, accuracy, confusion matrix)

auc = roc_auc_score(y_test, y_proba)
acc = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)

auc

np.float64(0.6999520975007512)

Si je prends un bon client et un mauvais client au hasard,
le mod√®le donne une probabilit√© plus √©lev√©e au mauvais ‚âà 70 % du temps.

In [17]:
acc

0.80018

80 % des pr√©dictions sont correctes.

In [18]:
cm

array([[39729,   292],
       [ 9699,   280]])

lecture :

Pr√©dit----------0 (bon)------------Pr√©dit 1 (d√©faut)

Vrai 0--------39729 (TN------------292 (FP)

Vrai 1--------9699 (FN)------------280 (TP)

In [19]:
print("AUC:", auc)
print("Accuracy:", acc)
print("\nConfusion Matrix:\n", cm)
print("\nClassification report:\n", classification_report(y_test, y_pred))


AUC: 0.6999520975007512
Accuracy: 0.80018

Confusion Matrix:
 [[39729   292]
 [ 9699   280]]

Classification report:
               precision    recall  f1-score   support

           0       0.80      0.99      0.89     40021
           1       0.49      0.03      0.05      9979

    accuracy                           0.80     50000
   macro avg       0.65      0.51      0.47     50000
weighted avg       0.74      0.80      0.72     50000



### Classe 0 ‚Äî bons clients
____
#### Interpr√©tation :
Recall 0.99 :
‚Üí le mod√®le identifie 99 % des bons clients
Precision 0.80 :
‚Üí parmi ceux pr√©dits comme ‚Äúbons‚Äù, 80 % le sont vraiment
#### Tr√®s bon pour ne pas refuser de bons clients

___
### Classe 1 ‚Äî d√©fauts
#### Interpr√©tation :
Recall 0.03 ‚ùå
‚Üí le mod√®le ne d√©tecte que 3 % des vrais d√©fauts
Precision 0.49
‚Üí quand il pr√©dit ‚Äúd√©faut‚Äù, il a raison ~1 fois sur 2
C‚Äôest le point critique :
#### le mod√®le rate presque tous les mauvais clients

#### Accuracy (80 %) ‚Äî trompeuse
accuracy = 0.80

80 % des clients sont bons
Un mod√®le qui dit ‚Äútout le monde est bon‚Äù ferait d√©j√† ~80 %
#### Donc accuracy ‚â† performance m√©tier ici.


‚ÄúL‚Äôaccuracy est √©lev√©e, mais le macro F1 est faible, ce qui montre que le mod√®le ne capte pas correctement la classe minoritaire des d√©fauts.‚Äù

In [20]:
coef = pd.DataFrame({
    "feature": X.columns,
    "coef": model.coef_[0]
}).sort_values("coef", ascending=False)

coef.head(15), coef.tail(15)


(            feature      coef
 5           grade_C  0.466224
 6           grade_D  0.443126
 7           grade_E  0.335562
 4           grade_B  0.305248
 2          int_rate  0.217934
 8           grade_F  0.210706
 1       term_months  0.159089
 9           grade_G  0.121523
 0         loan_amnt  0.106348
 3  annual_inc_clean -0.185413,
             feature      coef
 5           grade_C  0.466224
 6           grade_D  0.443126
 7           grade_E  0.335562
 4           grade_B  0.305248
 2          int_rate  0.217934
 8           grade_F  0.210706
 1       term_months  0.159089
 9           grade_G  0.121523
 0         loan_amnt  0.106348
 3  annual_inc_clean -0.185413)

### Explication
r√©cup√©rer les coefficients du mod√®le

coef positif ‚Üí augmente le risque (PD)
coef n√©gatif ‚Üí diminue le risque

model.coef_[0] contient 1 coefficient par feature
Important : comme on a standardis√©, les coefficients sont comparables.

In [22]:
metrics = pd.DataFrame([{
    "auc": auc,
    "accuracy": acc,
    "tn": cm[0,0],
    "fp": cm[0,1],
    "fn": cm[1,0],
    "tp": cm[1,1],
}])

metrics.to_csv("../reports/tableau_exports/05_model_metrics.csv", index=False)
coef.to_csv("../reports/tableau_exports/05_model_coefficients.csv", index=False)

print("Exports OK:")
print("- reports/tableau_exports/05_model_metrics.csv")
print("- reports/tableau_exports/05_model_coefficients.csv")


Exports OK:
- reports/tableau_exports/05_model_metrics.csv
- reports/tableau_exports/05_model_coefficients.csv


### Am√©lioration du model par une regression logistic avec regularisation (L2)
___

La r√©gression logistique apprend des coefficients (poids) pour chaque variable.
Si certaines variables ‚Äúpoussent trop fort‚Äù, le mod√®le peut :

- sur-apprendre (overfitting)
- devenir instable (coefficients √©normes)
- √™tre moins fiable sur des nouvelles donn√©es

#### La r√©gularisation emp√™che les coefficients de devenir trop grands.

In [25]:
model_l2 = LogisticRegression(
    penalty="l2",
    C=1.0,
    solver="lbfgs",
    max_iter=1000
)

model_l2.fit(X_train_scaled, y_train)

In [31]:
# #Predictions (probabilities et classes) avec la regularisation
y_proba_l2 = model_l2.predict_proba(X_test_scaled)[:,1]
auc = roc_auc_score(y_test, y_proba_l2)
auc


np.float64(0.6999520975007512)

#### L'area under the curve (auc) est similaire 

In [34]:
coef_df = pd.DataFrame({
    "feature": X.columns,
    "coef":model_l2.coef_[0]}).sort_values("coef", ascending = False)
coef_df.head(10)

Unnamed: 0,feature,coef
5,grade_C,0.466224
6,grade_D,0.443126
7,grade_E,0.335562
4,grade_B,0.305248
2,int_rate,0.217934
8,grade_F,0.210706
1,term_months,0.159089
9,grade_G,0.121523
0,loan_amnt,0.106348
3,annual_inc_clean,-0.185413


In [35]:
coef.head(15)

Unnamed: 0,feature,coef
5,grade_C,0.466224
6,grade_D,0.443126
7,grade_E,0.335562
4,grade_B,0.305248
2,int_rate,0.217934
8,grade_F,0.210706
1,term_months,0.159089
9,grade_G,0.121523
0,loan_amnt,0.106348
3,annual_inc_clean,-0.185413


In [38]:
threshold = 0.30 #√† partir de 30% de probabilit√© de d√©faut, je consid√®re le client risqu√©
y_pred_30 = (y_proba_l2 >= threshold).astype(int)
y_pred_30

array([0, 1, 1, ..., 0, 0, 1])

In [39]:
cm_30 = confusion_matrix(y_test, y_pred_30)
cm_30

array([[34478,  5543],
       [ 6541,  3438]])

In [40]:
cm

array([[39729,   292],
       [ 9699,   280]])

In [49]:
thresholds = [0.2, 0.3, 0.4, 0.5]
rows = []

for t in thresholds:
    pred = (y_proba_l2 >= t).astype(int)
    tn, fp, fn, tp = confusion_matrix(y_test, pred).ravel()
    rows.append({
        "threshold": t,
        "tn": tn, "fp": fp, "fn": fn, "tp": tp,
        "recall_default": recall_score(y_test, pred),      # rappel = TP/(TP+FN)
        "precision_default": precision_score(y_test, pred) # pr√©cision = TP/(TP+FP)
    })

threshold_analysis = pd.DataFrame(rows)
threshold_analysis

Unnamed: 0,threshold,tn,fp,fn,tp,recall_default,precision_default
0,0.2,24471,15550,3153,6826,0.684036,0.305059
1,0.3,34478,5543,6541,3438,0.344523,0.382808
2,0.4,38259,1762,8581,1398,0.140094,0.442405
3,0.5,39729,292,9699,280,0.028059,0.48951


#### Seuil = 0.20
- TP = 6 826
- FN = 3 153
- Recall ‚âà 68 % : d√©tectes 68 % des d√©fauts ‚Üí tr√®s bon / MAIS tu refuses beaucoup de bons clients (FP = 15 550)
- Precision ‚âà 30 %  

##### Politique tr√®s prudente, mais co√ªteuse en business.

#### cas d'usage 
- crise √©conomique
- portefeuille tr√®s risqu√©
- priorit√© absolue √† la r√©duction des d√©fauts

___
#### seuil = 0.30

- TP = 3 438
- FN = 6 541
- Recall ‚âà 34 % : d√©tectes 1 d√©faut sur 3, r√©duis fortement les faux refus
- Precision ‚âà 38 %

##### compromis entre risque et business.
    

___
#### Seuil = 0.40

- TP = 1 398
- FN = 8 581
- Recall ‚âà 14 % : rates beaucoup de d√©fauts, prot√®ges le business court terme
- Precision ‚âà 44 %

##### Politique agressive, risqu√©e pour la banque.

#### Seuil = 0.50 (par d√©faut sklearn)

- TP = 280
- FN = 9 699
- Recall ‚âà 3 % : rates 97 % des d√©fauts, inutile pour un vrai risque cr√©dit
- Precision ‚âà 49 %

##### mauvais choix m√©tier, m√™me si accuracy peut sembler ‚Äúbonne‚Äù.

#### ‚úÖ Seuil = 0.30

Apr√®s analyse de l‚Äôimpact des diff√©rents seuils de d√©cision afin de trouver un compromis entre la d√©tection des d√©fauts et la limitation des refus injustifi√©s. Un seuil de 30 % offre un √©quilibre coh√©rent entre risque et performance commerciale.

- ~ 3 438 d√©fauts √©vit√©s
- ~ 5 543 bons clients refus√©s
- ~ 6 541 d√©fauts accept√©s (reste √† g√©rer via provisions)

In [46]:
coef_df["odds_ratio"] = np.exp(coef_df["coef"])
coef_df = coef_df.sort_values("odds_ratio", ascending=False)

coef_df.head(10)


Unnamed: 0,feature,coef,odds_ratio
5,grade_C,0.466224,1.593964
6,grade_D,0.443126,1.557569
7,grade_E,0.335562,1.398726
4,grade_B,0.305248,1.356962
2,int_rate,0.217934,1.243505
8,grade_F,0.210706,1.23455
1,term_months,0.159089,1.172442
9,grade_G,0.121523,1.129215
0,loan_amnt,0.106348,1.112209
3,annual_inc_clean,-0.185413,0.830761


Le mod√®le est coh√©rent d‚Äôun point de vue m√©tier : les grades faibles et les taux √©lev√©s augmentent la probabilit√© de d√©faut, tandis qu‚Äôun revenu plus √©lev√© la r√©duit. Les coefficients sont interpr√©tables et align√©s avec les pratiques de scoring cr√©dit.

## Interpr√©tation des coefficients (Logistic Regression)

Les coefficients du mod√®le ont √©t√© transform√©s en odds ratios afin de faciliter l‚Äôinterpr√©tation m√©tier.
___
##### Rappel
odds_ratio > 1 : augmente le risque de d√©faut
odds_ratio < 1 : diminue le risque de d√©faut
odds_ratio = 1 : pas d‚Äôeffet
___
#### üî¥ Facteurs qui augmentent le risque de d√©faut

grade_C (OR = 1.59)
‚Üí Un pr√™t de grade C a environ +59 % de risque de d√©faut par rapport au grade de r√©f√©rence (grade A).

grade_D (OR = 1.56)
‚Üí Le risque de d√©faut augmente d‚Äôenviron +56 %.

grade_E (OR = 1.40)
‚Üí Le risque est +40 % plus √©lev√©.

grade_B (OR = 1.36)
‚Üí M√™me un grade relativement correct pr√©sente un sur-risque mod√©r√©.

##### Conclusion :
Le grade de cr√©dit est la variable la plus discriminante du mod√®le, ce qui est coh√©rent avec la logique m√©tier de LendingClub.

#### üî¥ Autres variables de risque

int_rate (OR = 1.24)
‚Üí Une hausse du taux d‚Äôint√©r√™t est associ√©e √† une augmentation du risque de d√©faut.

(Logique : taux √©lev√© = client plus risqu√©)

term_months (OR = 1.17)
‚Üí Les pr√™ts plus longs (ex : 60 mois) sont plus risqu√©s que les pr√™ts courts.

loan_amnt (OR = 1.11)
‚Üí Des montants de pr√™t plus √©lev√©s sont associ√©s √† un l√©ger sur-risque.

#### üü¢ Facteur qui r√©duit le risque de d√©faut
annual_inc_clean (OR = 0.83)
‚Üí Un revenu annuel plus √©lev√© r√©duit le risque de d√©faut d‚Äôenviron 17 %.

Plus l‚Äôemprunteur gagne, plus il est capable d‚Äôhonorer ses √©ch√©ances.

___

### Conclusion 

Le mod√®le identifie le grade de cr√©dit, le taux d‚Äôint√©r√™t et la dur√©e du pr√™t comme les principaux facteurs explicatifs du d√©faut.
√Ä l‚Äôinverse, un revenu annuel √©lev√© agit comme un facteur protecteur.
Ces r√©sultats sont coh√©rents avec les principes classiques du credit risk management.


In [47]:
coef_df.to_csv(
    "../reports/tableau_exports/05_model_coefficients_interpreted.csv",
    index=False
)


In [48]:


decision_threshold = pd.DataFrame([{
    "model": "logistic_regression_l2",
    "decision_threshold": 0.30,
    "business_objective": "balance_risk_vs_business",
    "justification": "Compromise between default recall and false positives",
    "expected_recall_default": 0.34,
    "expected_precision_default": 0.38
}])

decision_threshold.to_csv(
    "../reports/tableau_exports/05_decision_threshold.csv",
    index=False
)

decision_threshold


Unnamed: 0,model,decision_threshold,business_objective,justification,expected_recall_default,expected_precision_default
0,logistic_regression_l2,0.3,balance_risk_vs_business,Compromise between default recall and false po...,0.34,0.38


In [50]:
threshold_analysis.to_csv(
    "../reports/tableau_exports/05_threshold_analysis.csv",
    index=False
)

print("Export OK : reports/tableau_exports/05_threshold_analysis.csv")


Export OK : reports/tableau_exports/05_threshold_analysis.csv
