
# üí∏ Projet 5 : Score de Risque Micro-Cr√©dit
## Version D√©butant - "Je te montre, puis tu r√©p√®tes"

---

### üéØ L'Objectif de ce Projet

Les institutions de micro-cr√©dit pr√™tent aux personnes non-bancaris√©es pour lancer de petites entreprises. Votre mission est de **pr√©dire le risque de d√©faut** (`Defaillant = 1`) et de cr√©er un **Score de Cr√©dit** pour ces entrepreneurs.

**Ce que vous allez apprendre :**
- üí∞ Analyser des donn√©es de pr√™t alternatives (usage mobile, type d'entreprise)
- üìä Pr√©dire la **Probabilit√© de D√©faut** (pas juste Oui/Non, mais un score de 0 √† 1)
- üéØ Convertir une probabilit√© en **Score de Cr√©dit** (300-850, comme les banques)
- üìâ √âvaluer avec **ROC-AUC** (capacit√© de discrimination)

---

> **üí° Comment utiliser ce notebook :**
> 1. **Les cellules avec du code complet** ‚Üí Lisez et ex√©cutez-les pour voir l'exemple
> 2. **Les cellules avec # TODO** ‚Üí C'est votre tour ! R√©p√©tez la technique
> 3. **Les Questions ‚ùì** ‚Üí R√©fl√©chissez avant de passer √† la suite

---



# üìã SESSION 1 : From Raw Data to Clean Insights (45 min)

## Part 1: The Setup (10 min)

### üìò Theory: Les Biblioth√®ques


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12
sns.set_style("whitegrid")

print("‚úÖ Biblioth√®ques import√©es !")



### üõ†Ô∏è √âtape 1.1 : Charger les Donn√©es
Le fichier est `micro_credit.csv`.


In [None]:

df = pd.read_csv('micro_credit.csv')

print("üìä Aper√ßu des donn√©es :")
display(df.head())
print(f"\n‚úÖ Dimensions : {df.shape[0]} demandes, {df.shape[1]} colonnes")



## Part 2: The Sanity Check (15 min)

### üìò Theory: Valeurs Manquantes
V√©rifions la qualit√© des donn√©es.


In [None]:

print("üîç Valeurs manquantes :")
print(df.isnull().sum())



### üõ†Ô∏è Exemple : Remplir 'Annees_Activite'
Pour les ann√©es d'activit√© (num√©rique), on utilise la **m√©diane**.


In [None]:

if df['Annees_Activite'].isnull().sum() > 0:
    mediane_annees = df['Annees_Activite'].median()
    df['Annees_Activite'].fillna(mediane_annees, inplace=True)
    print(f"‚úÖ Annees_Activite rempli avec : {mediane_annees}")
else:
    print("‚úÖ Pas de valeurs manquantes pour Annees_Activite")



## Part 3: Exploratory Data Analysis (20 min)

### üìä Visualisation 1 : Risque par Montant
Les gros pr√™ts sont-ils plus risqu√©s ?


In [None]:

plt.figure(figsize=(8, 5))
sns.boxplot(data=df, x='Defaillant', y='Montant_Pret', palette=['green', 'red'])
plt.title('üìä Montant du Pr√™t vs D√©faut')
plt.xlabel('D√©faut (0=Non, 1=Oui)')
plt.ylabel('Montant du Pr√™t (MAD)')
plt.show()



### üõ†Ô∏è √Ä vous de jouer !
Cr√©ez un **Barplot** pour comparer le taux de d√©faut par `Type_Entreprise` (Retail, Agri, Service).
Quel secteur est le plus risqu√© ?


In [None]:

# TODO: Barplot Type_Entreprise vs Defaillant

# defaut_par_type = df.groupby('Type_Entreprise')['Defaillant'].mean() * 100
# defaut_par_type.plot(kind='bar', color='coral')
# plt.title('Taux de D√©faut par Secteur (%)')
# plt.ylabel('% D√©faut')
# plt.show()



# üìã SESSION 2 : The Art of Feature Engineering (45 min)

## Part 1: The Concept (10 min)
Transformons les donn√©es pour cr√©er des indicateurs de risque.

## Part 2: The Lab - Choose Your Recipe (30 min)

### üè∑Ô∏è Recipe 2: Categories
`Type_Entreprise` est cat√©goriel. Encodons-le.


In [None]:

df = pd.get_dummies(df, columns=['Type_Entreprise'], prefix='Secteur')
print("‚úÖ Encodage termin√© !")
display(df.head())



### ‚ûó Recipe 4: Math Magic
Cr√©ons un ratio **Pr√™t / Usage Mobile** (proxy pour "dette vs revenus").
Si quelqu'un demande 50,000 MAD mais a une facture mobile de 20 MAD, c'est suspect !


In [None]:

# √âviter la division par z√©ro
df['Ratio_Pret_Mobile'] = df['Montant_Pret'] / (df['Usage_Mobile'] + 1)

print("‚úÖ Feature Ratio_Pret_Mobile cr√©√©e !")



### üõ†Ô∏è √Ä vous de jouer !
Cr√©ez une feature binaire `Nouveau_Business` :
- 1 si `Annees_Activite` < 2 (moins de 2 ans d'existence)
- 0 sinon


In [None]:

# TODO: Cr√©er Nouveau_Business

# df['Nouveau_Business'] = (df['Annees_Activite'] < 2).astype(int)
# print("‚úÖ Feature Nouveau_Business cr√©√©e !")



## Part 3: Final Prep (5 min)
Pr√©parons X et y.


In [None]:

# Supprimer l'ID
if 'ID_Demandeur' in df.columns:
    df = df.drop(columns=['ID_Demandeur'])

X = df.drop(columns=['Defaillant'])
y = df['Defaillant']

print(f"‚úÖ Pr√™t ! X shape: {X.shape}, y shape: {y.shape}")



# üìã SESSION 3 : Building & Trusting Your Model (45 min)

## Part 1: The Split (10 min)


In [None]:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print("‚úÖ Split effectu√© !")



## Part 2: Training (15 min)

### üìò Theory: RandomForest pour le Score de Cr√©dit
Nous allons utiliser `RandomForestClassifier` qui peut nous donner des **probabilit√©s** (via `predict_proba`).


In [None]:

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100, random_state=42)

print("üöÄ Entra√Ænement...")
model.fit(X_train, y_train)
print("‚úÖ Mod√®le entra√Æn√© !")



## Part 3: Evaluation (20 min)

### üéØ M√©trique Cl√© : ROC-AUC
**ROC-AUC** mesure la capacit√© du mod√®le √† **discriminer** entre bons et mauvais payeurs.
- 0.5 = Hasard
- 1.0 = Parfait


In [None]:

from sklearn.metrics import roc_auc_score, classification_report, confusion_matrix

# Pr√©dire les probabilit√©s
y_proba = model.predict_proba(X_test)[:, 1]  # Colonne 1 = Probabilit√© de D√©faut

# Calculer ROC-AUC
auc = roc_auc_score(y_test, y_proba)
print(f"üìä ROC-AUC Score : {auc:.3f}")

if auc > 0.75:
    print("üåü Excellent pouvoir discriminant !")
elif auc > 0.65:
    print("üëç Bon mod√®le")
else:
    print("‚ö†Ô∏è Le mod√®le peut √™tre am√©lior√©")



### üõ†Ô∏è √Ä vous de jouer !
Affichez la **Matrice de Confusion** pour voir les erreurs.


In [None]:

# TODO: Matrice de Confusion

# y_pred = model.predict(X_test)
# cm = confusion_matrix(y_test, y_pred)
# sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', cbar=False)
# plt.xlabel('Pr√©dit')
# plt.ylabel('R√©el')
# plt.title('Matrice de Confusion')
# plt.show()



## üéÅ Part 4: Going Further (Bonus - 15-30 mins)

### Bonus Task 1: Cr√©er un Score de Cr√©dit (300-850)
**Goal:** Transformer la probabilit√© (0-1) en un score bancaire classique.
**Formule :** `Score = 850 - (Proba_Defaut * 550)`


In [None]:

# TODO: Cr√©er des scores de cr√©dit pour les 10 premiers
# scores = 850 - (y_proba[:10] * 550)
# resultats = pd.DataFrame({
#     'Probabilite_Defaut': y_proba[:10],
#     'Score_Credit': scores.astype(int)
# })
# print(resultats)



### Bonus Task 2: Montant de Pr√™t S√ªr
**Goal:** Pour chaque demandeur, calculer le montant maximum "s√ªr".
**Logique Simple :**
- Si Score > 700 : Montant demand√© OK
- Si Score 600-700 : 70% du montant
- Si Score < 600 : 50% du montant


In [None]:

# TODO: Calculer montant s√ªr
# def montant_sur(row):
#     if row['Score_Credit'] > 700:
#         return row['Montant_Pret']
#     elif row['Score_Credit'] > 600:
#         return row['Montant_Pret'] * 0.7
#     else:
#         return row['Montant_Pret'] * 0.5



### Bonus Task 3: Feature Importance
**Goal:** Quels facteurs influencent le plus le risque ?


In [None]:

# TODO: Plot Feature Importance
# importances = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)
# importances.head(5).plot(kind='barh', color='teal')
# plt.title('Top 5 Facteurs de Risque')
# plt.xlabel('Importance')
# plt.show()
