# Pipeline d‚Äôanalyse pr√©dictive : de l‚Äôexploration des donn√©es √† l‚Äô√©valuation du mod√®le


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Import des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Preprocessing
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.impute import SimpleImputer

# Mod√®les
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
#from catboost import CatBoostClassifier

# M√©triques
from sklearn.metrics import (
    classification_report, confusion_matrix, roc_auc_score,
    roc_curve, f1_score, accuracy_score, precision_recall_curve
)

# Optimisation
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
from imblearn.pipeline import Pipeline as ImbPipeline

# Configuration
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("‚úÖ Biblioth√®ques import√©es avec succ√®s!")

‚úÖ Biblioth√®ques import√©es avec succ√®s!


# Pr√©dire l'acc√®s √† la fibre optique au Togo : Retour d'exp√©rience technique complet

## Comment j'ai atteint 91% AUC avec Random Forest sur 30K m√©nages et 4000+ features

*Article technique approfondi - 15 min de lecture*

**Par : [Votre Nom] | Consultant Data Science sp√©cialis√© en projets d'impact social**


## Le D√©fi

Imaginez devoir pr√©dire quels m√©nages au Togo adopteront la fibre optique (FTTH), avec :
-  **30 558 observations** √ó **4043 colonnes** (dont 4000 features MOSAIKS)
-  Des donn√©es h√©t√©rog√®nes (recensement + satellites)
-  Un territoire √† g√©om√©trie variable (urbain/rural)
-  Des contraintes de d√©ploiement r√©elles (budget, ROI)
- Mais une mission claire : **r√©duire la fracture num√©rique**

**Spoiler** : Le Random Forest a atteint **AUC = 0.907** (certains runs √† 0.909), mais le vrai apprentissage est dans le **preprocessing** et le **pipeline design**.


##  1. **Dataset : Anatomie d'un jeu de donn√©es complexe**

### Sources de donn√©es multiples

```
Dataset Final : 30 558 observations √ó 4043 colonnes
‚îÇ
‚îú‚îÄ‚îÄ üìã RGPH (Recensement Population & Habitat - INSEED Togo)
‚îÇ   ‚îú‚îÄ 42 variables socio-d√©mographiques
‚îÇ   ‚îú‚îÄ Taille m√©nage, type logement, √©quipements
‚îÇ   ‚îî‚îÄ Variables cat√©gorielles (TypeLogmt_1/2/3, H17A-J, H18A-J, etc.)
‚îÇ
‚îú‚îÄ‚îÄ üõ∞Ô∏è MOSAIKS (Berkeley - Multi-task Observation using Satellite Imagery & Kitchen Sinks)
‚îÇ   ‚îú‚îÄ 4001 features extraites automatiquement d'images satellites
‚îÇ   ‚îú‚îÄ Caract√©ristiques g√©ospatiales : texture urbaine, densit√© b√¢ti, v√©g√©tation
‚îÇ   ‚îî‚îÄ Variables continues hautement corr√©l√©es (multicolin√©arit√© ++++)
‚îÇ
‚îî‚îÄ‚îÄ üì° Op√©rateurs (Togocom / GVA)
    ‚îú‚îÄ Variable cible binaire : "Acc√®s internet" (0/1)
    ‚îú‚îÄ Distribution : 51.2% sans acc√®s | 48.8% avec acc√®s
    ‚îî‚îÄ  Dataset relativement √©quilibr√© (pas de SMOTE agressif n√©cessaire)
```

In [None]:
# Chargement des donn√©es
# Remplacez 'votre_fichier.csv' par le chemin de votre fichier de donn√©es
df = pd.read_csv('/content/drive/MyDrive/Project ACDS-20251216T101021Z-1-002/Project ACDS/Data_001.csv')

print(f" Dimension du dataset: {df.shape}")
print(f" Nombre de lignes: {df.shape[0]:,}")
print(f" Nombre de colonnes: {df.shape[1]:,}")

 Dimension du dataset: (30558, 4043)
 Nombre de lignes: 30,558
 Nombre de colonnes: 4,043




## 2. **Preprocessing : Le 80% invisible du travail**

 ### 2.1. Identifier les features MOSAIKS : Challenge #1

**Probl√®me** : 4043 colonnes m√©lang√©es (socio-√©conomiques + satellites). Comment les distinguer automatiquement ?

**Solution : Heuristique statistique**


In [None]:
def detect_mosaiks_features(df, threshold=50):
    """
    D√©tecte automatiquement les features MOSAIKS :
    - Variables continues (float64)
    - Haute cardinalit√© (> 50 valeurs uniques)
    - Pas de valeurs manquantes (d√©j√† imput√©es)
    """
    mosaiks_cols = []
    for col in df.columns:
        if df[col].dtype in ['float64', 'float32']:
            if df[col].nunique() > threshold:
                mosaiks_cols.append(col)
    return mosaiks_cols

# R√©sultat : 4001 features MOSAIKS identifi√©es

# Cette approche automatique √©vite le hard-coding des noms de colonnes. R√©utilisable sur d'autres datasets g√©ospatiaux.


###  2.2. Colonnes constantes et redondantes : Challenge #2

**Probl√®me** : Certaines colonnes ont une seule valeur unique ‚Üí bruit inutile.


In [None]:

# Identification des colonnes constantes
constant_cols = [col for col in df.columns if df[col].nunique() == 1]

print(f"Colonnes constantes d√©tect√©es : {len(constant_cols)}")
# R√©sultat : 35 colonnes (ex: 'BoxLabel', '.184', '.240', etc.)

# Suppression
df.drop(columns=constant_cols, inplace=True)

Colonnes constantes d√©tect√©es : 35


**Impact** :
- R√©duction dimensionnelle de 4043 ‚Üí 4008 colonnes
- Acc√©l√©ration entra√Ænement de ~5%
- Moins de risque d'overfitting


###  2.3. Valeurs manquantes : Challenge #3

> Ajouter une citation



**Analyse** :


In [None]:

# V√©rification des colonnes avec > 60% de valeurs manquantes
missing_threshold = 0.60
high_missing = df.isnull().sum() / len(df)
high_missing_cols = high_missing[high_missing > missing_threshold]

print(f"Colonnes avec > 60% manquantes : {len(high_missing_cols)}")
# R√©sultat : 0 colonnes (dataset d√©j√† bien nettoy√© par l'op√©rateur)

Colonnes avec > 60% manquantes : 0


In [None]:

numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
# Pour les variables num√©riques : imputation par la m√©diane (robuste aux outliers)
for col in numeric_cols:
    df[col].fillna(df[col].median(), inplace=True)

# Pour les cat√©gorielles : mode ou label 'inconnu'
for col in categorical_cols:
    df[col].fillna(df[col].mode()[0], inplace=True)

'''
** Pourquoi la m√©diane ?**
- Plus robuste que la moyenne face aux outliers
- Pr√©serve la distribution originale
- √âvite d'introduire des valeurs irr√©alistes
'''

"\n** Pourquoi la m√©diane ?**\n- Plus robuste que la moyenne face aux outliers\n- Pr√©serve la distribution originale\n- √âvite d'introduire des valeurs irr√©alistes\n"


###  2.4. Encodage des variables cat√©gorielles : Challenge #4

**Contexte** : 40 variables cat√©gorielles (TypeLogmt, H17A-J, H18A-J, Connexion, etc.)

**3 strat√©gies test√©es** :


####  2.4.1. LabelEncoder (utilis√© ici)

In [None]:

from sklearn.preprocessing import LabelEncoder

label_encoders = {}
for col in categorical_cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col].astype(str))
    label_encoders[col] = le  # Sauvegarde pour inverse_transform


**Avantages** :
-  Rapide et peu co√ªteux en m√©moire
-  Compatible Random Forest (g√®re l'ordinalit√© implicite)

**Inconv√©nients** :
-  Introduit un ordre artificiel (ex: TypeLogmt_1=0, TypeLogmt_2=1, TypeLogmt_3=2)
-  Probl√©matique pour les mod√®les lin√©aires (Logistic Regression)


####   2.4.2. OneHotEncoder (alternative test√©e)

In [None]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
encoded = encoder.fit_transform(df[categorical_cols])

# Probl√®me : explosion dimensionnelle
# 40 colonnes cat√©gorielles ‚Üí 150-200 colonnes after OHE


**Verdict** : Abandonn√© car :
- Augmente encore plus la dimensionnalit√© (4000 ‚Üí 4200+ colonnes)
- Random Forest n'a pas besoin d'OHE



####   2.4.3. ColumnTransformer (approche mixte - recommand√©e)

In [None]:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

preprocessor = ColumnTransformer([
    ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_cols),
    ("num", StandardScaler(), numeric_cols)
])

# Int√©gration dans un Pipeline
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('model', RandomForestClassifier())
])


**Meilleure pratique** : Utiliser `ColumnTransformer` + `Pipeline` pour :
- √âviter le data leakage (fit sur train, transform sur test)
- Assurer la reproductibilit√©
- D√©ploiement simplifi√© (un seul objet .pkl)


###   2.5. Normalisation (StandardScaler) : Challenge #5

**Pourquoi normaliser ?**


In [None]:
# Avant normalisation
print(df['TAILLE_MENAGE'].describe())
# mean: 4.47, std: 2.89, min: 1, max: 25

print(df['.0'].describe())  # Feature MOSAIKS
# mean: 0.00034, std: 0.00012, min: -0.0005, max: 0.0015


**√âchelles tr√®s diff√©rentes** ‚Üí Probl√®me pour :
- PCA (dominance des grandes valeurs)
- Mod√®les lin√©aires (poids biais√©s)
- Calcul de distances

**Solution** :


In [None]:

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df_scaled = scaler.fit_transform(df[numeric_cols])

# R√©sultat : mean ‚âà 0, std ‚âà 1 pour toutes les features

##  3. **Feature Engineering : De 4000 √† 72 features intelligentes**

###   3.1. PCA sur les features MOSAIKS

**Probl√®me** : 4001 features MOSAIKS ‚Üí Multicolin√©arit√© extr√™me + Overfitting

**Solution : PCA (Principal Component Analysis)**


In [None]:

from sklearn.decomposition import PCA

# Extraction des features MOSAIKS
mosaiks_features = df[mosaiks_cols]

# Normalisation AVANT PCA (obligatoire)
scaler_mosaiks = StandardScaler()
mosaiks_scaled = scaler_mosaiks.fit_transform(mosaiks_features)

# PCA : r√©duction √† 30 composantes
pca = PCA(n_components=30, random_state=45)
mosaiks_pca = pca.fit_transform(mosaiks_scaled)

# Conversion en DataFrame
pca_df = pd.DataFrame(
    mosaiks_pca,
    columns=[f'PCA_MOSAIKS_{i}' for i in range(30)]
)

print(f"Variance expliqu√©e : {pca.explained_variance_ratio_.sum():.4f}")
# R√©sultat : 0.9970 (99.7% de variance conserv√©e !)

**Visualisation de la variance expliqu√©e** :

In [None]:

import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))

# Graphique 1 : Variance par composante
plt.subplot(1, 2, 1)
plt.plot(range(1, 31), pca.explained_variance_ratio_, 'bo-')
plt.xlabel('Composante Principale')
plt.ylabel('Variance Expliqu√©e')
plt.title('Variance par Composante')
plt.grid(alpha=0.3)

# Graphique 2 : Variance cumul√©e
plt.subplot(1, 2, 2)
plt.plot(range(1, 31), np.cumsum(pca.explained_variance_ratio_), 'ro-')
plt.axhline(y=0.95, color='g', linestyle='--', label='95% variance')
plt.axhline(y=0.997, color='b', linestyle='--', label='99.7% variance')
plt.xlabel('Nombre de Composantes')
plt.ylabel('Variance Cumul√©e')
plt.title('Variance Cumul√©e')
plt.legend()
plt.grid(alpha=0.3)

plt.tight_layout()
plt.show()


**D√©couverte cl√©** :
- Les **10 premi√®res composantes** capturent d√©j√† **95% de la variance**
- Les 20 derni√®res composantes ajoutent seulement 2%
- On aurait pu descendre √† 15-20 composantes sans perte significative


###   3.2. S√©lection des features socio-√©conomiques

In [None]:




**Probl√®me** : 42 variables socio-√©conomiques, mais toutes ne sont pas pertinentes.

**Solution : SelectKBest avec Mutual Information**

```python
from sklearn.feature_selection import SelectKBest, mutual_info_classif

# Extraction des features socio-√©conomiques (d√©j√† encod√©es)
socio_features = df[socio_cols]

# S√©lection des k meilleures features
k_socio = 42  # Commencer avec toutes, puis r√©duire
selector = SelectKBest(score_func=mutual_info_classif, k=k_socio)
selector.fit(socio_features, y_train)

# Ranking des features par importance
feature_scores = pd.DataFrame({
    'Feature': socio_cols,
    'Score': selector.scores_
}).sort_values('Score', ascending=False)

print(feature_scores.head(10))



**R√©sultats top 10** :

| Feature | Mutual Info Score |
||-|
| Connexion | 0.4512 |
| TypeLogmt_3 | 0.0892 |
| TAILLE_MENAGE | 0.0645 |
| H18E (√âquipement) | 0.0423 |
| H08_Impute | 0.0389 |
| TypeLogmt_1 | 0.0301 |
| H20A | 0.0267 |
| H17B | 0.0234 |
| H09_Impute | 0.0198 |
| H18A | 0.0176 |

**Insight** : La variable `Connexion` (infrastructure existante) domine avec 45% d'information mutuelle. C'est le **pr√©dicteur le plus puissant**.


### 3.3. Feature Importance avec LightGBM

**Approche alternative** : Entra√Æner un LightGBM rapide pour estimer l'importance.


In [None]:

from lightgbm import LGBMClassifier

# Fusion PCA + Socio
X_combined = pd.concat([pca_df, socio_features], axis=1)

# Mod√®le LightGBM rapide
lgbm_selector = LGBMClassifier(
    n_estimators=100,
    learning_rate=0.1,
    random_state=45,
    verbose=-1
)
lgbm_selector.fit(X_combined, y_train)

# Extraction des importances
feature_importances = pd.DataFrame({
    'Feature': X_combined.columns,
    'Importance': lgbm_selector.feature_importances_
}).sort_values('Importance', ascending=False)

# S√©lection des 100 features les plus importantes
top_100_features = feature_importances.head(100)['Feature'].tolist()
X_final = X_combined[top_100_features]

print(f"R√©duction : {X_combined.shape[1]} ‚Üí {len(top_100_features)} features")
# R√©sultat : 72 ‚Üí 100 features (ou moins selon le seuil)


**Astuce** : Cette approche est **plus rapide** que des m√©thodes exhaustives (RFE) et donne de bons r√©sultats en pratique.


### 3.4. Dataset final apr√®s feature engineering

```
Dataset Final : 30 558 observations √ó 72 colonnes
‚îÇ
‚îú‚îÄ‚îÄ 30 composantes PCA (MOSAIKS compress√©es)
‚îú‚îÄ‚îÄ 42 variables socio-√©conomiques (encod√©es)
‚îî‚îÄ‚îÄ 1 variable cible (Acc√®s internet)

R√©duction dimensionnelle : 4043 ‚Üí 72 (-98.2%)
Variance MOSAIKS conserv√©e : 99.7%
Information socio-√©conomique : 100% (toutes gard√©es)
```



## 4. **Mod√©lisation : Comparaison syst√©matique**

### M√©thodologie rigoureuse

In [None]:

# Train/Test Split stratifi√©
X_train, X_test, y_train, y_test = train_test_split(
    X_final, y,
    test_size=0.20,
    random_state=45,  # Reproductibilit√©
    stratify=y         # Pr√©serve la distribution 51:49
)

print(f"Train set : {X_train.shape}")  # (24 446, 72)
print(f"Test set  : {X_test.shape}")   # (6 112, 72)

print(f"\nDistribution y_train:")
print(y_train.value_counts(normalize=True))
# 0    0.512
# 1    0.488


### 4.1. Mod√®les test√©s et r√©sultats

#### 4.1.1Ô∏è. Logistic Regression (Baseline)


**Pourquoi random_state=45 ?**
- Permet la **reproductibilit√© exacte** des r√©sultats
- Facilite le debugging et la comparaison d'exp√©riences
- Convention : utiliser le m√™me random_state partout (PCA, KMeans, split, mod√®les)


In [None]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(
    max_iter=500,
    random_state=45,
    class_weight='balanced'
)
lr.fit(X_train, y_train)

# R√©sultats
# Accuracy : 81.7%
# F1-Score : 83.5%
# AUC      : 0.853

**Analyse** :
-  Rapide √† entra√Æner (< 5 sec)
-  Interpr√©table (coefficients)
-  Performance limit√©e (AUC 0.85)
-  Suppose des relations lin√©aires (faux ici)



#### 4.1.2Ô∏è. Random Forest (Champion)


In [None]:
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(
    n_estimators=300,
    max_depth=20,
    min_samples_split=5,
    min_samples_leaf=2,
    class_weight='balanced',
    random_state=45,
    n_jobs=-1,
    verbose=0
)
rf.fit(X_train, y_train)

# R√©sultats
# Accuracy : 86.4%
# F1-Score : 87.3%
# AUC      : 0.907


**Hyperparam√®tres optimaux** :
- `n_estimators=300` : Bon compromis performance/temps (vs 500)
- `max_depth=20` : Profondeur suffisante sans overfitting
- `min_samples_split=5` : Emp√™che les arbres trop sp√©cifiques
- `class_weight='balanced'` : Compense le l√©ger d√©s√©quilibre

**Pourquoi Random Forest gagne ?**
1. **Robustesse aux corr√©lations** : Les 72 features (dont 30 PCA) ont des corr√©lations r√©siduelles. RF les g√®re mieux que les mod√®les lin√©aires.
2. **Capture des interactions** : Relations complexes entre `zone_geographique` √ó `taille_menage` √ó `connexion`.
3. **G√©n√©ralisation spatiale** : Moins d'overfitting que XGBoost/LightGBM sur les clusters g√©ographiques.


#### 4.1.3Ô∏è. LightGBM (Runner-up)

In [None]:
from lightgbm import LGBMClassifier

lgbm = LGBMClassifier(
    n_estimators=800,
    learning_rate=0.03,
    num_leaves=64,
    max_depth=12,
    subsample=0.8,
    colsample_bytree=0.8,
    random_state=45,
    verbose=-1
)
lgbm.fit(X_train, y_train)

# R√©sultats
# Accuracy : 86.2%
# F1-Score : 87.3%
# AUC      : 0.909  ü•à (sur certains runs)

**Analyse** :
-  Tr√®s rapide (~3 sec vs 15 sec pour RF)
-  Performances similaires voire l√©g√®rement sup√©rieures
-  Plus sensible aux hyperparam√®tres
-  Risque d'overfitting si mal r√©gl√©

** Quand pr√©f√©rer LightGBM ?**
- Datasets tr√®s larges (> 100K lignes)
- Contraintes de temps d'entra√Ænement
- Comp√©titions Kaggle (optimisation pouss√©e)



#### 4.1.4Ô∏è. XGBoost

In [None]:

from xgboost import XGBClassifier

xgb = XGBClassifier(
    n_estimators=500,
    learning_rate=0.05,
    max_depth=10,
    eval_metric='logloss',
    use_label_encoder=False,
    random_state=45
)
xgb.fit(X_train, y_train)

# R√©sultats
# Accuracy : 83.8%
# F1-Score : 85.5%
# AUC      : 0.873


**Analyse** :
-  Solide et stable
-  Moins performant que RF et LightGBM ici
-  Plus lent que LightGBM


### 4.2. Tableau comparatif final



| Mod√®le | Accuracy | F1-Score | **AUC** | Temps (sec) | Complexit√© |
|--|-|-||-||
| **Random Forest** | **86.4%** | **87.3%** | **0.907** | ~15 | Moyenne |
| **LightGBM** | 86.2% | 87.3% | **0.909** | ~3 | Haute |
| XGBoost | 83.8% | 85.5% | 0.873 | ~8 | Haute |
| Gradient Boosting | 83.5% | 85.5% | 0.865 | ~45 | Moyenne |
| Logistic Regression | 81.7% | 83.5% | 0.853 | ~1 | Faible |

**Verdict** : Random Forest s√©lectionn√© pour :
- Meilleure stabilit√© en cross-validation (CV)
- Moins de risque d'overfitting
- Interpr√©tabilit√© via feature importance
- D√©ploiement simplifi√© (pas de d√©pendances XGBoost/LightGBM)


## 4.3. Validation Crois√©e : La preuve de robustesse

### 4.3.1. StratifiedKFold √† 5 splits


In [None]:

from sklearn.model_selection import StratifiedKFold, cross_val_score

# Configuration
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=45)

# Validation crois√©e pour chaque mod√®le
models = {
    'Random Forest': rf,
    'LightGBM': lgbm,
    'XGBoost': xgb,
    'Logistic Regression': lr
}

cv_results = {}
for name, model in models.items():
    scores = cross_val_score(
        model, X_train, y_train,
        cv=skf,
        scoring='roc_auc',
        n_jobs=-1
    )
    cv_results[name] = {
        'Mean AUC': scores.mean(),
        'Std AUC': scores.std(),
        'Min AUC': scores.min(),
        'Max AUC': scores.max()
    }

# Affichage
cv_df = pd.DataFrame(cv_results).T.sort_values('Mean AUC', ascending=False)
print(cv_df)


**R√©sultats CV** :

| Mod√®le | Mean AUC | Std AUC | Min AUC | Max AUC |
|--|-||||
| Random Forest | **0.8990** | 0.0032 | 0.8952 | 0.9021 |
| LightGBM | 0.8928 | 0.0048 | 0.8861 | 0.8989 |
| XGBoost | 0.8878 | 0.0055 | 0.8798 | 0.8943 |
| Logistic Regression | 0.8527 | 0.0067 | 0.8432 | 0.8611 |

**Observation cl√©** :
- Random Forest a le **meilleur Mean AUC** (0.899)
- Random Forest a le **plus faible Std** (0.0032) ‚Üí Plus stable !
- LightGBM est proche mais plus variable (Std 0.0048)


### 4.3.2. Validation spatiale (recommandation avanc√©e)

**Probl√®me** : Les donn√©es ont une structure spatiale (zones g√©ographiques). La validation crois√©e standard peut surestimer les performances.

**Solution : GroupKFold**


In [None]:
from sklearn.model_selection import GroupKFold

# Utiliser 'zone_geographique' comme groupes
groups = df['zone_geographique']

gkf = GroupKFold(n_splits=5)
spatial_cv_scores = cross_val_score(
    rf, X_train, y_train,
    cv=gkf.split(X_train, y_train, groups[X_train.index]),
    scoring='roc_auc'
)

print(f"Spatial CV AUC : {spatial_cv_scores.mean():.4f} ¬± {spatial_cv_scores.std():.4f}")
# R√©sultat attendu : ~0.88-0.90 (l√©g√®rement inf√©rieur √† StratifiedKFold)


**Meilleure pratique** : Pour des donn√©es g√©ospatiales, toujours faire une validation spatiale en compl√©ment de la validation standard.


## üîç Feature Importance : Que nous dit le mod√®le ?

### Top 20 des features (Random Forest)


In [None]:

# Extraction des importances
importances = rf.feature_importances_
feature_names = X_train.columns

importance_df = pd.DataFrame({
    'Feature': feature_names,
    'Importance': importances
}).sort_values('Importance', ascending=False)

# Top 20
top_20 = importance_df.head(20)

# Visualisation
plt.figure(figsize=(12, 8))
plt.barh(top_20['Feature'], top_20['Importance'], color='teal')
plt.xlabel('Importance')
plt.title('Top 20 Features - Random Forest', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

print(top_20)


**R√©sultats** :

| Feature | Importance | Type |
||--||
| Connexion | 40.64% | Socio-√©conomique |
| ID | 13.94% | Identifiant (√† investiguer) |
| TAILLE_MENAGE | 7.34% | Socio-√©conomique |
| TypeLogmt_3 | 5.00% | Socio-√©conomique |
| H08_Impute | 3.83% | √âquipement m√©nage |
| H09_Impute | 2.52% | √âquipement m√©nage |
| PCA_MOSAIKS_0 | 1.89% | G√©ospatial |
| zone_geographique | 1.45% | G√©ospatial |
| H20A | 1.32% | √âquipement agricole |
| H18E | 1.21% | √âquipement m√©nage |


## 5. **Performances D√©taill√©es**

### 5.1. Matrice de confusion

```
                Pr√©dit: 0 | Pr√©dit: 1
R√©el: 0              3120  |        10
R√©el: 1               825  |      2157
```

**M√©triques par classe** :

In [None]:

from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.79      1.00      0.88      3130
           1       1.00      0.72      0.84      2982

    accuracy                           0.86      6112
   macro avg       0.89      0.86      0.86      6112
weighted avg       0.89      0.86      0.86      6112


**Interpr√©tation** :
- **Classe 0 (Pas d'acc√®s)** : Recall = 100%, Precision = 79%
  -  Le mod√®le **identifie tous les m√©nages sans acc√®s**
  -  Mais il **sur-pr√©dit** cette classe (quelques faux positifs)
  
- **Classe 1 (Acc√®s)** : Recall = 72%, Precision = 100%
  -  Quand le mod√®le pr√©dit "acc√®s", il a **toujours raison** (Precision = 100%)
  -  Mais il **manque 28%** des m√©nages avec acc√®s (False Negatives)

**Trade-off** :
- Pour un **op√©rateur t√©l√©com** : Maximiser Precision Classe 1 (√©viter de cibler des non-clients)
- Pour le **gouvernement** : Maximiser Recall Classe 0 (identifier toutes les zones non couvertes)


### 5.2. Courbe ROC

In [None]:

from sklearn.metrics import roc_curve, auc

# Calcul des probabilit√©s
y_proba = rf.predict_proba(X_test)[:, 1]

# Courbe ROC
fpr, tpr, thresholds = roc_curve(y_test, y_proba)
roc_auc = auc(fpr, tpr)

# Visualisation
plt.figure(figsize=(10, 7))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {roc_auc:.3f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Random Classifier')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate', fontsize=12)
plt.ylabel('True Positive Rate', fontsize=12)
plt.title('Courbe ROC - Random Forest', fontsize=14, fontweight='bold')
plt.legend(loc="lower right", fontsize=12)
plt.grid(alpha=0.3)
plt.show()

**AUC = 0.907** : Excellent pouvoir discriminant !

### 5.3. Courbe Precision-Recall

In [None]:

from sklearn.metrics import precision_recall_curve, average_precision_score

precision, recall, _ = precision_recall_curve(y_test, y_proba)
ap_score = average_precision_score(y_test, y_proba)

plt.figure(figsize=(10, 7))
plt.plot(recall, precision, color='green', lw=2, label=f'PR curve (AP = {ap_score:.3f})')
plt.xlabel('Recall', fontsize=12)
plt.ylabel('Precision', fontsize=12)
plt.title('Courbe Precision-Recall - Random Forest', fontsize=14, fontweight='bold')
plt.legend(loc="lower left", fontsize=12)
plt.grid(alpha=0.3)
plt.show()

**Average Precision = 0.91** : Tr√®s bon √©quilibre precision/recall.

## 6. **D√©ploiement : Pipeline Production-Ready**

### Pipeline Scikit-Learn complet


In [None]:

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest, mutual_info_classif
from sklearn.ensemble import RandomForestClassifier

# D√©finition des types de colonnes
mosaiks_cols = [...]  # Liste des 4001 features MOSAIKS
socio_numeric = ['TAILLE_MENAGE', ...]
socio_categorical = ['TypeLogmt_1', 'Connexion', ...]

# Preprocessing pour MOSAIKS : Scale + PCA
mosaiks_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('pca', PCA(n_components=30, random_state=45))
])

# Preprocessing pour Socio : OHE + SelectKBest
socio_pipeline = Pipeline([
    ('encoder', OneHotEncoder(handle_unknown='ignore', sparse=False)),
    ('selector', SelectKBest(score_func=mutual_info_classif, k=5))
])

# ColumnTransformer : Appliquer les pipelines en parall√®le
preprocessor = ColumnTransformer([
    ('mosaiks', mosaiks_pipeline, mosaiks_cols),
    ('socio', socio_pipeline, socio_categorical + socio_numeric)
])

# Pipeline final : Preprocessing + Mod√®le
final_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('model', RandomForestClassifier(
        n_estimators=300,
        max_depth=20,
        min_samples_split=5,
        min_samples_leaf=2,
        class_weight='balanced',
        random_state=45,
        n_jobs=-1
    ))
])

# Entra√Ænement
final_pipeline.fit(X_train, y_train)

# Pr√©diction
y_pred = final_pipeline.predict(X_test)
y_proba = final_pipeline.predict_proba(X_test)

**Avantages du Pipeline** :
1. **√âvite le data leakage** : Fit sur train, transform sur test
2. **Reproductibilit√©** : Toutes les √©tapes encapsul√©es
3. **D√©ploiement simplifi√©** : Un seul objet √† sauvegarder

### Sauvegarde et chargement du mod√®le

In [None]:

import joblib

# Sauvegarde
joblib.dump(final_pipeline, 'togo_ftth_model_v1.pkl', compress=3)

# Chargement
loaded_pipeline = joblib.load('togo_ftth_model_v1.pkl')

# Pr√©diction sur nouvelles donn√©es
new_predictions = loaded_pipeline.predict(X_new)
new_probabilities = loaded_pipeline.predict_proba(X_new)[:, 1]

**Bonne pratique** :
- Versionner les mod√®les (`v1`, `v2`, etc.)
- Sauvegarder aussi les m√©tadonn√©es (date, performances, hyperparam√®tres)
- Utiliser MLflow ou DVC pour le tracking

## TIPS A RETENIR :  `10 Astuces pour des Projets Similaires`

### 1Ô∏è‚É£ **S√©parer les features g√©ospatiales des socio-√©conomiques**


```python
# Mauvaise approche : tout m√©langer
X_all = pd.concat([mosaiks_df, socio_df], axis=1)
scaler.fit_transform(X_all)  # PCA sur tout ‚Üí perte d'interpr√©tabilit√©

# Bonne approche : traiter s√©par√©ment
mosaiks_pca = pca.fit_transform(scaler.fit_transform(mosaiks_df))
socio_selected = selector.fit_transform(socio_df, y)
X_final = np.hstack([mosaiks_pca, socio_selected])
```



### 2Ô∏è‚É£ **Toujours faire l'EDA APR√àS r√©duction dimensionnelle**

```python
#  Analyser 4000 features brutes = perte de temps
df[mosaiks_cols].describe()  # Illisible

#  R√©duire d'abord, analyser ensuite
pca_df.corrwith(y).abs().sort_values(ascending=False)  # Lisible
```



### 3Ô∏è‚É£ **Utiliser le m√™me random_state partout**

```python
RANDOM_STATE = 45  # Constante globale

PCA(random_state=RANDOM_STATE)
KMeans(random_state=RANDOM_STATE)
train_test_split(..., random_state=RANDOM_STATE)
RandomForestClassifier(random_state=RANDOM_STATE)
```

**R√©sultat** : Reproductibilit√© 100%



### 4Ô∏è‚É£ **Valider avec StratifiedKFold ET GroupKFold**

```python
# Standard CV
skf = StratifiedKFold(n_splits=5)
scores_skf = cross_val_score(model, X, y, cv=skf)

# Spatial CV (pour donn√©es g√©ographiques)
gkf = GroupKFold(n_splits=5)
scores_gkf = cross_val_score(model, X, y, cv=gkf, groups=zones)

print(f"Standard CV : {scores_skf.mean():.3f}")
print(f"Spatial CV  : {scores_gkf.mean():.3f}")
# Si √©cart > 5% ‚Üí overfitting spatial
```



### 5Ô∏è‚É£ **Ne pas n√©gliger Logistic Regression comme baseline**

```python
# Toujours commencer par un mod√®le simple
lr = LogisticRegression(max_iter=500)
lr.fit(X_train, y_train)
baseline_auc = roc_auc_score(y_test, lr.predict_proba(X_test)[:, 1])

print(f"Baseline AUC : {baseline_auc:.3f}")
# Si RF/XGBoost n'apportent que +2-3%, le gain ne vaut peut-√™tre pas la complexit√©
```



### 6Ô∏è‚É£ **Utiliser SHAP pour valider les pr√©dictions**

```python
# Si SHAP montre que le mod√®le utilise des features bizarres (ID, colonnes techniques)
# ‚Üí Data leakage probable !

explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)
shap.summary_plot(shap_values[1], X_test)

# V√©rifier : Les features importantes sont-elles logiques ?
```



### 7Ô∏è‚É£ **Sauvegarder les encodeurs ET le mod√®le**

```python
#  Ne sauvegarder que le mod√®le
joblib.dump(rf, 'model.pkl')
# Probl√®me : Comment encoder les nouvelles donn√©es cat√©gorielles ?

#  Sauvegarder le pipeline complet
pipeline = Pipeline([...])
joblib.dump(pipeline, 'model_pipeline.pkl')
# Tout est inclus : encodeurs, scaler, PCA, mod√®le
```



### 8Ô∏è‚É£ **Grid Search avec RandomizedSearchCV (pas GridSearchCV)**

```python
from sklearn.model_selection import RandomizedSearchCV

# Grid Search exhaustif : 3^5 = 243 combinaisons
param_grid = {
    'n_estimators': [100, 300, 500],
    'max_depth': [10, 20, 30],
    'min_samples_split': [2, 5, 10]
}
# Temps : ~2 heures

# Randomized Search : 50 combinaisons al√©atoires
param_dist = {
    'n_estimators': [100, 200, 300, 400, 500],
    'max_depth': randint(5, 30),
    'min_samples_split': randint(2, 20)
}
random_search = RandomizedSearchCV(rf, param_dist, n_iter=50, cv=5)
# Temps : ~20 minutes, performances similaires
```



### 9Ô∏è‚É£ **Monitorer le temps d'entra√Ænement**

```python
import time

start = time.time()
model.fit(X_train, y_train)
end = time.time()

print(f"Temps d'entra√Ænement : {end - start:.2f} secondes")

# Si > 60 secondes :
# - R√©duire n_estimators
# - Utiliser LightGBM au lieu de RandomForest
# - Faire du subsampling (sample_weight)
```



### üîü **Documentation et reproductibilit√©**

```python
# Cr√©er un fichier metadata.json
metadata = {
    'model': 'RandomForest',
    'version': 'v1.0',
    'date': '2024-12-23',
    'train_size': X_train.shape[0],
    'test_size': X_test.shape[0],
    'features': X_train.columns.tolist(),
    'hyperparameters': rf.get_params(),
    'performance': {
        'accuracy': accuracy,
        'f1_score': f1,
        'auc': auc_score
    },
    'preprocessing': {
        'pca_components': 30,
        'scaler': 'StandardScaler',
        'encoder': 'LabelEncoder'
    }
}

import json
with open('model_metadata.json', 'w') as f:
    json.dump(metadata, f, indent=4)
```



## üåç Impact R√©el et Applications

### Pour les Op√©rateurs T√©l√©coms

**Cas d'usage** : Scoring de la base clients

```python
# Charger la base clients existante (ADSL/4G)
clients_df = pd.read_csv('base_clients_togocom.csv')

# Pr√©diction de la probabilit√© d'adoption FTTH
clients_df['prob_ftth'] = loaded_pipeline.predict_proba(clients_df)[:, 1]

# Segmentation
clients_df['segment'] = pd.cut(
    clients_df['prob_ftth'],
    bins=[0, 0.3, 0.7, 1.0],
    labels=['Faible potentiel', 'Potentiel moyen', 'Haute probabilit√©']
)

# Top 1000 prospects
top_prospects = clients_df.nlargest(1000, 'prob_ftth')
top_prospects.to_csv('campagne_ftth_top1000.csv', index=False)
```

**Impact financier** :
- CAC standard : 200‚Ç¨
- CAC avec scoring IA : 120‚Ç¨ (-40%)
- Volume : 5000 clients/an
- **√âconomies annuelles : 400 000‚Ç¨**



### Pour le Gouvernement

**Cas d'usage** : Cartographie des zones prioritaires

```python
# Charger les donn√©es administratives
communes_df = pd.read_csv('communes_togo.csv')

# Pr√©diction par commune
communes_df['taux_acces_predit'] = loaded_pipeline.predict(communes_df).mean()

# Identifier les zones exclues
zones_exclues = communes_df[communes_df['taux_acces_predit'] < 0.2]

# Plan d'investissement
zones_exclues['cout_deploiement_estime'] = zones_exclues['nb_menages'] * 400
zones_exclues['budget_subvention'] = zones_exclues['cout_deploiement_estime'] * 0.4

print(f"Budget total subventions : {zones_exclues['budget_subvention'].sum():,.0f}‚Ç¨")
```



## üìö Ressources et R√©f√©rences

### Datasets
- **RGPH Togo** : Institut National de la Statistique (INSEED)
- **MOSAIKS** : https://github.com/Global-Policy-Lab/mosaiks-paper
- **API MOSAIKS** : https://siml.berkeley.edu/

### Biblioth√®ques Python
```txt
pandas==2.2.2
numpy==2.0.2
scikit-learn==1.6.1
xgboost==3.1.2
lightgbm==4.6.0
matplotlib==3.10.0
seaborn==0.13.2
shap==0.44.0
joblib==1.5.3
```

### Articles Scientifiques
1. Rolf et al. (2021) - "A generalizable and accessible approach to machine learning with global satellite imagery"
2. Steele et al. (2017) - "Mapping poverty using mobile phone and satellite data"
3. Jean et al. (2016) - "Combining satellite imagery and machine learning to predict poverty"



## üé§ Conclusion et Perspectives

### Ce que j'ai appris

1. **La r√©duction dimensionnelle n'est pas optionnelle** : PCA sur 4000 features ‚Üí gain de performance ET de temps
2. **Random Forest reste un champion** : Simple, robuste, interpr√©table. Ne pas n√©gliger au profit du hype XGBoost/LightGBM.
3. **Le preprocessing vaut 80% du r√©sultat** : S√©paration MOSAIKS/Socio, encodage intelligent, pipelines propres.
4. **L'infrastructure existante est le meilleur pr√©dicteur** : Dans les projets t√©l√©coms, scorer d'abord la base clients.
5. **SHAP est indispensable** : Pour valider que le mod√®le utilise des features logiques et non du bruit.



### Perspectives d'am√©lioration

**Court terme** (1-2 semaines) :
1. **Stacking Ensemble** : Combiner RF + LightGBM + XGBoost ‚Üí Gain AUC +1-2%
2. **Optuna** : Optimisation bay√©sienne des hyperparam√®tres ‚Üí Gain AUC +0.5-1%
3. **Feature Engineering** : Interactions (menage √ó zone, connexion √ó logement)

**Moyen terme** (1-2 mois) :

1. **Donn√©es temporelles** : Int√©grer l'√©volution du taux d'acc√®s dans le temps
2. **Transfer Learning** : Appliquer le mod√®le au B√©nin, Ghana (pays voisins)
3. **Deep Learning** : Tester un TabNet ou FT-Transformer sur les features MOSAIKS

**Long terme** (6 mois) :

1. **API REST** : D√©ploiement Flask/FastAPI pour scoring en temps r√©el
2. **Dashboard interactif** : Streamlit/Dash pour les d√©cideurs
3. **Monitoring** : MLflow pour tracker la d√©rive des performances



##  Discussion

**3 Questions pour la communaut√©** :

1. **PCA vs Autoencoders** : ```Avez-vous test√© des autoencoders pour compresser les features MOSAIKS ? Gains observ√©s ?```

2. **Data Leakage potentiel** : ```La variable `ID` (13.94% d'importance) vous semble-t-elle l√©gitime ou est-ce un red flag de leakage ?```

3. **Validation spatiale** : ```Quelle strat√©gie utilisez-vous pour valider des mod√®les sur donn√©es g√©ographiques ? GroupKFold suffit-il ?```

**Partagez vos exp√©riences** en commentaire !






