# S√©ance 5 ‚Äî PyCaret pour prototypage rapide

## üéØ Objectifs
- Prototyper des mod√®les rapidement avec PyCaret
- Comparer automatiquement plusieurs algorithmes
- Interpr√©ter les r√©sultats avec des visualisations
- Exporter et sauvegarder le meilleur mod√®le

---

## üìö Introduction

**PyCaret** est une biblioth√®que d'AutoML low-code qui simplifie le workflow de machine learning. Elle permet de comparer rapidement des dizaines de mod√®les et d'automatiser le preprocessing.

**Installation :**
```bash
pip install pycaret[full]
```

**Note**: PyCaret fonctionne mieux avec un environnement isol√© (virtualenv ou conda).

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pycaret.classification import *
import warnings
warnings.filterwarnings('ignore')

# Configuration
np.random.seed(42)
plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

## üìä 1. Pr√©paration des donn√©es

Nous allons cr√©er un dataset de classification textuelle simplifi√©e avec des features num√©riques extraites.

In [None]:
# Cr√©ation d'un dataset avec features textuelles extraites
np.random.seed(42)
n_samples = 500

# Simuler deux types de documents: Technical vs General
# Technical: plus long, plus de mots rares, phrases complexes
technical_docs = {
    'text_length': np.random.normal(2000, 500, n_samples // 2).clip(500, 5000),
    'avg_word_length': np.random.normal(7, 1.5, n_samples // 2).clip(3, 15),
    'num_sentences': np.random.normal(50, 15, n_samples // 2).clip(10, 150),
    'rare_word_count': np.random.poisson(30, n_samples // 2),
    'technical_terms': np.random.poisson(25, n_samples // 2),
    'avg_sentence_length': np.random.normal(25, 5, n_samples // 2).clip(10, 50),
    'unique_word_ratio': np.random.uniform(0.5, 0.8, n_samples // 2),
    'punctuation_count': np.random.normal(100, 30, n_samples // 2).clip(20, 300),
    'category': ['Technical'] * (n_samples // 2)
}

# General: plus court, mots simples, phrases courtes
general_docs = {
    'text_length': np.random.normal(800, 300, n_samples // 2).clip(200, 2000),
    'avg_word_length': np.random.normal(5, 1, n_samples // 2).clip(3, 10),
    'num_sentences': np.random.normal(20, 8, n_samples // 2).clip(5, 60),
    'rare_word_count': np.random.poisson(8, n_samples // 2),
    'technical_terms': np.random.poisson(3, n_samples // 2),
    'avg_sentence_length': np.random.normal(15, 3, n_samples // 2).clip(8, 30),
    'unique_word_ratio': np.random.uniform(0.3, 0.6, n_samples // 2),
    'punctuation_count': np.random.normal(40, 15, n_samples // 2).clip(10, 100),
    'category': ['General'] * (n_samples // 2)
}

# Combiner et m√©langer
df_tech = pd.DataFrame(technical_docs)
df_gen = pd.DataFrame(general_docs)
df = pd.concat([df_tech, df_gen], ignore_index=True)
df = df.sample(frac=1, random_state=42).reset_index(drop=True)

print(f"Dataset cr√©√© avec {len(df)} documents")
print(f"\nDistribution des classes:")
print(df['category'].value_counts())
print("\nAper√ßu des donn√©es:")
df.head(10)

## üîç 2. Analyse exploratoire

In [None]:
# Statistiques descriptives par cat√©gorie
print("=" * 80)
print("STATISTIQUES PAR CAT√âGORIE")
print("=" * 80)
print(df.groupby('category').mean())

# Visualisation
fig, axes = plt.subplots(2, 3, figsize=(16, 10))
axes = axes.ravel()

features = ['text_length', 'avg_word_length', 'num_sentences', 
            'rare_word_count', 'technical_terms', 'avg_sentence_length']

for idx, feature in enumerate(features):
    for cat in df['category'].unique():
        data = df[df['category'] == cat][feature]
        axes[idx].hist(data, alpha=0.6, label=cat, bins=20)
    axes[idx].set_xlabel(feature)
    axes[idx].set_ylabel('Fr√©quence')
    axes[idx].set_title(f'Distribution: {feature}')
    axes[idx].legend()
    axes[idx].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## ‚öôÔ∏è 3. Configuration de PyCaret

La fonction `setup()` initialise l'environnement PyCaret et effectue automatiquement le preprocessing.

In [None]:
# Configuration de PyCaret
clf = setup(
    data=df,
    target='category',
    session_id=42,
    train_size=0.8,
    normalize=True,  # Normalisation des features
    feature_selection=False,  # Pas de s√©lection automatique pour ce demo
    remove_multicollinearity=False,
    silent=True,  # Moins de output
    verbose=False
)

print("‚úÖ PyCaret configur√© avec succ√®s!")

## üèÜ 4. Comparaison automatique de mod√®les

PyCaret peut comparer automatiquement des dizaines de mod√®les de classification.

In [None]:
# Comparer tous les mod√®les disponibles
print("Comparaison de tous les mod√®les (peut prendre quelques minutes)...\n")
best_models = compare_models(
    n_select=5,  # S√©lectionner les 5 meilleurs
    sort='F1',  # Trier par F1-score
    verbose=False
)

print("\n‚úÖ Comparaison termin√©e!")

## üéØ 5. Cr√©er et entra√Æner le meilleur mod√®le

In [None]:
# Cr√©er le meilleur mod√®le (bas√© sur la comparaison)
# Par exemple, essayons plusieurs mod√®les populaires

# Logistic Regression
lr = create_model('lr', verbose=False)
print("Logistic Regression cr√©√©")

# Random Forest
rf = create_model('rf', verbose=False)
print("Random Forest cr√©√©")

# XGBoost
xgb = create_model('xgboost', verbose=False)
print("XGBoost cr√©√©")

# LightGBM
lgb = create_model('lightgbm', verbose=False)
print("LightGBM cr√©√©")

print("\n‚úÖ Tous les mod√®les cr√©√©s!")

## üîß 6. Optimisation des hyperparam√®tres

In [None]:
# Tuner le meilleur mod√®le (XGBoost par exemple)
print("Optimisation des hyperparam√®tres...\n")
tuned_xgb = tune_model(
    xgb,
    optimize='F1',
    n_iter=10,  # Nombre d'it√©rations
    verbose=False
)

print("\n‚úÖ Mod√®le optimis√©!")

## üìä 7. Visualisations et interpr√©tation

In [None]:
# Matrice de confusion
print("Matrice de confusion:")
plot_model(tuned_xgb, plot='confusion_matrix', display_format='streamlit')

In [None]:
# Courbe ROC
print("Courbe ROC:")
plot_model(tuned_xgb, plot='auc', display_format='streamlit')

In [None]:
# Importance des features
print("Importance des features:")
plot_model(tuned_xgb, plot='feature', display_format='streamlit')

In [None]:
# Courbe Precision-Recall
print("Courbe Precision-Recall:")
plot_model(tuned_xgb, plot='pr', display_format='streamlit')

## üìà 8. √âvaluation finale sur l'ensemble de test

In [None]:
# √âvaluation finale
print("√âvaluation sur l'ensemble de test (hold-out):")
predictions = predict_model(tuned_xgb)
print(predictions.head(10))

## üé≠ 9. Ensemble de mod√®les (optionnel)

Combiner plusieurs mod√®les pour am√©liorer les performances.

In [None]:
# Cr√©er un ensemble (blending)
print("Cr√©ation d'un ensemble de mod√®les...\n")
blended = blend_models(
    estimator_list=[lr, rf, tuned_xgb],
    verbose=False
)

print("\n‚úÖ Ensemble cr√©√©!")

## üéì 10. Finalisation et export du mod√®le

In [None]:
# Finaliser le mod√®le (entra√Æner sur toutes les donn√©es)
print("Finalisation du mod√®le (entra√Ænement sur toutes les donn√©es)...")
final_model = finalize_model(tuned_xgb)
print("‚úÖ Mod√®le finalis√©!")

# Sauvegarder le mod√®le
print("\nSauvegarde du mod√®le...")
save_model(final_model, 'best_text_classifier')
print("‚úÖ Mod√®le sauvegard√© sous 'best_text_classifier.pkl'")

## üîÆ 11. Charger et utiliser le mod√®le sauvegard√©

In [None]:
# Charger le mod√®le
loaded_model = load_model('best_text_classifier')
print("‚úÖ Mod√®le charg√©!")

# Pr√©dictions sur de nouvelles donn√©es
new_data = pd.DataFrame({
    'text_length': [2500, 600, 1800],
    'avg_word_length': [8, 5, 7],
    'num_sentences': [60, 15, 45],
    'rare_word_count': [35, 5, 20],
    'technical_terms': [30, 2, 15],
    'avg_sentence_length': [28, 12, 22],
    'unique_word_ratio': [0.7, 0.4, 0.6],
    'punctuation_count': [120, 30, 80]
})

print("\nPr√©dictions sur nouvelles donn√©es:")
predictions_new = predict_model(loaded_model, data=new_data)
print(predictions_new[['prediction_label', 'prediction_score']])

## üìã 12. R√©sum√© des performances

In [None]:
# Obtenir les m√©triques du mod√®le
print("=" * 80)
print("R√âSUM√â DES PERFORMANCES DU MEILLEUR MOD√àLE")
print("=" * 80)
print(f"\nMod√®le: {type(final_model).__name__}")
print(f"\nM√©triques sur ensemble de validation (CV):")
# Ces m√©triques ont √©t√© affich√©es lors du create_model et tune_model
print("Voir les r√©sultats ci-dessus pour les m√©triques d√©taill√©es.")
print("\n‚úÖ Mod√®le pr√™t pour la production!")

## üéØ EXERCICE : Votre projet AutoML

**Objectif**: Utiliser PyCaret pour une t√¢che de classification ou r√©gression textuelle.

**Instructions**:
1. Cr√©ez ou utilisez un dataset avec des features extraites de texte
2. Configurez PyCaret avec diff√©rentes options de preprocessing
3. Comparez tous les mod√®les disponibles
4. Optimisez le meilleur mod√®le
5. Cr√©ez des visualisations pour interpr√©ter les r√©sultats
6. Exportez le mod√®le final

**Options avanc√©es √† explorer**:
- Feature engineering automatique
- S√©lection de features
- D√©tection d'outliers
- Stacking d'ensembles
- Calibration des probabilit√©s

**Questions √† r√©pondre**:
- Quel mod√®le performe le mieux ?
- Quelles features sont les plus importantes ?
- Y a-t-il du surapprentissage ?
- Comment am√©liorer les performances ?
- Le mod√®le est-il pr√™t pour la production ?

In [None]:
# VOTRE CODE ICI
# Exemple de structure:

# 1. Cr√©er/charger vos donn√©es
# my_data = ...

# 2. Configuration
# clf = setup(data=my_data, target='target_column', ...)

# 3. Comparaison
# best = compare_models()

# 4. Optimisation
# tuned = tune_model(best)

# 5. Visualisations
# plot_model(tuned, plot='confusion_matrix')
# plot_model(tuned, plot='feature')

# 6. Export
# final = finalize_model(tuned)
# save_model(final, 'my_model')

## üìù Conclusion

Dans cette s√©ance, nous avons appris √† :
- Utiliser PyCaret pour le prototypage rapide de mod√®les ML
- Comparer automatiquement des dizaines d'algorithmes
- Optimiser les hyperparam√®tres avec peu de code
- Cr√©er des visualisations pour interpr√©ter les mod√®les
- Exporter et r√©utiliser les mod√®les entra√Æn√©s

**Avantages de PyCaret** :
1. **Rapidit√©**: prototypage en quelques lignes de code
2. **Automatisation**: preprocessing, feature engineering, tuning
3. **Comparaison**: teste automatiquement de nombreux mod√®les
4. **Visualisations**: interpr√©tation facilit√©e
5. **Production**: export simple des mod√®les

**Limitations** :
- Moins de contr√¥le fin que scikit-learn pur
- N√©cessite de bonnes features en entr√©e
- Peut √™tre lent pour de tr√®s gros datasets
- Abstractions peuvent masquer certains probl√®mes

**Prochaines √©tapes** :
- Essayer PyCaret sur vos propres datasets
- Explorer les modules regression, clustering, anomaly detection
- Int√©grer PyCaret dans un pipeline de production
- Combiner avec deep learning pour le texte brut

**Ressources suppl√©mentaires** :
- Documentation PyCaret: https://pycaret.org/
- Tutoriels: https://pycaret.org/tutorial/
- GitHub: https://github.com/pycaret/pycaret