# üëã Tutoriel de Classification Multiclasse avec PyCaret

PyCaret est une biblioth√®que open-source de machine learning en Python avec peu de code, qui automatise les workflows de machine learning. C'est un outil de gestion de mod√®les et de machine learning de bout en bout qui acc√©l√®re exponentiellement le cycle d'exp√©rimentation et vous rend plus productif.

Compar√© aux autres biblioth√®ques de machine learning open-source, PyCaret est une biblioth√®que alternative avec peu de code qui peut remplacer des centaines de lignes de code par seulement quelques lignes. Cela rend les exp√©riences exponentiellement rapides et efficaces. PyCaret est essentiellement un wrapper Python autour de plusieurs biblioth√®ques et frameworks de machine learning, tels que scikit-learn, XGBoost, LightGBM, CatBoost, spaCy, Optuna, Hyperopt, Ray, et quelques autres.

Le design et la simplicit√© de PyCaret sont inspir√©s par le r√¥le √©mergent des data scientists citoyens, un terme utilis√© pour la premi√®re fois par Gartner. Les data scientists citoyens sont des utilisateurs exp√©riment√©s capables de r√©aliser des t√¢ches analytiques simples et mod√©r√©ment sophistiqu√©es qui n√©cessitaient auparavant une expertise technique plus pointue.


# Partie I : D√©couverte üß≠

# üíª Installation

Vous pouvez installer PyCaret avec le gestionnaire de paquets pip de Python :

`pip install pycaret`

L'installation par d√©faut de PyCaret n'installera pas automatiquement toutes les d√©pendances suppl√©mentaires. Pour cela, vous devrez installer la version compl√®te (C'est long, prennez le temps de le faire une fois, le tutoriel va evoqu√© une bonne partie des solutions.):

`pip install pycaret[full]`

ou selon votre cas d'utilisation, vous pouvez installer l'une des variantes suivantes (pratique quand on veut faire des taches sp√©cifiques):

- `pip install pycaret[analysis]`
- `pip install pycaret[models]`
- `pip install pycaret[tuner]`
- `pip install pycaret[mlops]`
- `pip install pycaret[parallel]`
- `pip install pycaret[test]`

In [None]:
%pip install pycaret[full] --quiet

In [None]:
# check installed version
import pycaret
pycaret.__version__

# üöÄ C'est parti !

### üìö Documentation et Aide

N'h√©sitez pas √† consulter la [documentation officielle de PyCaret](https://pycaret.gitbook.io/docs/get-started/quickstart) et la [documentation API](https://pycaret.readthedocs.io/en/latest/api/classification.html#module-pycaret.classification) pour une liste compl√®te des param√®tres disponibles et des exemples d'utilisation.


Mise en place de l'environnement
Assurons-nous d'avoir toutes les d√©pendances n√©cessaires pour ce TP. Nous allons utiliser un dataset pour notre d√©monstration. Dans ce cas, nous allons utiliser le c√©l√®bre dataset 'Iris' (oui, celui avec les fleurs üå∏). Pourquoi ? Parce qu'on le conna√Æt tous, il est l√©ger et facile √† comprendre !

In [None]:
# Importation des librairies n√©cessaires
import pandas as pd
from pycaret.datasets import get_data

# Chargement du dataset Iris
data = get_data('iris')

## üßê Pour ceux qui ne se souviennent pas du dataset Iris - Facultatif
Pas de probl√®me, nous avons une solution pour vous ! Historiquement, PyCaret proposait de l'EDA (Exploratory Data Analysis) int√©gr√©e, mais cette fonctionnalit√© a disparu en version 3 üò≠. Ne vous inqui√©tez pas, nous allons utiliser les bonnes vieilles m√©thodes pour visualiser nos donn√©es en attendant que cette fonctionnalit√© revienne.
Pour cela, nous allons cr√©er une visualisation 2D et 3D de nos donn√©es avec UMAP.

In [None]:
%pip install umap-learn matplotlib seaborn plotly --quiet

In [None]:
import umap
import matplotlib.pyplot as plt
import seaborn as sns

# Pr√©paration des donn√©es pour UMAP
X = data.drop(columns=['species'])
y = data['species']

# R√©duction de dimensionnalit√© avec UMAP
reducer = umap.UMAP()
X_embedded = reducer.fit_transform(X)

# Cr√©ation du DataFrame pour la visualisation
embedding = pd.DataFrame(X_embedded, columns=['UMAP1', 'UMAP2'])
embedding['species'] = y

# Visualisation 2D
plt.figure(figsize=(10, 6))
sns.scatterplot(data=embedding, x='UMAP1', y='UMAP2', hue='species', palette='viridis', s=100)
plt.title('Visualisation 2D des donn√©es Iris avec UMAP')
plt.show()

### Visualisation 3D avec UMAP
Pour ceux qui aiment les graphiques en 3D et interactifs

In [None]:
import umap
import plotly.express as px

# R√©duction de dimensionnalit√© en 3D avec UMAP
reducer = umap.UMAP(n_components=3)
X_embedded_3d = reducer.fit_transform(X)

# Cr√©ation du DataFrame pour la visualisation
embedding_3d = pd.DataFrame(X_embedded_3d, columns=['UMAP1', 'UMAP2', 'UMAP3'])
embedding_3d['species'] = y

# Visualisation 3D
fig = px.scatter_3d(embedding_3d, x='UMAP1', y='UMAP2', z='UMAP3', color='species', title='Visualisation 3D des donn√©es Iris avec UMAP')
fig.show()


## üìä Pr√©paration des donn√©es
PyCaret simplifie cette √©tape avec quelques commandes simples. Nous allons d'abord voir comment initialiser l'environnement de classification avec la fonction setup.

In [None]:
# Importation des modules n√©cessaires
from pycaret.classification import *

# Initialisation de l'environnement de classification
clf = setup(data, target='species', session_id=42)

> üîç **Question : Quel est le r√¥le de la fonction setup() dans PyCaret? Quelle information essentielle devez-vous fournir √† cette fonction pour une classification multiclass?**



### üìã Informations affich√©es par `setup`

Une fois la configuration r√©ussie, PyCaret affiche une grille d'informations contenant des d√©tails sur l'exp√©rimentation :

- **Session id** : Un nombre pseudo-al√©atoire utilis√© comme "seed" pour toutes les fonctions afin de garantir la reproductibilit√©. Si aucun `session_id` n'est fourni, un nombre al√©atoire est automatiquement g√©n√©r√© et distribu√© √† toutes les fonctions. Mais bon, pourquoi ne pas mettre `42`...
- **Target type** : Type de la variable cible (binaire, multiclasses ou r√©gression). Le type de la cible est automatiquement d√©tect√©.
- **Label Encoding** : Lorsque la variable cible est de type cha√Æne (par exemple, 'Oui' ou 'Non') au lieu de 1 ou 0, PyCaret encode automatiquement les √©tiquettes en 1 et 0 et affiche le mappage (0 : Non, 1 : Oui) pour r√©f√©rence.
- **Original data shape** : Forme des donn√©es originales avant toute transformation.
- **Transformed train set shape** : Forme du jeu d'entra√Ænement transform√©. C'est important de faire attention, en cas d'un OneHot Encoder ou un feature selection !
- **Transformed test set shape** : Forme du jeu de test transform√©.
- **Numeric features** : Nombre de caract√©ristiques consid√©r√©es comme num√©riques.
- **Categorical features** : Nombre de caract√©ristiques consid√©r√©es comme cat√©gorielles.


### Acc√©der aux variables de configuration

Pour acc√©der √† toutes les variables cr√©√©es par la fonction `setup` telles que le dataset transform√©, le `random_state`, etc., vous pouvez utiliser la m√©thode `get_config`.

#### Exemple d'utilisation de `get_config`

In [None]:
# V√©rifier toutes les configurations disponibles
get_config()

In [None]:
# Acc√©der √† la variable X_train_transformed
X_train_transformed = get_config('X_train_transformed')

Vous pouvez √©galement obtenir de l'aide sur la fonction setup en utilisant :

In [None]:
help(setup)

### Comparaison Avant/Apr√®s avec une ACP en 2D
Il est possible de comparer les donn√©es avant et apr√®s transformation gr√¢ce √† get_config. Voici comment le faire avec une ACP en 2D.

In [None]:
from sklearn.decomposition import PCA

# Acc√©der aux donn√©es transform√©es
X_train_transformed = get_config('X_train_transformed')
y_train = get_config('y_train_transformed').reset_index(drop=True)  # R√©initialiser les index pour s'assurer qu'ils correspondent

# Utiliser le m√™me r√©ducteur PCA pour les deux visualisations
pca = PCA(n_components=2)

# Visualisation avant transformation
X = data.drop(columns=['species'])
y = data['species']
X_pca = pca.fit_transform(X)

plt.figure(figsize=(10, 6))
sns.scatterplot(x=X_pca[:,0], y=X_pca[:,1], hue=y, palette='viridis')
plt.title('Visualisation PCA 2D - Avant Transformation')
plt.show()

# Visualisation apr√®s transformation
X_pca_transformed = pca.fit_transform(X_train_transformed)

plt.figure(figsize=(10, 6))
sns.scatterplot(x=X_pca_transformed[:,0], y=X_pca_transformed[:,1], hue=y_train, palette='viridis')
plt.title('Visualisation PCA 2D - Apr√®s Transformation')
plt.show()

## üìä Pr√©paration des donn√©es avec PyCaret

Comme vous le savez, la pr√©paration des donn√©es est une √©tape cruciale. PyCaret simplifie (beaucoup) ce processus avec des param√®tres faciles √† utiliser, vous permettant de traiter les valeurs manquantes, encoder les variables cat√©gorielles, √©quilibrer les classes cibles, et bien plus encore. Voici un aper√ßu des possibilit√©s :
Avant de plonger dans les exemples sp√©cifiques, notez que chaque configuration de `setup` inclut un `experiment_name` et des `experiment_custom_tags`. L'`experiment_name` est un identifiant unique pour chaque exp√©rience, ce qui permet de suivre et de g√©rer vos exp√©rimentations de mani√®re plus organis√©e. Les `experiment_custom_tags` sont des annotations que vous pouvez utiliser pour d√©crire les param√®tres sp√©cifiques ou les transformations appliqu√©es dans chaque configuration. Nous expliquerons comment utiliser ces √©l√©ments pour am√©liorer votre flux de travail √† la fin de cette section.

### üõ†Ô∏è Pr√©traitement des donn√©es

#### Valeurs manquantes

PyCaret peut g√©rer automatiquement les valeurs manquantes avec diff√©rentes strat√©gies d'imputation :
- **Simple imputation** : Remplace les valeurs manquantes par la moyenne (pour les variables num√©riques) ou la modalit√© (pour les variables cat√©gorielles).
- **Iterative imputation** : Utilise des mod√®les de machine learning pour imputer les valeurs manquantes.


In [None]:
clf = setup(data, target='species', session_id=42,
            imputation_type='simple',  # Simple imputation

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='missing_values',
            experiment_custom_tags={'imputation': 'simple'})

#### Types de donn√©es

PyCaret d√©tecte automatiquement les types de donn√©es, mais vous pouvez √©galement les sp√©cifier manuellement :
- **D√©tection automatique** : Utilise des heuristiques pour d√©tecter les types de donn√©es.
- **Sp√©cification manuelle** : Permet de forcer les types de donn√©es.

In [None]:
clf = setup(data, target='species', session_id=42,
            categorical_features=['sepal_length', 'sepal_width'],

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='data_types',
            experiment_custom_tags={'categorical_features': 'specified'})

#### D√©s√©quilibre des classes

Pour g√©rer les d√©s√©quilibres dans les classes cibles, vous pouvez utiliser le param√®tre `fix_imbalance` :
- **SMOTE (Synthetic Minority Over-sampling Technique)** : G√©n√®re des √©chantillons synth√©tiques pour les classes minoritaires.


In [None]:
clf = setup(data, target='species', session_id=42,
            fix_imbalance=True,

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='target_imbalance',
            experiment_custom_tags={'imbalance': 'fixed'})

#### Suppression des valeurs aberrantes

PyCaret peut √©galement supprimer automatiquement les valeurs aberrantes des donn√©es :
- **Isolation Forest** : Algorithme utilis√© pour d√©tecter et supprimer les valeurs aberrantes.

In [None]:
clf = setup(data, target='species', session_id=42,
            remove_outliers=True,

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='remove_outliers',
            experiment_custom_tags={'outliers': 'removed'})

### üìè Scalers

Les scalers sont utilis√©s pour normaliser ou standardiser les donn√©es :
- **Z-Score** : Normalise les donn√©es pour avoir une moyenne de 0 et un √©cart-type de 1.
- **Min-Max Scaling** : Normalise les donn√©es pour qu'elles se situent entre 0 et 1.
- **MaxAbs Scaling** : Scales les donn√©es en utilisant la valeur maximale absolue de chaque caract√©ristique.
- **Robust Scaling** : Utilise des statistiques robustes (comme la m√©diane et l'IQR) pour r√©duire l'influence des valeurs aberrantes.


In [None]:
clf = setup(data, target='species', session_id=42,
            normalize=True,
            normalize_method='zscore',  # Options: 'zscore', 'minmax', 'maxabs', 'robust'

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='scalers',
            experiment_custom_tags={'scaling_method': 'zscore'})

### üîß Feature Engineering

Le feature engineering permet de cr√©er de nouvelles caract√©ristiques √† partir de celles existantes.

#### Polyn√¥mes et interactions

Vous pouvez cr√©er des caract√©ristiques polynomiales et des interactions :
- **Polynomial Features** : G√©n√®re des caract√©ristiques polynomiales jusqu'√† un degr√© sp√©cifi√©.
- **Interactions** : Cr√©e des caract√©ristiques qui sont des produits de paires de caract√©ristiques originales.


In [None]:
clf = setup(data, target='species', session_id=42,
            polynomial_features=True,
            polynomial_degree=2,

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='polynomial_features',
            experiment_custom_tags={'polynomial_degree': 2})

#### Regroupement des caract√©ristiques

Regroupez les caract√©ristiques pour des analyses plus sp√©cifiques :
- **Group Features** : Permet de combiner plusieurs caract√©ristiques en une seule.

In [None]:
clf = setup(data, target='species', session_id=42,
            group_features={'sepal_features': ['sepal_length', 'sepal_width']},

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='group_features',
            experiment_custom_tags={'group_features': 'sepal_length_sepal_width'})

### üè∑Ô∏è S√©lection de caract√©ristiques

La s√©lection de caract√©ristiques permet d'identifier et de conserver les caract√©ristiques les plus importantes :
- **Recursive Feature Elimination (RFE)** : Algorithme pour s√©lectionner les caract√©ristiques les plus importantes en supprimant progressivement les moins importantes.

In [None]:
clf = setup(data, target='species', session_id=42,
            feature_selection=True,
            n_features_to_select=0.5,

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='feature_selection',
            experiment_custom_tags={'n_features_to_select': 0.5})

### üîç Suppression de la multicolin√©arit√©

Pour g√©rer la multicolin√©arit√© entre les caract√©ristiques, vous pouvez utiliser ce param√®tre :
- **Variance Inflation Factor (VIF)** : Mesure la quantit√© de multicolin√©arit√© dans un ensemble de variables de r√©gression.

In [None]:
clf = setup(data, target='species', session_id=42,
            remove_multicollinearity=True,
            multicollinearity_threshold=0.9,

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='remove_multicollinearity',
            experiment_custom_tags={'multicollinearity_threshold': 0.9})

### üßô‚Äç‚ôÇÔ∏è Exemple complet

Voici un exemple complet int√©grant plusieurs de ces options :

In [None]:
clf = setup(data, target='species', session_id=42,
            imputation_type='simple',  # Simple imputation
            normalize=True,  # Normalisation
            normalize_method='zscore',  # M√©thode de normalisation
            polynomial_features=True,  # Cr√©ation de caract√©ristiques polynomiales
            polynomial_degree=2,  # Degr√© des caract√©ristiques polynomiales
            group_features={'sepal_features': ['sepal_length', 'sepal_width']},  # Regroupement des caract√©ristiques
            feature_selection=True,  # S√©lection des caract√©ristiques
            n_features_to_select=0.5,  # Seuil de s√©lection
            remove_multicollinearity=True,  # Suppression de la multicolin√©arit√©
            multicollinearity_threshold=0.9,  # Seuil de multicolin√©arit√©
            fix_imbalance=True,  # Gestion du d√©s√©quilibre des classes
            remove_outliers=True,  # Suppression des valeurs aberrantes

            # Ce qui suit est pour plus tard ;)
            log_experiment=True,
            experiment_name='full_setup',
            experiment_custom_tags={
                'imputation': 'simple',
                'normalize_method': 'zscore',
                'polynomial_degree': 2,
                'group_features': 'sepal_length_sepal_width',
                'n_features_to_select': 0.5,
                'multicollinearity_threshold': 0.9,
                'imbalance': 'fixed',
                'outliers': 'removed'
            })


## Customisation de la Pipeline PyCaret avec des Transformations Sp√©cifiques

C'est bien beau d'utiliser PyCaret avec ses fonctionnalit√©s int√©gr√©es, mais comment faire si on a une super id√©e qui nous vient en t√™te pour la pr√©paration et qui permettra d'obtenir des r√©sultats bien meilleurs ? ü§î

Prenons l'exemple du dataset Iris. Nous voulons ajouter une transformation personnalis√©e pour cr√©er une nouvelle fonctionnalit√© bas√©e sur le rapport entre la longueur et la largeur des p√©tales. Voici comment proc√©der :

### 1. Cr√©ation d'une Transformation Personnalis√©e

D'abord, nous d√©finissons notre propre transformateur scikit-learn :


In [None]:
from sklearn.base import BaseEstimator, TransformerMixin

class PetalRatio(BaseEstimator, TransformerMixin):
    def __init__(self):
        pass

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X['petal_ratio'] = X['petal_length'] / X['petal_width']
        return X

In [None]:
# Cr√©ation du transformateur personnalis√©
petal_ratio_transformer = PetalRatio()

# Configuration du setup PyCaret avec la pipeline personnalis√©e
clf = setup(data, target='species', session_id=42,
            # C'est ici que ca se passe :
            custom_pipeline=[('petal_ratio_transformer', petal_ratio_transformer)],

            log_experiment=True,
            experiment_name='custom_setup_iris')

### üìö Documentation et Aide

N'h√©sitez pas √† consulter la [documentation officielle de PyCaret](https://pycaret.readthedocs.io/en/latest/api/classification.html#module-pycaret.classification) pour une liste compl√®te des param√®tres disponibles et des exemples d'utilisation.

## üìà Experiment Logging avec PyCaret

PyCaret offre une fonctionnalit√© d'Experiment Logging qui vous permet de suivre, comparer et analyser diff√©rentes exp√©rimentations. Cette fonctionnalit√© est particuli√®rement utile pour tester diff√©rentes configurations de pr√©paration des donn√©es et voir lesquelles sont les plus efficaces.

### üöÄ Mise en place de l'Experiment Logging

Pour commencer avec l'Experiment Logging, vous devez initialiser une session de tra√ßage. PyCaret supporte plusieurs outils de tra√ßage, comme MLflow, WandB, et neptune.ai. Dans cet exemple, nous allons utiliser MLflow qui est evidemment integr√© avec Pycaret.

Initialisation de la session de tra√ßage
Vous pouvez initialiser une session de tra√ßage avec la fonction setup en utilisant le param√®tre log_experiment.

In [None]:
from pycaret.classification import *

# Initialisation de l'Experiment Logging avec MLflow
clf = setup(data, target='species', session_id=42,
            log_experiment=True,
            log_plots=True,
            experiment_name='iris_classification_experiment'
            )


### Deux solutions (√† choisir une des deux) :
1. Si vous √™tes sur votre machine en local :

In [None]:
#Ouvrir l'interface graphique : http://127.0.0.1:5000/
!mlflow ui

2. Si vous √™tes sur une machine en remote (Colab, Kaggle...)

In [None]:
!pip install mlflow --quiet
!npm install -g localtunnel

In [None]:
# D√©marrer le serveur MLflow
get_ipython().system_raw("mlflow ui --port 5000 &")

print("Le mot de passe est : ")
!wget -q -O - https://loca.lt/mytunnelpassword


In [None]:
# Cr√©er un tunnel avec LocalTunnel
!npx localtunnel --port 5000

Pour continuer, il faut arr√™ter le serveur, mais il est tout √† fait possible de le relancer √† n'importe quel moment pour r√©cup√©rer l'interface.

> **üöÄ D√©fi Logistique: Pourquoi utiliser l‚ÄôExperiment Logging avec PyCaret ? D√©crivez bri√®vement le processus d'initialisation d'une session de tra√ßage avec MLflow.**

## üîç Comparaison des mod√®les avec PyCaret

La fonction `compare_models` est l'une des fonctionnalit√©s les plus puissantes de PyCaret. Elle entra√Æne et √©value la performance de tous les estimateurs disponibles dans la biblioth√®que de mod√®les en utilisant la validation crois√©e. Le r√©sultat de cette fonction est une grille de scores avec des scores moyens valid√©s par la m√©thode de validation crois√©e.

### Utilisation de `compare_models`

Voici comment utiliser cette fonction pour comparer les mod√®les de base :

In [None]:
# Comparer les mod√®les de base
best = compare_models()

Par d√©faut, compare_models utilise tous les estimateurs de la biblioth√®que de mod√®les (tous sauf les mod√®les avec Turbo=False). Pour voir tous les mod√®les disponibles, vous pouvez utiliser la fonction models() :

In [None]:
# V√©rifier les mod√®les disponibles
models()

Vous pouvez utiliser les param√®tres include et exclude dans compare_models pour entra√Æner uniquement certains mod√®les ou exclure des mod√®les sp√©cifiques en passant les identifiants de mod√®les dans le param√®tre exclude.

In [None]:
# Comparer uniquement les mod√®les d'arbres de d√©cision
compare_tree_models = compare_models(include=['dt', 'rf', 'et', 'gbc', 'xgboost', 'lightgbm', 'catboost'])

# S√©lectionner les 3 meilleurs mod√®les en fonction du rappel (Recall)
best_recall_models_top3 = compare_models(sort='Recall', n_select=3)

Param√®tres suppl√©mentaires de compare_models
Voici quelques autres param√®tres que vous pourriez trouver tr√®s utiles dans compare_models :

- fold : Nombre de plis pour la validation crois√©e.
- cross_validation : Utiliser ou non la validation crois√©e.
- budget_time : Temps allou√© pour la comparaison des mod√®les.
- errors : G√©rer les erreurs pendant la comparaison des mod√®les.
- probability_threshold : Seuil de probabilit√© pour la classification.
- parallel : Ex√©cuter les comparaisons en parall√®le.

> üìä **Question : Comment utilisez-vous la fonction compare_models() dans PyCaret ? Quels sont les avantages de cette fonction lors du choix du mod√®le ?**

## üìà Analyse des mod√®les avec PyCaret

Apr√®s avoir identifi√© le meilleur mod√®le avec `compare_models`, il est essentiel d'analyser sa performance en profondeur. PyCaret offre des fonctions puissantes pour visualiser et √©valuer les mod√®les.

### Visualisation de la matrice de confusion

La fonction `plot_model` permet de visualiser divers aspects du mod√®le, y compris la matrice de confusion, qui est un outil essentiel pour comprendre la performance d'un mod√®le de classification.


In [None]:
# Visualiser la matrice de confusion du meilleur mod√®le
plot_model(best, plot='confusion_matrix')

### √âvaluation compl√®te du mod√®le
La fonction evaluate_model fournit une interface interactive pour √©valuer le mod√®le sur plusieurs m√©triques et visualisations.

In [None]:
# √âvaluer le meilleur mod√®le
evaluate_model(best)

## üöÄ Cr√©ation de mod√®les simples avec PyCaret

En plus de comparer plusieurs mod√®les, PyCaret permet √©galement de cr√©er et d'entra√Æner des mod√®les individuels avec la fonction `create_model`. Cette fonction est utile lorsque vous souhaitez entra√Æner un mod√®le sp√©cifique sans comparer une multitude d'options.

### Utilisation de `create_model`

Voici comment utiliser cette fonction pour cr√©er un mod√®le simple :


In [None]:
# Cr√©er un mod√®le de r√©gression logistique
lr = create_model('lr')

> **üß† Mise en Pratique: Expliquez comment vous cr√©eriez un mod√®le sp√©cifique (par exemple, un Random Forest) avec PyCaret et comment vous l'√©valueriez ? Quelle m√©trique utiliseriez-vous pour une classification multiclass et pourquoi ?**

## üîß Tunage des hyperparam√®tres avec PyCaret

La fonction `tune_model` permet d'ajuster les hyperparam√®tres d'un mod√®le. Le r√©sultat de cette fonction est une grille de scores avec des scores valid√©s par validation crois√©e pour chaque pli. Le meilleur mod√®le est s√©lectionn√© en fonction de la m√©trique d√©finie dans le param√®tre `optimize`.

### Utilisation de `tune_model`

Voici comment utiliser cette fonction pour ajuster les hyperparam√®tres d'un mod√®le :


In [None]:
# Cr√©er un mod√®le de for√™t al√©atoire
rf = create_model('rf')

# Tunage des hyperparam√®tres du mod√®le de for√™t al√©atoire
tuned_rf = tune_model(rf, optimize='F1')
# tuned_rf = tune_model(rf, optimize='F1', search_library='optuna') # Celui la utilise Optuna et est donc plus long

### Personnalisation du grid de recherche
Vous pouvez personnaliser le grid de recherche en passant vos propres param√®tres. Voici un exemple avec un grid personnalis√© :

In [None]:
# Grid de recherche personnalis√©
custom_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# Tunage des hyperparam√®tres avec un grid personnalis√© et Optuna
tuned_rf = tune_model(rf, custom_grid=custom_grid, optimize='F1')

## üõ†Ô∏è Mod√®les d'ensemble, de m√©lange et d'empilement avec PyCaret

PyCaret permet non seulement de cr√©er et de comparer des mod√®les individuels, mais aussi d'utiliser des techniques avanc√©es comme les mod√®les d'ensemble, de m√©lange et d'empilement pour am√©liorer les performances des mod√®les.

### Mod√®les d'ensemble

Les mod√®les d'ensemble combinent les pr√©dictions de plusieurs mod√®les de base pour am√©liorer les performances globales. PyCaret simplifie l'utilisation des mod√®les d'ensemble avec la fonction `ensemble_model`.


### Bagging et Boosting
![Bagging et Boosting](https://github.com/Codect24/TP_Alternant_2024_Pycaret/blob/main/image.png?raw=1)

In [None]:
# Cr√©er un mod√®le d'ensemble en bagging en utilisant le mod√®le de for√™t al√©atoire
ensemble_rf = ensemble_model(rf, method='Bagging')

In [None]:
ensemble_rf = ensemble_model(rf, method='Boosting')

### Mod√®les de m√©lange
Le m√©lange de mod√®les combine plusieurs mod√®les pour obtenir une pr√©diction moyenne ou pond√©r√©e. PyCaret offre une fonction pratique blend_models pour cela.

In [None]:
qda = create_model('qda')

nb = create_model('nb')

In [None]:
# M√©langer plusieurs mod√®les
blended = blend_models(estimator_list=[rf, qda, nb])

### Mod√®les d'empilement
L'empilement de mod√®les consiste √† utiliser les pr√©dictions de plusieurs mod√®les comme entr√©es pour un mod√®le final (m√©tamod√®le). PyCaret permet de cr√©er facilement des mod√®les d'empilement avec la fonction stack_models.

In [None]:
# Empiler plusieurs mod√®les
stacked = stack_models(estimator_list=[rf, qda, nb])

## üîÆ Pr√©diction avec PyCaret

Apr√®s avoir entra√Æn√© et s√©lectionn√© le meilleur mod√®le, vous pouvez utiliser ce mod√®le pour faire des pr√©dictions sur de nouvelles donn√©es. PyCaret fournit la fonction `predict_model` pour pr√©dire sur des ensembles de donn√©es de test ou de nouvelles donn√©es.

### Pr√©diction sur l'ensemble de test

Vous pouvez pr√©dire sur l'ensemble de test retenu (holdout) pour √©valuer la performance du mod√®le sur des donn√©es non vues.

In [None]:
# Pr√©dire sur l'ensemble de test retenu
holdout_pred = predict_model(best)

### Pr√©diction sur de nouvelles donn√©es
Pour pr√©dire sur de nouvelles donn√©es, vous pouvez passer un DataFrame √† la fonction predict_model.

In [None]:
# Supposons que new_data soit un DataFrame contenant les nouvelles donn√©es
new_data = data.sample(10).drop(columns=['species'])
# Pr√©dire sur de nouvelles donn√©es
predictions = predict_model(best, data=new_data)
predictions.head()

## üíæ Exportation et sauvegarde des mod√®les avec PyCaret

Apr√®s avoir entra√Æn√© et √©valu√© votre mod√®le, il est souvent n√©cessaire de le sauvegarder pour une utilisation ult√©rieure ou de le d√©ployer en production. PyCaret offre plusieurs options pour exporter et sauvegarder vos mod√®les.

### Finaliser le mod√®le

La fonction `finalize_model` entra√Æne le mod√®le sur l'int√©gralit√© des donn√©es disponibles.

In [None]:
# Finaliser le meilleur mod√®le
final_best = finalize_model(best)

### Charger le mod√®le depuis MLflow
Si vous avez utilis√© MLflow pour suivre vos exp√©rimentations, vous pouvez facilement charger un mod√®le sauvegard√© depuis MLflow.

In [None]:
pipeline = load_model('C:/Users/tomle/OneDrive/Documents/TP_Alternant_2024_Pycaret/mlruns/635673703510918278/328bf339661840d091e68c8c44ef9a73/artifacts/model/model')

### Sauvegarde manuelle du mod√®le
Vous pouvez sauvegarder un mod√®le manuellement sur le disque pour une utilisation ult√©rieure.

In [None]:
save_model(final_best, model_name='my_best_model')

### Cr√©er une application avec PyCaret
PyCaret permet de cr√©er une application interactive pour d√©ployer et utiliser le mod√®le.

In [None]:
create_app(final_best)

### Cr√©er une API avec PyCaret
Vous pouvez √©galement cr√©er une API pour votre mod√®le avec PyCaret.

In [None]:
create_api(final_best, api_name='my_best_model_api')

### Convertir le mod√®le en Java
PyCaret permet √©galement de convertir un mod√®le en code Java.

In [None]:
convert_model(rf, 'java') # Ca marche surtout pour les arbres

## üéâ F√©licitations, vous √™tes pr√™t √† vous amuser avec PyCaret !

Vous avez maintenant tout ce qu'il faut pour explorer, cr√©er, tuner, et d√©ployer des mod√®les de machine learning avec PyCaret.

### Un petit rappel des √©tapes que nous avons parcourues :

- üìä Pr√©paration des donn√©es
- üöÄ Cr√©ation de mod√®les simples
- üîß Tunage des hyperparam√®tres
- üõ†Ô∏è Utilisation des mod√®les d'ensemble, de m√©lange et d'empilement
- üîÆ Pr√©diction sur de nouvelles donn√©es
- üíæ Exportation et sauvegarde des mod√®les

Et maintenant, il est temps de vous amuser vraiment ! üåü


# Partie II : Analyse des cr√©dits allemands avec PyCaret üè¶

Bienvenue √† cette deuxi√®me partie de notre TP ! üéâ Maintenant que vous avez d√©couvert les bases de PyCaret √† travers la documentation et les exemples, il est temps de mettre tout cela en pratique avec le c√©l√®bre dataset German Credit Data. Ce dataset contient des informations sur des pr√™ts accord√©s en Allemagne, et votre objectif est d'analyser ces donn√©es pour pr√©dire si un client est un bon ou un mauvais payeur.

Dans cette session, vous allez voir comment, en quelques lignes de code seulement, on peut obtenir des r√©sultats impressionnants ! üöÄ

## Votre Mission
Vous avez toutes les cartes en main pour obtenir des r√©sultats exceptionnels. Voici quelques points cl√©s √† garder en t√™te pendant que vous travaillez :

- Pr√©paration des Donn√©es : Une bonne pr√©paration des donn√©es est essentielle. Pensez √† la fa√ßon dont vous allez traiter les valeurs manquantes, encoder les variables cat√©gorielles et normaliser les donn√©es.

- Choix des Mod√®les : PyCaret offre une large gamme de mod√®les. Quels mod√®les allez-vous choisir pour obtenir une bonne performance sur ce dataset ? Vous pouvez aussi les confronter tous, si vous avez le temps. üòé

- Hyperparam√©trage : L'optimisation des hyperparam√®tres peut grandement am√©liorer les performances d'un mod√®le. Comment pouvez-vous automatiser cette √©tape avec PyCaret ? Allez-vous tester des ensembles ?

- √âvaluation des Performances : Quels m√©triques allez-vous utiliser pour √©valuer les performances de vos mod√®les ?

- Interpr√©tabilit√© : Je vous donne rendez-vous cet apr√®s-midi pour le TP de Manon. ‚åõ

√Ä vous de jouer ! Utilisez ce que vous avez appris et laissez votre cr√©ativit√© guider vos pas. Vous avez tout ce qu'il faut pour obtenir des r√©sultats exceptionnels. Pr√™t √† vous immerger dans l'analyse de donn√©es et la cr√©ation de mod√®les ? Allons-y ! üòÉ

---

Merci d'avoir suivi ce tutoriel. N'h√©sitez pas √† consulter la [documentation officielle de PyCaret](https://pycaret.readthedocs.io/en/latest/api/classification.html#module-pycaret.classification) pour plus de d√©tails et des exemples suppl√©mentaires.

# üê∏