Exemple pour comprendre le boosting : 

Chaque apprenant faible est entraîné pour corriger les erreurs des apprenants faibles précédents. Par exemple, pour identifier l’image d’un chat, il combine un “weak learner” qui devine les oreilles pointues et un autre “weak learner” qui devine les yeux en forme de chat1. Cela améliore la précision globale du système.






## 1) Origines et Objectif :

 CatBoost a été développé par Anna Veronika Dorogush et son équipe en 2017, au sein de l'entreprise russe Yandex. L'objectif principal de CatBoost est d'améliorer les performances des modèles de gradient boosting, en mettant particulièrement l'accent sur la gestion efficace des variables catégorielles.

 Cet algorithme a été classé 3 ième au classement Kaggle en 2023, ce classement est basé sur le nombre de compétitions gagnées. 


 


## 2) Les principales caractéristiques de CatBoost:

### A) Encodage des Catégories :

 CatBoost utilise un encodage spécial pour les variables catégorielles, appelé "target encoding" ou "likelihood encoding". Cela signifie qu'il utilise les statistiques de la variable cible pour encoder les catégories, ce qui peut améliorer la performance du modèle sur des ensembles de données contenant des variables catégorielles.


        - Voici comment fonctionne l'encodage des catégories avec CatBoost :

* Calcul des Statistiques : Pour chaque catégorie unique dans une variable catégorielle, CatBoost calcule des statistiques basées sur la target. Les statistiques utilisées sont la moyenne, la médiane ou la probabilité d'appartenance à une classe particulière.

* Remplacement des Catégories par les Statistiques : Les valeurs de la variable catégorielle sont ensuite remplacées par les statistiques calculées lors de l'entraînement du modèle. Ainsi, chaque catégorie est représentée par une valeur numérique qui encode l'information sur la distribution de la variable cible pour cette catégorie.

* Gestion des Nouvelles Catégories : Si de nouvelles catégories apparaissent dans l'ensemble de test ou de validation, CatBoost assigne des valeurs par défaut basées sur les statistiques calculées lors de l'entraînement. Cela permet une gestion cohérente des catégories inconnues.

L'avantage de l'encodage des catégories réside dans le fait qu'il capture les relations entre les variables catégorielles et la variable cible, ce qui peut aider le modèle à mieux comprendre ces relations lors de l'apprentissage. Cela peut être particulièrement utile lorsque certaines catégories ont une forte corrélation avec la variable cible.


**Exemple**:
Imaginons que vous ayez un ensemble de données avec une variable catégorielle "Couleur" et une variable cible "Acheter" (qui peut prendre les valeurs 0 ou 1, indiquant si un produit a été acheté ou non).


| **Couleur** | **Acheter** |
| --- | --- |
| **Rouge** | **1** |
| **Vert** | **0** |
| **Bleu** | **1** |
| **Rouge** | **1** |
| **Vert** | **0** |
| **Bleu** | **1** |




CatBoost procédera comme suit :

1. Calcul des Statistiques : CatBoost va calculer des statistiques basées sur la variable cible pour chaque catégorie unique de "Couleur". Dans cet exemple, calculons la moyenne d'achat pour chaque couleur :

Probabilité d'achat pour Rouge : (1 + 1) / 2 = 1
Probabilité d'achat pour Vert : (0 + 0) / 2 = 0
Probabilité d'achat pour Bleu : (1 + 1) / 2 = 1

2. Remplacement des Catégories par les Statistiques : CatBoost remplacera les valeurs de la variable "Couleur" par les statistiques calculées :

| Couleur Encodée | Acheter |
| --- | --- |
| 1 | 1 |
| 0 | 0 |
| 1 | 1 | 
| 1 | 1 | 
| 0 | 0 | 
| 1 | 1 | 

Ici, "Rouge" a été encodé comme 1, "Vert" comme 0, et "Bleu" comme 1, en utilisant les probabilités d'achat respectives.

Pour information, il existe une autre méthode d'encodage: le one-hot (colonnes binaires pour chaque catégorie unique). On peut jongler entre l'encodage cible(Target Encoding) et l'encodage One-Hot avec le paramètre 'one_hot_max_size' afin de contrôler à partir de quel nombre unique d'éléments dans une variable catégorielle, l'algorithme doit préférer l'encodage one-hot plutôt que l'encodage cible.

Pour le one_hot, CatBoost utilise la binarization, car le one-hot peut créer un grand nombre de colonnes binaires, chaque colonne représentant une catégorie unique. Cela peut entraîner une augmentation significative de la dimensionnalité des données, ce qui peut être coûteux en termes de mémoire et de temps de calcul. 








### B) Gestion Automatique des Catégories : 

CatBoost peut traiter automatiquement les variables catégorielles sans nécessiter une préparation en amont. Il reconnaît automatiquement les catégories et les traite de manière appropriée lors de la construction des arbres de décision. 

Toutefois, il est primordial de préciser les colonnes catégorielles (grâce au vecteur cat_features)

CatBoost est aussi capable de gérer de nouvelles catégories pour lesquelles il n'a pas été entrainé, en les traitant automatiquement sur la base des statistiques apprises pour des catégories similaires, garantissant ainsi une transition fluide entre les catégories rencontrées pendant l'entraînement et les nouvelles catégories apparues pendant la prédiction. 









### C) Réduction de la Dimensionnalité :

 CatBoost utilise une technique appelée "binarisation" pour réduire la dimensionnalité des variables catégorielles, puisque qu'avec le one-hot traditionnel un grand nombre de colonnes binaires peuvent être créer, alourdissant ainsi le travail de l'algorithme. La binarization, c'est la répresentation des catégories uniques par un ensemble de bits.

Exemple:

Supposons que vous ayez une variable catégorielle "Ville" avec les catégories uniques suivantes : "Paris", "New York" et "Tokyo". Pour chaque observation, la variable "Ville" pourrait être binarisée comme suit :

"Paris" : 001
"New York" : 010
"Tokyo" : 100

Dans cet exemple, chaque bit représente une ville, et la présence ou l'absence de chaque bit indique si la catégorie correspondante est présente ou non. Ainsi, pour une observation dans laquelle la ville est "Paris", le bit correspondant à "Paris" serait activé (1), tandis que les bits correspondant à "New York" et "Tokyo" seraient désactivés (0).

Cela permet de réduire la dimensionnalité par rapport à l'encodage one-hot traditionnel, où chaque ville aurait une colonne distincte. La binarisation conserve l'information sur la ville sans nécessiter autant de colonnes distinctes.

Ainsi, les opérations de calcul peuvent être plus rapides, ce qui peut contribuer à des temps d'entraînement plus courts.


Le choix entre l'encodage cible et la binarisation dépend du nombre de catégories uniques. La binarisation peut être préféré lorsqu'il y un grand nombre de catégories uniques.  



### D) Optimisation de la Vitesse :

CatBoost est conçu pour être rapide et efficace, ce qui le rend particulièrement adapté à des ensembles de données volumineux contenant des variables catégorielles.




## 3) Les principaux hyperparamètres:

Taux d'apprentissage (learning_rate) : ce paramètre contrôle la rapidité avec laquelle l'algorithme apprend. Un taux d'apprentissage plus élevé permettra à l'algorithme d'apprendre plus rapidement, mais il peut également entraîner un surapprentissage.

Profondeur des arbres (depth) : ce paramètre contrôle la complexité des arbres de décision construits par l'algorithme. Une profondeur d'arbre plus élevée permettra à l'algorithme de capturer des interactions plus complexes entre les données, mais il peut également entraîner un surapprentissage.

Régularité L2 (l2_leaf_reg) : ce paramètre contrôle la quantité de régularisation appliquée aux feuilles des arbres de décision. La régularisation aide à prévenir le surapprentissage en empêchant les arbres de devenir trop complexes.

Force aléatoire (random_strength) : ce paramètre contrôle la quantité d'aléatoire appliquée à l'algorithme. Une force aléatoire plus élevée permettra à l'algorithme de générer des arbres plus diversifiés, ce qui peut aider à prévenir le surapprentissage.

Température de bagging (bagging_temperature) : ce paramètre contrôle l'influence des arbres de décision individuels sur le modèle final. Une température de bagging plus élevée permettra à l'algorithme de combiner les contributions des arbres de décision de manière plus uniforme, ce qui peut aider à prévenir le surapprentissage.

Compteur de bordure (border_count) : ce paramètre contrôle le nombre de points de données à utiliser pour calculer la valeur d'un seuil de décision. Un compteur de bordure plus élevé permettra à l'algorithme de prendre des décisions plus précises, mais il peut également entraîner un surapprentissage.

eval_metric : Permet de spécifier des métriques pour l'évaluation du modèle.


### Comment ajuster les hyperparamètres de CatBoost:

Méthode manuelle
La méthode manuelle consiste à essayer différentes valeurs pour les hyperparamètres et à observer l'impact sur les performances du modèle. Cette méthode peut être laborieuse et nécessite une certaine expérience.

Méthode de recherche automatique (Grid Search etc.) 
Les méthodes de recherche automatique tentent d'explorer l'espace des hyperparamètres pour trouver les valeurs qui donnent les meilleures performances. Ces méthodes peuvent être efficaces, mais elles peuvent également être coûteuses en temps et en ressources.


### Installation Catboost

pip install catboost

from catboost import CatBoostClassifier


### Autres classes et fonctionnalités de catboost:


1. **Régression avec CatBoost :**
   ```python
   from catboost import CatBoostRegressor
   ```

2. **Matrice de données CatBoost (Pool) :**
   ```python
   from catboost import Pool
   ```

   la méthode Pool dans CatBoost est utilisée pour représenter un ensemble de données dans un format optimisé pour être utilisé avec les modèles CatBoost

3. **Exploration des features (Feature Importance) :**
   ```python
   from catboost import CatBoostClassifier

   ```
   Si certaines caractéristiques ont une importance très faible, vous pourriez envisager de les éliminer pour simplifier votre modèle et potentiellement améliorer sa généralisation.

   Vous pouvez utiliser la classe `CatBoostClassifier` pour entraîner un modèle et ensuite explorer l'importance des caractéristiques avec les attributs tels que `feature_importances_`.

4. **Visualisation des métriques d'évaluation :**
   ```python
   from catboost import CatBoostClassifier
   from catboost import MetricVisualizer
   ```

   Vous pouvez utiliser la classe `MetricVisualizer` pour visualiser les métriques d'évaluation pendant l'entraînement.






3. Installation et Configuration :
Installation : Guidez votre auditoire sur la façon d'installer CatBoost. Vous pouvez expliquer l'utilisation de pip (pour Python) ou toute autre méthode pertinente selon le langage de programmation utilisé.
4. Utilisation de CatBoost :
Importation de la bibliothèque : Montrez comment importer CatBoost dans un environnement de programmation, comme Python.
Préparation des données : Expliquez comment préparer les données pour CatBoost, en mettant l'accent sur la gestion des variables catégorielles.


Fait 5. Entraînement d'un modèle :
Configuration des hyperparamètres : Discutez des principaux hyperparamètres, tels que le taux d'apprentissage, la profondeur des arbres, et comment les ajuster.
Entraînement du modèle : Montrez comment entraîner un modèle CatBoost sur un ensemble de données.


6. Évaluation du Modèle :
Métriques d'évaluation : Présentez les métriques couramment utilisées pour évaluer les modèles de classification et de régression (par exemple, l'accuracy, la précision, le rappel, l'AUC-ROC pour la classification, ou la MSE pour la régression).
Validation Croisée : Expliquez l'utilisation de la validation croisée pour évaluer la performance du modèle.
7. Optimisation et Réglage des Hyperparamètres :
Optimisation : Discutez des stratégies pour optimiser les performances du modèle, telles que le réglage des hyperparamètres.
Régularisation : Expliquez l'importance de la régularisation dans la prévention du surajustement.
8. Utilisation Avancée (en option) :
Interprétation du Modèle : Si votre auditoire est à l'aise avec des concepts plus avancés, discutez de méthodes pour interpréter les modèles CatBoost.
9. Exemples Pratiques :
Démo : Fournissez des démonstrations pratiques de l'utilisation de CatBoost sur des ensembles de données réels.
10. Ressources Supplémentaires :
Documentation : Dirigez votre auditoire vers la documentation officielle de CatBoost pour des informations plus détaillées.
Exercices et Projets : Encouragez la pratique en suggérant des exercices ou des projets.