In [9]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import datasets
import pandas as pd

# Charger l'ensemble de données Iris
iris = datasets.load_iris()

# Créer un DataFrame pandas avec les données
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target  # Ajouter la colonne cible

# Enregistrer le DataFrame en tant que fichier CSV
iris_df.to_csv('iris_df.csv', index=False)
# Charger les données
iris_df = pd.read_csv('iris_df.csv')

# Séparer les features et la cible
X = iris_df.drop('target', axis=1)
y = iris_df['target']

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer un modèle d'arbre de décision
base_model = DecisionTreeClassifier(random_state=42)

# Créer un modèle Bagging avec des arbres de décision
bagging_model = BaggingClassifier(base_model, n_estimators=5, random_state=42)

# Entraîner le modèle Bagging
bagging_model.fit(X_train, y_train)

# Faire des prédictions
y_pred = bagging_model.predict(X_test)

# Évaluer la performance
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy du modèle Bagging : {accuracy}")

Accuracy du modèle Bagging : 1.0


## Partie Théorique : Ensembles d'Arbres
### Introduction :
Les ensembles d'arbres sont une stratégie puissante en apprentissage automatique, où plusieurs modèles d'arbres sont combinés pour améliorer la performance globale. Deux techniques couramment utilisées dans les ensembles d'arbres sont le Bagging (Bootstrap Aggregating) et le Pasting.

![Schéma Ensembles d'Arbres](assets/shema_bagging&plasting/Shema_Baggin.jpg)

## Bagging (Bootstrap Aggregating) :
Le Bagging est une technique qui vise à réduire la variance en agrégeant plusieurs modèles appris à partir de sous-ensembles de données générés par échantillonnage avec remplacement (bootstrap) du dataset d'origine. Voici les étapes générales du Bagging :

#### Idée Principale :
Utilise le Bootstrap Sampling pour créer des ensembles d'entraînement différents pour chaque modèle.

#### Fonctionnement :
Chaque modèle est formé indépendamment sur son propre ensemble d'entraînement, créé en tirant aléatoirement avec remplacement à partir du jeu de données original.

#### Avantages :
Réduit la variance, améliore la stabilité, et prévient le surajustement.

### Étape 1 : Bootstrap Sampling :
#### Théorie :
On crée plusieurs échantillons d'entraînement en tirant aléatoirement avec remplacement à partir du jeu de données original.

#### Exemple :
Supposons que nous ayons 150 exemples dans le dataset Iris. Nous créons plusieurs ensembles en tirant aléatoirement 150 exemples avec remplacement à chaque fois.

### Étape 2 : Construction des Arbres :
#### Théorie :
Pour chaque échantillon, on construit un arbre de décision, mais à chaque nœud, on ne considère qu'un sous-ensemble aléatoire des caractéristiques.

#### Exemple :
Quand on construit un arbre sur un sous-ensemble d'Iris, on pourrait, par exemple, considérer uniquement la longueur du sépale et la largeur du pétale pour chaque nœud.

### Étape 3 : Entraînement d'Arbres Indépendants :
#### Théorie :
Chaque arbre est entraîné de manière indépendante sur son propre ensemble d'entraînement généré par Bootstrap Sampling.

#### Exemple :
Pour chaque sous-ensemble d'Iris créé, un modèle d'arbre de décision est formé.

### Étape 4 : Agrégation des Prédictions :
#### Théorie :
Les prédictions de chaque arbre sont combinées par moyenne (régression) ou vote majoritaire (classification) pour obtenir la prédiction finale.

#### Exemple :
Si nous avons 5 modèles d'arbres, nous agrégeons leurs prédictions (par vote majoritaire, moyenne, etc.) pour obtenir la prédiction finale pour une observation Iris spécifique.

## Conclusion :
Le Bagging, en utilisant des modèles d'arbres de décision, offre une méthode robuste pour améliorer la performance des modèles et prévenir le surajustement, tout en utilisant le dataset Iris comme exemple spécifique. Chaque étape du processus contribue à la diversité des modèles, renforçant ainsi la capacité de généralisation de l'ensemble dans le contexte d'Iris.

## Pasting :
Pasting est une technique similaire au Bagging, mais au lieu d'utiliser un échantillonnage avec remplacement (bootstrap), elle utilise un échantillonnage sans remplacement pour créer différents ensembles d'entraînement pour chaque modèle. Voici les étapes générales du Pasting :

#### Idée Principale :
Utilise l'échantillonnage sans remplacement pour créer des ensembles d'entraînement différents pour chaque modèle.

#### Fonctionnement :
Chaque modèle est formé indépendamment sur son propre ensemble d'entraînement, créé en tirant aléatoirement sans remplacement à partir du jeu de données original.

#### Avantages :
Réduit la variance, améliore la stabilité, et prévient le surajustement.

### Étape 1 : Pasting (Échantillonnage sans remplacement) :
#### Théorie :
On crée plusieurs ensembles d'entraînement en tirant aléatoirement sans remplacement à partir du jeu de données original.

#### Exemple avec Iris :
Supposons que nous ayons 150 exemples dans le dataset Iris. Nous créons plusieurs ensembles en tirant aléatoirement, sans remplacement, 150 exemples à chaque fois.

### Étape 2 : Construction des Arbres :
#### Théorie :
Pour chaque échantillon, on construit un arbre de décision, mais à chaque nœud, on ne considère qu'un sous-ensemble aléatoire des caractéristiques.

#### Exemple :
Quand on construit un arbre sur un sous-ensemble d'Iris, on pourrait, par exemple, considérer uniquement la longueur du sépale et la largeur du pétale pour chaque nœud.

### Étape 3 : Entraînement d'Arbres Indépendants :
#### Théorie :
Chaque arbre est entraîné de manière indépendante sur son propre ensemble d'entraînement généré par Pasting.

#### Exemple avec Iris :
Pour chaque sous-ensemble d'Iris créé, un modèle d'arbre de décision est formé.

### Étape 4 : Agrégation des Prédictions :
#### Théorie :
Les prédictions de chaque arbre sont combinées par moyenne (régression) ou vote majoritaire (classification) pour obtenir la prédiction finale.

#### Exemple avec Iris :
Si nous avons 5 modèles d'arbres, nous agrégeons leurs prédictions (par vote majoritaire, moyenne, etc.) pour obtenir la prédiction finale pour une observation Iris spécifique.

## Conclusion :
Le Pasting, tout comme le Bagging, est une technique qui utilise des modèles d'arbres de décision pour créer un ensemble robuste et généralisable. En utilisant l'échantillonnage sans remplacement, Pasting offre une alternative au Bagging et peut être particulièrement utile lorsque le dataset est limité et que l'on souhaite éviter la répétition d'observations dans les ensembles d'entraînement. Chaque étape du processus contribue à la diversité des modèles, renforçant ainsi la capacité de généralisation de l'ensemble dans le contexte d'Iris.

#### Parlons maintenant du "Voting" (ou vote) dans le monde des arbres et des amis.

 

### Voting (Vote) :

 

Imagine que tu veux choisir quelle glace manger, et tu as trois amis qui ont chacun leur propre suggestion.

 

Ami 1 : Il suggère la glace à la vanille.

Ami 2 : Il suggère la glace au chocolat.

Ami 3 : Il suggère la glace à la fraise.

Maintenant, le "Voting" (ou vote) consiste simplement à choisir la suggestion qui obtient le plus de votes.

 

Si plus d'amis préfèrent la vanille, alors tu choisis la glace à la vanille.

Si plus d'amis préfèrent le chocolat, alors tu choisis la glace au chocolat.

Si plus d'amis préfèrent la fraise, alors tu choisis la glace à la fraise.

Le "Voting" dans les modèles d'arbres fonctionne de manière similaire. Imaginons que tu as plusieurs modèles d'arbres, chacun donnant sa propre prédiction.

 

Modèle 1 : Il prédit "Oui".

Modèle 2 : Il prédit "Non".

Modèle 3 : Il prédit "Oui".

Le "Voting" peut être "majoritaire" ou "à la moyenne".

 

#### Majoritaire : Si plus de modèles disent "Oui", alors la réponse finale est "Oui". Sinon, c'est "Non".

#### Moyenne : Si tu regardes les réponses chiffrées (par exemple, des probabilités), tu peux prendre la moyenne de ces chiffres pour obtenir une réponse finale.

C'est un peu comme écouter tes amis et suivre la suggestion qui obtient le plus de votes. Dans le monde des modèles d'arbres, le "Voting" te donne une décision finale en prenant en compte l'avis de plusieurs modèles. C'est une façon de rassembler les idées de différents arbres pour faire le meilleur choix possible.

### Hyperparamètres Importants :

#### Nombre de Modèles (n_estimators) : 
Le nombre total d'arbres dans l'ensemble.

#### Profondeur d'Arbre (max_depth) : 
La profondeur maximale de chaque arbre.

#### Nombre de Caractéristiques à Considérer (max_features) : 
Le nombre maximum de caractéristiques à considérer pour chaque division.

#### Critère de Division (criterion) :
Indique comment mesurer la qualité d'une division (ex. Gini pour la classification, MSE pour la régression).

Les hyperparamètres sont des paramètres externes au modèle qui influent sur le processus d'apprentissage mais qui ne sont pas appris par le modèle lui-même. Leur ajustement peut significativement affecter la performance du modèle. Voici quelques explications sur le fonctionnement des hyperparamètres, leur ordre de grandeur et comment les choisir :
1. Hyperparamètres Communs dans les Arbres de Décision et les Ensembles (Bagging, Pasting, Random Forest) :

    n_estimators : Il s'agit du nombre d'arbres dans l'ensemble. Il est important de trouver un équilibre, car augmenter le nombre d'arbres peut améliorer la performance jusqu'à un certain point, mais cela entraîne également un coût en termes de temps de calcul.

    max_depth : La profondeur maximale de chaque arbre. Cela contrôle la complexité du modèle. Une valeur trop élevée peut conduire à un surajustement, tandis qu'une valeur trop faible peut entraîner un sous-ajustement.

    min_samples_split : Le nombre minimum d'échantillons requis pour diviser un nœud. Une valeur plus élevée prévient le surajustement.

    min_samples_leaf : Le nombre minimum d'échantillons requis pour être dans une feuille. Comme min_samples_split, il aide à contrôler le surajustement.

    max_features : Le nombre maximal de fonctionnalités à considérer pour la division d'un nœud. Cela permet de rendre le modèle plus robuste en introduisant plus de diversité.

2. Ordre de Grandeur des Hyperparamètres :

    n_estimators : Typiquement dans la plage de 50 à quelques centaines.

    max_depth : Dépend de la taille du jeu de données et de la complexité de la relation à modéliser. Peut aller de quelques unités à plusieurs dizaines.

    min_samples_split et min_samples_leaf : Souvent dans la plage de 1 à 20.

    max_features : Peut être réglé sur "auto" (équivalent à sqrt(n_features)), "log2", ou un nombre fixe.

3. Choix des Hyperparamètres :

    Recherche Manuelle : Commencez avec une valeur arbitraire, évaluez la performance du modèle, et ajustez les hyperparamètres en conséquence.

    Recherche Grille (Grid Search) : Énumérez plusieurs combinaisons d'hyperparamètres et évaluez-les toutes. Sklearn propose la fonction GridSearchCV pour cela.

    Recherche Aléatoire (Random Search) : Échantillonnez aléatoirement à partir d'une distribution définie pour chaque hyperparamètre. Peut être plus efficace que la recherche grille.

    Optimisation Bayésienne : Utilise des méthodes d'optimisation bayésienne pour explorer de manière plus intelligente l'espace des hyperparamètres.

4. Validation Croisée (Cross-Validation) :

    Toujours utiliser la validation croisée pour évaluer la performance du modèle avec différentes combinaisons d'hyperparamètres.

    Cela aide à éviter le surajustement aux données d'entraînement.

5. Autres Conseils :

    Visualisation : Utilisez des graphiques pour comprendre comment la performance du modèle change avec différents hyperparamètres.

    Compréhension du Problème : La connaissance du domaine peut vous aider à choisir des valeurs initiales raisonnables pour les hyperparamètres.

    Ressources en Calcul : Tenez compte du coût en termes de ressources de calcul lors du choix des valeurs pour n_estimators et d'autres hyperparamètres.

En résumé, l'ajustement des hyperparamètres est un processus itératif et dépendant du problème. Il est essentiel de comprendre le comportement de chaque hyperparamètre et de les ajuster en fonction de la complexité du modèle et des caractéristiques du jeu de données.



Ensemble d'Arbres (Random Forest) :

Fonctionnement Théorique :
Introduction :
Un Random Forest est un ensemble d'arbres de décision. Au lieu d'avoir un seul arbre, on en construit plusieurs, et la prédiction finale est obtenue en moyennant (pour la régression) ou en votant (pour la classification) les prédictions de chaque arbre.

Étape 1 : Bootstrap Sampling :

Théorie : On crée plusieurs échantillons d'entraînement en tirant aléatoirement avec remplacement à partir du jeu de données original.

Exemple : Imagine que tu as un sac avec des boules numérotées de 1 à 10. Tu pioches plusieurs fois, remets chaque boule tirée dans le sac, et répètes.

Étape 2 : Construction des Arbres :

Théorie : Pour chaque échantillon, on construit un arbre de décision, mais à chaque nœud, on ne considère qu'un sous-ensemble aléatoire des caractéristiques.

Exemple : Quand tu poses des questions, tu ne considères pas toujours les mêmes caractéristiques pour chaque arbre. Par exemple, pour un arbre, tu peux demander "a-t-il des ailes?" et pour un autre "a-t-il des pattes?".

Étape 3 : Agrégation :

Théorie : Les prédictions de chaque arbre sont combinées par moyenne (régression) ou vote majoritaire (classification) pour obtenir la prédiction finale.

Exemple : Si tu demandes à plusieurs amis de deviner le nombre de bonbons dans un bocal, vous combinez ensuite vos réponses pour obtenir une estimation moyenne.

Hyperparamètres et Stratégie :
Nombre d'Arbres (n_estimators) :

Importance : Le nombre total d'arbres dans le Random Forest.
Ordre de Grandeur : Typiquement entre 50 et 500 arbres.
Cas Spécifiques : Plus d'arbres améliorent généralement la performance, mais cela nécessite plus de temps de calcul.
Profondeur d'Arbre (max_depth) :

Importance : La profondeur maximale de chaque arbre.
Ordre de Grandeur : Souvent entre 10 et 100.
Cas Spécifiques : Limiter la profondeur peut prévenir le surajustement.
Nombre de Caractéristiques à Considérer (max_features) :

Importance : Le nombre maximum de caractéristiques à considérer pour chaque division.
Ordre de Grandeur : Racine carrée du nombre total de caractéristiques.
Cas Spécifiques : Ajuster cela peut contrôler la diversité des arbres.
Min. d'Échantillons pour Diviser (min_samples_split) :

Importance : Le nombre minimum d'échantillons nécessaires pour effectuer une division.
Ordre de Grandeur : Généralement petit, comme 2 à 5.
Cas Spécifiques : Ajuster cela peut contrôler la complexité des arbres.
Utilisation dans la Régression et la Classification :
Régression : Oui, les Random Forest sont couramment utilisés pour la régression. La prédiction finale est la moyenne des prédictions des arbres.

Classification : Oui, les Random Forest sont également très efficaces pour la classification. La prédiction finale est déterminée par le vote majoritaire des arbres.

Exemple de Code (en Python avec scikit-learn) :

python
Copy code
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, accuracy_score

# Exemple pour la Régression
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
regressor = RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42)
regressor.fit(X_train, y_train)
predictions = regressor.predict(X_test)
mse = mean_squared_error(y_test, predictions)
print(f'Mean Squared Error: {mse}')

# Exemple pour la Classification
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
classifier = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
classifier.fit(X_train, y_train)
predictions = classifier.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f'Accuracy: {accuracy}')
Ces exemples de code illustrent comment utiliser un Random Forest pour la régression et la classification avec scikit-learn en Python. Vous pouvez ajuster les hyperparamètres selon les besoins spécifiques de votre problème.







# Bagging (Bootstrap Aggregating) :
## Introduction :
Le Bagging est une technique d'ensemble qui vise à améliorer la stabilité et la précision des modèles en combinant les prédictions de plusieurs modèles indépendants. Il utilise le Bootstrap Sampling pour créer des ensembles d'entraînement différents pour chaque modèle.

### Fonctionnement Théorique :

### Bootstrap Sampling :

Théorie : On crée plusieurs échantillons d'entraînement en tirant aléatoirement avec remplacement à partir du jeu de données original.
Exemple : Si tu as un sac avec des boules numérotées de 1 à 10, tu pioches plusieurs fois, remets chaque boule tirée dans le sac, et répètes.
Entraînement Indépendant :

Théorie : Chaque modèle est entraîné indépendamment sur son ensemble de données d'entraînement spécifique.
Exemple : Imaginons que chaque modèle représente un ami qui essaye de deviner quelque chose. Chacun d'eux a un ensemble d'informations légèrement différent.
Agrégation :

Théorie : Les prédictions de chaque modèle sont combinées par moyenne (pour la régression) ou par vote majoritaire (pour la classification).
Exemple : Si tu demandes à plusieurs amis de deviner le nombre de bonbons dans un bocal, vous combinez ensuite vos réponses pour obtenir une estimation moyenne.
Hyperparamètres et Stratégie :

### Nombre de Modèles (n_estimators) :

Importance : Le nombre total de modèles dans l'ensemble.
Ordre de Grandeur : Typiquement entre 50 et 500 modèles.
Cas Spécifiques : Plus de modèles améliorent généralement la performance, mais cela nécessite plus de temps de calcul.
Profondeur d'Arbre (max_depth) :

Importance : La profondeur maximale de chaque arbre dans les modèles.
Ordre de Grandeur : Souvent entre 10 et 100.
Cas Spécifiques : Limiter la profondeur peut prévenir le surajustement.
Nombre de Caractéristiques à Considérer (max_features) :

Importance : Le nombre maximum de caractéristiques à considérer pour chaque division dans les arbres.
Ordre de Grandeur : Racine carrée du nombre total de caractéristiques.
Cas Spécifiques : Ajuster cela peut contrôler la diversité des modèles.
# Pasting (Bagging sans Bootstrap Sampling) :
## Introduction :
Le Pasting est similaire au Bagging, mais au lieu d'utiliser Bootstrap Sampling, il utilise un échantillonnage sans remplacement pour créer les ensembles d'entraînement pour chaque modèle.

## Différence avec le Bagging :

Bagging : Utilise Bootstrap Sampling (tirage avec remplacement).
Pasting : Utilise un échantillonnage sans remplacement.
### Fonctionnement Théorique :

Le fonctionnement du Pasting est essentiellement le même que le Bagging, mais au lieu de permettre aux mêmes échantillons de se retrouver dans plusieurs ensembles d'entraînement, chaque échantillon ne peut être dans qu'un seul ensemble.
Hyperparamètres et Stratégie :

Les hyperparamètres et la stratégie pour le Pasting sont essentiellement les mêmes que pour le Bagging.
Utilisation dans la Régression et la Classification :

Le Bagging et le Pasting peuvent être utilisés aussi bien pour la régression que pour la classification, en fonction du type de modèle utilisé pour chaque base learner (modèle de base) dans l'ensemble.
Exemple de Code (en Python avec scikit-learn) :

python
Copy code
from sklearn.ensemble import BaggingRegressor, BaggingClassifier
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, accuracy_score

# Exemple pour la Régression avec Bagging
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
base_regressor = DecisionTreeRegressor(max_depth=10, random_state=42)
bagging_regressor = BaggingRegressor(base_regressor, n_estimators=100, random_state=42)
bagging_regressor.fit(X_train, y_train)
predictions = bagging_regressor.predict(X_test)
mse = mean_squared_error(y_test, predictions)
print(f'Mean Squared Error (Bagging): {mse}')

# Exemple pour la Classification avec Pasting
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
base_classifier = DecisionTreeClassifier(max_depth=10, random_state=42)
pasting_classifier = BaggingClassifier(base_classifier, n_estimators=100, bootstrap=False, random_state=42)
pasting_classifier.fit(X_train, y_train)
predictions = pasting_classifier.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f'Accuracy (Pasting): {accuracy}')
Ces exemples de code montrent comment utiliser le Bagging pour la régression et le Pasting pour la classification avec scikit-learn en Python. Vous pouvez ajuster les hyperparamètres selon les besoins spécifiques de votre problème.

Wisdom of the crowd 
VotingClassifier & VotingRegressor
BagginClassifier & BaginRegressor


Accuracy

les limite de l'accuracy : classe imbalance dummyclassifier de sklearn 
matrice de confusion : 
recall = tp / (tp +fn)
precision = tp / (tp +fp)
f1 score = 2*(presicion * recall)/(precision + recall) = 2tp/ (

)
spécificité = tn / fp+tn

In [10]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.model_selection import train_test_split

np.random.seed(42)

# Création d'un dataset avec des caractéristiques variées
data = {
    'Taille': np.random.uniform(0.1, 2.0, 50),
    'Poids': np.random.uniform(0.5, 100.0, 50),
    'Type_Animal': np.random.choice(['Mammifère', 'Reptile', 'Oiseau', 'Amphibien'], size=50),
    'Regime_Alimentaire': np.random.choice(['Carnivore', 'Omnivore', 'Herbivore'], size=50),
    'Espece_Protegee': np.random.choice(['Oui', 'Non'], size=50),
    'Comportement': np.random.choice(['Pacifique', 'Farouche', 'Territorial', 'Agressif', 'Prédateur'], size=50),
    'Nom_Animal': [f'Animal_{i}' for i in range(50)],
    'Dangerosite': np.random.randint(0, 11, size=50)
}

df = pd.DataFrame(data)

# Définir la nouvelle variable cible en fonction des conditions spécifiées
df['Dangerosite'] = np.where(
    (df['Comportement'] == 'Pacifique'),  # Si le comportement est pacifique
    0,
    np.where(
        ((df['Type_Animal'] == 'Oiseau') &
        (df['Poids'] > 5) &
        ((df['Comportement'] == 'Agressif') | (df['Comportement'] == 'Territorial'))),  # Si les conditions spécifiées pour les oiseaux sont satisfaites
        10,
        np.where(
            ((df['Type_Animal'] == 'Reptile') | (df['Type_Animal'] == 'Amphibien')) &
            ((df['Regime_Alimentaire'] == 'Carnivore') | ((df['Regime_Alimentaire'] == 'Omnivore') &
            ((df['Comportement'] == 'Territorial') | (df['Comportement'] == 'Prédateur') | (df['Comportement'] == 'Agressif')))),  # Si les conditions spécifiées pour reptiles et amphibiens sont satisfaites
            10,
            np.where(
                ((df['Type_Animal'] == 'Mammifère') | (df['Type_Animal'] == 'Reptile')) &
                (df['Taille'] > 0.82) &
                (df['Poids'] > 70) &
                ((df['Regime_Alimentaire'] == 'Carnivore') |
                 ((df['Regime_Alimentaire'] == 'Omnivore') & ((df['Comportement'] == 'Agressif') | (df['Comportement'] == 'Prédateur')))) &
                (df['Espece_Protegee'] == 'Non'),  # Si les conditions spécifiées pour mammifères et reptiles sont satisfaites
                10,
                df['Dangerosite']  # Sinon, conserve la valeur existante
            )
        )
    )
)

# Suppression des colonnes inutiles
df = df.drop('Nom_Animal', axis=1)
# Sauvegarder le DataFrame dans un fichier CSV
df.to_csv('animal_dataset.csv', index=False)

# Encodage one-hot des variables catégoriques
df_encoded = pd.get_dummies(df, columns=['Type_Animal', 'Regime_Alimentaire', 'Espece_Protegee', 'Comportement'], drop_first=True)

# Sauvegarder le DataFrame dans un fichier CSV
df_encoded.to_csv('animal_encoded_dataset.csv', index=False)


# Divisons le dataset en ensembles d'entraînement et de test
X_encoded = df_encoded.drop('Dangerosite', axis=1)
y_encoded = df_encoded['Dangerosite']
X_train_encoded, X_test_encoded, y_train_encoded, y_test_encoded = train_test_split(X_encoded, y_encoded, test_size=0.2, random_state=42)

# Créons un classificateur de base (arbre de décision)
base_classifier = DecisionTreeClassifier(max_depth=3, random_state=42)

# Entraînement avec Bagging
bagging_classifier = BaggingClassifier(base_classifier, n_estimators=5, random_state=42)
bagging_classifier.fit(X_train_encoded, y_train_encoded)
bagging_accuracy = bagging_classifier.score(X_test_encoded, y_test_encoded)
print(f"Accuracy Bagging: {bagging_accuracy}")

# Entraînement avec Pasting
pasting_classifier = BaggingClassifier(base_classifier, n_estimators=5, bootstrap=False, random_state=42)
pasting_classifier.fit(X_train_encoded, y_train_encoded)
pasting_accuracy = pasting_classifier.score(X_test_encoded, y_test_encoded)
print(f"Accuracy Pasting: {pasting_accuracy}")

Accuracy Bagging: 0.6
Accuracy Pasting: 0.5
