# Arbre de décision
Implémentation d'un arbre de décision avec une recherche d'hyper-paramètres.
<br>
### Etapes

1. **Chargement des données** à partir des dossiers déjà splités (train/test).
2. **Pré-traîtement** des données. 
3. **Initialisation du modèle**.
4. **Recherche d'hyper-paramètres**.
5. **Evaluation du modèle** et **prédiction**.

<br>

### Conclusion

- Grande différence entre le score de validation croisée et le score sur les données de tests (+15%).
- Il n'est pas forcément nécessaire de normaliser les données dans le cadre d'un arbre de décision.
- Le modèle est probablement overfitté.

## Chargement et split des données en fonction du dossier

Les images sont redimensionnées à 64x64 pixels pour avoir une taille uniforme et plus légère.

In [2]:
from sklearn.model_selection import train_test_split
import numpy as np

from src.preprocessing import load_images_from_folder
import os

base_path = os.path.abspath(os.path.join(os.getcwd(), "../../data/raw"))

train_path = os.path.join(base_path, "train")

X, y = load_images_from_folder(train_path, image_size=(64, 64))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=0)

## Pré-traitement des données

- Normalisation des images pour "rescaler" les valeurs des pixels dans une plage uniforme.
- Aplanissement des images (2D -> 1D) pour les rendre compatibles.

In [3]:
flattened_images = np.array([x.flatten() for x in X_train])

test_flattened_images = np.array([x.flatten() for x in X_test])

## Initialisation et recherche des hyperparamètres optimaux du modèle avec les données traitées

- Initialisation du modèle basé sur un arbre de décision.
- Définition de la grille de recherche d'hyper-paramètres.
- Recherche d'hyper-paramètres avec GridSearchCV basée sur la validation croisée.
- Entraînement et recherche d'hyper-paramètres

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()

param_grid = {
    'criterion': ['gini'],
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': [None, 'sqrt', 'log2']
}

grid_search = GridSearchCV(clf, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(flattened_images, y_train)

#### Affichage des hyper-paramètres calculées par la recherche.

In [None]:
grid_search.best_params_

## Evaluation du meilleur modèle selectionné

- Validation croisée pour évaluer les performance du modèle.
- Prédiction et évaluation du modèle sur les données de test.

In [None]:
from sklearn.model_selection import cross_val_score

best_clf = grid_search.best_estimator_
scores = cross_val_score(best_clf, flattened_images, y_train, cv=5, scoring='accuracy')
print(f"Scores de validation croisée : {scores}")
print(f"Score moyen de validation croisée : {np.mean(scores)}")

y_pred = best_clf.predict(test_flattened_images)

from sklearn.metrics import classification_report, accuracy_score

print(f"Accuracy sur les données de test : {accuracy_score(y_test, y_pred)}")
print(f"Rapport de classification :\n {classification_report(y_test, y_pred)}")