# Arbre de décision
Implémentation d'un arbre de décision avec une recherche d'hyper-paramètres.
<br>
### Etapes

1. **Chargement des données** à partir des dossiers déjà splités (train/test).
2. **Pré-traîtement** des données. 
3. **Initialisation du modèle**.
4. **Recherche d'hyper-paramètres**.
5. **Evaluation du modèle** et **prédiction**.

<br>

### Conclusion

- Grande différence entre le score de validation croisée et le score sur les données de tests (+15%).
- Il n'est pas forcément nécessaire de normaliser les données dans le cadre d'un arbre de décision.
- Le modèle est probablement overfitté.

## Chargement et split des données en fonction du dossier

Les images sont redimensionnées à 64x64 pixels pour avoir une taille uniforme et plus légère.

In [9]:
from sklearn.model_selection import train_test_split
import numpy as np

from src.preprocessing import load_images_from_folder
import os

base_path = os.path.abspath(os.path.join(os.getcwd(), "../../data/raw"))

train_path = os.path.join(base_path, "train")

X, y = load_images_from_folder(train_path, image_size=(64, 64))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=0)

## Pré-traitement des données

- Normalisation des images pour "rescaler" les valeurs des pixels dans une plage uniforme.
- Aplanissement des images (2D -> 1D) pour les rendre compatibles.

In [10]:
from src.preprocessing import normalize_images

normalized_images = normalize_images(X_train)
flattened_images = np.array([x.flatten() for x in normalized_images])

test_normalized_images = normalize_images(X_test)
test_flattened_images = np.array([x.flatten() for x in test_normalized_images])

## Initialisation et entraînement du modèle

- Initialisation du modèle basé sur un arbre de décision.
- Entraînement du modèle.

In [11]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()

clf.fit(flattened_images, y_train)

#### Affichage des hyper-paramètres calculées par la recherche.

## Evaluation du meilleur modèle selectionné

- Validation croisée pour évaluer les performance du modèle.
- Prédiction et évaluation du modèle sur les données de test.

In [12]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(clf, flattened_images, y_train, cv=5, scoring='accuracy')
print(f"Scores de validation croisée : {scores}")
print(f"Score moyen de validation croisée : {np.mean(scores)}")

y_pred = clf.predict(test_flattened_images)

from sklearn.metrics import classification_report, accuracy_score

print(f"Accuracy sur les données de test : {accuracy_score(y_test, y_pred)}")
print(f"Rapport de classification :\n {classification_report(y_test, y_pred)}")

Scores de validation croisée : [0.8743344  0.87965921 0.89350373 0.88391906 0.86673774]
Score moyen de validation croisée : 0.8796308280596106
Accuracy sur les données de test : 0.8659003831417624
Rapport de classification :
               precision    recall  f1-score   support

           0       0.76      0.72      0.74       137
           1       0.90      0.92      0.91       385

    accuracy                           0.87       522
   macro avg       0.83      0.82      0.82       522
weighted avg       0.86      0.87      0.86       522
