## üß† Importation des biblioth√®ques pour la mod√©lisation

Dans cette cellule, nous importons toutes les biblioth√®ques n√©cessaires pour tester diff√©rents mod√®les d‚Äôapprentissage automatique sur nos datasets HOG.

### Mod√®les import√©s :

- **Arbres de d√©cision et ensembles** :
  - `DecisionTreeClassifier` ‚Üí arbre de d√©cision simple  
  - `RandomForestClassifier` ‚Üí for√™t al√©atoire  
  - `ExtraTreesClassifier` ‚Üí for√™t extr√™mement al√©atoire  
  - `GradientBoostingClassifier` ‚Üí gradient boosting classique  
  - `HistGradientBoostingClassifier` ‚Üí version optimis√©e pour grands datasets  

- **SVM et r√©gression** :
  - `SVC` ‚Üí support vector classifier  
  - `LogisticRegression` ‚Üí r√©gression logistique  

- **Autres mod√®les** :
  - `KNeighborsClassifier` ‚Üí k-plus proches voisins  
  - `MLPClassifier` ‚Üí perceptron multi-couches (r√©seau de neurones simple)  
  - `XGBClassifier` ‚Üí XGBoost, boosting bas√© sur les arbres  

### Utilitaires :

- `pandas` ‚Üí manipulation de DataFrame pour stocker et analyser les r√©sultats  
- `joblib` ‚Üí sauvegarde et chargement des splits et mod√®les  
- `time` ‚Üí mesurer le temps d‚Äôentra√Ænement  
- `tqdm` ‚Üí barre de progression pour les boucles

> ‚ö° Objectif : disposer de tous les mod√®les et outils n√©cessaires pour √©valuer leurs performances sur nos datasets HOG.


In [6]:
from sklearn.ensemble import RandomForestClassifier,ExtraTreesClassifier,HistGradientBoostingClassifier,GradientBoostingClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
import pandas as pd
import joblib
import time
from tqdm import tqdm

## üìÇ Chargement des splits pr√©trait√©s

Dans cette cellule, nous chargeons les fichiers `.pkl` sauvegard√©s pr√©c√©demment pour chaque taille d‚Äôimage.  

Chaque fichier contient :  
- `X_train` : vecteurs de caract√©ristiques HOG normalis√©s pour l‚Äôentra√Ænement  
- `X_test`  : vecteurs de caract√©ristiques HOG normalis√©s pour le test  
- `y_train` : labels d‚Äôentra√Ænement  
- `y_test`  : labels de test  

Ces splits sont stock√©s dans un dictionnaire `split` index√© par la taille de l‚Äôimage, ce qui permet de **travailler facilement sur diff√©rentes r√©solutions** :


In [2]:
split={}
tailles = [64,128,176,224,299]
for t in tailles:
    filename=f"splits_{t}.pkl"
    split[t]=joblib.load(filename)

## üß© D√©finition des mod√®les √† tester

Dans cette cellule, nous pr√©parons tous les mod√®les que nous allons entra√Æner et √©valuer sur nos vecteurs HOG.  
L‚Äôobjectif est de comparer les performances et de voir quels mod√®les sont les plus adapt√©s √† notre dataset.

### Mod√®les classiques
Ces mod√®les n‚Äôutilisent pas d‚Äôarbres et sont adapt√©s pour des vecteurs de caract√©ristiques denses‚ÄØ:  
- **SVC** : Support Vector Classifier  
- **KNN** : k-plus proches voisins  
- **MLP** : r√©seau de neurones simple avec deux couches cach√©es  
- **Logistic Regression** : r√©gression logistique classique  

### Mod√®les bas√©s sur les arbres
Ces mod√®les utilisent des arbres de d√©cision simples ou des ensembles d‚Äôarbres pour am√©liorer les performances‚ÄØ:  
- **DecisionTree** : arbre de d√©cision simple  
- **RandomForest** : for√™t al√©atoire, r√©duction de la variance gr√¢ce au bagging  
- **ExtraTrees** : for√™t extr√™mement al√©atoire  
- **GradientBoosting** : gradient boosting classique, r√©duction du biais  
- **XGBoost** : version optimis√©e de gradient boosting, adapt√©e aux grands datasets  

> üí° Remarque : Cette distinction entre mod√®les classiques et arbres permet de comparer facilement **diff√©rents types de mod√®les** et de s√©lectionner ceux qui offrent le meilleur compromis entre biais, variance et performances.


In [4]:
# === D√©finition des mod√®les classiques  ===
model_classiques={
     "SVC": SVC(),
     "KNN": KNeighborsClassifier(),
     "MLP": MLPClassifier(hidden_layer_sizes=(128, 64), max_iter=300, random_state=42),
     "LR": LogisticRegression(max_iter=10000, solver='lbfgs')}

# === D√©finition des mod√®les arbres  ===
model_arbres = {
    "DecisionTree": DecisionTreeClassifier(random_state=42),
    "RandomForest": RandomForestClassifier(n_jobs=-1, random_state=42),
    "ExtraTrees": ExtraTreesClassifier(n_jobs=-1, random_state=42),
    "GradientBoosting": GradientBoostingClassifier(random_state=42),
    "XGB": XGBClassifier(n_jobs=-1,  eval_metric='mlogloss')
}


## üèÉ‚Äç‚ôÇÔ∏è Exp√©rimentation et √©valuation des mod√®les

Cette cellule effectue les tests de performance pour tous les mod√®les d√©finis pr√©c√©demment, sur diff√©rentes tailles d‚Äôimages et diff√©rents sous-ensembles d‚Äô√©chantillons.  

### √âtapes principales

1. **D√©finition des tailles et √©chantillons**  
   - Tailles des images : 64, 128, 176, 224, 299  
   - Nombre d‚Äôimages pour l‚Äôentra√Ænement : 1664, 2664, 4664, 6664, 8664  

2. **S√©lection des mod√®les**  
   - `Classique` : SVC, KNN, MLP, LogisticRegression  
   - `Arbre` : DecisionTree, RandomForest, ExtraTrees, GradientBoosting, XGBoost  

3. **Boucle d‚Äôexp√©rimentation**  
   - Pour chaque type de mod√®le (`Classique` ou `Arbre`)  
   - Pour chaque taille d‚Äô√©chantillon  
   - Pour chaque taille d‚Äôimage  

4. **Pr√©paration des donn√©es**  
   - Chargement des splits train/test correspondants  
   - Test **sur toutes les tailles d‚Äô√©chantillons** pour observer si la quantit√© de donn√©es impacte les scores ou non  

5. **Entra√Ænement et √©valuation**  
   - Entra√Ænement de chaque mod√®le sur le sous-√©chantillon correspondant  
   - Calcul du **score sur l‚Äôensemble d‚Äôentra√Ænement** (`score_train`)  
   - Calcul du **score sur l‚Äôensemble de test** (`score_test`)  
   - Mesure du **temps d‚Äôentra√Ænement** pour chaque mod√®le  
   - ‚ö†Ô∏è Remarque : certaines √©tapes peuvent prendre beaucoup de temps selon le mod√®le et la taille des images. Des red√©marrages ou r√©initialisations ont parfois √©t√© n√©cessaires pour √©viter que le notebook ne reste bloqu√©.  

6. **Stockage des r√©sultats**  
   - Tous les r√©sultats sont ajout√©s √† une liste `resultat`  
   - Sauvegarde interm√©diaire en CSV apr√®s chaque taille d‚Äô√©chantillon pour √©viter toute perte  

> ‚ö° Objectif : obtenir un **tableau complet des performances** pour chaque mod√®le, chaque taille d‚Äôimage et chaque nombre d‚Äô√©chantillons, afin de comparer efficacement **biais, variance et temps d‚Äôentra√Ænement**, et observer l‚Äôinfluence du nombre d‚Äôimages sur les scores.


In [5]:
resultat=[]

# === Listes des tailles et √©chantillons ===
tailles = [64,128,176,224,299]
sample=[1664,2664,4664,6664,8664]

models = {
    "Classique": model_classiques,
    "Arbre": model_arbres
}

for type_modele, dico in models.items():
    
    print(f"\n==================== Tests des mod√®les {type_modele.upper()} ====================\n")
    
    # === Boucles d‚Äôexp√©rimentation ===
    for s in sample:
        print(f"\n=== Traitement pour {s} images ===")
           
        for taille in tailles:
            print(f"\n=== Traitement pour la Taille {taille}x{taille} ===")
            X_train_scaled=split[taille]["X_train"]
            X_test_scaled=split[taille]["X_test"]
            y_train=split[taille]["y_train"]
            y_test=split[taille]["y_test"]
        
            # ‚úÖ R√©duction du jeu d'entra√Ænement si n√©cessaire
            n = min(s, len(X_train_scaled))
            X_train_sub = X_train_scaled[:n]
            y_train_sub = y_train[:n]
        
            # === Entra√Ænement et mesure de performance ===
            for clf_name,clf in dico.items():
                print(f"\n=== Traitement du model {clf_name} ===")
                start = time.time()
                clf.fit(X_train_sub,y_train_sub)
                duration = time.time() - start
        
                score_train=clf.score(X_train_sub,y_train_sub)
                score_test=clf.score(X_test_scaled,y_test)
                
                resultat.append({"Type": type_modele,"sample":n,"taille":taille,"clf":clf_name,"score_train":round(score_train,4),"score_test":round(score_test,4),"Temps(s)":round(duration,2)})
    
        # sauvegarde de s√©curit√© apr√®s chaque taille d‚Äô√©chantillon
        pd.DataFrame(resultat).to_csv(f"resultats_modeles_{type_modele}_{s}.csv", index=False)
        print(f"\n Sauvegarde interm√©diaire : resultats_modeles_{type_modele}_{s}.csv")






=== Traitement pour 8664 images ===

=== Traitement pour la Taille 64x64 ===

=== Traitement du model DecisionTree ===

=== Traitement du model RandomForest ===

=== Traitement du model ExtraTrees ===

=== Traitement du model GradientBoosting ===

=== Traitement du model XGB ===

=== Traitement pour la Taille 128x128 ===

=== Traitement du model DecisionTree ===

=== Traitement du model RandomForest ===

=== Traitement du model ExtraTrees ===

=== Traitement du model GradientBoosting ===

=== Traitement du model XGB ===

=== Traitement pour la Taille 176x176 ===

=== Traitement du model DecisionTree ===

=== Traitement du model RandomForest ===

=== Traitement du model ExtraTrees ===

=== Traitement du model GradientBoosting ===

=== Traitement du model XGB ===

=== Traitement pour la Taille 224x224 ===

=== Traitement du model DecisionTree ===

=== Traitement du model RandomForest ===

=== Traitement du model ExtraTrees ===

=== Traitement du model GradientBoosting ===

=== Traitem

In [17]:
# === R√©sultats finaux sous forme de DataFrame ===
df_resultats = pd.read_csv("resultats_modeles_final.csv")
resum√©=df_resultats.groupby("clf").agg({'score_train': 'mean', 'score_test': 'mean',"Temps(s)":'mean'})
display(resum√©)

Unnamed: 0_level_0,score_train,score_test,Temps(s)
clf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
DecisionTree,1.0,0.514604,22.1452
ExtraTrees,1.0,0.695844,1.9712
GradientBoosting,0.915268,0.710836,1640.7248
KNN,0.747336,0.623692,0.0144
LR,0.993328,0.667204,3.8416
MLP,1.0,0.743372,15.0468
RandomForest,1.0,0.69188,3.6944
SVC,0.918276,0.735008,334.7444
XGB,1.0,0.737008,90.8952


## üìä R√©sultats finaux

Dans cette cellule, nous centralisons tous les r√©sultats des exp√©rimentations dans un **DataFrame final**.  

- Lecture du fichier `resultats_modeles_final.csv` contenant tous les scores obtenus pour chaque mod√®le, chaque taille d‚Äôimage et chaque taille d‚Äô√©chantillon.  
- Calcul des **scores moyens** sur l‚Äôensemble d‚Äôentra√Ænement (`score_train`) et de test (`score_test`) pour chaque mod√®le.  
- Calcul du **temps moyen d‚Äôentra√Ænement** (`Temps(s)`) pour chaque mod√®le afin d‚Äôavoir une id√©e de la performance en termes de rapidit√©.

> üí° Cette √©tape permet de **r√©sumer rapidement les performances globales** et le temps n√©cessaire pour chaque mod√®le avant de passer √† l‚Äôanalyse approfondie.  
> 
> La prochaine √©tape se fera dans le notebook **d‚Äôinterpr√©tation des mod√®les**, o√π nous analyserons les √©carts entre train et test, identifierons les mod√®les sous- ou sur-appris, et d√©terminerons ceux qui sont les plus adapt√©s pour notre dataset, tout en prenant en compte leur temps d‚Äôex√©cution.
