# üß™ Pr√©diction de fertilisants ‚Äì Kaggle Challenge
**Auteur** : Arnaud Ch√©ridi
üìÖ Date : Juin 2025
üìç Comp√©tition : [Playground Series - Season 3, Episode 16](https://www.kaggle.com/competitions/playground-series-s3e16)
üéØ Objectif : Pr√©dire les 3 fertilisants les plus probables √† partir de donn√©es agronomiques synth√©tiques.

---

# G√©n√©ration de la soumission Kaggle

Ce notebook permet de charger le meilleur mod√®le entra√Æn√© pr√©c√©demment, de g√©n√©rer les pr√©dictions sur les donn√©es de test et d‚Äôexporter un fichier au format `.csv` pour soumission sur Kaggle.

In [1]:
import pandas as pd
import numpy as np
import pickle

In [2]:
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')

with open('results_summary.pkl', 'rb') as file:
    results_summary = pickle.load(file)

with open('label_y.pkl', 'rb') as file:
    label_encoder = pickle.load(file)

In [3]:
train['Fertilizer Encoded'] = label_encoder.transform(train['Fertilizer Name'])

X = train.drop(columns=['Fertilizer Name', 'Fertilizer Encoded', 'id'])
X_val = test.drop(columns=['id'])
y = train['Fertilizer Encoded']

## Chargement des quatre meilleurs mod√®les

- Entrainement sur les donn√©es compl√®tes
- Pr√©diction
- Sauvegarde des soumissions

In [4]:
top_4 = sorted(results_summary.items(), key=lambda x: x[1]["accuracy"], reverse=True)[:4]

for model_name, model_info in top_4:
    print(f"\nüîÑ Traitement du mod√®le : {model_name}")

    # R√©cup√©ration du mod√®le
    model = model_info["model"]

    # R√©entra√Ænement complet sur X, y (optionnel si d√©j√† fait)
    model.fit(X, y)

    # Pr√©dictions de probabilit√© sur les donn√©es de validation/test
    probas = model.predict_proba(X_val)

    # R√©cup√©ration des indices des 3 classes les plus probables
    top3 = np.argsort(probas, axis=1)[:, -3:][:, ::-1]

    # Transformation inverse pour retrouver les noms de classes
    top3_labels = label_encoder.inverse_transform(top3.ravel()).reshape(top3.shape)

    # Construction du DataFrame de soumission
    submission = pd.DataFrame({
        "id": test["id"],  # V√©rifie que test["id"] est bien align√© avec X_val
        "Fertilizer Name": [" ".join(row) for row in top3_labels]
    })

    # Nom de fichier explicite
    filename = f"submission_{model_name.replace(' ', '_').lower()}.csv"
    submission.to_csv(filename, index=False)
    print(f"Fichier enregistr√© : {filename}")


üîÑ Traitement du mod√®le : GradientBoosting
Fichier enregistr√© : submission_gradientboosting.csv

üîÑ Traitement du mod√®le : XGBoost


Parameters: { "use_label_encoder" } are not used.



Fichier enregistr√© : submission_xgboost.csv

üîÑ Traitement du mod√®le : LightGBM
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.002025 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 202
[LightGBM] [Info] Number of data points in the train set: 750000, number of used features: 8
[LightGBM] [Info] Start training from score -1.884866
[LightGBM] [Info] Start training from score -1.880057
[LightGBM] [Info] Start training from score -1.897538
[LightGBM] [Info] Start training from score -1.911544
[LightGBM] [Info] Start training from score -1.909121
[LightGBM] [Info] Start training from score -2.067671
[LightGBM] [Info] Start training from score -2.094845




Fichier enregistr√© : submission_lightgbm.csv

üîÑ Traitement du mod√®le : HistGradientBoosting
Fichier enregistr√© : submission_histgradientboosting.csv


## R√©sultats Kaggle

Les pr√©dictions des 4 meilleurs mod√®les ont √©t√© soumises √† la plateforme Kaggle pour √©valuation. Voici les scores obtenus sur l‚Äôensemble de test :

| Mod√®le                     | Score public |
|---------------------------|--------------|
| Gradient Boosting         | **0.32935**  |
| XGBoost                   | 0.32785      |
| LightGBM                  | 0.32711      |
| HistGradientBoosting      | 0.32701      |

> **Gradient Boosting** obtient le meilleur score parmi les mod√®les test√©s, avec un score public de **0.32935**.

Ces performances sont relativement proches les unes des autres, ce qui sugg√®re que les mod√®les se heurtent √† une limite commune ‚Äî probablement li√©e √† la qualit√© des features. Un enrichissement des donn√©es ou un feature engineering m√©tier plus pouss√© serait n√©cessaire pour am√©liorer significativement les r√©sultats.