In [3]:
#  Imports
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import cohen_kappa_score
from sklearn.preprocessing import StandardScaler


In [13]:
# üì• Chargement des donn√©es pr√©-nettoy√©es
train = pd.read_csv("../data/train.csv")
test = pd.read_csv("../data/test.csv")
X = pd.read_csv("../data/X_imputed.csv")
X_test = pd.read_csv("../data/X_test_imputed.csv")
y = pd.read_csv("../data/y.csv").squeeze()  # pour transformer en Series

print("Donn√©es charg√©es :", X.shape, y.shape, X_test.shape)


Donn√©es charg√©es : (3960, 4) (3960,) (20, 4)


In [9]:
# Supprimer les lignes o√π la cible est NaN
combined = pd.concat([X, y], axis=1)
combined_clean = combined.dropna(subset=["sii"])

# Re-s√©parer X et y apr√®s nettoyage
X = combined_clean.drop(columns=["sii"])
y = combined_clean["sii"]

print(" Donn√©es pr√™tes apr√®s nettoyage :")
print("X :", X.shape)
print("y :", y.shape)



 Donn√©es pr√™tes apr√®s nettoyage :
X : (2736, 4)
y : (2736,)


In [10]:
# Normalisation (optionnelle mais propre)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Split train / validation
X_train, X_val, y_train, y_val = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)

# Mod√®le de base
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Pr√©dictions
y_pred = model.predict(X_val)

# √âvaluation
qwk = cohen_kappa_score(y_val, y_pred, weights='quadratic')
print(f"Quadratic Weighted Kappa (QWK) : {qwk:.4f}")


‚úÖ Quadratic Weighted Kappa (QWK) : 0.3088


## Conclusion ‚Äì Mod√®le de base

On vient de construire notre premier mod√®le de classification simple avec un `RandomForestClassifier`.

- On a utilis√© uniquement **4 variables num√©riques** disponibles dans le train et le test.
- Les valeurs manquantes ont √©t√© g√©r√©es proprement par imputation.
- Apr√®s entra√Ænement et validation, on a obtenu un **score Quadratic Weighted Kappa de 0.3088**.

Ce mod√®le est notre **baseline** : il est simple mais d√©j√† fonctionnel.  
Il nous servira de point de comparaison pour toutes les futures am√©liorations.

Prochaine √©tape : soit faire une premi√®re soumission Kaggle, soit am√©liorer notre mod√®le avec de nouvelles features ou un algorithme plus puissant.


In [14]:
# Pr√©diction sur le test set
X_test_scaled = scaler.transform(X_test)
y_test_pred = model.predict(X_test_scaled)

# Cr√©ation du fichier de soumission
submission = pd.DataFrame({
    "id": test["id"],  
    "sii": y_test_pred
})

# Sauvegarde en CSV
submission.to_csv("../outputs/submission_baseline.csv", index=False)

print(" Fichier de soumission g√©n√©r√© !")
submission.head()


‚úÖ Fichier de soumission g√©n√©r√© !


Unnamed: 0,id,sii
0,00008ff9,2.0
1,000fd460,0.0
2,00105258,1.0
3,00115b9f,1.0
4,0016bb22,0.0
