In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from joblib import dump
import os



# Charger les données d'entraînement et de test
train_data = pd.read_csv('/data/train.csv')
test_data = pd.read_csv('/data/test.csv')

# Afficher un échantillon des données pour vérifier
print("Ensemble d'entraînement :")
print(train_data.head())

print("\nEnsemble de test :")
print(test_data.head())

# Sélection des caractéristiques (features) et de la cible (target)
features = ['culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g']
X_train = train_data[features]
y_train = train_data['species']
X_test = test_data[features]
y_test = test_data['species']

# Initialiser et entraîner le modèle RandomForest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Faire des prédictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Afficher les premières prédictions
print("\nPrédictions sur l'ensemble de test :")
print(y_pred[:10])  # Afficher les 10 premières prédictions

# Calculer et afficher l'exactitude et le rapport de classification
accuracy = accuracy_score(y_test, y_pred)
print(f"\nExactitude du modèle : {accuracy:.2f}")

print("\nRapport de classification :")
print(classification_report(y_test, y_pred))

# Obtenir les probabilités des classes pour chaque observation
probs = model.predict_proba(X_test)

# Afficher les probabilités des classes pour les 10 premières prédictions
print("\nProbabilités des classes pour les 10 premières prédictions :")
for i, prob in enumerate(probs[:10]):
    predicted_class = model.classes_[prob.argmax()]
    print(f"Observation {i + 1}:")
    print(f"Probabilités : {prob}")
    print(f"Classe prédite : {predicted_class}")
    print(f"Probabilité de la classe prédite : {prob.max():.2f}")
    print("-" * 30)

# Comparer les classes prédites et réelles pour les 50 premières observations
y_true = y_test.values
for i in range(50):
    print(f"Observation {i + 1}:")
    print(f"Classe prédite : {y_pred[i]}")
    print(f"Classe réelle : {y_true[i]}")
    print("-" * 30)

# Calculer la précision
accuracy = (y_pred == y_true).mean()
print(f"\nPrécision du modèle : {accuracy * 100:.2f}%")

# Chemin d'accès à ton dossier model
model_path = os.path.join('backend', 'app', 'model', 'penguin_model.joblib')

# Créer le dossier si nécessaire
os.makedirs(os.path.dirname(model_path), exist_ok=True)

# Sauvegarder le modèle
dump(model, model_path)
print(f"\nModèle sauvegardé avec succès dans {model_path}.")