In [None]:
# 📌 Notebook Principal - `main.ipynb`
# Exécute tout le pipeline : chargement des données, nettoyage, entraînement, et évaluation

import sys
import os

# Aller au dossier racine du projet
project_root = os.path.abspath("..")  # Remonte au dossier principal du projet
src_path = os.path.join(project_root, "src")

# Ajouter le chemin src/ au path Python (évite les doublons)
if src_path not in sys.path:
    sys.path.append(src_path)

# Vérifier le chemin
print("✅ Chemins disponibles :", sys.path)

import pandas as pd


# Importer les modules après ajout du chemin
from data_processing.load_data import load_data
from data_processing.clean_data import clean_data_runs, clean_data_races, clean_before_fitting
from data_processing.merge_data import merge_data
from data_processing.preprocess_data import preprocess_data, split_train_test
from ml_models.linear_regression import train_linear_regression
from ml_models.performance_metrics import compute_accuracy


# 📂 1️⃣ Charger les datasets
print("📥 Chargement des données...")
df_runs = load_data("../data/raw/runs.csv")
df_races = load_data("../data/raw/races.csv")

# 🧹 2️⃣ Nettoyage des données
print("🧼 Nettoyage des données...")
clean_data_runs(df_runs)
clean_data_races(df_races)

df = merge_data(df_runs, df_races)
clean_before_fitting(df)

# 🔄 3️⃣ Prétraitement des données
print("⚙️ Prétraitement des données...")
df = preprocess_data(df)

# ✂️ 4️⃣ Split en train/test
print("📊 Séparation des données...")
y_train, y_test, X_train, X_test, df_train, df_test = split_train_test(df, train_ratio=0.8)

df_test_original = df_test.copy()

# 🤖 5️⃣ Entraînement du modèle
print("🚀 Entraînement du modèle de régression linéaire...")
train_linear_regression(X_train, y_train)

# 🔍 6️⃣ Prédiction et évaluation
y_predict = df_test["won"].sample(frac=1).values  # Remplacer par une vraie prédiction
df_stats = compute_accuracy(df_test_original, y_predict)

accuracy = (df_stats['top_prediction'] == df_stats['won']).mean() * 100
print(f"✅ Précision du modèle : {accuracy:.2f}%")


✅ Chemins disponibles : ['c:\\Users\\Utilisateur\\Desktop\\Projets python\\horse_racing\\.venv\\Scripts\\python313.zip', 'C:\\Users\\Utilisateur\\AppData\\Local\\Programs\\Python\\Python313\\DLLs', 'C:\\Users\\Utilisateur\\AppData\\Local\\Programs\\Python\\Python313\\Lib', 'C:\\Users\\Utilisateur\\AppData\\Local\\Programs\\Python\\Python313', 'c:\\Users\\Utilisateur\\Desktop\\Projets python\\horse_racing\\.venv', '', 'c:\\Users\\Utilisateur\\Desktop\\Projets python\\horse_racing\\.venv\\Lib\\site-packages', 'c:\\Users\\Utilisateur\\Desktop\\Projets python\\horse_racing\\.venv\\Lib\\site-packages\\win32', 'c:\\Users\\Utilisateur\\Desktop\\Projets python\\horse_racing\\.venv\\Lib\\site-packages\\win32\\lib', 'c:\\Users\\Utilisateur\\Desktop\\Projets python\\horse_racing\\.venv\\Lib\\site-packages\\Pythonwin', 'c:\\Users\\Utilisateur\\Desktop\\Projets python\\horse_racing\\notebooks\\src', 'c:\\Users\\Utilisateur\\Desktop\\Projets python\\horse_racing\\notebooks\\src', 'c:\\Users\\Utilisa

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['place_odds'].fillna(0, inplace=True)


FileNotFoundError: [Errno 2] No such file or directory: 'models/linear_regression.pkl'