In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [1]:
# Charger les données
df = pd.read_csv('team_stats_2003_2023.csv')

# Analyse exploratoire de base
print(df.head())  # Afficher les premières lignes
print(df.describe())  # Statistiques descriptives
print(df.isnull().sum())  # Vérifier les valeurs manquantes

# Sélection des caractéristiques pertinentes pour la prédiction
# Supposons que 'win_loss_perc' soit notre variable cible
features = df.drop(['year', 'team', 'win_loss_perc', 'ties'], axis=1)  # 'ties' exclu car non mentionné dans le modèle
target = df['win_loss_perc']

# Prétraitement des données
# Ici, nous standardisons les caractéristiques numériques pour que la moyenne soit 0 et l'écart type soit 1
scaler = StandardScaler()
features_scaled = scaler.fit_transform(features)

# Séparation des données en ensembles d'entraînement et de test
# Utilisons les données jusqu'à 2022 pour l'entraînement et testons le modèle avec les données de 2023
X_train, X_test, y_train, y_test = train_test_split(features_scaled, target, test_size=0.2, random_state=42)

# Entraînement du modèle de régression
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Évaluation du modèle
predictions = model.predict(X_test)
print("Mean squared error:", mean_squared_error(y_test, predictions))
print("Coefficient of determination (R^2):", r2_score(y_test, predictions))

# Faire des prédictions pour 2024
# Tu devras préparer les données de 2024 de la même manière que l'ensemble d'entraînement
# X_2024 = ...
# predictions_2024 = model.predict(X_2024)


   year                  team  wins  losses  win_loss_perc  points  \
0  2003  New England Patriots    14       2          0.875     348   
1  2003        Miami Dolphins    10       6          0.625     311   
2  2003         Buffalo Bills     6      10          0.375     243   
3  2003         New York Jets     6      10          0.375     283   
4  2003      Baltimore Ravens    10       6          0.625     391   

   points_opp  points_diff  mov   g  ...  rush_td  rush_yds_per_att  rush_fd  \
0         238          110  6.9  16  ...        9               3.4       91   
1         261           50  3.1  16  ...       14               3.7       99   
2         279          -36 -2.3  16  ...       13               3.9       96   
3         299          -16 -1.0  16  ...        8               4.0       78   
4         281          110  6.9  16  ...       18               4.8      115   

   penalties  penalties_yds  pen_fd  score_pct  turnover_pct  exp_pts_tot  \
0        111         

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Charger les données
df = pd.read_csv('team_stats_2003_2023.csv')

# Analyse exploratoire de base
print(df.head())  # Afficher les premières lignes
print(df.describe())  # Statistiques descriptives
print(df.isnull().sum())  # Vérifier les valeurs manquantes

# Sélection des caractéristiques pertinentes pour la prédiction
features = df.drop(['year', 'team', 'win_loss_perc', 'ties'], axis=1)  # 'ties' exclu car non mentionné dans le modèle
target = df['win_loss_perc']

# Prétraitement des données (StandardScaler)
scaler = StandardScaler()
features_scaled = scaler.fit_transform(features)

# Séparation des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(features_scaled, target, test_size=0.2, random_state=42)

# Entraînement du modèle de régression
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Évaluation du modèle
predictions = model.predict(X_test)
print("Mean squared error:", mean_squared_error(y_test, predictions))
print("Coefficient of determination (R^2):", r2_score(y_test, predictions))

# Préparation des caractéristiques des Ravens pour la saison 2023 pour la prédiction
ravens_2023 = pd.DataFrame([{
    'wins': 13,
    'losses': 4,
    'points': 483,
    'points_opp': 280,
    'points_diff': 203,
    'mov': 11.9,
    'g': 17,
    'total_yards': 6296,
    'plays_offense': 1076,
    'yds_per_play_offense': 5.9,
    'turnovers': 19,
    'fumbles_lost': 12,
    'first_down': 360,
    'pass_cmp': 328,
    'pass_att': 494,
    'pass_yds': 3635,
    'pass_td': 27,
    'pass_int': 7,
    'pass_net_yds_per_att': 6.8,
    'pass_fd': 180,
    'rush_att': 541,
    'rush_yds': 2661,
    'rush_td': 26,
    'rush_yds_per_att': 4.9,
    'rush_fd': 145,
    'penalties': 102,
    'penalties_yds': 955,
    'pen_fd': 35,
    'score_pct': 43.1,
    'turnover_pct': 9.6,
    'exp_pts_tot': 130.64,
}])

# Transformer les caractéristiques des Ravens avec le scaler
ravens_scaled = scaler.transform(ravens_2023)

# Faire la prédiction pour les Ravens
ravens_prediction = model.predict(ravens_scaled)
print(f'Prédiction du pourcentage de victoires pour les Ravens en 2023 : {ravens_prediction[0]}')


   year                  team  wins  losses  win_loss_perc  points  \
0  2003  New England Patriots    14       2          0.875     348   
1  2003        Miami Dolphins    10       6          0.625     311   
2  2003         Buffalo Bills     6      10          0.375     243   
3  2003         New York Jets     6      10          0.375     283   
4  2003      Baltimore Ravens    10       6          0.625     391   

   points_opp  points_diff  mov   g  ...  rush_td  rush_yds_per_att  rush_fd  \
0         238          110  6.9  16  ...        9               3.4       91   
1         261           50  3.1  16  ...       14               3.7       99   
2         279          -36 -2.3  16  ...       13               3.9       96   
3         299          -16 -1.0  16  ...        8               4.0       78   
4         281          110  6.9  16  ...       18               4.8      115   

   penalties  penalties_yds  pen_fd  score_pct  turnover_pct  exp_pts_tot  \
0        111         