In [54]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sqlalchemy import create_engine

# si se dockeriza en varias máquinas cambiar localhost
engine = create_engine('mssql+pyodbc://scraper:scraper1234A@localhost:1433/tfm_lesiones?driver=ODBC+Driver+17+for+SQL+Server')

query = """SELECT * FROM tfm_lesiones.dbo.jugador;"""

df_jugadores = pd.read_sql(query,engine)

query = """SELECT id_jugador, temporada,count(*) as lesiones_por_temporada, sum(partidos_perdidos) as partidos_perdidos_por_temporada
  FROM [tfm_lesiones].[dbo].[lesiones]  where temporada!=2024 group by id_jugador, temporada;"""

df_lesiones = pd.read_sql(query,engine)

query = """SELECT id_jugador, temporada,sum(minutos_jugados) as minutos_jugados_por_temporada
  FROM [tfm_lesiones].[dbo].[estadisticas_generales] where temporada!=2024 group by id_jugador, temporada;"""

df_estadisticas_generales = pd.read_sql(query,engine)




In [55]:
df_estadisticas_generales

Unnamed: 0,id_jugador,temporada,minutos_jugados_por_temporada
0,10,2010,1845
1,100001,2010,324
2,100007,2010,838
3,100009,2010,3058
4,100012,2010,134
...,...,...,...
794308,99993,2023,392
794309,999946,2023,1487
794310,99995,2023,2279
794311,999954,2023,1895


In [58]:

df_lesiones['id_temporada'] = df_lesiones['temporada']

df_estadisticas_generales['id_temporada'] = df_estadisticas_generales['temporada']

df_jugadores_lesiones = pd.merge(df_jugadores, df_lesiones, on=['id_jugador','id_temporada'])

columnas_a_mantener = ['id_jugador', 'id_temporada', 'edad','lesiones_por_temporada','partidos_perdidos_por_temporada']

# Filtra el DataFrame para mantener solo las columnas deseadas
df_lesiones_por_jugador_anio = df_jugadores_lesiones[columnas_a_mantener]

df_jugadores_lesiones_estadisticas = pd.merge(df_estadisticas_generales, df_lesiones_por_jugador_anio, on=['id_jugador','id_temporada'])



In [62]:
import pandas as pd


data = df_jugadores_lesiones_estadisticas


# Ordenar por id_jugador y id_temporada
data = data.sort_values(by=['id_jugador', 'id_temporada'])

# Crear una columna desfasada de minutos jugados
data['minutos_jugados_totales_desfasado'] = data.groupby('id_jugador')['minutos_jugados_por_temporada'].shift(1)

data = data.drop(columns=['minutos_jugados_por_temporada'])


# Eliminar filas con NaN que se crearon debido al desfase
data = data.dropna(subset=['minutos_jugados_totales_desfasado'])

# Verificar el DataFrame desfasado
data

Unnamed: 0,id_jugador,temporada,id_temporada,edad,lesiones_por_temporada,partidos_perdidos_por_temporada,minutos_jugados_totales_desfasado
2895,10,2011,2011,34,6,15,1845.0
6194,10,2012,2012,35,6,22,3186.0
9950,10,2013,2013,36,7,25,3200.0
14769,10,2014,2014,37,1,1,2623.0
19324,10,2015,2015,38,5,14,2290.0
...,...,...,...,...,...,...,...
44297,99977,2018,2018,28,1,4,1175.0
51030,99977,2019,2019,29,1,2,3678.0
51031,99977,2019,2019,29,1,2,935.0
59620,99977,2020,2020,30,1,1,935.0


In [63]:
# Identificar el último año para cada jugador
ultimo_anyo = data.groupby('id_jugador')['id_temporada'].max().reset_index()
ultimo_anyo = ultimo_anyo.rename(columns={'id_temporada': 'ultimo_anyo'})

# Agregar esta información al DataFrame principal
data_agrupada = pd.merge(data, ultimo_anyo, on='id_jugador')

# Separar los datos del último año (para predicción) y los datos de los años anteriores (para entrenamiento)
data_prediccion = data_agrupada[data_agrupada['id_temporada'] == data_agrupada['ultimo_anyo']]
data_entrenamiento = data_agrupada[data_agrupada['id_temporada'] != data_agrupada['ultimo_anyo']]

# Eliminar la columna 'ultimo_anyo' ya que no es necesaria para el entrenamiento
data_entrenamiento = data_entrenamiento.drop(columns=['ultimo_anyo'])
data_prediccion = data_prediccion.drop(columns=['ultimo_anyo'])



In [64]:
print("Datos de entrenamiento:")
data_entrenamiento


Datos de entrenamiento:


Unnamed: 0,id_jugador,temporada,id_temporada,edad,lesiones_por_temporada,partidos_perdidos_por_temporada,minutos_jugados_totales_desfasado
0,10,2011,2011,34,6,15,1845.0
1,10,2012,2012,35,6,22,3186.0
2,10,2013,2013,36,7,25,3200.0
3,10,2014,2014,37,1,1,2623.0
6,10003,2017,2017,34,1,9,4164.0
...,...,...,...,...,...,...,...
53063,99922,2022,2022,32,2,3,2827.0
53066,99977,2018,2018,28,1,4,1175.0
53067,99977,2019,2019,29,1,2,3678.0
53068,99977,2019,2019,29,1,2,935.0


In [65]:

print("Datos de predicción:")
data_prediccion

Datos de predicción:


Unnamed: 0,id_jugador,temporada,id_temporada,edad,lesiones_por_temporada,partidos_perdidos_por_temporada,minutos_jugados_totales_desfasado
4,10,2015,2015,38,5,14,2290.0
5,100009,2017,2017,30,1,3,635.0
9,10003,2020,2020,37,2,24,873.0
10,10008,2014,2014,32,1,0,2955.0
11,100101,2016,2016,25,1,5,2406.0
...,...,...,...,...,...,...,...
53052,9988,2016,2016,33,2,17,2434.0
53054,99894,2023,2023,33,1,8,334.0
53064,99922,2023,2023,33,1,27,3131.0
53065,99956,2022,2022,32,1,2,1958.0


In [66]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np


# Separar las características (X) del objetivo (y)
X_train = data_entrenamiento.drop('lesiones_por_temporada', axis=1)
X_train = X_train.drop('partidos_perdidos_por_temporada', axis=1)
y_train = data_entrenamiento['lesiones_por_temporada']

X_test = data_prediccion.drop('lesiones_por_temporada', axis=1)
X_test = X_test.drop('partidos_perdidos_por_temporada', axis=1)
y_test = data_prediccion['lesiones_por_temporada']

# Crear y entrenar el modelo
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print("Métricas error para número de lesiones en la útlima temporada")

print(f'MAE NÚMERO: {mae}')
print(f'RMSE: {rmse}')


# print(f'MSE: {mse}')


MAE: 0.85278836162106
MSE: 1.1189743678559056
RMSE: 1.0578158477995618


In [67]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

# Separar las características (X) del objetivo (y)
X_train = data_entrenamiento.drop('lesiones_por_temporada', axis=1)
X_train = X_train.drop('partidos_perdidos_por_temporada', axis=1)
y_train = data_entrenamiento['partidos_perdidos_por_temporada']

X_test = data_prediccion.drop('lesiones_por_temporada', axis=1)
X_test = X_test.drop('partidos_perdidos_por_temporada', axis=1)
y_test = data_prediccion['partidos_perdidos_por_temporada']

# Crear y entrenar el modelo
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print("Métricas error para número de partidos perdidos en la última temporada")


print(f'MAE: {mae}')
# print(f'MSE: {mse}')
print(f'RMSE: {rmse}')

MAE: 8.017727745064079
MSE: 144.40847124548466
RMSE: 12.017007582817142


: 