In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import max_error, r2_score, mean_absolute_error
import mlflow
import os

In [2]:
# Establecer la URI de la base de datos SQLite y configuración de MLflow
os.environ['MLFLOW_TRACKING_URI'] = 'sqlite:///mlruns.db'
mlflow.set_tracking_uri("http://127.0.0.1:5000")
mlflow.set_experiment("regresion_lineal")

<Experiment: artifact_location='mlflow-artifacts:/3', creation_time=1713193978222, experiment_id='3', last_update_time=1713193978222, lifecycle_stage='active', name='regresion_lineal', tags={}>

# Con 9 Variables

In [4]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
import mlflow
import preprocesamiento_datos

# Obtener los datos preprocesados
X_train, X_val, X_test, y_train, y_val, y_test = preprocesamiento_datos.preprocesamiento(False,['Mins', 'Assists' ,'MotM', 'Titularidades', 'Equipo_pos', '1_año_anterior',
 '2_año_anterior', '3_año_anterior', '4_año_anterior'], True)
# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de validación
y_val_pred = model.predict(X_val)

# Calcular el error absoluto medio en el conjunto de validación
val_mae = mean_absolute_error(y_val, y_val_pred)

# Iniciar el registro de la ejecución en MLflow
with mlflow.start_run(run_name="MODEL WITH FEATURE SELECTION"):
    # Registrar el error absoluto medio en el conjunto de validación en MLflow
    mlflow.log_metric("val_mae", val_mae)

    # Entrenar el modelo final con todos los datos de entrenamiento y validación
    X_train_final = np.concatenate((X_train, X_val))
    y_train_final = np.concatenate((y_train, y_val))
    model.fit(X_train_final, y_train_final)

    # Realizar predicciones en el conjunto de prueba
    y_test_pred = model.predict(X_test)
    
    # Calcular el error absoluto medio en el conjunto de prueba
    test_mae = mean_absolute_error(y_test, y_test_pred)

    # Registrar el error absoluto medio en el conjunto de prueba en MLflow
    mlflow.log_metric("test_mae", test_mae)
    print("Test MAE:", test_mae)


Archivo Datos_la_liga_preparados_entrenamiento.parquet guardado en: ../Downloads\Datos_la_liga_preparados_entrenamiento.parquet
['Mins', 'Assists', 'MotM', 'Titularidades', 'Equipo_pos', '1_año_anterior', '2_año_anterior', '3_año_anterior', '4_año_anterior']
Test MAE: 2650291.98615693




# Con 17 Variables

In [5]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
import mlflow
import preprocesamiento_datos

# Obtener los datos preprocesados
X_train, X_val, X_test, y_train, y_val, y_test = preprocesamiento_datos.preprocesamiento(False,['Mins', 'Goals', 'Assists', 'SpG', 'MotM', 'KeyP', 'OffDrb', 'AvgP', 'Titularidades', 'Equipo_pos', '1_año_anterior', '2_año_anterior', '3_año_anterior', '4_año_anterior', '5_año_anterior', 'Equipo_FC Barcelona', 'Equipo_Real Madrid'], True)
# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de validación
y_val_pred = model.predict(X_val)

# Calcular el error absoluto medio en el conjunto de validación
val_mae = mean_absolute_error(y_val, y_val_pred)

# Iniciar el registro de la ejecución en MLflow
with mlflow.start_run(run_name="MODEL 17 FEATURES"):
    # Registrar el error absoluto medio en el conjunto de validación en MLflow
    mlflow.log_metric("val_mae", val_mae)

    # Entrenar el modelo final con todos los datos de entrenamiento y validación
    X_train_final = np.concatenate((X_train, X_val))
    y_train_final = np.concatenate((y_train, y_val))
    model.fit(X_train_final, y_train_final)

    # Realizar predicciones en el conjunto de prueba
    y_test_pred = model.predict(X_test)
    
    # Calcular el error absoluto medio en el conjunto de prueba
    test_mae = mean_absolute_error(y_test, y_test_pred)

    # Registrar el error absoluto medio en el conjunto de prueba en MLflow
    mlflow.log_metric("test_mae", test_mae)
    print("Test MAE:", test_mae)


Archivo Datos_la_liga_preparados_entrenamiento.parquet guardado en: ../Downloads\Datos_la_liga_preparados_entrenamiento.parquet
['Mins', 'Goals', 'Assists', 'SpG', 'MotM', 'KeyP', 'OffDrb', 'AvgP', 'Titularidades', 'Equipo_pos', '1_año_anterior', '2_año_anterior', '3_año_anterior', '4_año_anterior', '5_año_anterior', 'Equipo_FC Barcelona', 'Equipo_Real Madrid']
Test MAE: 2565384.4021002166




# 20 Variables

In [7]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
import mlflow
import preprocesamiento_datos

# Obtener los datos preprocesados
X_train, X_val, X_test, y_train, y_val, y_test = preprocesamiento_datos.preprocesamiento(True,['Mins', 'Goals', 'Assists', 'SpG', 'PS%', 'MotM', 'KeyP', 'OffDrb', 'AvgP', 'ThrB', 'Titularidades', 'Equipo_pos', '1_año_anterior', '2_año_anterior', '3_año_anterior', '4_año_anterior', '5_año_anterior', 'Equipo_FC Barcelona', 'Equipo_Real Madrid', 'nationality_Germany'], True)
# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de validación
y_val_pred = model.predict(X_val)

# Calcular el error absoluto medio en el conjunto de validación
val_mae = mean_absolute_error(y_val, y_val_pred)

# Iniciar el registro de la ejecución en MLflow
with mlflow.start_run(run_name="FINAL MODEL FEATURE SELECTION"):
    # Registrar el error absoluto medio en el conjunto de validación en MLflow
    mlflow.log_metric("val_mae", val_mae)

    # Entrenar el modelo final con todos los datos de entrenamiento y validación
    X_train_final = np.concatenate((X_train, X_val))
    y_train_final = np.concatenate((y_train, y_val))
    model.fit(X_train_final, y_train_final)

    # Realizar predicciones en el conjunto de prueba
    y_test_pred = model.predict(X_test)
    
    # Calcular el error absoluto medio en el conjunto de prueba
    test_mae = mean_absolute_error(y_test, y_test_pred)

    # Registrar el error absoluto medio en el conjunto de prueba en MLflow
    mlflow.log_metric("test_mae", test_mae)
    print("Test MAE:", test_mae)


Archivo Datos_la_liga_preparados_entrenamiento.parquet guardado en: ../Downloads\Datos_la_liga_preparados_entrenamiento.parquet
['Mins', 'Goals', 'Assists', 'SpG', 'PS%', 'MotM', 'KeyP', 'OffDrb', 'AvgP', 'ThrB', 'Titularidades', 'Equipo_pos', '1_año_anterior', '2_año_anterior', '3_año_anterior', '4_año_anterior', '5_año_anterior', 'Equipo_FC Barcelona', 'Equipo_Real Madrid', 'nationality_Germany']
Test MAE: 2564070.2923099305




In [16]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
import mlflow
import preprocesamiento_datos

# Obtener los datos preprocesados
X_train, X_val, X_test, y_train, y_val, y_test = preprocesamiento_datos.preprocesamiento(False,['Mins', 'Assists' ,'MotM', 'Titularidades', 'Equipo_pos', '1_año_anterior',
 '2_año_anterior', '3_año_anterior', '4_año_anterior'], True)
# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de validación
y_val_pred = model.predict(X_val)

# Calcular el error absoluto medio en el conjunto de validación
val_mae = mean_absolute_error(y_val, y_val_pred)

# Iniciar el registro de la ejecución en MLflow
with mlflow.start_run(run_name="FINAL MODEL WITH FEATURE SELECTION"):
    # Registrar el error absoluto medio en el conjunto de validación en MLflow
    mlflow.log_metric("val_mae", val_mae)

    # Entrenar el modelo final con todos los datos de entrenamiento y validación
    X_train_final = np.concatenate((X_train, X_val))
    y_train_final = np.concatenate((y_train, y_val))
    model.fit(X_train_final, y_train_final)

    # Realizar predicciones en el conjunto de prueba
    y_test_pred = model.predict(X_test)
    
    # Calcular el error absoluto medio en el conjunto de prueba
    test_mae = mean_absolute_error(y_test, y_test_pred)

    # Registrar el error absoluto medio en el conjunto de prueba en MLflow
    mlflow.log_metric("test_mae", test_mae)
    print("Test MAE:", test_mae)


Mins                       int64
Goals                      int64
Assists                    int64
Yel                        int64
Red                        int64
                          ...   
nationality_Venezuela    float64
nationality_Wales        float64
nationality_Zambia       float64
nationality_Zimbabwe     float64
marketValue              float64
Length: 150, dtype: object