In [0]:
import pandas as pd
import mlflow
import mlflow.sklearn
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor


In [0]:
# Cargamos el conjunto de datos
df = pd.read_csv("https://raw.githubusercontent.com/Fibovin/des_modelos_1/refs/heads/main/Student_Performance.csv")

# Codificamos la variable categórica
df['Extracurricular Activities'] = df['Extracurricular Activities'].map({'Yes': 1, 'No': 0})

# Dividimos el conjunto de datos en características y variable objetivo
X = df.drop(columns=['Performance Index'])
y = df['Performance Index']

# Dividimos el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Configuramos el experimento de MLflow
mlflow.set_experiment("/Users/jf.neiraf1@uniandes.edu.co/Student_Performance_FINAL")

2024/11/10 02:54:28 INFO mlflow.tracking.fluent: Experiment with name '/Users/jf.neiraf1@uniandes.edu.co/Student_Performance_FINAL' does not exist. Creating a new experiment.


<Experiment: artifact_location='dbfs:/databricks/mlflow-tracking/331492855821372', creation_time=1731207268786, experiment_id='331492855821372', last_update_time=1731207268786, lifecycle_stage='active', name='/Users/jf.neiraf1@uniandes.edu.co/Student_Performance_FINAL', tags={'mlflow.experiment.sourceName': '/Users/jf.neiraf1@uniandes.edu.co/Student_Performance_FINAL',
 'mlflow.experimentType': 'MLFLOW_EXPERIMENT',
 'mlflow.ownerEmail': 'jf.neiraf1@uniandes.edu.co',
 'mlflow.ownerId': '3974471921678252'}>

In [0]:
# Definimos y ejecutamos el experimento con MLflow para la regresión lineal
with mlflow.start_run(run_name="MEJOR MODELO REGRESION LINEAL"):
    # Creamos y entrenamos el modelo de regresión lineal simple
    linear_model = LinearRegression()
    linear_model.fit(X_train, y_train)

    # Realizamos predicciones en el conjunto de prueba
    y_test_pred = linear_model.predict(X_test)

    # Calculamos y registramos las métricas para el conjunto de prueba
    r2_test = r2_score(y_test, y_test_pred)
    mse_test = mean_squared_error(y_test, y_test_pred)
    mae_test = mean_absolute_error(y_test, y_test_pred)
    
    mlflow.log_metric("r2", r2_test)
    mlflow.log_metric("mse", mse_test)
    mlflow.log_metric("mae", mae_test)

    # Registramos el modelo de regresión lineal en MLflow
    mlflow.sklearn.log_model(linear_model, "linear-regression-model")

    # Imprimimos las métricas para verificar
    print("Conjunto de Prueba:")
    print(f"R²: {r2_test}")
    print(f"Mean Squared Error: {mse_test}")
    print(f"Mean Absolute Error: {mae_test}")



Conjunto de Prueba:
R²: 0.9889832909573145
Mean Squared Error: 4.082628398521853
Mean Absolute Error: 1.6111213463123044


In [0]:
# Definimos y ejecutamos el experimento con MLflow para el modelo SVR
with mlflow.start_run(run_name="MEJOR MODELO SVR"):
    # Creamos y entrenamos el modelo SVR con kernel lineal
    svr_model = SVR(kernel="linear")
    svr_model.fit(X_train, y_train)

    # Realizamos predicciones en el conjunto de prueba
    y_test_pred_svr = svr_model.predict(X_test)

    # Calculamos y registramos las métricas para el conjunto de prueba
    r2_test_svr = r2_score(y_test, y_test_pred_svr)
    mse_test_svr = mean_squared_error(y_test, y_test_pred_svr)
    mae_test_svr = mean_absolute_error(y_test, y_test_pred_svr)
    
    mlflow.log_metric("r2", r2_test_svr)
    mlflow.log_metric("mse", mse_test_svr)
    mlflow.log_metric("mae", mae_test_svr)

    # Registramos el modelo SVR en MLflow
    mlflow.sklearn.log_model(svr_model, "svr-linear-model")

    # Imprimimos las métricas para verificar
    print("Conjunto de Prueba - SVR:")
    print(f"R²: {r2_test_svr}")
    print(f"Mean Squared Error: {mse_test_svr}")
    print(f"Mean Absolute Error: {mae_test_svr}")




Conjunto de Prueba - SVR:
R²: 0.9889779818430801
Mean Squared Error: 4.084595877236296
Mean Absolute Error: 1.6117598399098356


In [0]:
# Definimos y ejecutamos el experimento con MLflow para el modelo optimizado
with mlflow.start_run(run_name="MEJOR MODELO ARBOL DECISION"):
    # Creamos el modelo con los mejores hiperparámetros
    optimized_tree_model = DecisionTreeRegressor(max_depth=10, min_samples_leaf=4, min_samples_split=10, random_state=42)
    optimized_tree_model.fit(X_train, y_train)

    # Realizamos predicciones en el conjunto de prueba
    y_test_pred_optimized = optimized_tree_model.predict(X_test)

    # Calculamos y registramos las métricas para el conjunto de prueba
    r2_test_optimized = r2_score(y_test, y_test_pred_optimized)
    mse_test_optimized = mean_squared_error(y_test, y_test_pred_optimized)
    mae_test_optimized = mean_absolute_error(y_test, y_test_pred_optimized)
    
    mlflow.log_metric("r2", r2_test_optimized)
    mlflow.log_metric("mse", mse_test_optimized)
    mlflow.log_metric("mae", mae_test_optimized)

    # Registramos el modelo optimizado en MLflow
    mlflow.sklearn.log_model(optimized_tree_model, "decision-tree-model")

    # Imprimimos las métricas para verificar
    print("Conjunto de Prueba:")
    print(f"R²: {r2_test_optimized}")
    print(f"Mean Squared Error: {mse_test_optimized}")
    print(f"Mean Absolute Error: {mae_test_optimized}")



Conjunto de Prueba:
R²: 0.9842770387732579
Mean Squared Error: 5.8266954100757244
Mean Absolute Error: 1.9034931306771197
