# Laboratorio de MLOps - Ciclo de Vida del Flujo de Trabajo de ML

## 1. Carga de archivo csv.

El archivo no es mas que un .csv con las horas de estudio, cantidad de clase, y calificaciones ficticias de alumnos.  
Este archivo fue usado como material complementario en el ramo de programación avanzada en un laboratorio de regresión lineal, por lo que lo considero un buen recurso para usar en la presente actividad.

In [21]:
import pandas as pd
data = pd.read_csv('Student_Marks.csv')

## 2. Exploración de datos.

In [22]:
#Cantidad de filas y columnas
filas, columnas = data.shape
print("CANTIDAD DE FILAS: ", filas, "\nCANTIDAD DE COLUMNAS: ", columnas)
print("***********************")
print(data.dtypes)

CANTIDAD DE FILAS:  100 
CANTIDAD DE COLUMNAS:  3
***********************
number_courses      int64
time_study        float64
Marks             float64
dtype: object


In [23]:
data.head(10)

Unnamed: 0,number_courses,time_study,Marks
0,3,4.508,19.202
1,4,0.096,7.734
2,4,3.133,13.811
3,6,7.909,53.018
4,8,7.811,55.299
5,6,3.211,17.822
6,3,6.063,29.889
7,5,3.413,17.264
8,4,4.41,20.348
9,3,6.173,30.862


## 3. Procesamiento de datos.

In [24]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [25]:
# Selección de características y variable objetivo
X = data.drop('Marks', axis=1) # se elimina la columna Marks ya que es la que se intentara predecir
y = data['Marks']

# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# train_test_split: Divide el conjunto de datos en conjuntos de entrenamiento y prueba.
# X_train: Conjunto de características para entrenamiento.
# X_test: Conjunto de características para prueba.
# y_train: Valores objetivo correspondientes al conjunto de entrenamiento.
# y_test: Valores objetivo correspondientes al conjunto de prueba.
# test_size=0.2: Indica que el 20% de los datos se usarán como datos de prueba.
# random_state=42: Establece una semilla para la aleatorización, asegurando reproducibilidad.

# Normalización
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# scaler: Se utiliza para estandarizar las características.
# fit_transform(X_train): Ajusta el escalador y transforma conjunto de entrenamiento (X_train) para que las características 
# tengan una media de cero y una varianza de uno.
# transform(X_test): Utiliza el mismo escalador ajustado (scaler) para transformar X_test (conjunto de prueba), 
# utilizando los mismos parámetros de transformación que se calcularon a partir de X_train.

## 4. Modelado básico.


In [26]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train_scaled, y_train)

## 5. Evaluación de modelos.

In [27]:
from sklearn.metrics import mean_squared_error

In [28]:
y_pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred) # MSE = Error cuadratico medio
print(f'MSE: {mse}')

MSE: 14.20072613637459


MSE de 14.201 quiere decir que el modelo de regresión, en promedio, se equivoca en aproximadamente 14.2 unidades en el valor predecido respecto al valor real. En nuestro caso significa que el promedio de notas puede equivocarse en 14.2 decimas.

In [29]:
# Calculando la varianza y el rango de la variable objetivo
variance = y.var()
data_range = y.max() - y.min()

print(f'MSE: {mse}')
print(f'Varianza de la variable objetivo: {variance}')
print(f'Rango de la variable objetivo: {data_range}')

# Comparando el MSE con la varianza y el rango
print(f'Relación MSE/Varianza: {mse/variance}')
print(f'Relación MSE/Rango: {mse/data_range}')

MSE: 14.20072613637459
Varianza de la variable objetivo: 205.23996548878787
Rango de la variable objetivo: 49.69
Relación MSE/Varianza: 0.06919084254645505
Relación MSE/Rango: 0.28578639839755665


Una varianza de 6% bastante baja sumada a un rango de 28.5% sugiere que el modelo tiene un buen rendimiento en la predicción de la variable objetivo en relación con la dispersión y la variabilidad de los datos.

## 6. Iteración de modelo mediante Gradient Boosting.

In [30]:
from sklearn.ensemble import GradientBoostingRegressor

# Datos de ejemplo (X_train, y_train definidos previamente)
model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)

# Entrenar el modelo
model.fit(X_train, y_train)

# Evaluar el modelo en el conjunto de prueba
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Gradient Boosting MSE: ", mse)


Gradient Boosting MSE:  1.1959246514459527


Al usar Gradient Boosting se observa una mejora de mas de 10 unidades de diferencia en comparación con el MSE de la regresión lineal de 14.2, por lo que podemos concluir que Gradient Boosting está capturando mejor la complejidad de los datos y haciendo predicciones más precisas.