
# Laboratorio de MLOps -  Ciclo de Vida del Flujo de Trabajo de ML

### Objetivo General del Laboratorio
Proporcionar experiencia práctica en la aplicación del ciclo de vida del flujo de trabajo de ML, desde la exploración y preprocesamiento de datos hasta la evaluación y mejora de modelos.

### Objetivos Específicos
1. **Exploración de Datos:** Identificar características y patrones relevantes en los datos.
2. **Preprocesamiento de Datos:** Optimizar los datos para el modelado.
3. **Modelado de ML:** Aplicar y evaluar un modelo de regresión lineal, comprendiendo los fundamentos del modelado.
4. **Comparación de Modelos:** Experimentar con Random Forest para aprender sobre la selección y comparación de modelos.
5. **Iteración del Modelo:** Desarrollar habilidades en la mejora continua de los modelos de ML.

#### Nota: adjunto GITHUB: https://github.com/HendrikC0413/MLOPS en donde se subiran todos los laboratorios



___
## 1. Exploración de Datos
Continuando con el laboratorio anterior de IA, el cual se nos solicitó realizar una comparación utilizando los datos del anterior laboratorio de IA ( en mi caso utilice temperatura contra las ventas de helado), pero esta vez utilizaré una libreria que encontre buscando en la documentacion de scikit-learn. Gradient Boost

Cargamos las librerias,  el conjunto de datos  de "icecreamsales- temperatures .csv" y mostramos las primeras filas para verificar si se cargó correctamente.

In [1]:
import pandas as pd
data = pd.read_csv('IceCreamSales-temperatures.csv')
print(data.head())

   Temperature  Ice Cream Profits
0           39              13.17
1           40              11.88
2           41              18.82
3           42              18.65
4           43              17.02


## 2. Preprocesamiento de Datos
Prepararemos los datos para el modelado, incluyendo la limpieza y la normalización.

A diferencia del laboratorio anterior esta vez debemos realizar el procesamiento de los datos, esto para evitar que hayan datos esten muy por encima de los otros valores, ademas de dividir los datos para tener un conjunto de entrenamiento y otro para realizar las pruebas.

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [3]:
# Selección de características y variable objetivo
X = data.drop('Ice Cream Profits', axis=1) #La independiente
y = data['Ice Cream Profits'] #La que quiero predecir

# División en conjuntos de entrenamiento y prueba
# train_test_split(VAR_Independiente, LA_que_quiero_predecir, test_size= (en % 0.2 = 20% para testeo y el 80% para entrenamiento), random_state=(opcional, que sea reproducible, otro random_state misma division))
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalización, para que tengan la misma escala y el modelo no sea influenciado por algunas caracteisticas con escalas muy diferentes
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


## 3. Modelado Básico
Entrenaremos un modelo de regresión lineal para predecir los precios de los helados. (normal como en el lab anterior)

In [4]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train_scaled, y_train)

## 4. Evaluación de Modelos
Evaluaremos el rendimiento del modelo utilizando el conjunto de prueba.

En la evaluación de modelos, usamos el conjunto de prueba para medir la capacidad del modelo de hacer predicciones precisas en datos no vistos, lo que indica su capacidad de generalización. Se emplea el Error Cuadrático Medio (MSE) como métrica porque cuantifica la diferencia entre los valores predichos y los reales, proporcionando una medida clara del rendimiento del modelo en términos de error promedio.








In [5]:
from sklearn.metrics import mean_squared_error

In [6]:
#Usamos los datos escalados que dejamos para el entrenamiento par que atraves del MSE sepamos cuan bien esta la prediccion
y_pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print(f'MSE: {mse}')

MSE: 5.294200791081216


Como podemos observar tenemos un MSE de 5.294 lo cual es bastante bajo, pero como esto dependerá del contexto podemos comparar el linnear regresion con el otro modelo ya nombrado anteriormente.

In [7]:
# Calculando la varianza y el rango de la variable objetivo
variance = y.var()
data_range = y.max() - y.min()

print(f'MSE: {mse}')
print(f'Varianza de la variable objetivo: {variance}')
print(f'Rango de la variable objetivo: {data_range}')

# Comparando el MSE con la varianza y el rango
print(f'Relación MSE/Varianza: {mse/variance}')
print(f'Relación MSE/Rango: {mse/data_range}')


MSE: 5.294200791081216
Varianza de la variable objetivo: 255.64824677555322
Rango de la variable objetivo: 77.41000000000001
Relación MSE/Varianza: 0.02070892665158493
Relación MSE/Rango: 0.06839169088078045


Si comparamos el MSE con la Varianza y el rango de mejora podemos observar que existe un amplio margen entre estos valores por lo cual podemos decir que el modelo esta realizando un buen trabajo de predicción acercandonos bastante a los valores reales pero aun asi hay que tener cuidado ya que esto no es una regla sino que dependera del contexto

## 5. Iteración del Modelo

Ahora probaremos con el Gradient Boosting para ver si existe una mejoría en estos los datos.

Gradient Boosting, es un algoritmo de aprendizaje automático que crea un modelo predictivo en forma de un conjunto de modelos de predicción débiles, generalmente árboles de decisión

In [8]:
from sklearn.ensemble import HistGradientBoostingRegressor

In [9]:

# Crear y entrenar el modelo de Gradient Boosting (Max_iter , determina el numero maximo de iteraciones(arboles) que se añadiran al modelo)
gb_model = HistGradientBoostingRegressor(max_iter=100, random_state=42)
gb_model.fit(X_train_scaled, y_train)

# Realizar predicciones con el modelo de Gradient Boosting
gb_pred = gb_model.predict(X_test_scaled)

# Evaluar el modelo de Gradient Boosting
gb_mse = mean_squared_error(y_test, gb_pred)
print(f'Gradient Boosting MSE: {gb_mse}')


Gradient Boosting MSE: 9.882517263712282


El resultado de `9.882` para el MSE del modelo Gradient Boosting, si comparamos al resultado del LinnearReggresion que fue de `5.294`nos dice que en comparacion el gradient boosting es peor y puede que no sea una solucion eficiente o efectiva para este problema y solo necesitamos utilizar el de regresion lineal