
# Laboratorio de MLOps -  Ciclo de Vida del Flujo de Trabajo de ML

## Ulises Aquiles Muñoz Altamirano

### Objetivo General del Laboratorio
Proporcionar experiencia práctica en la aplicación del ciclo de vida del flujo de trabajo de ML, desde la exploración y preprocesamiento de datos hasta la evaluación y mejora de modelos.

### Objetivos Específicos
1. **Exploración de Datos:** Identificar características y patrones relevantes en los datos.
2. **Preprocesamiento de Datos:** Optimizar los datos para el modelado.
3. **Modelado de ML:** Aplicar y evaluar un modelo de regresión lineal, comprendiendo los fundamentos del modelado.
4. **Comparación de Modelos:** Experimentar con Random Forest para aprender sobre la selección y comparación de modelos.
5. **Iteración del Modelo:** Desarrollar habilidades en la mejora continua de los modelos de ML.



___
## 1. Exploración de Datos
Primero, vamos a cargar un conjunto de datos y realizar una exploración básica para entender su estructura y características.

Cargamos el conjunto de datos y mostramos las primeras filas para obtener una comprensión inicial de los datos disponibles.


In [1]:
import pandas as pd
data = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')
print(data.head())


      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat  medv  
0  396.90   4.98  24.0  
1  396.90   9.14  21.6  
2  392.83   4.03  34.7  
3  394.63   2.94  33.4  
4  396.90   5.33  36.2  


## 2. Preprocesamiento de Datos
Prepararemos los datos para el modelado, incluyendo la limpieza y la normalización.

El preprocesamiento de datos es crucial porque prepara el conjunto de datos para el modelado, mejorando la precisión de las predicciones. Se limpian los datos para eliminar anomalías o valores atípicos que puedan distorsionar el resultado del modelo. La normalización (o estandarización) se realiza para escalar las características numéricas en un rango común, asegurando que ninguna característica domine a otras debido a su escala, lo que permite al modelo aprender más efectivamente las relaciones subyacentes.

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [3]:
# Selección de características y variable objetivo
X = data.drop('medv', axis=1)
y = data['medv']

# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalización
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


## 3. Modelado Básico
Entrenaremos un modelo de regresión lineal para predecir los precios de las viviendas.

In [4]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train_scaled, y_train)

## 4. Evaluación de Modelos
Evaluaremos el rendimiento del modelo utilizando el conjunto de prueba.

En la evaluación de modelos, usamos el conjunto de prueba para medir la capacidad del modelo de hacer predicciones precisas en datos no vistos, lo que indica su capacidad de generalización. Se emplea el Error Cuadrático Medio (MSE) como métrica porque cuantifica la diferencia entre los valores predichos y los reales, proporcionando una medida clara del rendimiento del modelo en términos de error promedio.








In [5]:
from sklearn.metrics import mean_squared_error

In [6]:
y_pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print(f'MSE: {mse}')

MSE: 24.291119474973495


Un MSE de 24.291 indica que el modelo de regresión, en promedio, se equivoca en aproximadamente 24.29 unidades en el valor predicho respecto al valor real. Este número debe interpretarse en el contexto de la variable objetivo; por ejemplo, en un caso donde los precios de las casas varían significativamente, un MSE de 24 puede ser aceptable, mientras que en otro contexto podría ser demasiado alto. Es importante comparar este valor con el rango y la varianza de los datos objetivo para evaluar la efectividad del modelo.

In [7]:
# Calculando la varianza y el rango de la variable objetivo
variance = y.var()
data_range = y.max() - y.min()

print(f'MSE: {mse}')
print(f'Varianza de la variable objetivo: {variance}')
print(f'Rango de la variable objetivo: {data_range}')

# Comparando el MSE con la varianza y el rango
print(f'Relación MSE/Varianza: {mse/variance}')
print(f'Relación MSE/Rango: {mse/data_range}')


MSE: 24.291119474973495
Varianza de la variable objetivo: 84.5867235940986
Rango de la variable objetivo: 45.0
Relación MSE/Varianza: 0.28717413847990947
Relación MSE/Rango: 0.539802654999411


El modelo parece razonablemente efectivo. El MSE es aproximadamente el 28.7% de la varianza, lo que indica que el error no es excesivamente grande en relación con la variabilidad de los datos. Además, el MSE es aproximadamente el 54% del rango de los datos, sugiriendo que, aunque hay margen de mejora, el modelo tiene una capacidad aceptable para predecir los valores de la variable objetivo.

## 5. Iteración del Modelo

Como otro modelo yo utilize el KNN(K-Nearest Neighbors) con k = 5.

In [8]:
from sklearn.neighbors import KNeighborsRegressor

In [9]:
k = 5
knn_regressor = KNeighborsRegressor(n_neighbors=k)
knn_regressor.fit(X_train_scaled, y_train)

In [10]:
knn_pred = knn_regressor.predict(X_test_scaled)

In [11]:
mse = mean_squared_error(y_test, knn_pred)
print("Mean Squared Error (MSE):", mse)

Mean Squared Error (MSE): 20.60552941176471
