
# Laboratorio de MLOps -  Ciclo de Vida del Flujo de Trabajo de ML
## Vicente Muñoz Altamirano

### Objetivo General del Laboratorio
Proporcionar experiencia práctica en la aplicación del ciclo de vida del flujo de trabajo de ML, desde la exploración y preprocesamiento de datos hasta la evaluación y mejora de modelos.

### Objetivos Específicos
1. **Exploración de Datos:** Identificar características y patrones relevantes en los datos.
2. **Preprocesamiento de Datos:** Optimizar los datos para el modelado.
3. **Modelado de ML:** Aplicar y evaluar un modelo de regresión lineal, comprendiendo los fundamentos del modelado.
4. **Comparación de Modelos:** Experimentar con Random Forest para aprender sobre la selección y comparación de modelos.
5. **Iteración del Modelo:** Desarrollar habilidades en la mejora continua de los modelos de ML.

## Modelo utilizado: Árboles de decision
### Pasos que realiza el modelo:
1. **División del conjunto de datos:** Selecciona la característica que mejor divide los datos en subconjuntos, maximizando la pureza o reduciendo la incertidumbre en cada división.

2. **Recursividad:** Repite el proceso de selección y división en cada subconjunto creado, siguiendo criterios de impureza, hasta alcanzar un criterio de parada.

3. **Criterio de parada:** Detiene el proceso de división cuando se cumple un criterio predefinido, como una profundidad máxima del árbol o un número mínimo de muestras por nodo.

4. **Predicción:** Para predecir una nueva instancia, desciende por el árbol siguiendo las condiciones en cada nodo hasta llegar a una hoja, donde se asigna la etiqueta de clase (en clasificación) o el valor de regresión (en regresión).


___
## 1. Exploración de Datos

In [1]:
import pandas as pd
data = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')
print(data.head())


      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat  medv  
0  396.90   4.98  24.0  
1  396.90   9.14  21.6  
2  392.83   4.03  34.7  
3  394.63   2.94  33.4  
4  396.90   5.33  36.2  


## 2. Preprocesamiento de Datos

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [3]:
# Selección de características y variable objetivo
X = data.drop('medv', axis=1)
y = data['medv']

# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalización
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## 3. Modelado Básico 

In [4]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train_scaled, y_train)

## 4. Evaluación del modelo

En la evaluación de modelos, usamos el conjunto de prueba para medir la capacidad del modelo de hacer predicciones precisas en datos no vistos, lo que indica su capacidad de generalización. Se emplea el Error Cuadrático Medio (MSE) como métrica porque cuantifica la diferencia entre los valores predichos y los reales, proporcionando una medida clara del rendimiento del modelo en términos de error promedio.

In [5]:
from sklearn.metrics import mean_squared_error

In [6]:
y_pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print(f'MSE: {mse}')

MSE: 24.291119474973517


Un MSE de 24.291 indica que el modelo de regresión, en promedio, se equivoca en aproximadamente 24.29 unidades en el valor predicho respecto al valor real.

In [7]:
# Calculando la varianza y el rango de la variable objetivo
variance = y.var()
data_range = y.max() - y.min()

print(f'MSE: {mse}')
print(f'Varianza de la variable objetivo: {variance}')
print(f'Rango de la variable objetivo: {data_range}')

# Comparando el MSE con la varianza y el rango
print(f'Relación MSE/Varianza: {mse/variance}')
print(f'Relación MSE/Rango: {mse/data_range}')


MSE: 24.291119474973517
Varianza de la variable objetivo: 84.58672359409856
Rango de la variable objetivo: 45.0
Relación MSE/Varianza: 0.28717413847990986
Relación MSE/Rango: 0.5398026549994115


## 5. Iteracion del modelo usando Árboles de decision

In [8]:
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor()
model.fit(X_train_scaled, y_train)
pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, pred)
print(f'MSE: {mse}')

MSE: 10.51205882352941


El resultado de `10.56` para el MSE del modelo Decision Tree indica una mejora significativa en comparación con el MSE de la regresión lineal, que fue de `24.29`. Esto sugiere que Decision Tree está capturando mejor la complejidad de los datos y haciendo predicciones más precisas.