# Laboratorio de MLOps -  Ciclo de Vida del Flujo de Trabajo de ML

### Objetivo General del Laboratorio
Proporcionar experiencia práctica en la aplicación del ciclo de vida del flujo de trabajo de ML, desde la exploración y preprocesamiento de datos hasta la evaluación y mejora de modelos.

### Objetivos Específicos
1. **Exploración de Datos:** Identificar características y patrones relevantes en los datos.
2. **Preprocesamiento de Datos:** Optimizar los datos para el modelado.
3. **Modelado de ML:** Aplicar y evaluar un modelo de regresión lineal, comprendiendo los fundamentos del modelado.
4. **Comparación de Modelos:** Experimentar con un metodo de aprendizaje para aprender sobre la selección y comparación de modelos.
5. **Iteración del Modelo:** Desarrollar habilidades en la mejora continua de los modelos de ML.


In [1]:
import pandas as pd
data = pd.read_csv('https://raw.githubusercontent.com/timothypesi/Data-Sets-For-Machine-Learning-/main/california_housing_train.csv')
print(data.head())


   longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0    -114.31     34.19                15.0       5612.0          1283.0   
1    -114.47     34.40                19.0       7650.0          1901.0   
2    -114.56     33.69                17.0        720.0           174.0   
3    -114.57     33.64                14.0       1501.0           337.0   
4    -114.57     33.57                20.0       1454.0           326.0   

   population  households  median_income  median_house_value  
0      1015.0       472.0         1.4936             66900.0  
1      1129.0       463.0         1.8200             80100.0  
2       333.0       117.0         1.6509             85700.0  
3       515.0       226.0         3.1917             73400.0  
4       624.0       262.0         1.9250             65500.0  


Este conjunto de datos contiene información relacionada con diversas características de viviendas en diferentes áreas de California. Aquí hay una explicación de las columnas presentes en el archivo CSV:

1. **longitude**: Longitud geográfica de la ubicación de la vivienda.
2. **latitude**: Latitud geográfica de la ubicación de la vivienda.
3. **housing_median_age**: Edad media de las viviendas en una zona específica.
4. **total_rooms**: Número total de habitaciones en las viviendas de la zona.
5. **total_bedrooms**: Número total de dormitorios en las viviendas de la zona.
6. **population**: Población total en la zona.
7. **households**: Número total de hogares en la zona.
8. **median_income**: Ingreso medio de los hogares en la zona, expresado en unidades monetarias (dólares).
9. **median_house_value**: Valor medio de las viviendas en la zona, expresado en unidades monetarias (dólares).


## 2. Preprocesamiento de Datos
Prepararemos los datos para el modelado, incluyendo la limpieza y la normalización.

El preprocesamiento de datos es crucial porque prepara el conjunto de datos para el modelado, mejorando la precisión de las predicciones. Se limpian los datos para eliminar anomalías o valores atípicos que puedan distorsionar el resultado del modelo. La normalización (o estandarización) se realiza para escalar las características numéricas en un rango común, asegurando que ninguna característica domine a otras debido a su escala, lo que permite al modelo aprender más efectivamente las relaciones subyacentes.

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [3]:
# Selección de características y variable objetivo
X = data.drop('median_income', axis=1)
y = data['median_income']

# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalización
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


## 3. Modelado Básico
Entrenaremos un modelo de regresión lineal para predecir los precios de las viviendas.

In [4]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train_scaled, y_train)

## 4. Evaluación de Modelos
Evaluaremos el rendimiento del modelo utilizando el conjunto de prueba.

En la evaluación de modelos, usamos el conjunto de prueba para medir la capacidad del modelo de hacer predicciones precisas en datos no vistos, lo que indica su capacidad de generalización. Se emplea el Error Cuadrático Medio (MSE) como métrica porque cuantifica la diferencia entre los valores predichos y los reales, proporcionando una medida clara del rendimiento del modelo en términos de error promedio.








In [5]:
from sklearn.metrics import mean_squared_error

y_pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print(f'MSE: {mse}')

MSE: 1.1630929819416143



Un MSE de aproximadamente 1.163 es bastante bajo, lo que sugiere que el modelo de Random Forest tiene un rendimiento muy bueno en la tarea de regresión para la que fue entrenado

In [6]:
# Calculando la varianza y el rango de la variable objetivo
variance = y.var()
data_range = y.max() - y.min()

print(f'MSE: {mse}')
print(f'Varianza de la variable objetivo: {variance}')
print(f'Rango de la variable objetivo: {data_range}')

# Comparando el MSE con la varianza y el rango
print(f'Relación MSE/Varianza: {mse/variance}')
print(f'Relación MSE/Rango: {mse/data_range}')


MSE: 1.1630929819416143
Varianza de la variable objetivo: 3.641061298632622
Rango de la variable objetivo: 14.5002
Relación MSE/Varianza: 0.319437901904702
Relación MSE/Rango: 0.08021220272421169


La baja varianza de la variable objetivo (aproximadamente 3.641) indica que los valores de la variable objetivo están relativamente cercanos unos de otros en el conjunto de datos.

El rango de la variable objetivo es de aproximadamente 14.5002, lo que sugiere una amplitud moderada en los valores de la variable objetivo en el conjunto de datos.

La relación MSE/Varianza es de aproximadamente 0.319, lo que indica que el MSE es una fracción significativamente baja de la variabilidad total de la variable objetivo. Esto sugiere que el modelo está haciendo predicciones muy precisas en relación con la variabilidad presente en los datos.

La relación MSE/Rango es de aproximadamente 0.080, lo que indica que el MSE es significativamente bajo en relación con el rango de valores de la variable objetivo. Esto sugiere que los errores del modelo son muy bajos en comparación con la amplitud de valores observados de la variable objetivo.

## 5. Iteración del Modelo

Para mejorar el modelo en la iteración, podemos ajustar hiperparámetros del algoritmo actual, como el número de iteraciones en la regresión lineal, o probar diferentes algoritmos que puedan capturar mejor la complejidad de los datos, como Random Forest o Gradient Boosting. También podríamos explorar técnicas avanzadas de preprocesamiento de datos o ingeniería de características para mejorar la precisión del modelo.

In [10]:
from sklearn.ensemble import RandomForestRegressor

# Crear y entrenar el modelo de Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train_scaled, y_train)

# Realizar predicciones con el modelo de Random Forest
rf_pred = rf_model.predict(X_test_scaled)

# Evaluar el modelo de Random Forest
rf_mse = mean_squared_error(y_test, rf_pred)
print(f'Random Forest MSE: {rf_mse}')


Random Forest MSE: 0.7673869998204628


Esto sugiere que el modelo está capturando efectivamente las relaciones y patrones en los datos, y está haciendo predicciones muy precisas.

In [8]:
from sklearn.svm import SVR


# Crear y escalar los conjuntos de datos de entrenamiento y prueba
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Crear y entrenar el modelo SVM de regresión
svm_model = SVR(kernel='rbf', C=1.0, epsilon=0.1)
svm_model.fit(X_train_scaled, y_train)

# Realizar predicciones con el modelo SVM de regresión
svm_pred = svm_model.predict(X_test_scaled)

# Evaluar el modelo SVM de regresión
svm_mse = mean_squared_error(y_test, svm_pred)
print(f'SVM MSE: {svm_mse}')

SVM MSE: 0.7562869151860064


In [9]:
from sklearn.ensemble import GradientBoostingRegressor

# Crear y entrenar el modelo Gradient Boosting Regressor
gb_model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)
gb_model.fit(X_train_scaled, y_train)

# Realizar predicciones con el modelo Gradient Boosting Regressor
gb_pred = gb_model.predict(X_test_scaled)

# Evaluar el modelo Gradient Boosting Regressor
gb_mse = mean_squared_error(y_test, gb_pred)
print(f'Gradient Boosting MSE: {gb_mse}')


Gradient Boosting MSE: 0.7951002869488041


Es útil comparar el MSE del modelo de Gradient Boosting con los MSE de otros modelos que has evaluado, como el Random Forest y SVM. Si bien el MSE es una métrica importante, también es importante considerar otros aspectos del modelo, como la complejidad, el tiempo de entrenamiento y la capacidad de generalización.

En general, todos los modelos tienen MSEs relativamente bajos, lo que sugiere que son capaces de hacer predicciones precisas en la tarea de regresión para la que fueron entrenados. Sin embargo, el modelo SVM muestra el mejor rendimiento en términos de MSE en este conjunto de datos específico. Es importante tener en cuenta que la elección del mejor modelo también puede depender de otros factores, como la interpretabilidad, la complejidad del modelo y los requisitos de tiempo de ejecución.