
# Laboratorio de MLOps -  Ciclo de Vida del Flujo de Trabajo de ML

### Objetivo General del Laboratorio
Proporcionar experiencia práctica en la aplicación del ciclo de vida del flujo de trabajo de ML, desde la exploración y preprocesamiento de datos hasta la evaluación y mejora de modelos.

### Objetivos Específicos
1. **Exploración de Datos:** Identificar características y patrones relevantes en los datos.
2. **Preprocesamiento de Datos:** Optimizar los datos para el modelado.
3. **Modelado de ML:** Aplicar y evaluar un modelo de regresión lineal, comprendiendo los fundamentos del modelado.
4. **Comparación de Modelos:** Experimentar con Random Forest para aprender sobre la selección y comparación de modelos.
5. **Iteración del Modelo:** Desarrollar habilidades en la mejora continua de los modelos de ML.



___
## 1. Exploración de Datos

Cargamos el conjunto de datos y mostramos las primeras filas para obtener una comprensión inicial de los datos disponibles.


In [31]:
import pandas as pd
import numpy as np

data = pd.read_csv('https://raw.githubusercontent.com/Pranjali1049/Salary_Prediction/main/Salary_Data.csv')
print(data.head())


    Age  Gender Education Level          Job Title  Years of Experience  \
0  32.0    Male      Bachelor's  Software Engineer                  5.0   
1  28.0  Female        Master's       Data Analyst                  3.0   
2  45.0    Male             PhD     Senior Manager                 15.0   
3  36.0  Female      Bachelor's    Sales Associate                  7.0   
4  52.0    Male        Master's           Director                 20.0   

     Salary  
0   90000.0  
1   65000.0  
2  150000.0  
3   60000.0  
4  200000.0  


## 2. Preprocesamiento de Datos
Prepararemos los datos para el modelado, incluyendo la limpieza y la normalización.

In [32]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [33]:

data = data[['Education Level', 'Job Title', 'Years of Experience', 'Salary']]
data.isnull().sum()

Education Level        3
Job Title              2
Years of Experience    3
Salary                 5
dtype: int64

In [34]:
data.dropna(inplace=True)

In [35]:
# Selección de características y variable objetivo
X = data.drop('Salary', axis=1)
y = data['Salary']

In [36]:
# Aplicando OHE
X = pd.get_dummies(X, columns=['Education Level' ,'Job Title'])
X


Unnamed: 0,Years of Experience,Education Level_Bachelor's,Education Level_Bachelor's Degree,Education Level_High School,Education Level_Master's,Education Level_Master's Degree,Education Level_PhD,Education Level_phD,Job Title_Account Manager,Job Title_Accountant,...,Job Title_Supply Chain Manager,Job Title_Technical Recruiter,Job Title_Technical Support Specialist,Job Title_Technical Writer,Job Title_Training Specialist,Job Title_UX Designer,Job Title_UX Researcher,Job Title_VP of Finance,Job Title_VP of Operations,Job Title_Web Developer
0,5.0,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,3.0,False,False,False,True,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,15.0,False,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,7.0,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,20.0,False,False,False,True,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6699,20.0,False,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,False,False
6700,3.0,False,False,True,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
6701,4.0,False,True,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
6702,14.0,False,False,False,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [37]:


# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# Normalización
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## 3. Modelado Básico

In [38]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train_scaled, y_train)

## 4. Evaluación de Modelos
Evaluaremos el rendimiento del modelo utilizando el conjunto de prueba.

En la evaluación de modelos, usamos el conjunto de prueba para medir la capacidad del modelo de hacer predicciones precisas en datos no vistos, lo que indica su capacidad de generalización. Se emplea el Error Cuadrático Medio (MSE) como métrica porque cuantifica la diferencia entre los valores predichos y los reales, proporcionando una medida clara del rendimiento del modelo en términos de error promedio.








In [39]:
from sklearn.metrics import mean_squared_error

In [40]:
y_pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print(f'MSE: {mse}')

MSE: 3.8628371961117436e+31


In [41]:
# Calculando la varianza y el rango de la variable objetivo
variance = y.var()
data_range = y.max() - y.min()

print(f'MSE: {mse}')
print(f'Varianza de la variable objetivo: {variance}')
print(f'Rango de la variable objetivo: {data_range}')

# Comparando el MSE con la varianza y el rango
print(f'Relación MSE/Varianza: {mse/variance}')
print(f'Relación MSE/Rango: {mse/data_range}')


MSE: 3.8628371961117436e+31
Varianza de la variable objetivo: 2786762192.9320683
Rango de la variable objetivo: 249650.0
Relación MSE/Varianza: 1.3861380802096688e+22
Relación MSE/Rango: 1.547301099984676e+26


## 5. Iteración del Modelo

Para mejorar el modelo en la iteración, podemos ajustar hiperparámetros del algoritmo actual, como el número de iteraciones en la regresión lineal, o probar diferentes algoritmos que puedan capturar mejor la complejidad de los datos, como Random Forest o Gradient Boosting. También podríamos explorar técnicas avanzadas de preprocesamiento de datos o ingeniería de características para mejorar la precisión del modelo.

In [42]:
from sklearn.tree import DecisionTreeRegressor

In [43]:

# Crear y entrenar el modelo
rf_model = DecisionTreeRegressor()
rf_model.fit(X_train_scaled, y_train)

# Realizar predicciones
rf_pred = rf_model.predict(X_test_scaled)

# Evaluar el nuevo modelo
rf_mse = mean_squared_error(y_test, rf_pred)
print(f'Decision Tree MSE: {rf_mse}')


Decision Tree MSE: 92046487.3349153


Conclusión: Considerablemente mejor que el modelo anterior pero mucho error mucho error.