# **Aprendizaje Supervisado** ü§ñ

¬°Bienvenido a un nuevo mini curso en el fascinante mundo del *Machine Learning*! üéâ Me entusiasma un mont√≥n tenerte aqu√≠ ü§ó. Hoy vamos a explorar t√©cnicas de **aprendizaje supervisado** y un poco de **evaluaci√≥n de modelos**, as√≠ que si est√°s listo... ¬°comencemos de una vez! üöÄ

## **Pero... ¬øqu√© es el aprendizaje supervisado? ü§î ¬øY cu√°l es su diferencia con el aprendizaje no supervisado?**

Si bien ambos pertenecen al mundo del *aprendizaje autom√°tico* (o *machine learning*), existe una clara diferencia entre ellos. ‚öñÔ∏è

El **aprendizaje supervisado** requiere datos tanto de entrada como de salida **etiquetados** durante la fase de entrenamiento del ciclo de vida del *machine learning*. Se le llama ‚Äúsupervisado‚Äù porque necesita de **intervenci√≥n humana**, especialmente al principio, ya que muchas veces los datos se encuentran crudos, es decir, sin etiquetas. üß†

Este tipo de aprendizaje es ideal para construir **modelos predictivos**, ya que se enfoca en identificar patrones entre los datos de entrada y los resultados esperados. Lo m√°s interesante es que, una vez entrenado, el modelo puede predecir datos nuevos e invisibles con bastante precisi√≥n. üìà‚ú®

Por otro lado, el **aprendizaje no supervisado** se encarga de entrenar modelos con datos sin procesar ni etiquetar. Este tipo de entrenamiento **no necesita supervisi√≥n humana directa**. üß™ La √∫nica intervenci√≥n humana suele darse al definir, por ejemplo, la cantidad de *clusters* en un algoritmo como *K-Means*. En general, estos modelos tienen la capacidad de procesar grandes vol√∫menes de datos de forma autom√°tica y eficiente. üß©

üëâ En esta ocasi√≥n, nos concentraremos √∫nicamente en **aprendizaje supervisado**, y en un pr√≥ximo mini curso exploraremos t√©cnicas de **aprendizaje no supervisado**. ¬°As√≠ que qu√©date atento! üìö


## **¬øQu√© aprender√°s en este curso?** ü§ì

Este curso est√° dise√±ado para que comprendas las bases m√°s fundamentales del **aprendizaje supervisado** ü§ñ. Es por ello que las explicaciones que aqu√≠ te muestro son bastante elementales y lo m√°s detalladas posible. Algunas de las cosas m√°s interesantes que aprender√°s son:

1. **Descubrir√°s cu√°les son las librer√≠as que mayormente se emplean** para este tipo de aprendizaje, todas provenientes de `sklearn`. Por supuesto, tambi√©n haremos uso de la poderosa `Pandas` üìöüêº.

2. **Aprender√°s c√≥mo suprimir la columna objetivo** de nuestro flujo de machine learning (pues no tiene ning√∫n sentido dejarla si esta es la que buscamos predecir) üß†. Adem√°s, ver√°s c√≥mo dividir nuestro conjunto de datos en datos de entrenamiento y de evaluaci√≥n/testeo, al tiempo que comprendes estos valiosos conceptos üß™.

3. Si ya pasaste por mi mini curso de **pipelines de preprocesamiento**, recordar√°s r√°pidamente c√≥mo se ejecuta uno y las bondades que este tiene ‚öôÔ∏è. Si a√∫n no lo has visto, puedes revisarlo en mi repositorio de GitHub üíª.

4. **Exploraremos 3 de los modelos m√°s empleados** en este mundo del aprendizaje supervisado, como lo son: `KNN`, `Regresi√≥n Lineal` y `√Årboles de Decisi√≥n` üå≥üìê.

5. Te explicar√© algunas de las **t√©cnicas para la evaluaci√≥n del rendimiento** de nuestros modelos üìàüìä.


## **Primeros pasos** üë£üêç

Si bien en Python tienes varias librer√≠as a tu disposici√≥n para la ejecuci√≥n de modelos de **machine learning**, en mi caso estar√© usando `sklearn` y sus m√≥dulos üì¶ü§ñ.


In [23]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import root_mean_squared_error
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, FunctionTransformer, OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier

### **La base de datos** üßæüíº

En mi caso estar√© empleando la base de datos `Employee.csv`, la cual se encuentra anexada en este repositorio üìé. Pero en caso de que tengas otra, ¬°no te preocupes! üòå Solo debes adaptar los pasos a tus necesidades üîßüìä.

`Employee.csv` es una base de datos extra√≠da de Kaggle, la cual contiene informaci√≥n sobre los empleados de una empresa üè¢. El prop√≥sito de esta base de datos es √∫nicamente de clasificaci√≥n ‚úÖ.

In [None]:
# Cargamos nuestra BD, te recomiendo guardar tu base de datos en la misma direcci√≥n
# que tu espacio de trabajo, as√≠ la podr√°s importar sin necesidad de copiar toda la 
# url.
df=pd.read_csv(r".\Employee.csv", delimiter=",", quotechar='"')

In [3]:
df.head()

Unnamed: 0,Education,JoiningYear,City,PaymentTier,Age,Gender,EverBenched,ExperienceInCurrentDomain,LeaveOrNot
0,Bachelors,2017,Bangalore,3,34,Male,No,0,0
1,Bachelors,2013,Pune,1,28,Female,No,3,1
2,Bachelors,2014,New Delhi,3,38,Female,No,2,0
3,Masters,2016,Bangalore,3,27,Male,No,5,1
4,Masters,2017,Pune,3,24,Male,Yes,2,1


Vemos que la base de datos se compone por **9 variables**, las cuales son: üìä

- **Education** üéì: Hace referencia a las cualificaciones educativas de los trabajadores.

- **JoiningYear** üìÖ: A√±o en el que el empleado ingres√≥ a la compa√±√≠a.

- **City** üèôÔ∏è: Locaci√≥n o ciudad donde se encuentra ubicado el empleado.

- **PaymentTier** üí∞: Categorizaci√≥n de los empleados seg√∫n su nivel de salario.

- **Age** üéÇ: Edad de cada uno de los empleados.

- **Gender** üöª: G√©nero de cada uno de los empleados.

- **EverBenched** üõãÔ∏è: Indica si un empleado alguna vez ha estado temporalmente sin trabajo asignado (*benching*).

- **ExperienceInCurrentDomain** üß†: A√±os de experiencia que el empleado tiene en su actual puesto de trabajo.

- **LeaveOrNot** üö™: Columna objetivo que indica si el empleado decidi√≥ dejar la compa√±√≠a o no.


Antes de comenzar cualquier tipo de procedimiento es fundamental determinar si existen valores nulos y cuales son las estad√≠sticas descriptivas de nuestras variables, as√≠:

In [4]:
df.isna().sum().reset_index().rename(columns={"index":"Variable", 0:"Valores faltantes"})

Unnamed: 0,Variable,Valores faltantes
0,Education,0
1,JoiningYear,0
2,City,0
3,PaymentTier,0
4,Age,0
5,Gender,0
6,EverBenched,0
7,ExperienceInCurrentDomain,0
8,LeaveOrNot,0


Vemos que en efecto no hay valores faltantes, ahora las estad√≠sticas descriptivas:

In [5]:
df.describe()

Unnamed: 0,JoiningYear,PaymentTier,Age,ExperienceInCurrentDomain,LeaveOrNot
count,4653.0,4653.0,4653.0,4653.0,4653.0
mean,2015.06297,2.698259,29.393295,2.905652,0.343864
std,1.863377,0.561435,4.826087,1.55824,0.475047
min,2012.0,1.0,22.0,0.0,0.0
25%,2013.0,3.0,26.0,2.0,0.0
50%,2015.0,3.0,28.0,3.0,0.0
75%,2017.0,3.0,32.0,4.0,1.0
max,2018.0,3.0,41.0,7.0,1.0


En t√©rminos generales, no se observan valores at√≠picos üìâ. Sin embargo, si es de tu inter√©s cerciorarte completamente, puedes hacer uso de un **boxplot** üì¶.

En cuanto a las estad√≠sticas, podemos destacar lo siguiente: üìä

- En promedio, los empleados de esta empresa ingresaron durante el **a√±o 2015** üìÖ. Sin embargo, el empleado m√°s antiguo se uni√≥ en **2012**, mientras que el m√°s reciente comenz√≥ en **2018**.

- La mayor√≠a de los empleados tienen su salario en el **tercer rango de pago** üíµ, con una ligera **desviaci√≥n est√°ndar de 0.56**, lo que indica poca variabilidad en esta variable.

- Se evidencia que en esta empresa la mayor parte de la mano de obra es **joven** üë®‚Äçüíºüë©‚Äçüíº, pues se encuentran en un rango de edad que va desde los **22 hasta los 41 a√±os**, con una **media de 29 a√±os** üéÇ.


Si bien no es posible obtener estad√≠siticas descriptivas de la variables categ√≥ricas, aqu√≠ se muestra un breve res√∫men de ellas.

In [6]:
df.describe(include="object")

Unnamed: 0,Education,City,Gender,EverBenched
count,4653,4653,4653,4653
unique,3,3,2,2
top,Bachelors,Bangalore,Male,No
freq,3601,2228,2778,4175


## **Inicio oficial de nuestro flujo de ML** üöÄ

Para este ejercicio de aprendizaje supervisado tomaremos como columna objetivo a `ExperienceInCurrentDomain` üéØ. Es decir, con base en las dem√°s variables que tenemos a nuestra disposici√≥n, intentaremos predecir cu√°ntos a√±os de experiencia tiene cada uno de los colaboradores en su puesto actual de trabajo üë®‚Äçüíºüë©‚Äçüíº.


### **Paso n√∫mero 1** üßÆ

En mi caso, para que el c√≥digo se viera un poco m√°s limpio defin√≠ por fuera a `X` e `y` ‚úÇÔ∏è. Como puedes observar, se **suprime de la base de datos la variable que se busca predecir**, pues carece de sentido dejarla all√≠ si nuestro objetivo es justamente **predecirla** üéØ.

Adem√°s, por medio del par√°metro `test_size`, se define que un **20% de los datos ser√°n empleados para evaluar los resultados**, mientras que el **80% restante ser√° usado para entrenar el modelo** ü§ñüìä.


In [14]:
X = df.drop(columns="ExperienceInCurrentDomain")
y = df["ExperienceInCurrentDomain"]

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y, 
    test_size=0.2,
    random_state=42
    )


### **Paso n√∫mero 2** üß©

Como vimos previamente, nuestra base de datos tiene **4 variables categ√≥ricas**, y para que nuestro modelo funcione correctamente necesitaremos **transformarlas en valores num√©ricos** üî¢. 

Para lograr esto, hacemos uso de los **pipelines de preprocesamiento**, los cuales nos permiten automatizar este paso y asegurarnos de que todos los datos est√©n en el formato adecuado para nuestros modelos üõ†Ô∏èü§ñ.

---

#### **üß† Importante recordar sobre los pipelines**

1. Cuando se transforman variables como `City`, las cuales **no son ordinales**, la transformaci√≥n se hace a trav√©s de variables **dummies (0 y 1)**. En este caso, es recomendable eliminar una de las categor√≠as para **evitar problemas de multicolinealidad** (esto lo puedes lograr f√°cilmente con `drop='first'` en el `OneHotEncoder`).

2. Los pipelines de preprocesamiento se pueden aplicar tanto a **variables num√©ricas** como a **categ√≥ricas**. Sin embargo, en este mini curso, por simplicidad y enfoque, solo aplicaremos el pipeline a las variables **categ√≥ricas** üéØ.




In [None]:
# Variables categ√≥ricas que se alterar√°n por medio del pipelinde pre-procesamiento.
cat_features = ["Education", "City", "Gender", "EverBenched"]

education_order = [["Bachelors", "Masters", "PHD"]]

employee_cat_pipeline = ColumnTransformer(
    transformers=[
        ("education_ordinal", OrdinalEncoder(categories=education_order), ["Education"]),
        ("city_nominal", OneHotEncoder(sparse_output=False), ["City"]),
        ("gender_binary", OneHotEncoder(drop="if_binary", sparse_output=False), ["Gender"]),
        ("benched_binary", OneHotEncoder(drop="if_binary", sparse_output=False), ["EverBenched"])
    ],
    verbose_feature_names_out=False, # Evita que los nombres de as variables queden demasiado largas
    remainder="passthrough"  # Mantiene el resto de columnas sin cambios
).set_output(transform="pandas")

Una vez ejecutado nuestro pipeline, se debe de aplicar tanto al conjunto de entremaineto como de test, para ello empleamos las siguientes l√≠neas:

In [17]:
X_train_preproc = employee_cat_pipeline.fit_transform(X_train)
print(X_train_preproc.head())

      Education  City_Bangalore  City_New Delhi  City_Pune  Gender_Male  \
2850        1.0             0.0             1.0        0.0          1.0   
589         0.0             1.0             0.0        0.0          1.0   
2086        1.0             0.0             0.0        1.0          1.0   
445         1.0             0.0             0.0        1.0          1.0   
3654        1.0             0.0             1.0        0.0          1.0   

      EverBenched_Yes  JoiningYear  PaymentTier  Age  LeaveOrNot  
2850              0.0         2013            3   30           1  
589               0.0         2012            3   25           0  
2086              0.0         2017            2   29           0  
445               0.0         2012            3   24           0  
3654              0.0         2017            2   35           0  


In [18]:
X_test_preproc = employee_cat_pipeline.transform(X_test)
print(X_test_preproc.head())

      Education  City_Bangalore  City_New Delhi  City_Pune  Gender_Male  \
297         0.0             1.0             0.0        0.0          0.0   
2705        0.0             1.0             0.0        0.0          0.0   
501         0.0             0.0             1.0        0.0          0.0   
1272        1.0             0.0             0.0        1.0          0.0   
3956        0.0             1.0             0.0        0.0          1.0   

      EverBenched_Yes  JoiningYear  PaymentTier  Age  LeaveOrNot  
297               0.0         2016            3   24           1  
2705              0.0         2013            3   26           0  
501               0.0         2017            2   25           1  
1272              0.0         2015            2   28           0  
3956              0.0         2012            3   33           0  


### **Paso n√∫mero 3: Los modelos** ü§ñüå±

Como te cont√© al inicio, en este mini curso vamos a explorar √∫nicamente **3 modelos**. Sin embargo, no olvides que existen **muchos otros** que te pueden ser de gran ayuda dependiendo del prop√≥sito de tu an√°lisis üìà. 

Los modelos que exploraremos a continuaci√≥n son:


üîπ **KNN (K-Nearest Neighbors):**  
Este modelo predice con base en los **vecinos m√°s cercanos**. Es muy √∫til cuando se busca capturar **patrones locales**.  
‚ö†Ô∏è *Advertencia:* Puede ser **sensible al ruido** y a los **problemas de escalado**, por eso es importante normalizar los datos si es necesario.



üîπ **Regresi√≥n Lineal:**  
Este modelo se basa principalmente en ajustar una **recta (o hiperplano)** a los datos. Es de **f√°cil interpretaci√≥n** y bastante utilizado como modelo base.  
‚ö†Ô∏è *Advertencia:* Supone que la relaci√≥n entre las variables es **lineal**, lo cual puede no cumplirse en todos los casos.



üîπ **√Årbol de Decisi√≥n:**  
Este modelo crea un **√°rbol de decisiones** que divide los datos en segmentos seg√∫n sus caracter√≠sticas. Es un modelo **flexible** y f√°cil de visualizar.  
‚ö†Ô∏è *Advertencia:* Si el √°rbol se deja crecer mucho (es decir, con una profundidad muy alta) puede **sobreajustarse** al conjunto de entrenamiento. Esto se controla con el par√°metro `max_depth`.




In [None]:
modelo_knn=KNeighborsRegressor()
modelo_lineal=LinearRegression()
decision_tree=DecisionTreeRegressor(max_depth=4)



¬°Ahora s√≠! Vamos a entrenar nuestros modelos.  
De manera simple, lo que este c√≥digo le est√° diciendo a la m√°quina es:

üëâ *"Mira estos datos (`X_train_preproc`) y las respuestas correctas (`y_train`) y aprende la mejor forma de predecir la variable `ExperienceInCurrentDomain`."*

Este proceso es justamente el **entrenamiento del modelo**, donde la m√°quina identifica patrones y relaciones entre las variables para luego poder hacer predicciones sobre datos que no ha visto antes üß©üìä.


In [None]:
modelo_knn.fit(X_train_preproc, y_train)
modelo_lineal.fit(X_train_preproc, y_train)
decision_tree.fit(X_train_preproc, y_train)

### **Paso n√∫mero 4: Evaluaci√≥n del rendimiento de los modelos** üìâü§ñ

Para cumplir con este prop√≥sito, vamos a generar una **funci√≥n personalizada** que nos permitir√° evaluar cualquier modelo que deseemos probar.

- En el par√°metro `model` ir√° el nombre de cualquiera de nuestros modelos ya entrenados.
- En `features` pondremos las variables explicativas (en este caso `X_train_preproc`).
- Y `target` representa la variable objetivo.

üîç De manera general, esta funci√≥n primero **predice** los valores a partir del modelo proporcionado, y posteriormente **calcula el error entre lo que predijo y el valor real**.  

üìè Para medir ese error, utilizamos el **error cuadr√°tico medio (RMSE)**, el cual nos da una idea de qu√© tan lejos est√°n, en promedio, nuestras predicciones del valor real.  
üëâ *Entre menor sea este valor, mejor ser√° el modelo*.

‚ö†Ô∏è **¬°Importante!** En esta parte estamos evaluando el desempe√±o del modelo **sobre los datos de entrenamiento**, es decir, estamos midiendo qu√© tan bien es capaz de predecir los mismos datos que ya conoce. Esto nos da una idea inicial de su capacidad, pero **no debe confundirse con el rendimiento real sobre datos nuevos (de prueba)**.


In [None]:
# Generamos nuestra funci√≥n personalizada
def evaluate_model(model, features, target):
    y_pred = model.predict(features)
    rmse = root_mean_squared_error(y_true=target, y_pred=y_pred)
    return rmse

# C√°lculo del RMSE
knn_train_rmse = evaluate_model(modelo_knn, X_train_preproc, y_train)
linear_train_rmse = evaluate_model(modelo_lineal, X_train_preproc, y_train)
dt_train_rmse = evaluate_model(decision_tree, X_train_preproc, y_train)

# Presentamos los resultados obenidos de manera bonita
df_performance_eval = pd.DataFrame({
    "model": ["KNN", "LinearReg", "DT"],
    "train_rmse": [knn_train_rmse, linear_train_rmse, dt_train_rmse]
})
df_performance_eval

Unnamed: 0,model,train_rmse
0,KNN,1.026699
1,LinearReg,1.542435
2,DT,1.119674


### **An√°lisis de los resultados** üìä‚ú®

Los valores obtenidos nos indican, en promedio, **cu√°ntos a√±os se equivoca cada uno de los modelos al predecir** la variable deseada (`ExperienceInCurrentDomain`):

- **KNN:** Este modelo obtuvo el **mejor desempe√±o**, es decir, logr√≥ capturar de manera satisfactoria la estructura de los datos, ya que **se equivoca √∫nicamente 1.03 a√±os en promedio** al predecir cu√°ntos a√±os lleva un colaborador en su puesto actual. ü•á‚úÖ

- **Regresi√≥n Lineal:** Este modelo present√≥ el **peor rendimiento**, con un error promedio de **1.54 a√±os**, lo que sugiere que la relaci√≥n entre las variables puede **no ser lineal**, afectando la precisi√≥n del modelo. üìâü§î

- **√Årbol de Decisi√≥n:** Con un error promedio de **1.11 a√±os**, este modelo se ubica **en un punto medio** entre los dos anteriores, mostrando un buen rendimiento, aunque sin superar a KNN. üå≥üîç


### **Evaluaci√≥n m√°s robusta del rendimiento** üîç

Si bien los valores obtenidos en la primera etapa de an√°lisis de desempe√±o nos permiten extraer buenas conclusiones sobre cada uno de los modelos empleados, es importante destacar que estas m√©tricas solo consideran **qu√© tan bien se desempe√±√≥ el modelo respecto a los valores reales**. 

No obstante, tambi√©n debemos tener en cuenta otros aspectos como la **estabilidad de los modelos**. Para evaluar este punto, haremos uso de una t√©cnica conocida como **validaci√≥n cruzada**.


#### **¬øQu√© es la validaci√≥n cruzada?** üîÅ

La validaci√≥n cruzada es un m√©todo que divide el conjunto de entrenamiento en `w` partes, las cuales se determinan por medio del par√°metro `cv`, y repite el siguiente ciclo `w` veces:

1. Emplea `w-1` de las partes para **entrenar** el modelo.
2. Usa la parte restante para **validar**.
3. Repite el proceso **cambiando la parte usada para validar** en cada iteraci√≥n.


Al final se obtienen `w` valores de **RMSE**, lo que permite analizar la **estabilidad del modelo**. Es decir:

 ¬øEl modelo es **consistente con sus resultados**? ¬øO hay **mucha variabilidad** entre las validaciones?

Esta evaluaci√≥n es fundamental para tomar decisiones m√°s informadas sobre qu√© modelo utilizar en producci√≥n o an√°lisis m√°s avanzados.


In [30]:
cv_scores_knn = cross_val_score(
    modelo_knn, X_train_preproc, y_train,
    cv=5, scoring="neg_root_mean_squared_error"
)
cv_scores_linear = cross_val_score(
    modelo_lineal, X_train_preproc, y_train,
    cv=5, scoring="neg_root_mean_squared_error"
)
cv_scores_dt = cross_val_score(
    decision_tree, X_train_preproc, y_train,
    cv=5, scoring="neg_root_mean_squared_error"
)

# Convierte a positivo los resultados

cv_scores_knn = -cv_scores_knn
cv_scores_linear = -cv_scores_linear
cv_scores_dt = -cv_scores_dt

# Imprime los diferete RMSE obtenidos.

print("\nResultados de la validaci√≥n cruzada:")
print("KNN:", cv_scores_knn)
print("Linear Regression:", cv_scores_linear)
print("Decision Tree:", cv_scores_dt)


Resultados de la validaci√≥n cruzada:
KNN: [1.25810126 1.25534562 1.18282967 1.30367553 1.23503951]
Linear Regression: [1.56093816 1.55313887 1.50928377 1.56615964 1.54251746]
Decision Tree: [1.18054503 1.14332435 1.07778481 1.15160524 1.11152483]



De los resultados obtenidos durante el proceso de validaci√≥n cruzada se pueden extraer las siguientes conclusiones:

- üèÜ **El modelo que mejor desempe√±o mostr√≥ fue el √°rbol de decisi√≥n**, ya que su **RMSE promedio fue el m√°s bajo**, con un valor de **1.13**.

- ü•à **El segundo mejor desempe√±o lo tuvo el modelo KNN**, con una media de **1.25**.

- ‚ùó **Aunque el modelo con peor desempe√±o fue el de regresi√≥n lineal**, se destaca que fue **el m√°s estable**. Es decir, aunque su precisi√≥n sea menor, ofrece predicciones **m√°s consistentes** frente a diferentes subconjuntos de los datos.

üìä En cuanto a la **variabilidad de los resultados**, los dos primeros modelos (√°rbol de decisi√≥n y KNN) presentaron una **desviaci√≥n est√°ndar m√°s elevada** en comparaci√≥n con la regresi√≥n lineal. Esto sugiere que dichos modelos son **m√°s sensibles a los cambios en los datos de entrenamiento**, lo cual puede ser un punto a considerar dependiendo del contexto de aplicaci√≥n.


Si deseas tener los resultados de los diferentes **RMSE** de manera m√°s accesible y organizada, te comparto estas l√≠neas de c√≥digo üß†. Con ellas podr√°s visualizar de forma clara:

- El **promedio de las validaciones cruzadas**.
- La **desviaci√≥n est√°ndar** de los errores.
- El **primer valor de RMSE** obtenido.


In [None]:
df_performance_eval["cv_rmse_avg"] = [cv_scores_knn.mean(), cv_scores_linear.mean(), cv_scores_dt.mean()]
df_performance_eval["cv_rmse_std"] = [cv_scores_knn.std(), cv_scores_linear.std(), cv_scores_dt.std()]
df_performance_eval

Unnamed: 0,model,train_rmse,cv_rmse_avg,cv_rmse_std
0,KNN,1.026699,1.246998,0.039156
1,LinearReg,1.542435,1.546408,0.020199
2,DT,1.119674,1.132957,0.035279


### **Paso final: Evaluaci√≥n en datos desconocidos (test set)** üéØüîç

Para concluir, vamos a observar en definitiva c√≥mo es el desempe√±o de nuestros modelos prediciendo los valores que **desconocen**, es decir, sobre el conjunto de prueba (`test set`).

üìå De acuerdo con los procedimientos previos ‚Äîespecialmente la **validaci√≥n cruzada**‚Äî podr√≠amos inclinarnos a pensar que el modelo que tendr√° los resultados m√°s favorables ser√° el **√°rbol de decisi√≥n**, ya que obtuvo el mejor desempe√±o promedio en esa etapa.

üåü Sin embargo, ¬°este es el momento de la verdad! Evaluar con los datos que el modelo nunca ha visto es la manera m√°s honesta de saber qu√© tan bien generaliza.


In [28]:
# Compute RMSE for each model on the test dataset
knn_test_rmse = evaluate_model(modelo_knn, X_test_preproc, y_test)
linear_test_rmse = evaluate_model(modelo_lineal, X_test_preproc, y_test)
dt_test_rmse = evaluate_model(decision_tree, X_test_preproc, y_test)

# Include test results in the dataframe
df_performance_eval["test_rmse"] = [knn_test_rmse, linear_test_rmse, dt_test_rmse]
df_performance_eval

Unnamed: 0,model,train_rmse,cv_rmse_avg,cv_rmse_std,test_rmse
0,KNN,1.026699,1.246998,0.039156,1.203289
1,LinearReg,1.542435,1.546408,0.020199,1.540503
2,DT,1.119674,1.132957,0.035279,1.104948


Como era de esperarse, el modelo que obtuvo el **menor RMSE** (üí° *recuerda: entre menor, mejor*) fue el **√°rbol de decisi√≥n**, seguido por **KNN** y, en √∫ltimo lugar, la **regresi√≥n lineal**.

üìä Esto sugiere que, en efecto, la relaci√≥n que existe entre las variables explicativas y la variable objetivo **no es de car√°cter lineal**, lo cual explica por qu√© la regresi√≥n lineal no logr√≥ capturar bien la estructura de los datos.

üå± En resumen, los modelos m√°s flexibles (como el √°rbol y KNN) lograron adaptarse mejor a los patrones de la informaci√≥n disponible.


### **Conclusiones finales** üéìüìä

Durante este breve curso exploramos el interesante mundo del **aprendizaje supervisado**. Algunas de las ideas m√°s importantes que me gustar√≠a destacar son:

1. ‚úÖ **Partici√≥n de los datos**: comenzamos dividiendo nuestro conjunto en entrenamiento y prueba. En mi caso utilic√© una proporci√≥n 80-20, pero recuerda que estos valores **no son fijos**. Puedes ajustarlos seg√∫n tus necesidades y la cantidad de datos que tengas a tu disposici√≥n.

2. üõ†Ô∏è **Pipelines de preprocesamiento**: vimos un caso pr√°ctico que demuestra lo fundamentales que son los pipelines, no solo como teor√≠a, sino aplicados a un caso real de transformaci√≥n de variables categ√≥ricas.

3. üß† **Modelos aplicados**: aunque aqu√≠ usamos solo 3 modelos (KNN, regresi√≥n lineal y √°rbol de decisi√≥n), recuerda que existen **muchos otros**, como los modelos log√≠sticos, que son s√∫per √∫tiles cuando necesitas predecir **variables binarias**.

4. üîç **Evaluaci√≥n interna**: aprendimos que antes de predecir los datos que el modelo no conoce, es importante evaluarlo con los datos visibles. As√≠ puedes ajustarlo mejor y aumentar la fiabilidad de tus predicciones.

5. üå≤ **Sobre los √°rboles de decisi√≥n**: son modelos muy potentes y flexibles, pero **cuidado con la profundidad**. Un √°rbol demasiado profundo puede llevar al temido **sobreajuste**, perdiendo capacidad de generalizaci√≥n.

6. üìè **Predicci√≥n real y RMSE**: nunca olvides realizar las predicciones reales y calcular su RMSE. Esta m√©trica es la que nos **da la √∫ltima palabra** sobre el desempe√±o del modelo en el mundo real y nos dice si logramos el objetivo de predecir lo desconocido.

