# **Aprendizaje Supervisado** 🤖

¡Bienvenido a un nuevo mini curso en el fascinante mundo del *Machine Learning*! 🎉 Me entusiasma un montón tenerte aquí 🤗. Hoy vamos a explorar técnicas de **aprendizaje supervisado** y un poco de **evaluación de modelos**, así que si estás listo... ¡comencemos de una vez! 🚀

## **Pero... ¿qué es el aprendizaje supervisado? 🤔 ¿Y cuál es su diferencia con el aprendizaje no supervisado?**

Si bien ambos pertenecen al mundo del *aprendizaje automático* (o *machine learning*), existe una clara diferencia entre ellos. ⚖️

El **aprendizaje supervisado** requiere datos tanto de entrada como de salida **etiquetados** durante la fase de entrenamiento del ciclo de vida del *machine learning*. Se le llama “supervisado” porque necesita de **intervención humana**, especialmente al principio, ya que muchas veces los datos se encuentran crudos, es decir, sin etiquetas. 🧠

Este tipo de aprendizaje es ideal para construir **modelos predictivos**, ya que se enfoca en identificar patrones entre los datos de entrada y los resultados esperados. Lo más interesante es que, una vez entrenado, el modelo puede predecir datos nuevos e invisibles con bastante precisión. 📈✨

Por otro lado, el **aprendizaje no supervisado** se encarga de entrenar modelos con datos sin procesar ni etiquetar. Este tipo de entrenamiento **no necesita supervisión humana directa**. 🧪 La única intervención humana suele darse al definir, por ejemplo, la cantidad de *clusters* en un algoritmo como *K-Means*. En general, estos modelos tienen la capacidad de procesar grandes volúmenes de datos de forma automática y eficiente. 🧩

👉 En esta ocasión, nos concentraremos únicamente en **aprendizaje supervisado**, y en un próximo mini curso exploraremos técnicas de **aprendizaje no supervisado**. ¡Así que quédate atento! 📚


## **¿Qué aprenderás en este curso?** 🤓

Este curso está diseñado para que comprendas las bases más fundamentales del **aprendizaje supervisado** 🤖. Es por ello que las explicaciones que aquí te muestro son bastante elementales y lo más detalladas posible. Algunas de las cosas más interesantes que aprenderás son:

1. **Descubrirás cuáles son las librerías que mayormente se emplean** para este tipo de aprendizaje, todas provenientes de `sklearn`. Por supuesto, también haremos uso de la poderosa `Pandas` 📚🐼.

2. **Aprenderás cómo suprimir la columna objetivo** de nuestro flujo de machine learning (pues no tiene ningún sentido dejarla si esta es la que buscamos predecir) 🧠. Además, verás cómo dividir nuestro conjunto de datos en datos de entrenamiento y de evaluación/testeo, al tiempo que comprendes estos valiosos conceptos 🧪.

3. Si ya pasaste por mi mini curso de **pipelines de preprocesamiento**, recordarás rápidamente cómo se ejecuta uno y las bondades que este tiene ⚙️. Si aún no lo has visto, puedes revisarlo en mi repositorio de GitHub 💻.

4. **Exploraremos 3 de los modelos más empleados** en este mundo del aprendizaje supervisado, como lo son: `KNN`, `Regresión Lineal` y `Árboles de Decisión` 🌳📐.

5. Te explicaré algunas de las **técnicas para la evaluación del rendimiento** de nuestros modelos 📈📊.


## **Primeros pasos** 👣🐍

Si bien en Python tienes varias librerías a tu disposición para la ejecución de modelos de **machine learning**, en mi caso estaré usando `sklearn` y sus módulos 📦🤖.


In [23]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import root_mean_squared_error
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, FunctionTransformer, OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier

### **La base de datos** 🧾💼

En mi caso estaré empleando la base de datos `Employee.csv`, la cual se encuentra anexada en este repositorio 📎. Pero en caso de que tengas otra, ¡no te preocupes! 😌 Solo debes adaptar los pasos a tus necesidades 🔧📊.

`Employee.csv` es una base de datos extraída de Kaggle, la cual contiene información sobre los empleados de una empresa 🏢. El propósito de esta base de datos es únicamente de clasificación ✅.

In [None]:
# Cargamos nuestra BD, te recomiendo guardar tu base de datos en la misma dirección
# que tu espacio de trabajo, así la podrás importar sin necesidad de copiar toda la 
# url.
df=pd.read_csv(r".\Employee.csv", delimiter=",", quotechar='"')

In [3]:
df.head()

Unnamed: 0,Education,JoiningYear,City,PaymentTier,Age,Gender,EverBenched,ExperienceInCurrentDomain,LeaveOrNot
0,Bachelors,2017,Bangalore,3,34,Male,No,0,0
1,Bachelors,2013,Pune,1,28,Female,No,3,1
2,Bachelors,2014,New Delhi,3,38,Female,No,2,0
3,Masters,2016,Bangalore,3,27,Male,No,5,1
4,Masters,2017,Pune,3,24,Male,Yes,2,1


Vemos que la base de datos se compone por **9 variables**, las cuales son: 📊

- **Education** 🎓: Hace referencia a las cualificaciones educativas de los trabajadores.

- **JoiningYear** 📅: Año en el que el empleado ingresó a la compañía.

- **City** 🏙️: Locación o ciudad donde se encuentra ubicado el empleado.

- **PaymentTier** 💰: Categorización de los empleados según su nivel de salario.

- **Age** 🎂: Edad de cada uno de los empleados.

- **Gender** 🚻: Género de cada uno de los empleados.

- **EverBenched** 🛋️: Indica si un empleado alguna vez ha estado temporalmente sin trabajo asignado (*benching*).

- **ExperienceInCurrentDomain** 🧠: Años de experiencia que el empleado tiene en su actual puesto de trabajo.

- **LeaveOrNot** 🚪: Columna objetivo que indica si el empleado decidió dejar la compañía o no.


Antes de comenzar cualquier tipo de procedimiento es fundamental determinar si existen valores nulos y cuales son las estadísticas descriptivas de nuestras variables, así:

In [4]:
df.isna().sum().reset_index().rename(columns={"index":"Variable", 0:"Valores faltantes"})

Unnamed: 0,Variable,Valores faltantes
0,Education,0
1,JoiningYear,0
2,City,0
3,PaymentTier,0
4,Age,0
5,Gender,0
6,EverBenched,0
7,ExperienceInCurrentDomain,0
8,LeaveOrNot,0


Vemos que en efecto no hay valores faltantes, ahora las estadísticas descriptivas:

In [5]:
df.describe()

Unnamed: 0,JoiningYear,PaymentTier,Age,ExperienceInCurrentDomain,LeaveOrNot
count,4653.0,4653.0,4653.0,4653.0,4653.0
mean,2015.06297,2.698259,29.393295,2.905652,0.343864
std,1.863377,0.561435,4.826087,1.55824,0.475047
min,2012.0,1.0,22.0,0.0,0.0
25%,2013.0,3.0,26.0,2.0,0.0
50%,2015.0,3.0,28.0,3.0,0.0
75%,2017.0,3.0,32.0,4.0,1.0
max,2018.0,3.0,41.0,7.0,1.0


En términos generales, no se observan valores atípicos 📉. Sin embargo, si es de tu interés cerciorarte completamente, puedes hacer uso de un **boxplot** 📦.

En cuanto a las estadísticas, podemos destacar lo siguiente: 📊

- En promedio, los empleados de esta empresa ingresaron durante el **año 2015** 📅. Sin embargo, el empleado más antiguo se unió en **2012**, mientras que el más reciente comenzó en **2018**.

- La mayoría de los empleados tienen su salario en el **tercer rango de pago** 💵, con una ligera **desviación estándar de 0.56**, lo que indica poca variabilidad en esta variable.

- Se evidencia que en esta empresa la mayor parte de la mano de obra es **joven** 👨‍💼👩‍💼, pues se encuentran en un rango de edad que va desde los **22 hasta los 41 años**, con una **media de 29 años** 🎂.


Si bien no es posible obtener estadísiticas descriptivas de la variables categóricas, aquí se muestra un breve resúmen de ellas.

In [6]:
df.describe(include="object")

Unnamed: 0,Education,City,Gender,EverBenched
count,4653,4653,4653,4653
unique,3,3,2,2
top,Bachelors,Bangalore,Male,No
freq,3601,2228,2778,4175


## **Inicio oficial de nuestro flujo de ML** 🚀

Para este ejercicio de aprendizaje supervisado tomaremos como columna objetivo a `ExperienceInCurrentDomain` 🎯. Es decir, con base en las demás variables que tenemos a nuestra disposición, intentaremos predecir cuántos años de experiencia tiene cada uno de los colaboradores en su puesto actual de trabajo 👨‍💼👩‍💼.


### **Paso número 1** 🧮

En mi caso, para que el código se viera un poco más limpio definí por fuera a `X` e `y` ✂️. Como puedes observar, se **suprime de la base de datos la variable que se busca predecir**, pues carece de sentido dejarla allí si nuestro objetivo es justamente **predecirla** 🎯.

Además, por medio del parámetro `test_size`, se define que un **20% de los datos serán empleados para evaluar los resultados**, mientras que el **80% restante será usado para entrenar el modelo** 🤖📊.


In [14]:
X = df.drop(columns="ExperienceInCurrentDomain")
y = df["ExperienceInCurrentDomain"]

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y, 
    test_size=0.2,
    random_state=42
    )


### **Paso número 2** 🧩

Como vimos previamente, nuestra base de datos tiene **4 variables categóricas**, y para que nuestro modelo funcione correctamente necesitaremos **transformarlas en valores numéricos** 🔢. 

Para lograr esto, hacemos uso de los **pipelines de preprocesamiento**, los cuales nos permiten automatizar este paso y asegurarnos de que todos los datos estén en el formato adecuado para nuestros modelos 🛠️🤖.

---

#### **🧠 Importante recordar sobre los pipelines**

1. Cuando se transforman variables como `City`, las cuales **no son ordinales**, la transformación se hace a través de variables **dummies (0 y 1)**. En este caso, es recomendable eliminar una de las categorías para **evitar problemas de multicolinealidad** (esto lo puedes lograr fácilmente con `drop='first'` en el `OneHotEncoder`).

2. Los pipelines de preprocesamiento se pueden aplicar tanto a **variables numéricas** como a **categóricas**. Sin embargo, en este mini curso, por simplicidad y enfoque, solo aplicaremos el pipeline a las variables **categóricas** 🎯.




In [None]:
# Variables categóricas que se alterarán por medio del pipelinde pre-procesamiento.
cat_features = ["Education", "City", "Gender", "EverBenched"]

education_order = [["Bachelors", "Masters", "PHD"]]

employee_cat_pipeline = ColumnTransformer(
    transformers=[
        ("education_ordinal", OrdinalEncoder(categories=education_order), ["Education"]),
        ("city_nominal", OneHotEncoder(sparse_output=False), ["City"]),
        ("gender_binary", OneHotEncoder(drop="if_binary", sparse_output=False), ["Gender"]),
        ("benched_binary", OneHotEncoder(drop="if_binary", sparse_output=False), ["EverBenched"])
    ],
    verbose_feature_names_out=False, # Evita que los nombres de as variables queden demasiado largas
    remainder="passthrough"  # Mantiene el resto de columnas sin cambios
).set_output(transform="pandas")

Una vez ejecutado nuestro pipeline, se debe de aplicar tanto al conjunto de entremaineto como de test, para ello empleamos las siguientes líneas:

In [17]:
X_train_preproc = employee_cat_pipeline.fit_transform(X_train)
print(X_train_preproc.head())

      Education  City_Bangalore  City_New Delhi  City_Pune  Gender_Male  \
2850        1.0             0.0             1.0        0.0          1.0   
589         0.0             1.0             0.0        0.0          1.0   
2086        1.0             0.0             0.0        1.0          1.0   
445         1.0             0.0             0.0        1.0          1.0   
3654        1.0             0.0             1.0        0.0          1.0   

      EverBenched_Yes  JoiningYear  PaymentTier  Age  LeaveOrNot  
2850              0.0         2013            3   30           1  
589               0.0         2012            3   25           0  
2086              0.0         2017            2   29           0  
445               0.0         2012            3   24           0  
3654              0.0         2017            2   35           0  


In [18]:
X_test_preproc = employee_cat_pipeline.transform(X_test)
print(X_test_preproc.head())

      Education  City_Bangalore  City_New Delhi  City_Pune  Gender_Male  \
297         0.0             1.0             0.0        0.0          0.0   
2705        0.0             1.0             0.0        0.0          0.0   
501         0.0             0.0             1.0        0.0          0.0   
1272        1.0             0.0             0.0        1.0          0.0   
3956        0.0             1.0             0.0        0.0          1.0   

      EverBenched_Yes  JoiningYear  PaymentTier  Age  LeaveOrNot  
297               0.0         2016            3   24           1  
2705              0.0         2013            3   26           0  
501               0.0         2017            2   25           1  
1272              0.0         2015            2   28           0  
3956              0.0         2012            3   33           0  


### **Paso número 3: Los modelos** 🤖🌱

Como te conté al inicio, en este mini curso vamos a explorar únicamente **3 modelos**. Sin embargo, no olvides que existen **muchos otros** que te pueden ser de gran ayuda dependiendo del propósito de tu análisis 📈. 

Los modelos que exploraremos a continuación son:


🔹 **KNN (K-Nearest Neighbors):**  
Este modelo predice con base en los **vecinos más cercanos**. Es muy útil cuando se busca capturar **patrones locales**.  
⚠️ *Advertencia:* Puede ser **sensible al ruido** y a los **problemas de escalado**, por eso es importante normalizar los datos si es necesario.



🔹 **Regresión Lineal:**  
Este modelo se basa principalmente en ajustar una **recta (o hiperplano)** a los datos. Es de **fácil interpretación** y bastante utilizado como modelo base.  
⚠️ *Advertencia:* Supone que la relación entre las variables es **lineal**, lo cual puede no cumplirse en todos los casos.



🔹 **Árbol de Decisión:**  
Este modelo crea un **árbol de decisiones** que divide los datos en segmentos según sus características. Es un modelo **flexible** y fácil de visualizar.  
⚠️ *Advertencia:* Si el árbol se deja crecer mucho (es decir, con una profundidad muy alta) puede **sobreajustarse** al conjunto de entrenamiento. Esto se controla con el parámetro `max_depth`.




In [None]:
modelo_knn=KNeighborsRegressor()
modelo_lineal=LinearRegression()
decision_tree=DecisionTreeRegressor(max_depth=4)



¡Ahora sí! Vamos a entrenar nuestros modelos.  
De manera simple, lo que este código le está diciendo a la máquina es:

👉 *"Mira estos datos (`X_train_preproc`) y las respuestas correctas (`y_train`) y aprende la mejor forma de predecir la variable `ExperienceInCurrentDomain`."*

Este proceso es justamente el **entrenamiento del modelo**, donde la máquina identifica patrones y relaciones entre las variables para luego poder hacer predicciones sobre datos que no ha visto antes 🧩📊.


In [None]:
modelo_knn.fit(X_train_preproc, y_train)
modelo_lineal.fit(X_train_preproc, y_train)
decision_tree.fit(X_train_preproc, y_train)

### **Paso número 4: Evaluación del rendimiento de los modelos** 📉🤖

Para cumplir con este propósito, vamos a generar una **función personalizada** que nos permitirá evaluar cualquier modelo que deseemos probar.

- En el parámetro `model` irá el nombre de cualquiera de nuestros modelos ya entrenados.
- En `features` pondremos las variables explicativas (en este caso `X_train_preproc`).
- Y `target` representa la variable objetivo.

🔍 De manera general, esta función primero **predice** los valores a partir del modelo proporcionado, y posteriormente **calcula el error entre lo que predijo y el valor real**.  

📏 Para medir ese error, utilizamos el **error cuadrático medio (RMSE)**, el cual nos da una idea de qué tan lejos están, en promedio, nuestras predicciones del valor real.  
👉 *Entre menor sea este valor, mejor será el modelo*.

⚠️ **¡Importante!** En esta parte estamos evaluando el desempeño del modelo **sobre los datos de entrenamiento**, es decir, estamos midiendo qué tan bien es capaz de predecir los mismos datos que ya conoce. Esto nos da una idea inicial de su capacidad, pero **no debe confundirse con el rendimiento real sobre datos nuevos (de prueba)**.


In [None]:
# Generamos nuestra función personalizada
def evaluate_model(model, features, target):
    y_pred = model.predict(features)
    rmse = root_mean_squared_error(y_true=target, y_pred=y_pred)
    return rmse

# Cálculo del RMSE
knn_train_rmse = evaluate_model(modelo_knn, X_train_preproc, y_train)
linear_train_rmse = evaluate_model(modelo_lineal, X_train_preproc, y_train)
dt_train_rmse = evaluate_model(decision_tree, X_train_preproc, y_train)

# Presentamos los resultados obenidos de manera bonita
df_performance_eval = pd.DataFrame({
    "model": ["KNN", "LinearReg", "DT"],
    "train_rmse": [knn_train_rmse, linear_train_rmse, dt_train_rmse]
})
df_performance_eval

Unnamed: 0,model,train_rmse
0,KNN,1.026699
1,LinearReg,1.542435
2,DT,1.119674


### **Análisis de los resultados** 📊✨

Los valores obtenidos nos indican, en promedio, **cuántos años se equivoca cada uno de los modelos al predecir** la variable deseada (`ExperienceInCurrentDomain`):

- **KNN:** Este modelo obtuvo el **mejor desempeño**, es decir, logró capturar de manera satisfactoria la estructura de los datos, ya que **se equivoca únicamente 1.03 años en promedio** al predecir cuántos años lleva un colaborador en su puesto actual. 🥇✅

- **Regresión Lineal:** Este modelo presentó el **peor rendimiento**, con un error promedio de **1.54 años**, lo que sugiere que la relación entre las variables puede **no ser lineal**, afectando la precisión del modelo. 📉🤔

- **Árbol de Decisión:** Con un error promedio de **1.11 años**, este modelo se ubica **en un punto medio** entre los dos anteriores, mostrando un buen rendimiento, aunque sin superar a KNN. 🌳🔍


### **Evaluación más robusta del rendimiento** 🔍

Si bien los valores obtenidos en la primera etapa de análisis de desempeño nos permiten extraer buenas conclusiones sobre cada uno de los modelos empleados, es importante destacar que estas métricas solo consideran **qué tan bien se desempeñó el modelo respecto a los valores reales**. 

No obstante, también debemos tener en cuenta otros aspectos como la **estabilidad de los modelos**. Para evaluar este punto, haremos uso de una técnica conocida como **validación cruzada**.


#### **¿Qué es la validación cruzada?** 🔁

La validación cruzada es un método que divide el conjunto de entrenamiento en `w` partes, las cuales se determinan por medio del parámetro `cv`, y repite el siguiente ciclo `w` veces:

1. Emplea `w-1` de las partes para **entrenar** el modelo.
2. Usa la parte restante para **validar**.
3. Repite el proceso **cambiando la parte usada para validar** en cada iteración.


Al final se obtienen `w` valores de **RMSE**, lo que permite analizar la **estabilidad del modelo**. Es decir:

 ¿El modelo es **consistente con sus resultados**? ¿O hay **mucha variabilidad** entre las validaciones?

Esta evaluación es fundamental para tomar decisiones más informadas sobre qué modelo utilizar en producción o análisis más avanzados.


In [30]:
cv_scores_knn = cross_val_score(
    modelo_knn, X_train_preproc, y_train,
    cv=5, scoring="neg_root_mean_squared_error"
)
cv_scores_linear = cross_val_score(
    modelo_lineal, X_train_preproc, y_train,
    cv=5, scoring="neg_root_mean_squared_error"
)
cv_scores_dt = cross_val_score(
    decision_tree, X_train_preproc, y_train,
    cv=5, scoring="neg_root_mean_squared_error"
)

# Convierte a positivo los resultados

cv_scores_knn = -cv_scores_knn
cv_scores_linear = -cv_scores_linear
cv_scores_dt = -cv_scores_dt

# Imprime los diferete RMSE obtenidos.

print("\nResultados de la validación cruzada:")
print("KNN:", cv_scores_knn)
print("Linear Regression:", cv_scores_linear)
print("Decision Tree:", cv_scores_dt)


Resultados de la validación cruzada:
KNN: [1.25810126 1.25534562 1.18282967 1.30367553 1.23503951]
Linear Regression: [1.56093816 1.55313887 1.50928377 1.56615964 1.54251746]
Decision Tree: [1.18054503 1.14332435 1.07778481 1.15160524 1.11152483]



De los resultados obtenidos durante el proceso de validación cruzada se pueden extraer las siguientes conclusiones:

- 🏆 **El modelo que mejor desempeño mostró fue el árbol de decisión**, ya que su **RMSE promedio fue el más bajo**, con un valor de **1.13**.

- 🥈 **El segundo mejor desempeño lo tuvo el modelo KNN**, con una media de **1.25**.

- ❗ **Aunque el modelo con peor desempeño fue el de regresión lineal**, se destaca que fue **el más estable**. Es decir, aunque su precisión sea menor, ofrece predicciones **más consistentes** frente a diferentes subconjuntos de los datos.

📊 En cuanto a la **variabilidad de los resultados**, los dos primeros modelos (árbol de decisión y KNN) presentaron una **desviación estándar más elevada** en comparación con la regresión lineal. Esto sugiere que dichos modelos son **más sensibles a los cambios en los datos de entrenamiento**, lo cual puede ser un punto a considerar dependiendo del contexto de aplicación.


Si deseas tener los resultados de los diferentes **RMSE** de manera más accesible y organizada, te comparto estas líneas de código 🧠. Con ellas podrás visualizar de forma clara:

- El **promedio de las validaciones cruzadas**.
- La **desviación estándar** de los errores.
- El **primer valor de RMSE** obtenido.


In [None]:
df_performance_eval["cv_rmse_avg"] = [cv_scores_knn.mean(), cv_scores_linear.mean(), cv_scores_dt.mean()]
df_performance_eval["cv_rmse_std"] = [cv_scores_knn.std(), cv_scores_linear.std(), cv_scores_dt.std()]
df_performance_eval

Unnamed: 0,model,train_rmse,cv_rmse_avg,cv_rmse_std
0,KNN,1.026699,1.246998,0.039156
1,LinearReg,1.542435,1.546408,0.020199
2,DT,1.119674,1.132957,0.035279


### **Paso final: Evaluación en datos desconocidos (test set)** 🎯🔍

Para concluir, vamos a observar en definitiva cómo es el desempeño de nuestros modelos prediciendo los valores que **desconocen**, es decir, sobre el conjunto de prueba (`test set`).

📌 De acuerdo con los procedimientos previos —especialmente la **validación cruzada**— podríamos inclinarnos a pensar que el modelo que tendrá los resultados más favorables será el **árbol de decisión**, ya que obtuvo el mejor desempeño promedio en esa etapa.

🌟 Sin embargo, ¡este es el momento de la verdad! Evaluar con los datos que el modelo nunca ha visto es la manera más honesta de saber qué tan bien generaliza.


In [28]:
# Compute RMSE for each model on the test dataset
knn_test_rmse = evaluate_model(modelo_knn, X_test_preproc, y_test)
linear_test_rmse = evaluate_model(modelo_lineal, X_test_preproc, y_test)
dt_test_rmse = evaluate_model(decision_tree, X_test_preproc, y_test)

# Include test results in the dataframe
df_performance_eval["test_rmse"] = [knn_test_rmse, linear_test_rmse, dt_test_rmse]
df_performance_eval

Unnamed: 0,model,train_rmse,cv_rmse_avg,cv_rmse_std,test_rmse
0,KNN,1.026699,1.246998,0.039156,1.203289
1,LinearReg,1.542435,1.546408,0.020199,1.540503
2,DT,1.119674,1.132957,0.035279,1.104948


Como era de esperarse, el modelo que obtuvo el **menor RMSE** (💡 *recuerda: entre menor, mejor*) fue el **árbol de decisión**, seguido por **KNN** y, en último lugar, la **regresión lineal**.

📊 Esto sugiere que, en efecto, la relación que existe entre las variables explicativas y la variable objetivo **no es de carácter lineal**, lo cual explica por qué la regresión lineal no logró capturar bien la estructura de los datos.

🌱 En resumen, los modelos más flexibles (como el árbol y KNN) lograron adaptarse mejor a los patrones de la información disponible.


### **Conclusiones finales** 🎓📊

Durante este breve curso exploramos el interesante mundo del **aprendizaje supervisado**. Algunas de las ideas más importantes que me gustaría destacar son:

1. ✅ **Partición de los datos**: comenzamos dividiendo nuestro conjunto en entrenamiento y prueba. En mi caso utilicé una proporción 80-20, pero recuerda que estos valores **no son fijos**. Puedes ajustarlos según tus necesidades y la cantidad de datos que tengas a tu disposición.

2. 🛠️ **Pipelines de preprocesamiento**: vimos un caso práctico que demuestra lo fundamentales que son los pipelines, no solo como teoría, sino aplicados a un caso real de transformación de variables categóricas.

3. 🧠 **Modelos aplicados**: aunque aquí usamos solo 3 modelos (KNN, regresión lineal y árbol de decisión), recuerda que existen **muchos otros**, como los modelos logísticos, que son súper útiles cuando necesitas predecir **variables binarias**.

4. 🔍 **Evaluación interna**: aprendimos que antes de predecir los datos que el modelo no conoce, es importante evaluarlo con los datos visibles. Así puedes ajustarlo mejor y aumentar la fiabilidad de tus predicciones.

5. 🌲 **Sobre los árboles de decisión**: son modelos muy potentes y flexibles, pero **cuidado con la profundidad**. Un árbol demasiado profundo puede llevar al temido **sobreajuste**, perdiendo capacidad de generalización.

6. 📏 **Predicción real y RMSE**: nunca olvides realizar las predicciones reales y calcular su RMSE. Esta métrica es la que nos **da la última palabra** sobre el desempeño del modelo en el mundo real y nos dice si logramos el objetivo de predecir lo desconocido.

