# Aprendizaje Supervisado

Vimos que en _**Machine Learning**_ existen varios campos de estudio. Uno de ellos es el _**Aprendizaje Supervisado**_. Nuestro principal objetivo a la hora de utilizar algoritmos de ML supervisado es crear un sistema, que llamamos modelo, que sea capaz de identificar patrones entre algo que conocemos features y labels, con el propósito de realizar predicciones con datos del mundo real.

## Features y labels
En este área de ML estamos trabajando con datos que podemos separar en dos conjuntos:
- **Características (_Features_)**: Las características, o features, son los atributos o variables que describen cada punto de datos en el conjunto. Estos pueden incluir medidas, propiedades o cualidades de los datos que nos interesan para el problema específico que estamos intentando resolver. Por ejemplo, si estamos trabajando con datos de viviendas, las características podrían incluir el tamaño de la casa, el número de habitaciones, la ubicación, entre otros.

- **Etiquetas (_Labels o Target_)**: Por otro lado, las etiquetas son los valores objetivos que estamos intentando predecir mediante un modelo de aprendizaje supervisado. En el caso de los datos de viviendas, la etiqueta podría ser el precio de la vivienda. Cada conjunto de características está asociado con una etiqueta, que es el valor que queremos predecir a partir de las características.

## Evaluación del modelo
En el aprendizaje supervisado, se utiliza un conjunto de datos compuesto por ejemplos etiquetados para entrenar un modelo. Una vez entrenado, el modelo puede hacer predicciones sobre datos nuevos que solo contienen características, y el modelo intentará predecir las etiquetas correspondientes para esos datos. Para poder evaluar cómo de bueno es nuestro modelo, en la práctica separamos nuestro conjunto de datos en dos:
- **Datos de entrenamiento (_Train_)**: Los datos de entrenamiento son una parte del conjunto de nuestros datos que enseñamos al modelo de aprendizaje supervisado para que pueda identificar patrones y relaciones entre las características y las etiquetas. Con estos datos es con los que nuestro modelo "aprende".

- **Datos de prueba (_Test_)**: Este es el segundo conjunto de datos y se utiliza para evaluar el rendimiento del modelo después de que ha sido entrenado. Los datos de prueba contienen ejemplos que no se han utilizado durante el entrenamiento, lo que permite medir cómo se desempeña el modelo con datos nuevos y desconocidos. Al comparar las predicciones del modelo con las etiquetas reales en el conjunto de prueba, podemos evaluar cómo de bueno es nuestro modelo. Idealmente, estos datos deben parecerse lo máximo posible a los datos que nos podemos encontrar en el mundo real. Por lo tanto, algunas prácticas de la fase de preprocesamiento no se aplican a este conjunto, ya que podríamos terminar con una evaluación deshonesta.

Separar el conjunto de datos en entrenamiento y prueba es una práctica fundamental durante el proceso de un estudio de ML, pues al hacer una evaluación obtenemos un feedback que podemos utilizar para mejorar.

## Fases de un estudio de aprendizaje supervisado

Un estudio de ML es un proceso iterativo de varias fases y buena parte de todo lo que haremos es ensayo y error.

![diagram-export-5-4-2024-6_11_40-PM.png](attachment:diagram-export-5-4-2024-6_11_40-PM.png)


- _**Recolección de datos**_: Esta fase implica recopilar datos de diversas fuentes y prepararlos para su uso en el modelo. Aquí también nos aseguramos de que los datos que obtenemos siempre siguen el mismo formato, ya que nuestro modelo acabará teniendo una interfaz (input o entrada) único y solo sabrá recibir los datos de esa manera.

- _**EDA**_ : Durante las fases de recolección de datos, feature engeneering y selection, y la de preprocesamiento, estaremos realizando un análisis exploratorio de datos. Esta no es tanto una fase, sino un proceso transversal a todo lo que hacemos. No obstante, la gran mayoría del EDA se realizará justo después de la recolección de los datos. Es precisamente esta información que somos capaces de extraer de los datos lo que nos va a permitir tomar decisiones a lo largo de todo el proceso. Y, como nuestros datos pueden cambiar a causa de ir nosotros y modificarlos para el propósito de entrenamiento de nuestro modelo, siempre es bueno hacer un análisis de esos cambios.

-  _**Feature Engeneering y Feature Selection**_: Estas técnicas nos permiten cambiar la dimensionalidad de nuestros datos (número de columnas).
    - _**Feature Engeneering**_ es el proceso de fabricación de nuevas columnas. Por ejemplo, si queremos predecir si nos van a devolver o no un préstamo, podemos crear una nueva columna de ROI (Return On Investment) a partir de las columnas de la cantidad del préstamo, la tasa de interés y el plazo de pago.
    - Las técnicas de _**Feature Selection**_ nos permiten eliminar columnas que consideramos malas predictoras de nuestra _**Target**_. Por ejemplo, podemos eliminar columnas como nombre de la persona que pide el préstamo, ya que dificilmente nos va a ayudar a predecir si nos lo devolverá o no.
    - Algunas técnicas de Feature Engeneering y Feature Selection solo las podemos aplicar una vez nuestros datos están procesados (o durante la fase de preprocesado), por lo que debemos esperar a poder hacerlo y realizar estas modificaciones de forma retroactiva.

- _**División de los datos**_: Se divide el conjunto de datos en subconjuntos de entrenamiento, prueba y, ocasionalmente, validación. Esto permite entrenar el modelo en un conjunto de datos y evaluarlo en otro, garantizando así su capacidad de generalización.

- _**Preprocesamiento de datos**_: Durante esta fase, los datos se transforman para ser adecuados para el modelo. Esto puede incluir normalización o estandarización de características, codificación de variables categóricas, tratamiento de valores perdidos y de outliers, ajuste de desbalance de clases, etc. Estas transformaciones aplican únicamente al conjunto de entrenamiento, con el propósito de no contaminar inadvertidamente el conjunto de test. Esta fase del proceso es con diferencia la más importante.

- _**Entrenamiento del modelo**_: En esta etapa, se selecciona un algoritmo de aprendizaje supervisado y se entrena con el conjunto de datos de entrenamiento. El modelo aprende a identificar patrones y relaciones entre las características y las etiquetas.

- _**Evaluación del modelo**_: Una vez que el modelo ha sido entrenado, se evalúa su rendimiento utilizando el conjunto de datos de prueba. Antes de darle a nuestro modelo este conjunto, debemos someterlo por el mismo preprocesamiento que el conjunto de entrenamiento, teniendo cuidado de no filtrar datos entre un conjunto y otro, algo que se conoce como _**data bleeding**_. A partir de las predicciones y los valores que sabemos que son reales, podemos calcular las métricas pertinentes y ver qué tan bueno es nuestro modelo.

- _**Ajuste y optimización**_: Basado en los resultados de la evaluación, se pueden ajustar los hiperparámetros del modelo, o incluso cambiar de algoritmo, para mejorar el rendimiento. Este proceso de ajuste y optimización se realiza iterativamente hasta obtener los mejores resultados.

- _**Validación**_: En esta fase, se pueden emplear técnicas de validación para garantizar que el modelo sea robusto y generalice bien a datos no vistos. La validación permite asegurar que las métricas que obtuvimos durante la evaluación son fiables y no fueron producto del azar ni de un split de train y test favorable.

- _**Despliegue**_: Una vez que el modelo ha sido optimizado y validado, se puede implementar en un entorno de producción para hacer predicciones sobre datos nuevos y no vistos. El despliegue puede implicar integrar el modelo en una aplicación o sistema existente.

- _**Monitoreo y mantenimiento**_: Después del despliegue, es importante monitorear el rendimiento del modelo en producción para asegurarse de que sigue siendo preciso y eficaz. Con el tiempo, los datos pueden cambiar, por lo que se requiere un mantenimiento continuo, que incluye reentrenar o ajustar el modelo según sea necesario.

## Regresión vs Clasificación
Existen dos tipos de problemas principales que vamos a poder resolver gracias a los algoritmos de aprendizaje supervisado, los problemas de regresión y los problemas de clasificación.
- _**Regresión**_: Estaremos ante un problema de regresión cuando nuestra columna _**target**_ contiene _**datos numéricos**_. Por ejemplo, cuando queremos calcular el precio de un vehículo de segunda mano a partir de características como su antigüedad, marca de fabricante o el consumo de combustible. Para evaluar estos modelos utilizaremos métricas basadas en residuos (errores).
- _**Clasificación**_: Estaremos ante un problema de clasificación cuando nuestra columna _**target**_ contiene _**datos categóricos**_. Por ejemplo, queremos a partir del ancho y largo de los pétalos y sépalos de una flor de iris determinar su especie, si es virginica, versicolor o setosa. El resultado es determinado y podemos tener fallos y aciertos. Para evaluar estos modelos utilizaremos métricas basadas en la matriz de confusión, que similar a la tabla de errores en el contraste de hipótesis nos permite ver fallos y aciertos para cada categoría.

In [1]:
##############################################################################################################