# Aprendizaje supervisado

<div style="text-align: center;">
  <img src="assets/Supervised-learning.png" alt="Descripción de la imagen" width="500" height="300">
  
  Fuente: <a href="https://www.geeksforgeeks.org/supervised-unsupervised-learning/" target="_blank">[https://www.geeksforgeeks.org/supervised-unsupervised-learning/](https://www.geeksforgeeks.org/supervised-unsupervised-learning/)</a>
</div>


- Los algoritmos de aprendizaje automático que han demostrado ser más eficaces son aquellos que automatizan la toma de decisiones a través de la generalización basada en ejemplos previos. Un ejemplo prominente de esto es el aprendizaje supervisado. En este tipo de aprendizaje, se le proporciona al algoritmo un conjunto de datos con entradas y salidas esperadas (datos etiquetados). Este proceso permite que el algoritmo aprenda a clasificar datos o a predecir resultados con precisión.

- El algoritmo descubre cómo generar la salida deseada a partir de una entrada específica. A medida que se introducen datos en el modelo, este ajusta sus parámetros hasta lograr una configuración óptima. Este proceso de ajuste del modelo se conoce como validación cruzada. De esta manera, el algoritmo puede generar una salida correcta para una entrada nueva sin intervención humana. Se denomina aprendizaje supervisado porque un "instructor" proporciona supervisión mediante las salidas esperadas para cada ejemplo de entrenamiento.

## Ejemplo de uso de aprendizaje supervisado

1. **Clasificación de correos electrónicos como spam o no spam:**
   - **Entrada:** El contenido del correo electrónico (texto, encabezados, metadatos).
   - **Salida:** Una etiqueta que indica si el correo es spam o no.
   - **Conjunto de datos:** Recopila muchos correos electrónicos y etiqueta cada uno como spam o no spam. Estas etiquetas pueden basarse en las decisiones de los usuarios y sistemas antispam previos.

2. **Predicción de precios de viviendas:**
   - **Entrada:** Características de una casa (tamaño, ubicación, número de habitaciones, etc.).
   - **Salida:** El precio de la vivienda.
   - **Conjunto de datos:** Recopila datos de ventas de viviendas pasadas, incluyendo las características de cada casa y el precio de venta correspondiente.

3. **Análisis de sentimientos en redes sociales:**
   - **Entrada:** Publicaciones en redes sociales (texto).
   - **Salida:** La clasificación del sentimiento (positivo, negativo, neutral).
   - **Conjunto de datos:** Recopila publicaciones y etiqueta manualmente el sentimiento asociado a cada una, o utiliza un sistema preexistente para generar estas etiquetas.

## Clasificación vs Regresión

En el aprendizaje automático supervisado, existen dos categorías principales de problemas: clasificación y regresión. 

**Clasificación:** 

El objetivo es predecir una etiqueta de clase a partir de un conjunto de opciones predefinidas. La clasificación puede ser:
- **Binaria:** Cuando se trata de elegir entre dos clases específicas. Es similar a responder una pregunta con "sí" o "no". Por ejemplo, determinar si un correo electrónico es spam o no spam es una tarea de clasificación binaria.
- **Multiclase:** Cuando implica más de dos opciones posibles.

En la clasificación binaria, una clase se suele considerar positiva y la otra negativa. Esta designación no tiene connotaciones de valor, sino que simplemente identifica el foco del análisis. Por ejemplo, si estamos analizando correos electrónicos en busca de spam, la clase "positiva" podría referirse a los correos electrónicos identificados como spam. La elección de qué clase es positiva depende del contexto del problema.

**Regresión:** 

Aquí, el objetivo es prever un valor numérico continuo. Un ejemplo de una tarea de regresión sería predecir los ingresos anuales de una persona en función de su educación, edad y lugar de residencia. En este caso, la salida del modelo es un valor numérico que puede variar en un rango determinado.

**Diferenciación:**

Una forma sencilla de distinguir entre problemas de clasificación y regresión es considerar si los resultados posibles tienen continuidad. Si los resultados son continuos, el problema es de regresión. Por ejemplo, predecir los ingresos es un problema de regresión porque los ingresos pueden ser cualquier número dentro de un rango. En contraste, la clasificación, como la identificación del idioma de un sitio web, no implica continuidad; un sitio web está en un idioma específico y no hay estados intermedios entre un idioma y otro.


## Overfitting, Underfitting

En el aprendizaje supervisado, nuestro objetivo es crear un modelo que no solo realice predicciones precisas sobre los datos de entrenamiento, sino que también pueda hacer lo mismo con datos desconocidos que compartan características similares a los datos de entrenamiento. Cuando un modelo puede hacer esto, decimos que es capaz de generalizar. La capacidad de generalización es crucial para que un modelo funcione bien con nuevos datos.

Para construir un modelo efectivo, generalmente se enfoca en lograr predicciones precisas sobre el conjunto de entrenamiento. Si los conjuntos de entrenamiento y de prueba son lo suficientemente similares, esperamos que el modelo también sea preciso en el conjunto de prueba. Sin embargo, esto no siempre ocurre. 

**Sobreajuste (Overfitting):**

- El sobreajuste sucede cuando el modelo se ajusta demasiado a las particularidades del conjunto de entrenamiento, capturando incluso el ruido y las variaciones irrelevantes. Como resultado, el modelo tiene un desempeño excelente en el conjunto de entrenamiento pero falla al aplicarse a datos nuevos. Este problema ocurre especialmente con modelos excesivamente complejos.

**Subajuste (Underfitting):**

- Por otro lado, el subajuste ocurre cuando el modelo es demasiado simple y no puede captar la complejidad y variabilidad de los datos. Un modelo subajustado tendrá un desempeño deficiente tanto en el conjunto de entrenamiento como en el de prueba, ya que no logra aprender adecuadamente las relaciones importantes dentro de los datos.

**Generalización Efectiva:**

- Para lograr una buena generalización, es crucial encontrar un equilibrio adecuado en la complejidad del modelo. Esto implica construir un modelo lo suficientemente complejo para captar las tendencias y patrones importantes en los datos, pero no tan complejo como para ajustarse al ruido y las peculiaridades del conjunto de entrenamiento. Las técnicas de validación, como la validación cruzada, y el uso de conjuntos de datos separados para entrenamiento y prueba, son métodos efectivos para evaluar y mejorar la capacidad de generalización de un modelo.
<br></br>
<div style="text-align: center;">
  <img src="assets/underfitting.png" alt="Descripción de la imagen" width="500" height="200">
  
  Fuente: <a href="https://www.aprendemachinelearning.com" target="_blank">[https://www.aprendemachinelearning.com](https://www.aprendemachinelearning.com/que-es-overfitting-y-underfitting-y-como-solucionarlo/)</a>
</div>

>#### Observación
>
>- Cuanto más complejo es nuestro modelo, mejor puede predecir en los datos de entrenamiento. No obstante, si el modelo se vuelve excesivamente complejo, comenzará a ajustarse demasiado a los detalles específicos del conjunto de entrenamiento, perdiendo su capacidad de generalizar a nuevos datos.
>
>- Existe un punto óptimo (Sweet spot) donde se logra el mejor rendimiento de generalización, equilibrando sobreajuste (overfitting) y subajuste (underfitting). Encontrar este equilibrio es crucial para desarrollar un modelo eficaz.
><br></br>

<div style="text-align: center;">
  <img src="assets/sweetspot.png" alt="Descripción de la imagen" width="500" height="300">
  
  Fuente: <a href="https://datascience103579984.wordpress.com/2019/07/17/notes-of-introduction-to-machine-learning-with-python/" target="_blank">[https://datascience103579984.wordpress.com](https://datascience103579984.wordpress.com/2019/07/17/notes-of-introduction-to-machine-learning-with-python/)</a>
</div>