# Fundamentos de Aprendizaje Supervisado

Dentro del aprendizaje de máquinas (*machine learning*) el aprendizaje **supervisado** es un esquema en que se busca obtener una función 

$$
f_{\theta}: \mathcal{X} \rightarrow \mathcal{Y},
$$

donde 

- $\mathcal{X}$ es el dominio de entrada al cual pertenecen nuestros datos o atributos 
- $\mathcal{Y}$ el dominio de salida al cual pertenece la variable objetivo que queremos predecir
- $\theta$ es un vector de parámetros de la función o modelo

En esta unidad nos concentraremos en dos tipos de problemas o tareas

**Regresión** 

En esta tarea buscamos un modelo que asocie una variable continua a otras $m$ variables 

$$
f_{\theta}: \mathbb{R}^m \rightarrow \mathbb{R}
$$ 

Ejemplos: 

- [El flujo de tráfico de una calle en función de un feed de video](https://archive-beta.ics.uci.edu/ml/datasets/traffic+flow+forecasting)
- [La concentración de un químico aereo en función del valor del mismo en el pasado](https://archive-beta.ics.uci.edu/ml/datasets/air+quality)
- [La ocurrencia de una llamarada solar en función del brillo y la cantidad de manchas en la corona del sol](https://archive-beta.ics.uci.edu/ml/datasets/solar+flare)


**Clasificación**

En esta tarea buscamos un modelo que retorne una entre $K$ categorías para una entidad representada por $m$ variables

$$
f_{\theta}: \mathbb{R}^m \rightarrow \{1, 2, \ldots, K\}
$$

Ejemplos:

- [Identificar si un correo es spam o no en base a su descriptores de su contenido y metadata](https://archive-beta.ics.uci.edu/ml/datasets/spambase)
- [Diagnóstico benigno o maligno en función de descriptores de una biopsia](https://archive-beta.ics.uci.edu/ml/datasets/breast+cancer)
- [Identificar letra correspondiente a imagen que representa un gesto de lengua de señas](https://archive-beta.ics.uci.edu/ml/datasets/australian+sign+language+signs)


Otros problemas que se pueden resolver con machine learning son

- Machine Translation: Convertir una secuencia de texto de un idioma a otro
- Imputación: Rellenar valores faltantes en una base de datos
- Detección de anomalías: Encontrar ejemplos atípicos, es decir que difieren en características al resto de la base de datos
- Denoising: Retornar una versión de los datos de entrada con menos ruido
- Síntesis: Generación de ejemplos de texto, audio, imágenes que asemejan datos reales
- Clustering: Agrupar los ejemplos según criterio de similitud o densidad



## Conceptos clave en aprendizaje supervisado


**Entrenamiento**

Los problemas de aprendizaje **supervisado** se resuelven "enseñándole" al modelo en base a ejemplos donde la respuesta correcta se conoce de antemano. Este proceso se denomina **entrenamiento** o ajuste del modelo. 

Para entrenar necesitamos entonces un conjunto de $N$ ejemplos:

$$
\{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\},
$$

donde cada ejemplo es una tupla que contiene 

- $x_i \in \mathcal{X}$: la entrada para el modelo (datos o atributos) 
- $y_i \in \mathcal{Y}$: la salida que el modelo debiera retornar (objetivo) 

:::{note}

En problemas de clasificación, la variable objetivo suele llamarse **etiqueta**. 

:::

En modelos parámetricos $f_\theta$, entrenar se reduce a encontrar el valor de $\theta$ con el cual se obtiene "el mejor" mapeo entre entrada y salida

**Función de costo**

La función de costo, también llamada pérdida, mide el error de nuestro modelo sobre un conjunto de datos etiquetados.

Por ejemplo, para problemas de regresión, se utiliza la suma de errores cuadrados

$$
L(\theta) = \sum_{i=1}^N (f_\theta(x_i) - y_i)^2
$$

Mientras más cerca a cero sea $L(\theta)$, mejor es nuestro modelo según este criterio

Con modelos parámetricos, encontrar el mejor mapeo es equivalente a encontrar el valor de $\theta$ que minimiza $L(\theta)$, es decir el $\theta$ óptimo



**Optimización**

Para entrenar el modelo tenemos que resolver el siguiente problema

$$
\min_\theta L(\theta)
$$

Las opciones que tenemos son

- Evaluar $L()$ con una estrategia de fuerza bruta: en general infactible
- Aplicar técnicas analíticas, por ejemplo resolver $\nabla_\theta L(\theta) = \vec 0$
- Usar técnicas numéricas iterativas, por ejemplo el método de Newton o gradiente descendente



**Inferencia**

Luego de entrenar y validar el modelo podemos utilizarlo para hacer inferir la variable objetivo en datos nuevos,  es decir fuera de los que se utilizaron para entrenar. 

$$
f_\theta(x^*) = y^*
$$

> Este es el objetivo principal de machine learning: Aprender modelos complejos a partir de ejemplos para luego aplicarlos automaticamente sobre nuevos flujos de datos

El siguiente diagrama ejemplifica este proceso y además compara machine learning con la programación tradicional

<img src="img/traditional_vs_ml.png" width="700">

**Generalización**

Es la capacidad de un modelo de hacer buenas inferencias o predicciones en datos que no ha visto. Para medir la capacidad de generalización se suele "esconder" una parte del conjunto de entrenamiento

**Representatividad**

Es crítico que los datos que utilizemos **representen** adecuadamente el problema que queremos resolver. Idealmente, la distribución de los datos de entrenamiento no debiera diferir demasiado de los datos de prueba

En caso de que esto ocurriera sería necesario reentrenar el modelo con nuevos datos que reflejen este cambio

**Sesgos**

Un sesgo es una preferencia generalmente indeseada en un modelo. Muchas veces los sesgos del modelo son sesgos de los datos que utilizamos para entrenar. El más típico es el sesgo causado por clases desbalanceadas o exclusión de clases

:::{seealso}

Sin embargo esto puede ser más grave, por ejemplo sesgos raciales y de género, como muestra [la siguiente breve presentación](https://docs.google.com/presentation/d/1txaRV35N6OOxv4DF4ZIlAFUKty7pBfMu1erLe2k4-Xg/edit#slide=id.g8fcb23695b_1_0)

:::


