In [1]:
from datetime import datetime
from IPython.display import display, HTML

current_date = datetime.now().strftime('%d-%m-%Y')
html_content = f"""
<div style="display: flex; justify-content: space-between;">
    <div style="text-align: center; flex-grow: 1;">{current_date}</div>
    <div><em>DEFINICIONES</em></div>
</div>
<hr>
"""

display(HTML(html_content))

# Tipos de aprendizaje automático

La siguiente clasificación hace referencia a cómo se entrenan los sistemas de aprendizaje automático. No hay una sola forma de hacerlo y debemos encontrar la que mejor se adapta a nuestro problema.

<center><img src="img/df_03_ml_1.jpg" width="500"></center>
<center><caption><em>Figura 1. Tipos de aprendizaje automático</em></caption></center>
<br>

Básicamente hay tres tipos de aprendizaje automático, y por ende de aprendizaje profundo, que son:

* **Aprendizaje supervisado** (_supervised learning_)
* **Aprendizaje no supervisado** (_unsupervised learning_)
* **Aprendizaje por refuerzo** (_reinforced learning_)

<center><img src="img/ml_types.png" width="350"></center>
<center><caption><em>Figura 2. Tipos de aprendizaje automático</em></caption></center>
<br>

## Aprendizaje supervisado

Hablamos de _**aprendizaje supervisado**_ cuando proveemos al sistema de aprendizaje automático con datos de entrenamiento que están etiquetados, es decir, le decimos al sistema como categorizar los datos de muestra. Actualmente este es el área del aprendizaje automático más usada y estudiada.

| Color   | Peso (g) | Etiqueta |
|---------|----------|----------|
| Rojo    | 200      | manzana  |
| Naranja | 300      | naranja  |
| Verde   | 150      | manzana  |

Así, dadas varias muestras de entrada con dos características (`color` y `peso`) le estamos diciendo al sistema cual es la etiqueta de salida esperada en cada caso (`naranja` o `manzana`), lo que se conoce como supervisión.

Nuestra meta al entrenar un algoritmo de ML supervisado es aproximar una función de mapeo de forma que cuando tengamos nuevos datos de entrada $X$, es decir, valores de características que el algoritmo nunca antes ha visto, podamos predecir cuál será la variable de salida $y$ para esos datos.

Se llama aprendizaje supervisado porque el proceso de aprendizaje del algoritmo se realiza a partir de un conjunto de datos de entrenamiento etiquetados, es decir, se conoce cuál es la respuesta correcta de modo que se parece mucho a cuando un maestro supervisa el proceso de aprendizaje de sus alumnos. Como conocemos las respuestas correctas a priori, el algoritmo hace predicciones de forma iterativa sobre los datos de entrenamiento y es corregido. El aprendizaje se detiene cuando el algoritmo alcanza un nivel aceptable de rendimiento, es decir, hasta que el modelo alcanza algún criterio de detención deseado, como una tasa de error baja o un número máximo de iteraciones de entrenamiento, que ya le permite hacer predicciones sobre nuevos datos.

<center><img src="img/supervised_learning.png" width="600"></center>
<center><caption><em>Figura 3. Aprendizaje supervisado</em></caption></center>
<br>

Como hemos dicho, el aprendizaje automático supervisado necesita datos etiquetados, es decir, datos donde cada conjunto de características tiene su etiqueta correspondiente, y estas etiquetas pueden ser una categoría (tipo) o un valor continuo.

Dentro del aprendizaje supervisado diferenciamos a su vez dos clases de tareas dependiendo del tipo de etiqueta que queremos predecir:

* _**Clasificación**_, en la que se predice la categoría a la que pertenece el objeto, es decir, le ponemos una etiqueta diciendo a qué clase pertenece. Es decir, la salida es discreta.
* _**Regresión**_, en este caso lo que tenemos como salida o variable dependiente es un número real, no una etiqueta.

<center><img src="img/types_sl.png" width="500"></center>
<center><caption><em>Figura 4. Clasificación vs regresión</em></caption></center>
<br>

Usando la lógica condicional para convertir una respuesta numérica continua en una respuesta categórica discreta, un problema de regresión puede convertirse en un problema de clasificación.

El aprendizaje supervisado se usa generalmente en situaciones en las que una serie de datos históricos etiquetados se utilizan para predecir eventos futuros.

Algunos de los algoritmos más comunes del aprendizaje supervisado incluyen la regresión logística, las máquinas de vectores de soporte (SVM), los bosques aleatorios, etc.

### Notación

En el aprendizaje supervisado se suele usar la siguiente notación:

* Conjunto de datos: $\mathcal{D}={(\textbf{x}^{[i]}, y^{[i]})}, i = 0,\dots,n$, donde $n$ es el número de muestras de entrenamiento.
* Cada par $(\textbf{x}^{[i]}, y^{[i]})$ es una muestra de entrenamiento. Donde $\textbf{x}^{[i]}$ es el vector de características de la muestra y $y^{[i]}$ es la etiqueta de la muestra.
* $f(x)=y$ es la función objetivo que queremos aproximar y que relaciona las características de la muestra con una cierta etiqueta.
* Nuestro objetivo es encontrar una función $h(x)=\hat{y}$ que se aproxime a $f(x)$ y tradicionalmente se conoce como hipótesis. Un modelo entrenado no es más que una función que aproxima a la función objetivo.
* En el caso de los modelos de clasificación $h: \mathbb{R}^m \rightarrow \mathcal{Y}$, es decir, tenemos un modelo $h$ que mapea una entrada de $m$ dimensiones (características) a un conjunto $\mathcal{Y}$ de etiquetas donde $\mathcal{Y}={1,\dots,k}$, siendo $k\ge2$.
* En el caso de los modelos de regresión $h: \mathbb{R}^m \rightarrow \mathbb{R}$, es decir, tenemos un modelo $h$ que mapea una entrada de $m$ dimensiones (características) a un valor real.
* Vamos a representar los vectores de características de la siguiente manera:
 
$\vec{x} = \textbf{x}=\begin{bmatrix}
x_0\\
x_1\\
\vdots\\
x_m
\end{bmatrix}$

Si tenemos esta tabla de datos de entrenamiento:

| index | f_0 | f_1 | ... | f_m |
|-------|-----|-----|-----|-----|
|   0   |  0  |  2  | ... |  0  |
|   1   |  3  |  2  | ... |  7  |
|  ...  |  1  |  0  | ... |  1  |
|   n   |  5  |  1  | ... |  2  |

$\vec{x}^{[1]}_0 = 3\rightarrow$ segunda muestra, primera característica.

La matriz correspondiente a esta tabla de datos sería:

$\textbf{X}=\begin{bmatrix}
x^{[0]}_0 & x^{[0]}_1 & \cdots & x^{[0]}_m\\
x^{[1]}_0 & x^{[1]}_1 & \cdots & x^{[1]}_m\\
\vdots & \vdots & \ddots & \vdots \\
x^{[n]}_0& x^{[n]}_1 & \cdots & x^{[n]}_m\\
\end{bmatrix}$

## Aprendizaje no supervisado

El _**aprendizaje no supervisado**_ implica tareas que operan en conjuntos de datos sin respuestas etiquetadas o valores objetivo que deban ser predichos. Aquí el objetivo es capturar información o encontrar alguna estructura interesante en los datos en bruto.

No hay respuestas de las que poder aprender y el sistema de ML aprende de un conjunto de datos que no están etiquetados.

Aplicaciones del aprendizaje no supervisado:
* Aprender una representación interna de los datos.
* Visualizar la estructura de un conjunto de datos complejo.
* Comprimir y resumir los datos, reducir su dimensionalidad.
* Extraer características para el aprendizaje supervisado.
* Descubrir grupos en los datos o valores atípicos.

Todas estas y otras tareas de aprendizaje no supervisadas tienen en común la propiedad de que no hay valores objetivo, etiquetas o resultados de los que aprender o predecir. En cambio, solo tenemos las muestras sin etiquetar en el conjunto de datos como entrada.

Hay dos tipos o métodos principales de aprendizaje no supervisado:

* _**Transformaciones**_ o _represntation learning_. Procesos que extraen o calculan información o buscan nuevas formas de representar los datos. Básicamente, solo ejecutan los datos originales a través de algún tipo de proceso útil que extrae o calcula información de algún tipo. Esto nos va a servir, por ejemplo, para disminuir la dimensionalidad de nuestros datos de entrada como paso previo a entrenar otros algoritmos.
* _**Agrupaciones**_ o _clustering_. Encuentran grupos en los datos y asignan todos los puntos del conjunto de datos a uno de los grupos.  Un ejemplo típico de esto es la segmentación de los clientes de un negocio. Esto no es sencillo, ya que el número de grupos puede no ser conocido con anterioridad y puede haber solapamiento entre los grupos. El algoritmo trata de encontrar objetos similares en cuanto algunas características y unirlos en un grupo y aquellos que tienen muchas características comunes se unen en una clase.

<center><img src="img/clustering.jpg" width="500"></center>
<center><caption><em>Figura 5. Clusterización</em></caption></center>
<br>

A diferencia del aprendizaje supervisado, donde tenemos etiquetas o valores objetivo que podemos usar para evaluar la efectividad del método de aprendizaje, puede ser difícil evaluar de forma automatizada los algoritmos de aprendizaje no supervisados, ya que normalmente no hay una verdad objetiva con la que comparar.

En algunos casos es posible que tengamos etiquetas que se puedan usar para evaluar la calidad de los grupos comparando la asignación de un punto de datos a un grupo con la etiqueta asignada al mismo punto de datos. Pero hay muchos casos en los que las etiquetas no están disponibles.

Además, en el caso de la agrupación en clústeres, por ejemplo, hay ambigüedad en el sentido de que normalmente hay múltiples agrupaciones que podrían asignarse de manera plausible a un conjunto de datos dado. Y ninguno de ellos es obviamente mejor que otro a menos que tengamos algunos criterios adicionales.

En estos casos podemos considerar la evaluación basada en tareas que evalúa la agrupación según el desempeño en una tarea que tenga una base objetiva de comparación.

Por ejemplo, en los casos en que los resultados de la agrupación en clústeres se utilizan como características para el aprendizaje supervisado, podríamos utilizar la ganancia de precisión general del clasificador al agregar estas características basadas en la agrupación como una medida del éxito para la agrupación subyacente.

Otro problema con la evaluación de los algoritmos de agrupación en clústeres es que puede resultar difícil interpretar o etiquetar automáticamente el significado de los clústeres que se encuentran, y este es todavía un paso en el que se requiere experiencia humana para juzgar.

Existen algunas heurísticas de evaluación (por ejemplo, la curva de silueta), pero pueden no ser fiables.

Por otro lado, estos modelos son tremendamente potentes precisamente porque permiten trabajar con datos sin etiquetar y mucha de la investigación en ML va en esta dirección.

Los algoritmos clásicos de aprendizaje automático para el aprendizaje no supervisado incluyen el análisis de componentes principales (PCA) y la agrupación en clústeres de K-means. Específicamente para las redes neuronales tenemos los Autoencoders.

## Aprendizaje por refuerzo

El _**aprendizaje por refuerzo**_ o _reinforcement learning_ consiste en aprender o entrenar un proceso de toma de decisiones. Se basa en un sistema de recompensas y castigos en el que el sistema aprende a tomar decisiones o a realizar una serie de acciones en base a las recompensas que recibe.

El aprendizaje por refuerzo es un área de aprendizaje automático que se centra en cómo los agentes toman decisiones en un entorno para maximizar alguna noción de recompensa acumulada. El aprendizaje por refuerzo es diferente del aprendizaje supervisado y no supervisado porque no hay ejemplos de entrada / salida o etiquetas. En cambio, un agente aprende de la experiencia a través de un sistema de recompensas y castigos.

<center><img src="img/rl.png" width="400"></center>
<center><caption><em>Figura 6. Aprendizaje por refuerzo</em></caption></center>
<br>

El RL se usa en casos en los que el problema no está relacionado con los datos en sí, pero tienes un entorno en el que vivir, como en un videojuego o la ciudad para un coche autónomo.

Conocer las reglas de las calles no enseñará al piloto automático como conducir por ellas de forma segura. Por muchos datos que cojamos no podemos anticipar todas las situaciones posibles, por eso la meta es minimizar el error, no predecir todos los movimientos. Sobrevivir en el entorno es la clave del RL. 

Algoritmos más usados: Q-Learning, SARSA, DQN, A3C, Genetic algorithm

El número de combinaciones en el juego del Go es mayor que el número de átomos en el universo. Esto significa que la máquina no puede recordar todas las combinaciones para ganar de modo que lo que hace es que en cada turno elige la mejor combinación para cada situación. 

Un agente de este tipo puede probar billones de situaciones en un entorno virtual, recordando qué soluciones le dieron la mayor recompensa. 

## Aprendizaje semi-supervisado

Entonces, ¿qué sucede si solo tenemos algunas de las etiquetas asociadas para algunos de nuestros datos y no tenemos etiquetas asociadas otros? ¿Hay alguna manera de que podamos aplicar algún híbrido de aprendizaje supervisado y no supervisado y aún así poder clasificar cada uno de los puntos de datos?

Resulta que la respuesta es sí, solo necesitamos aplicar el aprendizaje semi-supervisado. Nuestro algoritmo de aprendizaje semi-supervisado tomaría los datos conocidos, los analizaría e intentaría etiquetar cada uno de los puntos de datos no etiquetados para usarlos como datos de entrenamiento adicionales.

Es una  mezcla entre aprendizaje supervisado y no supervisado. Utiliza el subconjunto de entrenamiento etiquetado para etiquetar la porción sin etiquetar del conjunto de entrenamiento, que luego se utilizará también para el entrenamiento de modelos.

Este proceso puede repetirse para muchas iteraciones a medida que el algoritmo semisupervisado aprende la "estructura" de los datos para hacer predicciones más precisas y generar datos de entrenamiento más confiables.

<center><img src="img/semi_supervised_learning.png" width="400"></center>
<center><caption><em>Figura 7. Aprendizaje semi-supervisado</em></caption></center>
<br>

El aprendizaje semi-supervisado es especialmente útil en la visión por computadora, donde a menudo lleva mucho tiempo, es tedioso y costoso (al menos en términos de horas-hombre) etiquetar todas y cada una de las imágenes de nuestro conjunto de capacitación. En los casos en los que simplemente no tenemos el tiempo o los recursos para etiquetar cada imagen individual, podemos etiquetar solo una pequeña fracción de nuestros datos y utilizar el aprendizaje semi-supervisado para etiquetar y clasificar el resto de las imágenes.

Los algoritmos de aprendizaje semi-supervisados ​​a menudo intercambian conjuntos de datos de entrada etiquetados más pequeños por una reducción tolerable en la precisión de la clasificación. Normalmente, cuanto más preciso es el entrenamiento etiquetado con un algoritmo de aprendizaje supervisado, más predicciones puede hacer (esto es especialmente cierto para los algoritmos de aprendizaje profundo). A medida que disminuye la cantidad de datos de entrenamiento, la precisión sufre inevitablemente.

El aprendizaje semi-supervisado tiene en cuenta esta relación entre la precisión y la cantidad de datos e intenta mantener la precisión de la clasificación dentro de límites tolerables mientras reduce drásticamente la cantidad de datos de entrenamiento necesarios para construir un modelo; el resultado final es un clasificador preciso (pero normalmente no tan precisa como un clasificador supervisado) con menos esfuerzo y datos de entrenamiento.

Las opciones populares para el aprendizaje semi-supervisado incluyen _label spreading_, _label propagation_, _ladder networks_, y _co-learning/co-training_.

## Self-supervised learning

El aprendizaje auto-supervisado es un tipo de aprendizaje automático en el que se utilizan etiquetas generadas automáticamente como datos de entrenamiento en lugar de etiquetas manuales.

Es de desarrollo reciente y parece un campo de investigación bastante prometedor siendo tendencia en el aprendizaje profundo.

Es particularmente útil si no hay modelos pre-entrenados con los que hacer transfer learning para ese problema o campo.

El proceso consiste en derivar y/o utilizar de información sobre las etiquetas directamente de los datos mismos en lugar de tener humanos anotándolos.

Por ejemplo como BERT ha sido entrenado con un corpus de texto sin etiquetar para la tarea de masking, él solo aprende de los datos a predecir la siguiente palabra enmascarando en el entrenamiento algunas aleatoriamente.

# Fuentes

- [_Machine Learning for Everyone_](https://vas3k.com/blog/machine_learning/)
- [_Jason's Machine Learning 101_](https://docs.google.com/presentation/d/1kSuQyW5DTnkVaZEjGYCkfOxvzCqGEFzWBy4e9Uedd9k/edit#slide=id.g168a3288f7_0_58)