# Lecture 11: Machine Learning

# 1. ¿Qué es Aprendizaje de Máquinas (Machine Learning)?

El aprendizaje de máquinas (Machine Learning) es 

> **La ciencia (y el arte) de programar computadores para que puedan _aprender de los datos_ (Géron, 2017)**. 

Con esta definición (y con lo que nos han contado), normalmente pensamos que Machine Learning (ML) es uno de los androides que pueden interactuar con humanos, una máquina que sabe cómo limpiar la casa, el programa que venció al campeón de ajedrez, incluso lo relacionamos con Terminator. Sí lo son _en parte_, pero el ML puede llegar a ser más simple: un filtro de spam, un bot de servicio al cliente, un programa que identifica los probables sentimientos de comentarios en Twitter, una regresión lineal. También el ML puede ser más complejo: inteligencia artificial, aprendizaje automático, entre otros.

# 2. ¿En qué se diferencia la inteligencia artificial del aprendizaje de máquinas?

Según Russell & Norvig (2020), existen cuatro definiciones o metas de la Inteligencia Artificial (AI):

1. **Enfoque humano:**
    * Sistemas que piensan como humanos.
    * Sistemas que actúan como humanos.
    
2. **Enfoque ideal:**
    * Sistemas que piensan racionalmente. 
    * Sistemas que actúan racionalmente.
    
En general, son sistemas que pueden actuar o pensar como humanos, pero no limitándose a procesos biológicos. Por ejemplo, hay nueva computadora de IBM jugadora de ajedrez que aprendió a ser una maestra sin que un humano le enseñara más que las reglas. Otros programas han ayudado a entender la misma inteligencia artificial al generar sus propias conclusiones.

En ese sentido, la diferencia entre ML e IA es la capacidad del sistema de pensar o actuar como humano. Por un lado, en ML la máquina _aprende_ de los datos que le entregamos, aplicando dichos conocimientos a un problema específico. Sin embargo, **no puede generar aprendizajes más allá de los datos**. Por el contrario, la IA sí puede generar aprendizajes por sí mismo, incluso si le damos poca o nula información.

In [None]:
from IPython.display import IFrame
IFrame('https://www.youtube.com/embed/8tq1C8spV_g?rel=0&amp;controls=0&amp;showinfo=0', width=560, height=315)

In [None]:
from IPython.display import IFrame
IFrame('https://www.youtube.com/watch?v=Lu56xVlZ40M&ab_channel=TwoMinutePapers', width=560, height=315)

# 3. ¿Cómo aprenden las máquinas?

Las máquinas aprenden copiando el proceso que hacemos los humanos. Este proceso se puede dividir en tres partes (Lantz, 2013):

* **Entrada de datos:** utiliza observación, almacenamiento de memoria y recuerdo.
    - Es un proceso básico sin alto entendimiento.
    - Resulta en la recolección de los datos que necesitamos.
* **Abstracción:** envuelve la transformación de los datos en representación más amplias.
    - Requiere de un entendimiento más alto.
    - Aquí se le otorga _sentido_ a los datos.
* **Generalización:** usa datos abstractos para formar una base para la acción.
    - Permite la aplicación de los conocimientos a la realidad.

Piensen en la semana pasada cuando estudiaban para el examen de Big Data, ¿cómo realizaron ese proceso?

Ahora, el computador hace algo similar: obtiene y observa los datos, los abstrae y, después, generaliza para una tarea específica. En este proceso, el computador, como los humanos, realizamos una **representación del conocimiento** para convertir datos crudos en hallazgos significativos.

Para ello, el computador resume los datos insumo en un **modelo**, el cual es una descripción explícita de los patrones estructurados de los datos. Estos modelos pueden estar representados de diferentes maneras: ecuaciones, diagramas, reglas if/else, clusters, entre otros. 

<center><img src="obs_data_model.png" width = "750", height = "500"/></center>

> **Nota:** los modelos **no tienen que ser perfectos**. Son una representación de la realidad, por lo cual pueden tener errores.

Cabe resaltar que, para esto, los modelos reducen la cantidad de hallazgos o variables importantes con el objetivo de ser manejable. Caso contrario, podría caer en un caso de **sobreajuste** (_**overfitting**_).

Posteriormente a ello, utiliza el modelo para **volver el conocimiento en acción**. Es decir, generaliza y utiliza dichos hallazgos para predecir, clasificar o actuar. 

<center><img src="ml_how_it_work.png" width = "750", height = "500"/></center>

> **¡Cuidado!** Los algoritmos de ML aprenden tan bien, que **tambien aprenden nuestros sesgos**.

In [None]:
from IPython.display import IFrame
IFrame('https://www.youtube.com/watch?v=-_ydGhdYd0M&ab_channel=GBHNews', width=560, height=315)

# 4. Paso a paso para crear o aplicar un algoritmo de ML

Según Lantz (2013), un buen paso a paso es el siguiente:

1. Recolecta los datos.
2. Explora y prepara los datos.
3. Entrena el modelo con los datos.
4. Evalúa el rendimiento del modelo.
5. Mejora el desempeño del modelo.

Hasta ahora, este curso se ha concentrado en el primer y segundo paso: recolectar los datos y explorar y preparar los datos. A partir de ahora, nos concentraremos en los siguientes tres pasos.

# 5. Tipos de modelos de ML

Existen dos grandes tipos de algoritmos de ML: los **modelos supervisados** y los **modelos no supervisados**. El uso de cada uno depende de la tarea a realizar.

## 5.1. Modelos supervisados

Los modelos supervisados de ML son aquellos en los que tenemos la variable a predecir o clasificar, donde ellas son el centro de atención. Es decir, bajo el modelo

$$ Y_i \sim X_i $$

Contamos con $Y_i$ como variable de interés y es el centro de nuestro análisis.

Consideremos un modelo donde queramos identificar si en una foto de un animal este es perro o no. La variable $Y_i$ sería una variable binaria que cuenta con 0 si no es perro y 1 si lo es. Un aprendizaje supervisado cuenta con las fotos y la clasificación.

Otros ejemplos similares: el reconocimiento de un rostro, predecir el precio del dólar para mañana, predecir las notas del parcial de los estudiantes. Para ello, requiere de unas variables independientes, $X_i$, que permiten predecir o clasificar la variable de interés, $Y_i$.

En general, el análisis no supervisado se basa en el **análisis de patrones** y el **análisis predictivo**. Sin embargo, otros usos son posibles.

> **Nota:** la supervisión no hace referencia a que haya involucramiento de humanos, sino a que existe en los datos la presencia de la variable de interés para enseñarle a la máquina.

## 5.2. Modelos no supervisados

Los modelos no supervisados de ML son aquellos en los que no tenemos la variable de interés. Es decir, contamos con la matriz de variables $X_i$ pero no contamos con una variable $Y_i$ de interés. Por el contrario, normalmente queremos saber cómo se relacionan y comportan esas variables $X_i$ entre ellas.

Un ejemplo característico es el **descubrimiento de patrones**, en el cual normalmente se utiliza un algoritmo llamado **análisis de carrito de mercado**. En este algoritmo, se cuenta con los datos de lo que compran las personas, pero no se tiene una variable en sí misma de interés. Por el contrario, el análisis se centra en ver cómo se relacionan las variables. Por ejemplo, si las personas compran generalmente una Coca-Cola con el pan o si compran un alka-setzer con un Gatorade. 

En general, el análisis no supervisado se basa en el **análisis de clusters** y el análisis descriptivo. Sin embargo, otros usos son posibles.

# 6. El dilema entre el sesgo y la varianza

### 6.1. Sesgo

El **sesgo** (bias) es la diferencia entre la predicción promedio del modelo y el valor correcto que estamos tratando de predecir. Un modelo con alto sesgo se equivoca a menudo en sus predicciones y sobresimplifica el modelo, dado que le presta poca atención a los datos de entrenamiento. Por tanto, tendrá alto error en los datos de entrenamiento y testeo.

### 6.2. Varianza

La **varianza** de un modelo hace referencia a la variabilidad que experimenta la predicción por un dato o un conjunto de datos diferentes a los del entrenamiento. En ese sentido, un modelo con alta varianza le presta muchísima atención a los datos de entrenamiento y no generaliza los datos que observa. Por tanto, experimentará problemas cuando se enfrente a un nuevo conjunto de datos, como los datos de testeo.

### 6.3. Trade-off entre varianza y sesgo

En ese sentido, supongamos que queremos crear un modelo de ML del precio de las casas en Bogotá. Ello lo podemos escribir matemáticamente de la siguiente manera

$$ Y = f(X) + \varepsilon $$

Es decir, la variable dependiente ($Y$) depende de varias variables explicativas ($x_1$, $x_2$, ..., $x_n$ que forman la matriz $X$) y un error estocástico que se distribuye normal con media 0 y varianza $\sigma_e$ ($\varepsilon$ ~ $N(0, \sigma_e)$.

En palabras normales, diríamos que el precio ($Y$) depende del número de cuartos ($x_1$), el número de baños ($x_2$), el metraje ($x_3$), y así. Además, también depende de variables no observables o de choques externos que no podemos medir, resumidas en el error ($\varepsilon$).

Por tanto, sabemos que el error cuadrático esperado es igual a

$$ Err(x) = E[(Y - \hat{f}(x))^2] $$

Ello lo podemos reescribir como

$$ Err(x) = \big[E[\hat{f}(x)] - f(x) \big]^2 + E \big[\big(\hat{f}(x) - E[\hat{f}(x)\big)^2 \big] + \sigma^2_e $$

En otras palabras menos complejas

$$ Err(x) = Bias^2 + Variance + IrreducibleError $$

En conclusión, el error de un modelo en la predicción va a ser igual al sesgo al cuadrado, la varianza y el error irreducible.

Este último es el error que no se puede reducir con la creación del modelo. Es un error intrínseco a los datos. No importa qué tan bueno es el modelo, si los datos tienen _ruido_, no se puede eliminar totalmente el error.

### 6.3.1. Overfitting y underfitting

A partir de ello, podemos ver cómo los modelos funcionan a partir del sesgo y la varianza

<center><img src="https://miro.medium.com/max/640/1*xwtSpR_zg7j7zusa4IDHNQ.png" width = "750", height = "500"/></center>

En aprendizaje supervisado, el **subajuste - underfitting** ocurre cuando un modelo es incapaz de capturar los patrones de los datos. Estos modelos usualmente tienen **alto sesgo y baja varianza**, de todos modos tendrá un rendimiento pobre.

Esto ocurre, por lo general, cuando
* Tenemos muy pocos datos con el que aprende la máquina.
* Se intenta utilizar un modelo que intente capturar una distribución errónea. Por ejemplo, utilizar un modelo lineal para unos datos con distribución no lineal.

Así mismo, en aprendizaje supervisado, el **sobreajuste - overfitting** ocurre cuando un modelo captura mucho ruido junto con los patrones de los datos. Estos modelos usualmente tienen **bajo sesgo y alta varianza**.

Esto ocurre, por lo general, cuando
* Tenemos datos con mucho ruido.
* Se intenta utilizar modelos muy complejos. Por ejemplo, los árboles de decisión mal podados terminan con este problema.

<center><img src="fitting.png" width = "750", height = "500"/></center>

### 6.3.2. El dilema

Como se puede ver, el dilema surge precisamente entre estos dos puntos. Por un lado, si el modelo es muy simple y tiene pocos parámetros, podríamos experimentar alto sesgo y baja varianza. Si el modelo es muy complejo y tiene un alto número de parámetros, podríamos experimentar alta varianza y bajo sesgo. Ninguna es deseable, se necesita de un balance entre los dos.

Para construir un buen modelo, necesitamos encontrar un balance entre sesgo y varianza que minimice el error total:

$$ Total Error = Bias^2 + Variance + IrreducibleError $$

Esto, en términos de un esquema, resulta en el siguiente gráfico:

<center><img src="https://miro.medium.com/max/720/1*x5YbWf3JhZIPr8veio_Bug.jpeg" width = "750", height = "500"/></center>

## 6.4. Algunas recomendaciones (obligatorias)

En primer lugar, para evitar subajuste, es necesario asegurarnos tener una buena cantidad de datos relativo al problema. Es decir, siempre debemos saber cuál es la población y obtener una muestra suficiente para que la máquina aprenda. Eso no necesariamente significa millones de observaciones: si estamos en casos de enfermedades huérfanas, tener 10 observaciones es un logro excepcional. Sin embargo, si queremos analizar los patrones de compra de los bogotanos, tener incluso 100.000 observaciones resulta precario frente a las millones de compras que se realizan a diario.

En segundo lugar, uno de los fenómenos observados es que utilizar todos los datos de una base puede hacer que nos sesguemos. Es decir, utilizar todos los datos hace que tomemos decisiones sobre los parámetros que hagan que funcione muy bien sobre _esos datos en específico_. Este modelo tendrá un excelente rendimiento en esa base de datos, pero probablemente tendrá problemas frente a datos nuevos. 

Para evitar este sobreajuste, se recomienda partir la base de datos en tres: datos de entrenamiento, datos de validación y datos de testeo.

<center><img src="database.png" width = "750", height = "500"/></center>

¡Cuidado! No en todos los casos tendremos suficiente cantidad de datos para realizar esta división. Sin embargo, es obligatorio tener, al menos, una división de base de datos de entrenamiento y otra de testeo. Lo recomendado es 70% de entrenamiento y 30% de testeo, pero diferentes arreglos son aceptados.

Cada una se define así:

* **Base de datos de entrenamiento:** es la base de datos donde entrenaremos a la máquina con los algoritmos que escojamos. En ella podemos hacer diferentes arreglos, cambiando los híperparametros que escojamos, entre otros. Esta base de datos se puede utilizar cuantas veces uno desee.
* **Base de datos de validación:** es la base de datos que nos permite hacer evaluaciones parciales del modelo. En este podemos medir qué tal está funcionando el modelo con datos con los que no entrenó. Esta base de datos se puede utilizar cuantas veces uno desee.
* **Base de datos de testeo:** es la base con la que se mide el rendimiento del modelo. Esta solo se puede utilizar una vez (¡solo una!). Medir el rendimiento del modelo y devolverse a cambiar parámetros o el algoritmo del modelo crea un sesgo que no es permitido. Por ello, **está prohibido devolverse al modelo cuando ya se ha utilizado la base de datos de testeo**. Hacelro puede afectar el modelo con datos nuevos y hacer que se comporte pésimamente.
