In [None]:
from IPython.display import YouTubeVideo, Markdown, SVG, Code
from functools import partial
YouTubeVideo_formato = partial(YouTubeVideo, modestbranding=1, disablekb=0,
                               width=640, height=360, autoplay=0, rel=0, showinfo=0)

display(Markdown(filename='../../preamble.md'))

In [None]:
%matplotlib notebook
import numpy as np
import matplotlib.pyplot as plt
from functools import partial

# Machine Learning

Podemos definir *Machine Learning* o Aprendizaje de Máquinas como

> El estudio de sistemas que aprenden reglas o patrones en base a ejemplos para resolver una tarea

Donde

- Máquina/Sistema: Algoritmo o modelo matemático que entrenamos en base a ejemplos y que mejora su desempeño a medida que recibe más ejemplos
- Ejemplos: Datos y/o etiquetas asociados a la tarea que se quiere resolver

Las tareas más típicas son
- Clasificación: Identificar a que categoría corresponde el ejemplo
- Regresión: Predecir una variable de interés en base al ejemplo
- Agrupamiento (clustering): Encontrar grupos de ejemplos similares

El esquema general de ML se muestra en la siguiente figura

<img src="../img/intro-ml2.png" width="700">

donde
1. Conceptualización: Se refiere a identificar el problema
1. Datos: Se refiere a la recolección, importación, pre-precesamiento y etiquetado de datos
1. Modelamiento: Se referiere a la selección, entrenamiento y validación del o los modelos
1. Inferencia: Se refiere a utilizar el modelo para inferir, predecir y/o tomar decisiones sobre ejemplos nuevos

En este último punto yace el objetivo principal de ML

> Entrenamos modelos para clasificar/predecir/agrupar ejemplos que el modelo no ha visto

Para que el modelo sea útil debemos comprobar que es capaz de **generalizar lo aprendido**

Para que el modelo sea capaz de aprender y generalizar ML combina técnicas de estadísticas y optimización computacional

En este cuadernillo aprenderemos sobre uno de los paradigmas de Machine Learning: **Aprendizaje supervisado**

## Aprendizaje supervisado: Conceptual

En el paradigma de aprendizaje supervisado los datos de entrenamiento tienen asociado un **objetivo** 

El objetivo corresponde usualmente a una **etiqueta numérica** que un ser humano le asigna al dato. Este conocimiento *a priori* es lo que el algoritmo debe encapsular

- Durante el entrenamiento la máquina recibe como entrada datos y etiquetas con tal de aprender reglas que los relacionen
- Durante la inferencia la máquina usa las reglas para predecir la etiqueta en datos no vistos previamente

Podemos comparar el paradigma de aprendizaje supervisado con el de programación tradicional en base a la siguiente figura

<img src="../img/intro-ml1.png" width="700">


## Aprendizaje supervisado: Matemático

Formalmente, en este paradigma se busca aprender un mapeo o función paramétrica

$$ 
f_{\theta}: \mathcal{X} \rightarrow \mathcal{Y}, 
$$

donde $\mathcal{X}$ es el dominio de nuestros datos e $\mathcal{Y}$ es el dominio del objetivo

Entrenamos nuestro modelo a partir de un conjunto de $N$ ejemplos:

$$ 
\{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\}, 
$$

donde cada ejemplo es una tupla formada de datos $x_i \in \mathcal{X}$ y objetivo $y_i \in \mathcal{Y}$

En el modelo anterior el vector $\theta$ corresponde a los **parámetros del modelo**

Luego

> Aprender, entrenar o ajustar el modelo corresponde a encontrar el valor "óptimo" de $\theta$

Para medir el desempeño del modelo usamos una función de pérdida o costo: $L(\theta)$ 

Usualmente esta función está relacionada al error de nuestro modelo en nuestro problema particular

Luego

> Minimizamos la función de costo para encontrar el valor óptimo $\theta$

Cuando hablamos de $\theta$ "óptimo" lo decimos en el sentido de una función de costo particular

### Datos

La naturaleza de los datos depende del problema 

Lo más común es que los datos $x_i$ se estructuren como arreglos de $M$ componentes

A los componentes los llamamos **atributos o características (features)**

### Objetivos

Si la variable objetivo es

- Continua: hablamos de un problema de regresión o aproximación de funciones
- Categórica: hablamos de un problema de clasificación

El ámbito de regresión ya fue estudiado en la unidad 2

> En este cuadernillo nos concentraremos en el problema de clasificación y revisaremos algunos modelos clásicos

## Complejidad y Sobreajuste

En general mientras más parámetros tenga $f_\theta$ más **flexible** será nuestro modelo

Por un lado esto es bueno: Podremos aproximar funciones más **complejas**

Pero por otro lado es malo: Si la flexibilidad es excesiva podríamos aprender nuestro ejemplos de memoria y perder capacidad de generalización

Esto se conoce como **sobreajuste**

En la siguiente figura las lineas naranja y azul representan dos modelos de clasificación

<img src="../img/intro-ml3.png" width="400">


El modelo naranjo ha aproximado los datos con cero error, es decir que "se ha sobreajustado a los datos de entrenamiento"

Debemos considerar que los datos pueden tener ruido, por ende aproximarlos con una flexibilidad arbitrariamente grande nos llevará a "aprender el ruido". Luego el modelo sobreajustado predecirá muy mal los datos "que no ha visto"

> El sobreajuste es inversamente proporcional a la capacidad de generalización

Para evitar el problema de sobreajuste y calibrar el modelo realizamos procedimientos de **validación**

## Validación

Para combatir el sobreajuste podemos usar estrategias de validación

Consisten en separar el conjunto etiquetado en dos o más subconjuntos

1. Validación tipo *Holdout*: Separamos el conjunto en tres: Entrenamiento, Validación y Prueba
1. Validación cruzada: De tipo K-fold o *Leave one-out* (N-fold)

Para que nuestros conjuntos de entrenamiento y validación sigan siendo representativos del total los debemos seleccionar aleatoriamente. Idealmente debemos preservar el balance de las clases, esto se llama hacer "particiones estratíficadas"

Una vez que hemos separado el conjunto de datos podemos medir $L(\theta)$ en cada uno

- Optimizamos nuestro modelo minimizando el costo en el conjunto de entrenamiento
- Seleccionamos los parámetros e hiper-parámetros que dan mínimo costo de validación
- Comparamos distintas familias de modelos con el costo de prueba


En general si un modelo
- Tiene bajo costo de entrenamiento y de validación: Vamos por el buen camino
- Tiene bajo costo de entrenamiento pero alto de validación: El modelo está sobreajustado
- Tiene alto costo de entrenamiento y de validación: El modelo no es adecuado o hay un bug

# Clasificador Bayesiano "Ingenuo"

## Modelo

Este clasificador con interpretación probabilística busca 

> la probabilidad de la etiqueta $y$ dado el ejemplo $x$, es decir $P(y|x)$

Usando el teorema de Bayes podemos escribir esto como

$$
p(y | x) = \frac{p(x|y) p(y)}{p(x)} = \frac{p(x|y) p(y)}{\sum_{y\in\mathcal{Y}} p(x|y) p(y)}
$$

donde

- $p(y)$ es la probabilidad *a priori*, corresponde a lo que sabemos antes de observar el ejemplo
- $p(y|x)$ es la probabilidad *a posteriori*, corresponde a lo que sabemos luego de observar el ejemplo $x$
- $p(x|y)$ es la verosimilitud de observar un ejemplo con atributos $x$ suponiendo que la etiqueta es $y$

Si tenemos un problema de clasificación binario, es decir con dos etiquetas, podemos escribir

$$
\frac{p(y=1|x)}{p(y=0|x)} = \frac{p(x|y=1) p(y=1)}{p(x|y=0) p(y=0)}
$$

Si el cociente anterior es mayor que $1$ entonces la clase de $x$ es $1$, de lo contrario es $0$

Si tenemos un problema de clasificación con $C$ clases entonces decidimos la clase con

$$
\hat y = \text{arg}\max_{k=1,\ldots,C} p(x|y=k) p(y=k)
$$

En ambos casos el denominador del teorema de Bayes no se ocupa, pues es idéntico para todo $y$

El prior lo podemos estimar empiricamente de nuestra base de datos de entrenamiento como

$$
p(y=k) = \frac{\text{Cantidad de ejemplos con etiqueta k}}{\text{Cantidad de ejemplos}}
$$


- La principal ventaja de este clasificador es que es simple, fácil de entrenar y muy dificil de sobreajustar
- La desventaja, como veremos a continuación, es que hace supuestos muy fuertes. Si no se cumplen el desempeño no será bueno


## Supuestos

Digamos que $x$ es un vector que representa $D$ atributos

### Primer supuesto

Los atributos usados en el clasificador son independientes

Por lo tanto la verosimilitud

$$
p(x|y) = \prod_{d=1}^D p(x_d|y)
$$

### Segundo supuesto

La distribución de los atributos es Gaussiana

$$
p(x_d|y) = \mathcal{N}(\mu_d, \sigma_d^2)
$$

En este caso tenemos un clasificador bayesiano ingenuo con verosimilitud Gaussiana

Se pueden suponer otras distribuciones dependiendo de los datos

- La distribución Gaussiana puede usarse si los atributos son continuos
- Para atributos discretos se puede usar la distribución multinomial

## Clasificación de cancer "a mano"

Usaremos el dataset de cancer de mama de la Universidad de Wisconsin

Representaremos cada paciente como
- x: radio de la muestra (continua)
- z: textura de la muestra (continua)
- y: etiqueta de la muestra 

El dataset tiene 569 pacientes, 212 con tumores malignos (1) y 357 tumores benignos (0)

In [None]:
import pandas as pd
df = pd.read_csv('../data/cancer.csv', index_col=0)
x, y = df.drop(columns="diagnosis").values, df["diagnosis"].replace({'M':1, 'B':0}). values
fig, ax = plt.subplots(figsize=(7, 3), tight_layout=True)
ax.scatter(x[y==0, 0], x[y==0, 1], c='k', s=10, marker='o', label='Sanos', alpha=0.5)
ax.scatter(x[y==1, 0], x[y==1, 1], c='k', s=10, marker='x', label='Cancer', alpha=0.5)
ax.set_xlabel('Radio de la muestra')
ax.set_ylabel('Textura de la muestra')
plt.legend();

En este caso podemos escribir

$$
\frac{p(y=1|x, z)}{p(y=0|x, z)} = \frac{p(x|y=1) p(z|y=1) p(y=1)}{p(x|y=0) p(z|y=0) p(y=0)}
$$

y los *priors* son: 

$$
p(y=1) = \frac{212}{569} \approx 0.41
$$

y
$$
p(y=0) = \frac{357}{569} \approx 0.59
$$

Ahora sólo falta encontrar los parámetros $\mu_x, \sigma_x, \mu_z, \sigma_z$

Los podemos encontrar usando el criterio de máxima verosimilitud

In [None]:
import scipy.stats

# Probabilidades a priori
from collections import Counter
print(Counter(y))
py = [Counter(y)[i]/len(y) for i in range(2)]


# Ajuste de verosimilitudes
dists = {}
for y_ in [0, 1]: # Para cada clase
    for d in [0, 1]: # para cada característica
        params = scipy.stats.norm.fit(x[y==y_, d])
        dists[(y_, d)] = scipy.stats.norm(loc=params[-2], scale=params[-1])

def likelihoods(x, z):
    pxzy0 = dists[(0, 0)].pdf(x)*dists[(0, 1)].pdf(z)
    pxzy1 = dists[(1, 0)].pdf(x)*dists[(1, 1)].pdf(z)
    return pxzy0, pxzy1, (pxzy1*py[1])/(pxzy0*py[0])

fig, ax = plt.subplots(figsize=(7, 3), tight_layout=True)
for k, (label, marker) in enumerate(zip(['Sanos', 'Cancer'], ['o', 'x'])):
    ax.scatter(x[y==k, 0], x[y==k, 1], c='k', s=10, 
               marker=marker, label=label, alpha=0.5)

x_plot = np.linspace(np.amin(x[:, 0]), np.amax(x[:, 0]), num=500)
z_plot = np.linspace(np.amin(x[:, 1]), np.amax(x[:, 1]), num=500)
X, Z = np.meshgrid(x_plot, z_plot)
Y = likelihoods(X, Z)
ax.contourf(X, Z, Y[1] - Y[0], zorder=-1, cmap=plt.cm.RdBu, 
            vmin=-2e-2, vmax=2e-2, levels=20)
ax.set_xlim([np.amin(x_plot), np.amax(x_plot)])
ax.set_ylim([np.amin(z_plot), np.amax(z_plot)])
ax.set_xlabel('Radio de la muestra (x)')
ax.set_ylabel('Textura de la muestra (z)')
plt.legend();

Decidimos entre sano y enfermo usando el cociente entre los posterior

$$
\frac{p(y=1|x, z)}{p(y=0|x, z)} > R
$$

Dos tipos de errores:
1. Falso positivo: Predecir que está enfermo $\hat y=1$ cuando en realidad estaba sano $y=0$
1. Falso negativo: Predecir que está sano $\hat y=0$ cuando en realidad estaba enfermo $y=1$

Nosotros podemos "ajustar" el riesgo $R$ para reflejar la diferencia entre equivocarse con un FP o un FN

In [None]:
ax.contour(X, Z, Y[2] > 1., zorder=-1, levels=[0]);
#ax.contour(X, Z, Y[2] > 0.5, zorder=-1, levels=[0]);
#ax.contour(X, Z, Y[2] > 0.1, zorder=-1, levels=[0]);

## Entrenamiento con scikit-learn

La librería de Python [scikit-learn](https://scikit-learn.org) tiene una amplia selección de 

- clasificadores y regresores
- utilitarios para preprocesar y particionar los datos
- métricas y gráficas de evaluación

entre otros

Puedes instalarla en tu ambiente conda con

    conda install scikit-learn

En particular existe un módulo [`sklearn.naive_bayes`](https://scikit-learn.org/stable/modules/naive_bayes.html) que implementa distintos clasificadores bayesianos ingenuos, entre ellos
- Clasificador con verosimilitud Gaussiana: `GaussianNB`
- Clasificador con verosimilitud Multinomial: `MultinomialNB`

Por ejemplo el constructor de `GaussianNB`

```python
sklearn.naive_bayes.GaussianNB(priors=None, # Un ndarray con las probabilidades a priori
                               ...
                              )
```

Los atributos más importantes de este modelo (y otros de scikit-learn) son

```python
>>> from sklearn.naive_bayes import GaussianNB
>>> clf = GaussianNB()
>>> clf.fit(xe, ye) # Ajusta un modelo a los datos y etiquetas
>>> pyv = clf.predict_proba(xv) # Retorna la probabilidad de cada clase 
>>> yv = clf.predict(xv) # Retorna la clase predicha (la de máxima probabilidad)
>>> clf.score(xv, yv) # Retorna la precisión (accuracy) promedio del modelo
```



## Clasificación de cancer con `scikit-learn`

Usemos lo aprendido para entrenar el clasificador bayesiano en los datos de cancer de mama

In [None]:
from sklearn.naive_bayes import GaussianNB

clf = GaussianNB(priors=py) #Usamos los priors calculados antes
clf.fit(x[:, :2], y) # Entrenamos

# Visualizamos el resultado
fig, ax = plt.subplots(figsize=(7, 3), tight_layout=True)
for k, (label, marker) in enumerate(zip(['Sanos', 'Cancer'], ['o', 'x'])):
    ax.scatter(x[y==k, 0], x[y==k, 1], c='k', s=10, 
               marker=marker, label=label, alpha=0.5)

Y = clf.predict_proba(np.stack((X.ravel(), Z.ravel())).T)[:, 1]
#Y = clf.predict(np.stack((X.ravel(), Z.ravel())).T)

ax.contourf(X, Z, np.reshape(Y, X.shape), zorder=-1, cmap=plt.cm.RdBu, 
            vmin=0, vmax=1, levels=20)
ax.set_xlim([np.amin(x_plot), np.amax(x_plot)])
ax.set_ylim([np.amin(z_plot), np.amax(z_plot)])
ax.set_xlabel('Radio de la muestra (x)')
ax.set_ylabel('Textura de la muestra (z)')
plt.legend();

# Evaluando un clasificador

## Matriz de confusión

Un clasificador se evalua tipicamente usando **matrices de confusión**

Para esto se necesita la etiqueta real y la etiqueta predicha

Si el clasificador retorna probabilidades podemos obtener la etiqueta predicha con `np.argmax(probs, axis=1)`

Una matriz o tabla de confusión se construye contando los casos que tienen etiqueta real igual a $i$ y etiqueta predicha igual a $j$ para $i \wedge j=1,2,\ldots,C$ donde $C$ es el número de clases

Podemos calcular la matriz de confusión usando el módulo [`sklearn.metrics`](https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics)



In [None]:
from sklearn.metrics import confusion_matrix

yhat = clf.predict(x[:, :2])
cm = confusion_matrix(y,  # Etiqueta real
                      yhat # Etiqueta predicha
                     )
print(cm)

Si solo queremos visualizarla podemos usar

In [None]:
from sklearn.metrics import plot_confusion_matrix

fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)

plot_confusion_matrix(clf, # Clasificador
                      x[:, :2], # Datos
                      y, # Etiquetas
                      ax=ax, # subeje para gráficar
                      display_labels=np.array(['Benigno', 'Maligno']), #Nombres de las clases
                      cmap=plt.cm.Blues, # Escala de colores
                      normalize=None #Permite escoger entre cantidades y porcentajes
                     );

Donde las filas corresponden a la etiqueta real y la columna a la etiqueta predicha

Por ejemplo 
- Hay 17 casos predichos como maligno que en realidad eran benignos: **Falso positivo**
- Hay 48 casos predichos como benignos que en realidad eran malignos: **Falso negativo**



## Accuracy o correctitud

El *accuracy* es una métrica de resumen que es útil para hacer una idea global de como funciona el clasificador

El *accuracy* no reemplaza la tabla de confusión si no que se calcula a partir de la misma

El *accuracy* se calcula como la cantidad de ejemplos predichos correctamente dividido por la cantidad total de ejemplos, es un valor en el rango $[0, 1]$

Es decir la suma de la diagonal de la matriz de confusión dividido por el total de ejmplos

Podemos calcular el *accuracy* de nuestro modelo con `scikit-learn` usando la función `accuracy_score` o el atributo `score` del modelo (si está disponible)

In [None]:
from sklearn.metrics import accuracy_score

yhat = clf.predict(x[:, :2])

print(accuracy_score(y, yhat))

print(clf.score(x[:, :2], y))

## Ejercicio

Entrene un clasificador ingenuo usando esta vez todos los atributos y obtenga su matriz de confusión



In [None]:
from sklearn.naive_bayes import GaussianNB

clf = GaussianNB(priors=py) 
clf.fit(x, y)

fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)

plot_confusion_matrix(clf,x, y, 
                      ax=ax, display_labels=np.array(['Benigno', 'Maligno']), 
                      cmap=plt.cm.Blues, normalize=None);

# Particionando los datos

Como dijimos antes es fundamental hacer particiones del conjunto de datos para 
- escoger los hiperparámetros del modelo
- evaluar posibles sobreajustes del modelo

El módulo [`model_selection`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection) nos da algunas funciones muy utiles para lograr este objetivo

En particular cuando se tienen pocos datos es conveniente usar una estrategia de validación cruzada tipo K-Fold, como la que se ve en la figura

<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png" width="600">

1. Primero se separa el conjunto en subconjuntos de entrenamiento y prueba
1. El subconjunto de entrenamiento se separa en $K$ particiones 
1. Se entrena $K$ veces usando $K-1$ particiones y evaluando en la sobrante
1. Podemos retornar promedio y desviación estándar de la correctitud del modelo

El constructor de la clase `KFold` 

```python
sklearn.model_selection.KFold(m_splits=5, # Número de particiones
                              shuffle=False, # Barajar los datos antes de dividir
                              random_state=None # Semilla aleatoria
                             )
```

Esta clase y otras similares como `ShuffleSplit`, retornan un generador que podemos iterar como

```python
>>> from sklearn.model_selection import KFold
>>> kf = KFold(n_splits=10)
>>> for train_index, val_index in kf.split(x):
>>>     ...
>>>     model.fit(x[train_index], y[train_index])
>>>     model.score(x[val_index], y[val_index])
>>>     ...

```


# Arbol de decisión


El árbol de decisión es una secuencia de operadores relacionales que actuan sobre los atributos y que se organizan como un árbol
- Los nodos "hoja" están asociados a una etiqueta (clasificación)
- Los nodos intermedios separan los datos (splits)
- Las separaciones se seleccionan usando la ganancia de información (entropy) o el índice de gini

En `scikit-learn` usamos el módulo `tree` que tiene árboles para clasificación y regresión

El constructor del árbol de decisión es

```python
sklearn.tree.DecisionTreeClassifier(criterion='gini', # Criterio para separar un nodo 'gini' o 'entropy' 
                                    max_depth=None, # Profunidad máxima del árbol
                                    max_leaf_nodes=None, # Cantidad máxima de nodos hoja
                                    max_features=None, # Cuantos atributos considerar en cada separación
                                    class_weight=None, # Ponderación de clase: "balanced" o None
                                   ...
                                   )
```


## Buscando el mejor árbol usando validación


### Usando  `KFold`

Seleccionemos el mejor valor del parámetro `max_depth` usando validación cruzada

Probaremos 9 valores distintos e imprimiremos la correctitud promedio y su desviación estándar

En este caso el mejor valor para ser $5$

In [None]:
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeClassifier

kf = KFold(n_splits=5) # 5 particiones

for max_depth in range(1, 10): # para cada profundidad
    clf = DecisionTreeClassifier(max_depth=max_depth, random_state=1234)
    # crear 5 splits
    score = np.zeros(shape=(kf.get_n_splits(), ))
    for i, (train_index, valid_index) in enumerate(kf.split(x)):
        # entrenar en 4 
        clf.fit(x[train_index], y[train_index])
        # validar en 1 fold
        score[i] = clf.score(x[valid_index], y[valid_index])
    print(f"profundidad {max_depth}:\t correctitud: {np.mean(score):0.4f} +- {np.std(score):0.4f}")

### Usando `GridSearchCV`

Cuando la cantidad de parámetros crece la validación puede volverse un poco engorrosa

Podemos automatizar este proceso usando la clase `GridSearchCV` de `model_selection`

El constructor de esta clase

```python
sklearn.model_selection.GridSearchCV(estimator, # Modelo clasificador
                                     param_grid, # Grilla de parámetros escrita como diccionario
                                     scoring=None, # Función o métrica que se usará para evaluar el modelo
                                     n_jobs=None, # Número de nucleos de CPU 
                                     cv=None, # Número de splits de validación cruzada
                                     ...
                                    )
```

Los atributos más importantes son

- `fit(x, y)`: Entrena el estimador en los distintos splits y busca el mejor
- `best_params_`: Retorna los mejores parámetros luego de que se ha hecho `fit`
- `best_estimator_`: Retorna el mejor clasificador luego de que se ha hecho `fit`

Por ejemplo para el caso anterior

In [None]:
from sklearn.model_selection import GridSearchCV

params = {'criterion': ('entropy', 'gini'), 
          'max_depth': range(1, 10)}

dts = GridSearchCV(DecisionTreeClassifier(), params, cv=5)
dts.fit(x, y)

print(dts.best_params_)

El desempeño del mejor árbol

In [None]:
fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)

plot_confusion_matrix(dts.best_estimator_, x, y,
                      ax=ax, display_labels=np.array(['Benigno', 'Maligno']), 
                      cmap=plt.cm.Blues, normalize=None);