<!--NAVIGATION-->
<a href="https://colab.research.google.com/github/marcoteran/machinelearning/blob/master/notebooks/01_machinelearning/01_artificialintelligence_machinelearning.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab" title="Abrir y ejecutar en Google Colaboratory"></a>

### Ejemplo de código
# Sesión 01: Clasificación binaria usando un modelo lineal (Demo)
## Inteligencia Artificial

**Name:** Marco Teran **E-mail:** marco.tulio.teran@gmail.com,
[Website](http://marcoteran.github.io/),
[Github](https://github.com/marcoteran),
[LinkedIn](https://www.linkedin.com/in/marcoteran/).
___

El **Aprendizaje de Máquina** se concentra en la construcción y estudio de sistemas que puedan *aprender* de los datos. El problema principal consiste en *encontrar patrones, relaciones y regularidades* sobre los datos, los cuales le permitan construir modelos descriptivos y predictivos. Una aplicación muy común del Aprendizaje de Máquina consiste en la detección de *spam*, en el cual un modelo recibe un nuevo correo y lo etiqueta como spam o no.

Para construir un modelo de este tipo, se deben tener en cuenta dos conceptos claves:
- El primero es que el modelo debe debe realizar un **proceso automático de clasificación**, sin que el usuario le especifique de forma explicita la forma en la que la clasificación se lleve a cabo. *Por ejemplo*, el modelo recibe ejemplos de correos que son spam y ejemplos de correos que no lo son.
- El segundo concepto consiste en que el modelo debe tener capacidad de **generalización**, es decir, el modelo debe ser capaz de predecir sobre datos nunca antes vistos. En el ejemplo del filtrado de spam, estamos interesados en *clasificar* de forma automática los correos que vayan llegando a la bandeja del usuario.

A continuación abordaremos un problema de clasificación binaria sobre un subconjunto del conjunto de datos IRIS.
___

# Un problema de clasificación de dos clases

El siguiente código va a cargar un conjunto de datos [(IRIS)](https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html) que nos va a servir para ilustrar en que consiste un problema de clasificación y como resolverlo con un modelo de machine learning. Por ahora no nos vamos a preocupar de donde vienen los datos y como se procesan.

### El conjunto de datos de Iris
Este conjunto de datos consta de **3 tipos diferentes** de iris *[(Setosa, Versicolour y Virginica)](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris)* de longitud de pétalos y sépalos, almacenados en un ```numpy.ndarray``` de 150x4.
- Las filas son las muestras y las columnas son: Longitud del sépalo, Ancho del sépalo, Longitud del pétalo y Ancho del pétalo.
- El siguiente gráfico utiliza las dos primeras características. Consulte aquí para obtener más información sobre este conjunto de datos:

<p float="left">
  <img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_iris_dataset_001.png" width="40%" />
  <img src="https://scikit-learn.org/stable/_images/sphx_glr_plot_iris_dataset_002.png" width="40%" /> 
    
</p>
<img src="https://github.com/marcoteran/machinelearning/raw/master/notebooks/01_machinelearnig/figures/iris_dataset.png" width="60%"> 
___

In [None]:
%matplotlib inline

import numpy as np
import pylab as pl
from sklearn import preprocessing
from sklearn import datasets
iris = datasets.load_iris()

def plot_data(X, y):
    y_unique = np.unique(y)
    colors = pl.cm.rainbow(np.linspace(0.0, 1.0, y_unique.size))
    for this_y, color in zip(y_unique, colors):
        this_X = X[y == this_y]
        pl.scatter(this_X[:, 0], this_X[:, 1],  c=color.reshape(1,-1),
                    alpha=0.5, edgecolor='k',
                    label="Class %s" % this_y)
    pl.legend(loc="best")
    pl.title("Data")

y = 2*iris.target[iris.target != 0] - 3
X_noscale = iris.data[:,[1, 3]]
X_noscale = X_noscale[iris.target != 0, :]
X = preprocessing.scale(X_noscale) # estándariza los datos eliminando la media y escalando los datos de forma que su varianza sea igual a 1


pl.figure(figsize=(8, 6))
pl.xlabel('Sepal Width')
pl.ylabel('Petal Width')
plot_data(X_noscale, y)

Los datos deben ser presentados como arreglos bi-dimensionales de números. Cada fila corresponde a una instancia de entrenamiento, sobre la cual queremos aprender o hacer una predicción sobre sus datos.

Verifiquemos el tamaño de cada arreglo construído

In [None]:
print(X.shape)
print(y.shape)

In [None]:
unique, counts = np.unique(y, return_counts=True)

print(list(zip(unique, counts)))

Observamos que cada clase tiene 50 ejemplos en total. los datos de una clase se representan con una etiqueta positiva, +1, y los de la otra clase con una etiqueta positiva, +1.

In [None]:
print(y)

## Pregunta
**¿Cómo diferenciamos entre ambas clases de manera automática?**

Es decir si me dan un nuevo ejemplo, quiero poderlo clasificar en uno de estas dos clases.
___

# Clasificación usando un modelo lineal

## Discriminación lineal

* Nuestro modelo de clasificación es una función que recibe un ejemplo $x$ y retorna la predicción. Esta función se basa en una función (llamada discriminante) $f:\mathbb{R}^{2}\rightarrow\mathbb{R}$ tal que:
$$\textrm{Predicción}(x)=\begin{cases}
C_{1} & \mbox{si }f(x)\ge \theta\\
C_{2} & \mbox{si }f(x)<\theta
\end{cases}$$

* Para el caso de discriminación lineal, definimos $f$ como un modelo lineal con parámetros $w$ y $w_0$:
$$f(x) = P(C_1|x)= wx+w_0$$

### Problemas

* **¿Cómo encontrar $f$?**

* **¿Cómo estimamos $w$ y $w_0$?**

## Funciones de pérdida

La pérdida (loss en inglés) es la penalidad por una predicción errada. En otras palabras, la pérdida indica qué tan errada fue la predicción de un modelo en un ejemplo. Si la predicción de mi modelo es perfecta, la pérdida es **cero**, de lo contrario, la pérdida va a ser un número mayor a cero.

Una función de pérdida muy común es la pérdida cuadrática:
$$ L(f, D) =\sum_{(x_{i},r_{i})\in D} (r_i - f(x_i))^2 $$

donde:
* $(x_{i},r_{i})$ es un ejemplo en el cual $x_i$ corresponde a un conjunto de características. En nuestro conjunto de datos, corresponde a las 2 características extraídas de una flor (Ancho del sépalo y ancho del pétalo). Estas características son usadas por el modelo para hacer predicciones. $r_i$ corresponde a la etiqueta del ejemplo, por ejemplo la especie de la flor.
* $f(x_i)$ corresponde a la función de predicción que definimos previamente. Esta función es de la forma $f(x) = wx+w_0$.
* $D$ corresponde al conjunto de datos compuesto por varios ejemplos anotados. 

## Aprendizaje como optimización

* Estimar los parámetros $w$ y $w_0$ puede ser abordado como un problema de optimización que consiste en:
$$\min_{f\in H}L(f,D)$$
dónde $L(f, D)$ es la función de pérdida cuadrática. Esto se resume en encontrar una función $f$ que genere el valor mínimo de pérdida promedio con respecto a todos los ejemplos del conjunto de datos.
* La función $f$ proviene de una conjunto de funciones llamado el espacio de hipótesis:
$$H=\{f_w(x,y)=wx+w_0,\forall w\in\mathbb{R}^n \ y \ w_0\in\mathbb{R}\}$$
dónde $w$ y $w_0$ son los coeficientes de la función $f(x) = wx+w_0$.
* La función de pérdida nos ayuda a estimar qué tan mal se comporta una función $f$ del espacio de hipótesis con respecto al conjunto de datos $D$.

A continuación, definimos en Python las funciones de predicción y pérdida, para nuestro problema.

In [None]:
def predict(w, x):
    a = np.dot(w[1:], x) + w[0]
    return a

In [None]:
def square_loss(w, x, y):
    return (y - predict(w, x)) ** 2 / 2

def batch_loss(loss_fun, w, X, Y):
    n = X.shape[0]
    tot_loss = 0
    for i in range(n):
        tot_loss += loss_fun(w, X[i], Y[i])
    return tot_loss

Supongamos $w$ y $w_0$:
* $w = [5, 2]$
* $w_0 = 1$

Escogemos el primer ejemplo de nuestro conjunto de datos Iris:

In [None]:
w = [1, 5, 2] # Por facilidad, w[0] es igual a w_0
x = X[0] # Primer ejemplo de nuestro conjunto de datos IRIS.
label = y[0]

print('Características: {}'.format(X[0]))
print('Etiqueta real: {}'.format(y[0]))
print('Función discriminante: {}'.format(predict(w, x)))


Puesto que el valor de la función discriminante es $f(x)>0$, la clase predicha es positiva.
Ahora, estimamos el valor de pérdida usando esos valores de $w$ y $w_0$

In [None]:
print('Pérdida: {}'.format(square_loss(w, x, label)))

¿Qué pasa si modificamos uno de los parámetros $w$?

In [None]:
w_p = [1, 5, 3]

print('Etiqueta: {}'.format(y[0]))
print('Predicción: {}'.format(predict(w_p, x)))
print('Pérdida w_p: {}'.format(square_loss(w_p, x, label)))

Observamos que nuestra pérdida bajó de $15.94$ a $12.47$. Sin embargo, estamos interesados en automatizar este proceso. Primero vamos a observar cómo se comporta la función de pérdida cuadrática.

## Analizando la función de pérdida cuadrática

A continuación, definimos un par de funciones de python para poder visualizar la función de pérdida

In [None]:
def plot_loss(loss):
    w1_vals = np.linspace(-5, 5, 30)
    w2_vals = np.linspace(-5, 5, 30)
    W1, W2 = np.meshgrid(w1_vals, w2_vals)
    grid_r, grid_c = W1.shape
    ZZ = np.zeros((grid_r, grid_c))
    for i in range(grid_r):
        for j in range(grid_c):
            ZZ[i, j] = loss(W1[i, j], W2[i, j])
    pl.contourf(W1, W2, ZZ,30, cmap = pl.cm.jet)
    pl.colorbar()
    pl.xlabel("w1")
    pl.ylabel("w2")

def bloss_square(w1, w2):
    w = np.array([1, w1, w2])
    return batch_loss(square_loss, w, X, y)

In [None]:
plot_loss(bloss_square)

Intepretación: Observamos que el valor mínimo de nuestra función de pérdida se encuentra alrededor de:
* $w_1 = 0.0$
* $w_2 = 1.0$

## ¿Cómo resolver el problema de aprendizaje?

* Existen varios enfoques:
    * Optimización lineal
    * Optimización convexa
    * Optimización no-lineal
    * Optimización combinatoria
* No existe una estrategia de optimización que funcione para todos los problemas. [No free lunch theorem](https://en.wikipedia.org/wiki/No_free_lunch_theorem)
* **En este caso vamos a usar gradiente descendente** 

## Gradiente descendente

* Ventajas:
  * Óptimo global garantizado
  * Simplicidad del método
  * Facilidad para ajustar los parámetros
  * Escalabilidad
  * Paralelización potencial.
* En aprendizaje de máquina, las preferencias cambian sobre el tiempo.
* Hoy en día es escalable. Inclusive, la estrategias paralelizables son preferidas a sabiendas de la optimalidad garantizada.

Minimizar la función $L(f, D)$, donde $f$ es nuestra función de predicción resulta ser un problema convexo, es decir, existe solo un lugar donde la inclinación de la curva de pérdida es igual a cero. Ese valor mínimo es dónde nuestra función de pérdida $L$ **converge**.

Por otro lado, calcular el valor de la función de pérdida para cada posible valor de $w$ sobre el conjunto de datos es una forma muy ineficiente de hallar ese valor de convergencia. Gradiente descendente es un mecanismo iterativo que nos permite hayar ese valor de convergencia.

<img src="https://github.com/marcoteran/machinelearning/raw/master/notebooks/01_machinelearnig/figures/gradient_on_surface.png" width="60%">

### Algoritmo gradiente descendente:

* Paso 1: Escogemos un valor inicial o punto de partida. Puede ser cero o un valor aleatorio. Este valor inicial no tiene relevancia para este problema. 
* Paso 2: Calculamos el **gradiente de la función de pérdida** para el punto de partida. El gradiente de la pérdida me indica la derivada (inclinación) de la curva. El gradiente a su vez es un vector, por lo tanto tiene **dirección** y **magnitud**, esta dirección siempre apunta hacía donde se genera el mayor incremento en la función de pérdida. 
* Paso 3: Calculamos un nuevo valor $w$ cambiándolo en la dirección negativa del gradiente, con el objetivo reducir la pérdida lo más pronto posible.
* Paso 4: El nuevo valor de $w$ también estará determinado por la magnitud del gradiente y una **taza de aprendizaje** $\eta$. Por ejemplo, si la magnitud del gradiente es 2.5 y la taza de aprendizaje es 0.01, gradiente descendente escogerá un punto $w$ que esté alejado 0.025 unidades del punto anterior $w$. Para el calculo de $w$ usaremos la siguiente formula:
$$
w = w - \eta \frac{\partial L}{\partial w}
$$
* Repetir desde el Paso 1.

#### Problemas

* ¿Qué pasa si el tamaño de nuestro paso es muy grande y no alcanza el minimo local?

<img src="https://github.com/marcoteran/machinelearning/raw/master/notebooks/01_machinelearnig/figures/lr.png" width="60%">

La elección de una tasa de aprendizaje alta puede terminar en que nunca alcanzemos el punto de convergencia. Pero una tasa muy pequeña puede llevar a que tome mucho tiempo llegar al mínimo global





### ¿Cómo se calcula el gradiente?

$$
\begin{aligned}L(f,D) & = \sum_{(x_{i},r_{i})\in D} (r_i - f(x_i))^2 \\
 & =\sum_{(x_{i},r_{i})\in D}E(w, x_i, r_i)
\end{aligned}
$$
Si $f_w$ es la función que definimos antes:
$$
\frac{\partial E(w,x_{i,}r_{i})}{\partial w}=(f_{w}(x_{i})-r_{i})x_{i}
$$

A continuación, definimos una función `de_dw` que corresponde el derivadas parciales de $E$ con respecto a los coeficientes $w$.

In [None]:
def de_dw(w, x, r):
    x_prime = np.zeros(len(x) + 1)
    x_prime[1:] = x
    x_prime[0] = 1
    return (predict(w, x) - r) * x_prime

## Gradiente descendente en batch

Para estimar el gradiente, lo hacemos a lo largo de todos nuestro conjunto de datos. Puesto que solo contamos con 100 ejemplos, es relativamente rápido hacer este calculo. Sin embargo, en la pŕactica puede ser ineficiente si se cuenta con un gran número de ejemplos de entrenamiento.

In [None]:
def batch_gd(X, Y, epochs, eta, w_ini):
    """
    X: instancias del conjunto de datos
    Y: etiquetas del conjunto de datos
    epochs: número de iteraciones para ejecutar gradiente descendente
    eta: taza de aprendizaje
    w_ini: w y w_0 iniciales
    
    """
    losses = []
    w = w_ini 
    n = X.shape[0]
    for i in range(epochs): 
        delta = np.zeros(len(w))
        for j in range(n):
            delta += de_dw(w, X[j], Y[j]) # Vamos sumando el gradiente por cada ejemplo en el conjunto de datos
        w = w - eta * delta # Calculamos el nuevo valor de w
        losses.append(batch_loss(square_loss, w, X, Y)) # Vamos guardando el valor de pérdida para visualizar luego
    return w, losses

Vamos a ejecutar gradiente descendente en batch con los siguientes parámetros:
* $epochs = 50$
* $w_0 = 0$ ($w_0$ inicial)
* $w = [0, 0]$ ($w$ inicial)
* $\eta = 0.01$ (tasa de aprendizaje)

In [None]:
w, losses = batch_gd(X, y, 50, 0.01, np.array([0, 0, 0]))
pl.figure(figsize = (8,16/3))
pl.plot(losses)

# Gradiente descendente estocástico (SGD)


Cuando trabajamos con grandes conjuntos de datos, se vuelve poco práctico el calculo del gradiente sobre todo el conjunto de datos. Una forma de disminuir el tiempo de computación es escogiendo muestras al azar de nuestro conjunto de datos, que nos generan un estimado en promedio del gradiente promedio. SGD toma entonces una muestra de forma aleatoria a la vez y estima el valor del gradiente para esa muestra. A pesar de ser ruidoso, SGD funciona bastante bien en la práctica.

In [None]:
 def sgd(X, Y, epochs, eta, w_ini):
    """
    X: instancias del conjunto de datos
    Y: etiquetas del conjunto de datos
    epochs: número de iteraciones para ejecutar
            gradiente descendente
    eta: tasa de aprendizaje
    w_ini: w y w_0 iniciales
    
    """
    losses = []
    w = w_ini
    n = X.shape[0]
    for i in range(epochs):
        for j in range(n):
            delta = de_dw(w, X[j], Y[j]) # Aquí estimamos el gradiente para cada elemento pero no para todo el dataset
            w = w - eta * delta
        losses.append(batch_loss(square_loss, w, X, Y))
    return w, losses

A continuación, comparamos el comportamiento de Gradiente Descendente en Batch y Estocástico. Observamos que tienen un comportamiento similar para nuestro problema de clasificación de dos clases.

In [None]:
lr = 0.005
epochs = 500
w1, losses_bt = batch_gd(X, y, epochs, lr, np.array([0, 0, 0])) #Batch
w2, losses_ol = sgd(X, y, epochs, lr, np.array([0, 0, 0])) #SGD
pl.figure(figsize = (8,16/3))
pl.plot(np.arange(epochs), losses_ol, label="SGD")
pl.plot(np.arange(epochs), losses_bt, label="Batch")
pl.xlabel("Epoch")
pl.ylabel("Loss")
pl.legend()

## Visualización de la función de predicción

Es útil poder visualizar qué regiones de nuestro espacio en 2D son asignadas a la clase positiva y a la clase negativa. Para eso escribimos una función que nos permite visualizar:

In [None]:
def plot_decision_region(X, pred_fun):
    """
    X: corresponde a las instancias de nuestro conjunto de datos
    pred_fun: es una función que para cada valor de X, me regresa una predicción
    """
    min_x = np.min(X[:, 0])
    max_x = np.max(X[:, 0])
    min_y = np.min(X[:, 1])
    max_y = np.max(X[:, 1])
    min_x = min_x - (max_x - min_x) * 0.05
    max_x = max_x + (max_x - min_x) * 0.05
    min_y = min_y - (max_y - min_y) * 0.05
    max_y = max_y + (max_y - min_y) * 0.05
    x_vals = np.linspace(min_x, max_x, 30)
    y_vals = np.linspace(min_y, max_y, 30)
    XX, YY = np.meshgrid(x_vals, y_vals)
    grid_r, grid_c = XX.shape
    ZZ = np.zeros((grid_r, grid_c))
    for i in range(grid_r):
        for j in range(grid_c):
            ZZ[i, j] = pred_fun(XX[i, j], YY[i, j])
    pl.contourf(XX, YY, ZZ, 30, cmap = pl.cm.coolwarm, vmin= -1, vmax=2)
    pl.colorbar()
    pl.xlabel("x")
    pl.ylabel("y")

In [None]:
def gen_pred_fun(w):
    def pred_fun(x1, x2):
        x = np.array([x1, x2])
        return predict(w, x)
    return pred_fun

Visualizemos el caso donde nuestros coeficiente sean de la forma:
* $w_0 = 0$
* $w = [0.6, 1]$

In [None]:
w = [0, 0.6, 1]

pl.figure(figsize = (8,16/3))    
plot_decision_region(X, gen_pred_fun(w))
plot_data(X, y)

Nada útil, sin embargo si visualizamos el resultado luego de aplicar SGD:

In [None]:
lr = 0.005
epochs = 500
w, _ = sgd(X, y, epochs, lr, np.array([0, -1, 2])) #SGD

pl.figure(figsize = (8,16/3))    
plot_decision_region(X, gen_pred_fun(w))
plot_data(X, y)

In [None]:
w