In [None]:
from IPython import display

In [None]:
from IPython.core.display import Image

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import multivariate_normal, norm

In [None]:
def genera_ejemplo_p():
    x = np.array([10, 15, 20])
    y = np.array([5,9,8])
    xt = 25
    return x, y, xt

def genera_ejemplo_g():
    x = np.array([10, 15, 20, 8, 17, 18])
    y = np.array([5, 9, 8, 12, 6, 3])
    xt = 25
    return x, y, xt

def pinta_ejemplo(x, y, xt, aa):
    n = x.shape[0]
    aa.scatter(x,y, s=60, label='datos')
    aa.scatter(x,np.zeros(n),marker='x',s=40)
    for ii in range(n):
        aa.plot(np.array([x[ii],x[ii]]),
                np.array([0, y[ii]]),
                linestyle='--',color='blue')
    aa.grid()
    aa.scatter(xt,0,marker='s',color='green',s=60, label='$x_t$')
    aa.set_xlabel('Observaciones')
    aa.set_ylabel('target')
    _ = aa.legend()

# Introducción al aprendizaje Automático

### Fundamentos de Aprendizaje Automático 

#### Enero 2025

**Emilio Parrado Hernández, Vanessa Gómez Verdejo, Pablo Martínez Olmos**

Departamento de Teoría de la Señal y Comunicaciones

**Universidad Carlos III de Madrid**

<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Contenidos

- Introducción al aprendizaje automático
- Relación entre aprendizaje automático e inteligencia artificial y otras disciplinas
- Diferencias entre algoritmos y modelos
- Capacidades predictivas y descriptivas
- Tipos de aprendizaje automático
- Repaso de notebooks y python


<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Contexto del aprendizaje automático

<img src='./img/datasicence.png' width=600 />

<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Definiciones de aprendizaje automático

El aprendizaje automático se ocupa del estudio de programas informáticos capaces de **aprender** de modo autónomo **a partir de colecciones de datos**.

## Aprender 
1. Partimos de un **modelo**: **programa** que tiene un conjunto de parámetros libres 
 
2. Proceso de **optimización** mediante el cuál un **algoritmo** se encarga de asignar a estos parámetros libres unos valores que hagan que el modelo en cierta medida **explique los datos**

3. El modelo ya aprendido puede **explotarse** para hacer **predicciones** acerca de datos de test (no usados para entenar)

<img src='./img/logo_uc3m_foot.jpg' width=400 />


### Ejemplo

Supongamos una zapatería *futurista* donde se va a instalar el siguiente módulo de **inteligencia artificial** para ayudar a los dependientes:

1. Sensor en la puerta que mide la altura de cada cliente que entre en la tienda
2. *Software* que a partir de la altura **estima** el tamaño del pie de ese cliente
3. *Software* que carga en los dispositivos móviles de los dependientes (tablet, smartphone, etc) la estimación de tamaño de pie para que sea más fácil atender a cada cliente.

<img src='./img/logo_uc3m_foot.jpg' width=400 />


### Ejemplo, obtención de datos

<img src='./img/height_foot_1.png' width=400 />


<img src='./img/logo_uc3m_foot.jpg' width=400 />


### Ejemplo: modelo

El modelo es una función matemática que nos permite hacer estimaciones del tamaño del pie a partir de la altura:

$$
\mbox{longitud del pie en cm.} = f(\mbox{altura en cm.})
$$

<img src='./img/height_foot_2.png' width=400 />


<img src='./img/logo_uc3m_foot.jpg' width=400 />


### Ejemplo: alternativas al modelo básico


<img src='./img/height_foot_2.png' width=200 /> | <img src='./img/height_foot_3.png' width=200 />
:---------------------:|:---------------------:
<img src='./img/height_foot_4.png' width=200 /> | <img src='./img/height_foot_5.png' width=200 />

<img src='./img/logo_uc3m_foot.jpg' width=400 />


## Definiciones alternativas
- Estadística con esteroides
- Elegir un modelo y optimizarlo con *early stopping*
- *Garbage in, garbage out*

<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Algunas aplicaciones del aprendizaje automático
<img src='./img/aplicaciones_ml.png' width=800 />

<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Paradigmas de aprendizaje automático

- Aprendizaje supervisado
- Aprendizaje no supervisado
- Aprendizaje por refuerzo
- Aprendizaje incremental vs. *batch*
- Aprendizaje adaptativo
- Aprendizaje activo

<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Aprendizaje supervisado

- Observaciones + valor deseado (*target*) para cada observación
- Aprende una relación 1 a 1 entre observaciones y *targets*.
- Se hace una predicción por cada *target*
- Ejemplos: *random forest*, *SVM*, procesos Gaussianos, regresores lineales
- Aplicaciones: cualquier problema que se reduzca a aprender una **función** $y=f(\mathbf x)$
 - *scores* para recomendaciones de *netflix*, *spotify*, etc
 - sistemas de concesiones de créditos, seguros, etc
 - reconocimiento de caras, huellas, etc
 - filtrado de correos electrónicos, noticias, etc
 - sistemas de ayuda a la diagnosis en aplicaciones clínicas
 - OCR

 <img src='./img/logo_uc3m_foot.jpg' width=400 />

# Aprendizaje  no supervisado

- No se dispone de un *target* para cada observación
- Detectar o descubrir **patrones** tales como grupos en las observaciones.
- Se hace una predicción por cada *observación*
- Ejemplos típicos: *K means*, *PCA*, *spectral clustering*, *CCA*
- Aplicaciones:
 - agrupar colecciones de datos
 - limpieza de *outliers*
 - segmentar vídeo o audio
 - segmentación de clientes
 - organización de colecciones de documentos
 - aprendizaje de funciones de densidad de probabilidad

 <img src='./img/logo_uc3m_foot.jpg' width=400 />



# Aprendizaje por refuerzo
- Los datos están formados por **secuencias** de observaciones/decisiones que desembocan en una **recompensa**
- Se aprende una **estrategia** para encadenar una secuencia de decisiones que maximicen la recompensa global
- Aplicaciones:
 - Conducción autónoma
 - Robótica
 - Videojuegos y juegos de mesa
 - diseño de estrategias de *trading*


<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Aprendizaje  incremental vs. *batch*

- Condicionado por el problema de optimización que haya que resolver
- **Batch** se dispone de una vez del conjunto completo de datos de entrenamiento. 
 - Generalmente es el caso cuando buscamos una optimización que nos dé un modelo globalmente óptimo
- **Incremental** no se dispone del conjunto de datos de entrenamiento completo
 - Estrategia a emplear cuando el procesador en el que se ejecuta el algoritmo de entrenamiento no puede con todos los datos a la vez

<img src='./img/logo_uc3m_foot.jpg' width=400 />


# Aprendizaje adaptativo

- Los datos de entrenamiento/test llegan de uno en uno. 
- Para cada dato que llega 
 - Primero se hace una predicción
 - A continuación se hace una actualización del modelo teniendo en cuenta el error cometido en la última predicción
- Es un *aprendizaje continuo* que necesita establecer un compromiso entre **recordar/olvidar** datos pasados
- En escenarios donde la estadística de los datos es **no estacionaria** se pueden seguir dos estrategias principales:
 - **reentrenar** el modelo con datos *frescos* cada cierto tiempo
 - usar un algoritmo de aprendizaje **adaptativo** que vaya modificando los parámetros libres del modelo para adecuarse a las variaciones en los datos.

 <img src='./img/logo_uc3m_foot.jpg' width=400 />

# Aprendizaje activo

- Ideal en aplicaciones donde el coste de etiquetar los datos sea elevado
- El algoritmo de entrenamiento tiene acceso a un conjunto de datos **sin etiquetar** y a un **oráculo** capaz de proporcionar etiquetas para esos datos.
- Modo de **aprendizaje incremental** donde después de cada iteración el algoritmo de entrenamiento **elige** cuál de los datos no etiquetados va a ser procesado en la siguiente iteración y pide una etiqueta para ese dato al oráculo.

<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Problemas que se resuelven con aprendizaje automático

Paso clave: traducir el problema de negocio a uno de estos *problemas tipo*

- Con supervisión:
 - Clasificación
 - Regresión
 - Ranking
- Sin supervisión
 - Agrupamiento
 - Estimación de una densidad de probabilidad
 - Detección de novedad
- Transformaciones de los datos
- Aprendizaje por refuerzo

<img src='./img/logo_uc3m_foot.jpg' width=400 />

# Tipos/filosofías de modelado

## Paramétrico vs. no paramétrico
- **Paramétrico**: el número de parámetros libres del modelo no depende del conjunto de entrenamiento
 - Regresores lineales, clasificador de regresión logística, agrupamiento *k medias*
- **No paramétrico**: el número de parámetros libres depende del conjunto de entrenamiento
 - k vecinos más próximos, *Support Vector Machine (SVM)*
 
Pero existe una escala de grises entre métodos claramente paramétricos y métodos claramente no paramétricos : *random forest*, *modelos de mezclas de Gaussianas*

<img src='./img/logo_uc3m_foot.jpg' width=400 />

## Modelos generativos vs. discriminativos
- **Generativos**: Estimar función de densidad de probabilidad (fdp) que genera los datos y buscar la **solución óptima** para el problema **completamente caracterizado**.
 - *Linear Discriminant Analysis*
- **Discriminativos**: usar los datos para aprender una función $y=f(\mathbf x)$ que resuelva el problema para los **datos de entrenamiento**
 - SVM

 <img src='./img/logo_uc3m_foot.jpg' width=400 />

# Ejemplo de modelo paramétrico vs. no paramétrico

Planteamos un problema (*toy problem*) de regresión en 1D. Tenemos 3 observaciones en 1 dimensión (cruces naranjas en la figura), los targets son los círculos azules y el objetivo es encontrar el target para la observación que está en el cuadrado verde, que hemos llamado $x_t$.

<img src='./img/logo_uc3m_foot.jpg' width=400 />



In [None]:
x,y,xt = genera_ejemplo_p()
ff,aa = plt.subplots(1,1)
pinta_ejemplo(x,y,xt, aa)

## Modelo paramétrico
Vamos a resolver el problema primero aplicando un método **paramétrico** de regresión: la **regresión lineal**.


Este modelo, conocido por todos, depende de dos parámetros:
- la pendiente $a$ y 
- el término de sesgo $b$.

La función que relaciona observaciones con targets viene dada por 
$$
y = ax + b
$$
donde $x$ son las observaciones e $y$ los targets correspondientes a esas observaciones.



El **algoritmo** de entrenamiento debe encontrar valores para $a$ y $b$ tales que expliquen los datos, es decir, que el error que se cometa al estimar los targets $y$ con el **modelo** $ax+b$ sea mínimo:
$$
\mbox{error } = (y - (ax+b))^2
$$

Para no hacer *spoliers* de la clase de regresión vamos a emplear un algoritmo de optimización bastante rudimentario:
1. Elegir 5 valores al azar para la pareja de parámetros $(a,b)$. Son los candidatos a modelo
2. Evaluar el error que cometemos al intentar modelar las observaciones con cada uno de los candidatos a modelo
3. Determinar como modelo final el de menor error y usarlo para estimar el target $y_t$ correspondiente a $x_t$

In [None]:
np.random.seed(1234)
# Elegir candidatos
n_candidatos =5
B = np.round(np.random.uniform(-1,10,size=n_candidatos),2)
A = np.round(np.random.uniform(-.5,.5,size=n_candidatos),2)

ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)

xg = np.array([8,30])
for ii in range(n_candidatos):
    yg = A[ii] * xg  + B[ii]
    aa.plot(xg, yg, linestyle=':', linewidth=2, label="c{0:d}".format(ii))

_=aa.legend()

In [None]:
# Evaluar el error de cada candidato
E = np.empty(n_candidatos)
for ii in range(n_candidatos):
    pred = A[ii] * x + B[ii]
    E[ii] = np.sum((y - pred)**2)
    print("Candidato c{0:d}, error: {1:.2f}".format(ii,E[ii]))
# Mejor candidato
best_c = np.argmin(E)
print("------------------------")
print("El mejor candidato es c{0:d} ".format(best_c))

In [None]:
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)

xg = np.array([8,30])
for ii in range(n_candidatos):
    yg = A[ii] * xg  + B[ii]
    aa.plot(xg, yg, linestyle=':')
yg = A[best_c] * xg  + B[best_c]
aa.plot(xg, yg, linewidth='2', label='mejor c')

_=aa.legend()

In [None]:
print("Valores escogidos para los parámetros: a = {0:.2f}; b = {1:.2f}".format(A[best_c], B[best_c]))

Inferencia sobre el valor de $y_t$ cuando la observación es $x_t$

In [None]:
yt = A[best_c] * xt + B[best_c]

In [None]:
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)
xg = np.array([8,30])
yg = A[best_c] * xg  + B[best_c]
aa.plot(xg, yg, linewidth='2', label='modelo', color='brown')

aa.plot(np.array([xt,xt]),
            np.array([0, yt]),
            linestyle='--',color='green')
aa.scatter(xt,yt, s=60, label='$y_t$', color='green')
_=aa.legend()

Decimos que el método es paramétrico porque el número de parámetros no cambia si variamos el conjunto de entrenamiento. Veamos qué ocurre si aparecen nuevos datos de entrenamiento

In [None]:
x,y,xt = genera_ejemplo_g()
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)
xg = np.array([8,30])
yg = A[best_c] * xg  + B[best_c]
aa.plot(xg, yg, linewidth='2', label='modelo', color='brown', linestyle=':')

aa.plot(np.array([xt,xt]),
            np.array([0, yt]),
            linestyle='--',color='green')
aa.scatter(xt,yt, s=60, label='$y_t$', color='green')
_=aa.legend()

Ahora es necesario volver a emplear el **algoritmo** para recalibrar el modelo y que explique también los nuevos datos

In [None]:
n_candidatos = 5
B = np.round(np.random.uniform(5,15,size=n_candidatos),2)
A = np.round(np.random.uniform(-.5,.5,size=n_candidatos),2)

ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)

xg = np.array([6,30])
for ii in range(n_candidatos):
    yg = A[ii] * xg  + B[ii]
    aa.plot(xg, yg, linestyle=':', linewidth=2, label="c{0:d}".format(ii))

_=plt.legend()

In [None]:
# Evaluar el error de cada candidato
E = np.empty(n_candidatos)
for ii in range(n_candidatos):
    pred = A[ii] * x + B[ii]
    E[ii] = np.sum((y - pred)**2)
    print("Candidato c{0:d}, error: {1:.2f}".format(ii,E[ii]))
# Mejor candidato
best_c = np.argmin(E)
print("------------------------")
print("El mejor candidato es c{0:d} ".format(best_c))

In [None]:
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)
xg = np.array([8,30])
for ii in range(n_candidatos):
    yg = A[ii] * xg  + B[ii]
    aa.plot(xg, yg, linestyle=':')
yg = A[best_c] * xg  + B[best_c]
aa.plot(xg, yg, linewidth='2', label='mejor c')

_=plt.legend()

In [None]:
print("Valores escogidos para los parámetros: a = {0:.2f}; b = {1:.2f}".format(A[best_c], B[best_c]))

In [None]:
yt = A[best_c] * xt + B[best_c]

In [None]:
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)

xg = np.array([8,30])
yg = A[best_c] * xg  + B[best_c]
plt.plot(xg, yg, linewidth='2', label='modelo', color='brown')

plt.plot(np.array([xt,xt]),
            np.array([0, yt]),
            linestyle='--',color='green')
plt.scatter(xt,yt, s=60, label='$y_t$', color='green')
_=plt.legend()

El algoritmo puede que necesite más tiempo para aprender el modelo, pero el número de parámetros no cambia, y por tanto el **tiempo que se tarde en hacer la inferencia para $x_t$ tampoco cambia**.

Hemos elegido el modelo $y=ax+b$ con conocimiento *a priori*, antes de ver los datos. Si nuestra intuición a priorística fuese diferente, p. ej. dependencia como un polinomio de orden 2, pues tendríamos que cambiar el modelo y aprender otro juego diferente de parametros con los datos, por ejemplo $y=ax^2+bx+c$.

## Modelo no paramétrico

**El vecino más próximo** (*nearest neighbour*) es posiblemente uno de los métodos menos paramétricos que podemos encontrarnos. El modelo no tiene **ningún parámetro**, y lo único que asume es que si dos observaciones son muy parecidas (son vecinas) sus correspondientes *targets* también van a ser parecidos.

Por tanto, el **modelo** de un regresor basado en el vecino más próximo consiste en una tabla en la que se guardan todas las observaciones del conjunto de entrenamiento y sus correspondientes *targets*. La **predicción** para la muestra de test $x_t$ será el *target* correspondiente a la observación del conjunto de entrenamiento $x_*$ más próxima a $x_t$. Matemáticamente
$$
y_t = y_j \mbox{ tal que } j = \mbox{argmin}_{i} |x_i - x_t|
$$


Vamos a verlo en el ejemplo con el que estamos trabajando

In [None]:
x,y,xt = genera_ejemplo_p()
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)

In [None]:
n = x.shape[0]
distancia = np.empty(n)
for ii,ix in enumerate(x):
    distancia[ii] = np.absolute(xt-ix)
    print("distancia x_{0:d} a x_t: {1:.2f}".format(ii, distancia[ii]))
vecino = np.argmin(distancia)
print("-----------------------------")
print("El vecino más próximo es x_{0:d}".format(vecino))

In [None]:
yt = y[vecino]

In [None]:
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)


plt.plot(np.array([xt,xt]),
            np.array([0, yt]),
            linestyle='--',color='green')
plt.scatter(xt,yt, s=60, label='$y_t$', color='green')
_=plt.legend()

Si aparecen más datos de entrenamiento, el modelo aumenta porque estos datos tienen que incorporarse a la tabla mediante la cuál se calculan las predicciones. Cuando añadimos nuevos datos 

In [None]:
x,y,xt = genera_ejemplo_g()
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)

In [None]:
n = x.shape[0]
distancia = np.empty(n)
for ii,ix in enumerate(x):
    distancia[ii] = np.absolute(xt-ix)
    print("distancia x_{0:d} a x_t: {1:.2f}".format(ii, distancia[ii]))
vecino = np.argmin(distancia)
print("-----------------------------")
print("El vecino más próximo es x_{0:d}".format(vecino))

In [None]:
yt = y[vecino]

In [None]:
ff,aa = plt.subplots(1,1, figsize=(8,6))
pinta_ejemplo(x,y,xt,aa)


plt.plot(np.array([xt,xt]),
            np.array([0, yt]),
            linestyle='--',color='green')
plt.scatter(xt,yt, s=60, label='$y_t$', color='green')
_=plt.legend()

Ahora el tiempo para calcular $y_t$ aumenta porque hay que evaluar un número mayor de posibles vecinos

## ¿Y cuál es la mejor aproximación?
Pues depende. Cada una de estas aproximaciones tiene sus ventajas y sus inconvenientes. Una de las **claves** fundamentales en el éxito de un método de aprendizaje automático es resolver el **compromiso** entre:
- **conocimiento a priori**: todo lo que sabemos teóricamente acerca del problema **antes de acceder a los datos**
- **conocimiento a posteriori**: todo lo que aprendemos mediante el **análisis de los datos**.

Los métodos paramétricos permiten introducir conocimiento a priori en el modelo. En el caso que estábamos estudiando ese conocimiento es que el *target* es **proporcional a la magnitud de la observación**. Si esta asunción es verdad, el método paramétrico arregla bastante la situación, pero ¿y si no es verdad?

Los métodos **no paramétricos** nos permiten ser más **agnósticos** acerca de la estructura final del modelo. Pero son más **demandantes de datos** (para compensar esa ausencia de conocimiento teórico a priori).

Además, en general, los métodos paramétricos conducen a optimizaciones más sencillas

# Ejemplo Generativo frente a Discriminativo

Recordamos: en esencia un modelo **generativo** pasa por un primer paso de aprender el **proceso estadístico** mediante el cuál se generan los datos. En un problema de clasificación esto equivale a aprender la **función de densidad de probabilidad** que genera las observaciones de cada clase, y la **probabilidad a priori** de cada clase.

Planteamos ahora un *toy problem* de clasificación con dos clases en 2D.

In [None]:
X1 = np.array([[-2.1 ,  0.08],
       [-1.16,  0.01],
       [-0.75,  0.37],
       [-1.34,  0.45],
       [-0.16, -0.38],
       [ 1.43,  0.54],
       [ 0.85, -0.43],
       [ 0.03,  0.33]])
X2 = np.array([[ 2.89, -0.02],
       [ 3.56,  0.02],
       [ 3.11, -0.24],
       [ 2.98, -0.15]])
n1 = X1.shape[0]
n2 = X2.shape[0]
X = np.vstack((X1,X2))
y = np.hstack((np.ones(n1), -1*np.ones(n2)))
ff,aa = plt.subplots(1,1,figsize=(8,6))
aa.scatter(X1[:,0],X1[:,1],marker='o', color='blue')
aa.scatter(X2[:,0],X2[:,1],marker='x', color='red')
_ = aa.set_ylim([-3,3])

## 1. Aprender el modelo generativo de los datos
Vamos a asumir que cada clase se ha generado con una gaussiana con matriz de covarianzas diagonal.  
Para la clase positiva, $y=+1$
$$
p(\mathbf x | y=+1) = \mathcal N\left(\left [\begin{array}{c} x_1 \\ x_2 \end{array}\right]|\left [\begin{array}{c} m_{+1,1}\\ m_{+1,2} \end{array}\right], \left [\begin{array}{cc} s_{+1,1} & 0 \\ 0 & s_{+1,2} \end{array}\right]\right)
$$ 

Y para la clase negativa, $y=-1$
$$
p(\mathbf x | y=-1) = \mathcal N\left(\left [\begin{array}{c} x_1 \\ x_2 \end{array}\right]|\left [\begin{array}{c} m_{-1,1}\\ m_{-1,2} \end{array}\right], \left [\begin{array}{cc} s_{-1,1} & 0 \\ 0 & s_{-1,2} \end{array}\right]\right)
$$ 

## 2. Aplicar teoría de la decisión sobre el modelo de datos
Si completamos el modelo de los datos con las probabilidades a priori de cada clase:
- $\pi_1=p(y=+1)$ 
- $\pi_{-1}=p(y=-1)$

Sabemos que el **clasificador óptimo** consiste en asignar cada muestra a la clase que tiene una mayor **probabilidad a posteriori**.
$$
y = j \quad \mbox{ tal que } \quad j=\mbox{argmax}_{i \in \{-1,1\}} p(y=i| \mathbf x) = \mbox{argmax}_{i \in \{-1,1\}} p(\mathbf x|y=i) \pi_i
$$

## Aplicamos esta estrategia en el problema planteado

### 1. Aprender el modelo generativo

#### 1.1.- Estimar las medias de cada clase


In [None]:
m1_ = np.mean(X[y==1,:],0)
print("media de la clase 1:")
print(np.round(m1_,2))
print("")
m2_ = np.mean(X[y==-1,:],0)
print("media de la clase -1:")
print(np.round(m2_,2))

#### 1.2.- Estimar las covarianzas de cada clase
Como hemos fijado que las covarianzas son diagonales, solo tenemos que estimar los términos de las diagonales


In [None]:
S1_ = np.diag(np.round(np.var(X[y==1,:],0),2))
print("Covarianza de la clase 1:")
print(S1_)
print("")
S2_ = np.diag(np.round(np.var(X[y==-1,:],0),2))
print("Covarianza de la clase -1:")
print(S2_)


#### 1.3.- Estimar las probabilidades a priori
Estimaciones mediante frecuencias relativas de cada clase en el conjunto de entrenamiento

In [None]:
pi1_ = np.mean(y==1)
pi2_ = np.mean(y==-1)
print("Probabilidad de la clase 1: {0:.2f}".format(pi1_))
print("Probabilidad de la clase -1: {0:.2f}".format(pi2_))

### 2.- Aplicar teoría de la decisión
#### 2.1.- Construir del decisor óptimo

In [None]:
class decisor_optimo(object):
    def __init__(self, m1, m2, S1, S2, pi1, pi2, y1, y2):
        # Gaussiana de la clase 1
        self.G1 = multivariate_normal(mean = m1, 
                                      cov = S1)
        self.pi1 = pi1 # prob. a priori de la clase 1
        # Gaussiana de la clase 2
        self.G2 = multivariate_normal(mean = m2, 
                                      cov = S2)
        self.pi2 = pi2 # prob. a priori de la clase 2
        self.y1 = y1 # etiqueta de la clase 1
        self.y2 = y2 # etiqueta de la clase 2
    def predict(self, x):
        py1 = self.G1.pdf(x)*self.pi1  # posterior clase 1
        py2 = self.G2.pdf(x)*self.pi2 # posterior clase 2
        n = x.shape[0]
        if n > 1:
            output = np.array([self.y1] * n)
            output[py2 > py1] = self.y2
        else:
            output = self.y1
            if py2 > py1:
                output = self.y2
        return output
            
        

#### 2.2.- Explotar el decisor óptimo


In [None]:
ff,aa = plt.subplots(1,1,figsize=(8,6))
aa.scatter(X1[:,0],X1[:,1],marker='o', color='blue')
aa.scatter(X2[:,0],X2[:,1],marker='x', color='red')

clf = decisor_optimo(m1_, m2_, S1_, S2_, pi1_, pi2_, 1, -1)
plot_step=0.05
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                         np.arange(y_min, y_max, plot_step))

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
cs = aa.contourf(xx, yy, Z, cmap=plt.cm.RdYlBu, alpha=0.2)
_ = aa.set_ylim([y_min, y_max])

## 2. Aproximación basada en modelo discriminativo

En general conseguir un **modelo generativo** de los datos suele acabar en un problema de optimización varios órdenes de magnitud más complejo que encontrar un clasificador que separe bien las clases. Pensemos por ejemplo en estas dos situaciones:
- Clasificador para separar fotos de camiones de fotos de motos
- Clasificador para separar fotos de camiones con averías de fotos de camiones intactos.

Si nuestro ejemplo responde más bien a la primera situación, no hace falta caracterizar perfectamente todos los detalles de un camión o de una moto para separar, basta con fijarnos en las **características suficientes** para separar con bastante confianza.



En el caso que nos ocupa, podríamos intentar separar las dos clases con un test de umbral en una de las dos variables. Este clasificador se llama *stump* y es la base de los árboles de decisión que vamos a ver en la siguiente sesión. El modelo *stump* se define con 3 parámetros:
- variable sobre la que se realiza el test
- valor del umbral
- sentido de la clasificación (qué clase se asigna a cada lado)




Siguiendo con la política de *no spoiler* vamos a usar un **algoritmo** poco inteligente para entrenar el **modelo stump**. 

### Algoritmo para entrenar el *stump*

1. Elegir al azar 4 umbrales para cada variable
2. Determinar la clase de salida para cada lado del umbral en función de la mayoría de ejemplos de entrenamiento que hayan caído en cada lado
3. Evaluar el error de clasificación que comete cada *stump*
4. Elegir como clasificador final el mejor *stump*

In [None]:
n_stumps = 4
umbrales_1 = np.round(np.random.uniform(-2,3.5,size=n_stumps),2)
umbrales_2 = np.round(np.random.uniform(-0.4,0.5,size=n_stumps),2)

In [None]:
ff,aa = plt.subplots(n_stumps,2, sharex=True, sharey=True, figsize=(8,10))
for ss in range(n_stumps):
    aa[ss][0].scatter(X1[:,0],X1[:,1],marker='o', color='blue')
    aa[ss][0].scatter(X2[:,0],X2[:,1],marker='x', color='red')
    aa[ss][0].plot(umbrales_1[ss]*np.ones(2),
                  np.array([-1,1]), color='black')
    aa[ss][1].scatter(X1[:,0],X1[:,1],marker='o', color='blue')
    aa[ss][1].scatter(X2[:,0],X2[:,1],marker='x', color='red')
    aa[ss][1].plot(np.array([-3,4]), 
                   umbrales_2[ss]*np.ones(2),
                   color='black')

In [None]:
class stump(object):
    def __init__(self, v, u, x, y):
        self.v = v
        self.u = u
        cuales_izq = np.where(x[:,v] <= u)[0]
        if np.mean(y[cuales_izq]) < 0:
            self.y_izq = -1
        else:
            self.y_izq = 1
        cuales_dcha = np.where(x[:,v] > u)[0]
        if np.mean(y[cuales_dcha]) < 0:
            self.y_dch = -1
        else:
            self.y_dch = 1
    def predict(self, x):
        n = len(x)
        output = self.y_dch * np.ones(n)
        cuales_izq = np.where(x[:,self.v] <= self.u)[0]
        output[cuales_izq] = self.y_izq
        return output

In [None]:
lista_stumps = []
for ss in range(n_stumps):
    lista_stumps.append(stump(v=0, u=umbrales_1[ss], x=X, y=y))
    lista_stumps.append(stump(v=1, u=umbrales_2[ss], x=X, y=y))

In [None]:
aciertos = np.empty(len(lista_stumps))
for iis,ss in enumerate(lista_stumps):
    pred = ss.predict(X)
    aciertos[iis] = np.mean(pred==y)
    print("Stump {0:d}, if x[{1:d}] <= {2:.2f} then y={3:d} --> acierto: {4:.1f}%".format(iis,
                                                                                          ss.v,
                                                                                          ss.u,
                                                                                          ss.y_izq,
                                                                                          aciertos[iis]*100. ))

In [None]:
best_s = np.argmax(aciertos)
print("El mejor clasificador es Stump {0:d}".format(best_s))

In [None]:
ff,aa = plt.subplots(1,1,figsize=(8,6))
aa.scatter(X1[:,0],X1[:,1],marker='o', color='blue')
aa.scatter(X2[:,0],X2[:,1],marker='x', color='red')

clf = lista_stumps[best_s]
plot_step=0.05
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                         np.arange(y_min, y_max, plot_step))

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
cs = aa.contourf(xx, yy, Z, cmap=plt.cm.RdYlBu, alpha=0.2)
_ = aa.set_ylim([y_min, y_max])

## ¿Y cuál es la mejor aproximación?
Pues depende. Cada una de estas aproximaciones tiene sus ventajas y sus inconvenientes. Los modelos generativos y discriminativos tienen maneras diferentes de introducir conocimiento a priori en el modelo. 

Los modelos generativos suelen ser mucho más demandantes de datos. Además hay un compromiso en el empleo de densidades de probabilidad fáciles de manejar, para que la aplicación de la teoría de decisión óptima sea analíticamente manejable.

Los modelos discriminativos suelen conducir a optimizaciones más manejables, aunque habría que estudiar cada caso concreto.



La disyuntiva entre modelos generativos y discriminativos refleja otro de los **compromisos** que hay que resolver en el aprendizaje automático: la disyuntiva entre
- un **modelo correcto con parámetros erróneos**: esto es, sabemos la **forma** que debe tener el modelo generativo pero seguramente no tengamos datos suficientes para estimar correctamente todos los parámetros que necesita esa forma
- un **modelo incorrecto con los parámetros bien optimizados**: esto es, sabemos que en el proceso de generación de los datos no interviene que la **frontera de decisión** deba tener la expresión que hemos elegido, pero tenemos suficientes datos para optimizar esa frontera para el conjunto de entrenamiento

# Familias de modelos de aprendizaje automático

- **Modelos lineales**: **LDA**, **regresión logística**, **LASSO**, **ridge regression**, **PCA**, *Partial Least Squares*, *Canonical Correlation Analysis*
- **Métods kernel**: *Support Vector Machines*, procesos gaussianos, agrupamiento espectral, kernel PCA, kernel PLS, kernel LDA
- **Árboles**
- **Vecinos más próximos**
- **Modelos probabilísticos**: **K medias**, **mezclas de gaussianas**, *Latent Dirichlet Alocation*, Modelos Ocultos de Markov, redes bayesianas
- **Redes Neuronales**: Perceptrones multicapa, *Deep Learning*
- **Modelos de conjuntos**: **Random Forest**, *bagging*, *boosting*, mezclas de expertos


<img src='./img/logo_uc3m_foot.jpg' width=400 />


# Modelos lineales
El modelo es una función lineal de las variables que componen las observaciones
- Optimizaciones en general poco costosas
- Relativamente fácil de explicar la contribución de cada variable a través de su peso en el modelo
- Ejemplos:
 - Clasificación:
   - Regresión Logística
   - *Linear Discriminant Analysis*
   - *Linear Support Vector Machine*
 - Regresión:
   - LASSO
   - *Ridge regression*
   - *Partial Least Squares*
 - No supervisado:
   - Análisis en Componentes Principales
   - *Canonical Correlation Analysis*
   
<img src='./img/logo_uc3m_foot.jpg' width=400 />


# Métodos *kernel*
Consiguen modelos **no lineales** mediante combinaciones lineales de funciones base no lineales.
- Clasificación:
    - *Kernel Linear Discriminant Analysis*
    - *Support Vector Machine*
- Regresión:
    - *Support Vector Regression*
    - Procesos Gaussianos
    - *Kernel Partial Least Squares*
- No supervisado:
    - *Kernel PCA*
    - *Kernel Canonical Correlation Analysis*
    - *One-class SVM*
    
<img src='./img/logo_uc3m_foot.jpg' width=400 />


# Árboles de decisión para clasificación y  regresión

Alternativa sencilla para construir modelos no lineales que pueden llegar a ser más o menos fáciles de explicar
- Se construye una **estructura jerárquica** que parte de un nodo inicial que incluye todos los datos de entrenamiento
- Se dividen los nodos **recursivamente** mediante un test de **umbral** en una de las variables que modo que los datos del nodo se van a dos nodos hijos que se supone están formados por datos más **homogéneos**
- Criterios de parada para decidir cuándo un nodo se declara **hoja**, y ya no se sigue subdividiendo

<img src='./img/arbol.png' width=400 />

<img src='./img/logo_uc3m_foot.jpg' width=400 />


# Redes neuronales
- Posiblemente el método más **representativo** del aprendizaje automático. Siempre vuelven al **foco**
- Son un método **general** que puede adaptarse a problemas de clasificación, regresión, detección de patrones, etc
- **Inspiración** en las redes de neuronas naturales
  - Conexión con **neurociencia** 
  - Una neurona es una unidad elemental de cálculo que recibe unas entradas, las combina linealmente y dispara con una función sigmoide


  <img src='./img/neurona.png' width=300 />


<img src='./img/logo_uc3m_foot.jpg' width=400 />







- Redes neuronales incluyen neuronas conectadas en varias capas y pueden aproximar cualquier función
  
  
  <img src='./img/rrnn.png' width=400 />


- *Deep Learning*
- *Deep Reinforcement Learning*


<img src='./img/logo_uc3m_foot.jpg' width=400 />


# Modelos basados en *ensembles*
Combinan las decisiones de **muchos aprendices razonablemente sencillos** para aprender un concepto complicado
- **Bagging**
  - Entrenar cada aprendiz con una subconjunto aleatorio de los datos de entrenamiento y combinar las predicciones de todos los aprendices en una votación
- **Boosting**
  - Entrenar a los aprendices en modo secuencial: cada aprendiz trata de corregir los errores de los anteriores
- Ejemplo más conocido: **random forest**
  - Combinan árboles de decisión
  - Cada árbol aprende con un subconjunto de los datos y un subconjunto de las variables. Así se filtra ruido
  - Se puede analizar la relevancia de cada variable 
  - **Extremely random forest**

<img src='./img/logo_uc3m_foot.jpg' width=400 />


# Ejemplo intuitivo de *kernel method*

Vamos a plantear un *toy problem* de regresión donde los datos demanden un modelo no lineal, y a resolverlo con una combinación lineal de funciones base no lineales (*kernels*).

<img src='./img/logo_uc3m_foot.jpg' width=400 />


In [None]:
xr = np.array([0.5, 1, 2.5, 4, 5.5, 6, 7, 7.5, 8, 10])
yr = np.array([0.1, 0.15, 0.09, 0.085, 0.17, 0.25, 0.18, 0.07, 0.02, 0.01 ])

In [None]:
ff,aa = plt.subplots(1,1)
_=aa.scatter(xr,yr)


Para este problema sencillo proponemos un modelo con dos funciones base (*kernels*) que sean de tipo *Radial Basis Function*
$$
f(x) = \kappa(x; c,\gamma) = \exp(-\gamma (c-x)^2)
$$ donde 
- $c$ es el centro de la función base y en este caso concreto van a ser cualquiera de las observaciones del conjunto de entrenamiento
- $\gamma$ mide la cobertura de las funciones base, es un parámetro que hay que aprender

Ejemplos de funciones base centradas en alguna de las observaciones



In [None]:
import numpy as np
x = np.linspace(0,10,1000)
n1 = norm(loc=xr[1],scale=0.8) 
x1=n1.pdf(x)
n2 = norm(loc=xr[5],scale=1)
x2 = n2.pdf(x)
w1 = 0.8
w2= 2.6
plt.figure()
plt.scatter(xr,yr)
plt.fill_between(x,0,x1*w1,alpha=0.2)
plt.fill_between(x,0,x2*w2,alpha=0.2)
plt.plot([xr[5],xr[5]],[0,n2.pdf(xr[5])*w2],linestyle='--')
plt.plot([xr[1],xr[1]],[0,n1.pdf(xr[1])*w1],color='blue',linestyle='--')


El modelo como combinación lineal de dos funciones base es el siguiente:

$$
y = f(x) = w_1 \kappa(x;c_1,\gamma_1) + w_2 \kappa(x;c_2,\gamma_2)
$$

Por lo tanto, el **algoritmo** que aprenda el modelo tiene que encontrar:
- los centros ideales para fijar las funciones base: $c_1$, $c_2$
- la anchura ideal para las funciones base: $\gamma_1$ y $\gamma_2$
- los pesos de la combinación: $w_1$ y $w_2$

Una vez más, nuestra política de *no spoiler* nos lleva a recurrir a la suerte y la fuerza bruta para encontrar valores razonables para estos parámetros. Con ello generaremos un conjunto de modelos *kernel* candidatos y nos quedaremos con el que explique mejor los datos, es decir, con el que arroje menor **error cuadrático** al modelar las observaciones.

In [None]:
class kernel_dos(object):
    def __init__(self, c1, c2, gamma, w1, w2):
        self.c1 = c1
        self.c2 = c2
        self.gamma = gamma
        self.w1 = w1
        self.w2 = w2
    def predict(self, x):
        e1 = np.exp(-self.gamma*(self.c1 - x)**2)
        e2 = np.exp(-self.gamma*(self.c2 - x)**2)
        return w1*e1 + w2*e2
    
    def pinta(self,x,aa):
        e1 = np.exp(-self.gamma*(self.c1 - x)**2)
        e2 = np.exp(-self.gamma*(self.c2 - x)**2)
        aa.fill_between(x,0,e1*self.w1,alpha=0.2)
        aa.fill_between(x,0,e2*self.w2,alpha=0.2)
        aa.plot([self.c1, self.c1],[0,self.w1],linestyle='--')
        aa.plot([self.c2, self.c2],[0,self.w2],linestyle='--')
        aa.plot(x,self.w1*e1 + self.w2*e2, linewidth=3, color='blue')

In [None]:
n_candidatos = 20
lista_kernel_regressor = []
for cc in range(n_candidatos):
    c1, c2 = np.random.randint(0,10, size=2)
    
    if c1 == c2:
        c2 = c1+1
        if c2 == 10:
            c2=0
    
    gamma = np.random.uniform(1, 2, size=1)[0]
    
    w1, w2 = np.random.uniform(0.1, 1, size=2)
    lista_kernel_regressor.append(kernel_dos(c1, c2, gamma, w1, w2))

In [None]:
ff,aa = plt.subplots(4,5, sharex=True, sharey=True, figsize=(14,10))
kk=0
sq_error = np.empty(n_candidatos)
for ss in range(4):
    for cc in range(5):
        aa[ss][cc].scatter(xr,yr)
        lista_kernel_regressor[kk].pinta(x, aa[ss][cc])
        pred_ = lista_kernel_regressor[kk].predict(xr)
        sq_error[kk] = np.mean((pred_-yr)**2)
        aa[ss][cc].set_title('err: {0:.4f}'.format(sq_error[kk]))
        kk += 1
ff.tight_layout()

In [None]:
best_k = np.argmin(sq_error)
print("El mejor regresor es el {0:d}".format(best_k))
print("centros: {0:.2f}, {1:.2f}".format(lista_kernel_regressor[best_k].c1, lista_kernel_regressor[best_k].c2))
print("gamma: {0:.2f}".format(lista_kernel_regressor[best_k].gamma))
print("pesos: {0:.2f}, {1:.2f}".format(lista_kernel_regressor[best_k].w1, lista_kernel_regressor[best_k].w2))

En general un método de *kernels* elige cuidadosamente dentro de una optimización más o menos costosa **cuántas funciones base** son necesarias, la anchura de las mismas y los pesos de la combinación.

Pero es una de las maneras más **robustas** de construir modelos no lineales.