# Seminarios de Procesos Gaussianos

### Grupo de procesamiento de la información visual (VIP) 

<div style="text-align: right"> Miguel López Pérez </div>

# 0. Librerías a usar

Los ejemplos de estos notebooks van a estar basados en la librería gpflow. Es una extensión de GPy con la ventaja 
de que se pueden cargar cálculos en la GPU al estar basado en tensorflow. Al ser un proyecto open source podemos acceder a su [documentación](https://gpflow.readthedocs.io/en/develop/intro.html) y [código](https://github.com/GPflow/GPflow/tree/master). También nos hará falta tener instalada la librería scikit-learn.

In [None]:
import gpflow
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')
import tensorflow as tf
%matplotlib inline

# 1. Kernels

In [None]:
def plotkernelsample(k, ax, xmin=-3, xmax=3):
    xx = np.linspace(xmin, xmax, 100)[:,None]
    K = k.compute_K_symm(xx)
    ax.plot(xx, np.random.multivariate_normal(np.zeros(100), K, 3).T)
    ax.set_title(k.__class__.__name__)

## Ejemplos de kernels

Normalmente, se suele suponer que un proceso gaussiano (GP) tiene media constante igual a 0 sin perder generalidad o flexibilidad. La cuestión será modelar la función kernel $k$ la cual será la encargada de aportar las características que son de esperar de la función que queremos modelar. Esta función nos dará la matriz de convarianza y, por tanto, la dependencia entre muestras. Entre las características que podemos imponer a nuestro GP será suavidad o periodicidad. **Nótese** que estas funciones kernels dependen de parámetros los cuales regularan estas propiedades.

A continuación, vemos ejemplos de algunos los kernels más utilizados:

** Función lineal **

 $$\text{Lineal}\quad k(x, x') = \sigma^2 x \cdot x'$$

** Función Estática **

 $$\text{White}\quad k(x, x') = \sigma^2\delta_{x x'}$$

** Funciones estacionarias: ** $r = \frac{\parallel x - x'\parallel_2}{l}$


 $$\text{Matern12}\quad k(x, x') = \sigma^2\exp\left(-r\right)$$ 

 $$\text{Matern32}\quad k(x, x') = \sigma^2(1+\sqrt{3}r)\exp\left(-\sqrt{3}r\right)$$
 
  $$\text{Matern52}\quad k(x, x') = \sigma^2(1+\sqrt{5}r + \frac{5}{3}r^2)\exp\left(-\sqrt{5}r\right)$$
 
 $$\text{RBF}\quad k(x, x') = \sigma^2\exp\left(-\frac{r^2}{2}\right)$$
 
** Funciones periódicas **

 $$\text{Coseno}\quad k(x, x') = \sigma^2\cos\left(r^2\right)$$
 
  $$\text{Periódica}\quad k(x, x') = \sigma^2\exp\left(-\frac{\frac{1}{p}\sin(\pi{\parallel x-x'\parallel_2^2})}{l}\right)$$



In [None]:
np.random.seed(100)
f, axes = plt.subplots(2, 4, figsize=(12, 6), sharex=True, sharey=True)
plotkernelsample(gpflow.kernels.Matern12(1), axes[0,0])
plotkernelsample(gpflow.kernels.Matern32(1), axes[0,1])
plotkernelsample(gpflow.kernels.Matern52(1), axes[0,2])
plotkernelsample(gpflow.kernels.RBF(1), axes[0,3])
plotkernelsample(gpflow.kernels.White(1), axes[1,0])
plotkernelsample(gpflow.kernels.Linear(1), axes[1,1])
plotkernelsample(gpflow.kernels.Cosine(1), axes[1,2])
plotkernelsample(gpflow.kernels.Periodic(1), axes[1,3])
axes[0,0].set_ylim(-3, 3)

## Kernel RBF

El kernel más utilizado es el Radial Basis Function (RBF). Este aporta suavidad a la función lo cual será algo deseable normalmente. Además tiene suficiente flexibilidad para poder aproximar diversas funciones.

En el siguiente script, prueba distintos valores de escala ($sc$) y varianza ($var$) para ver en qué afecta a la función resultante.

In [None]:
var = 1
sc = 10
np.random.seed(100)
k = gpflow.kernels.RBF(input_dim = 1, lengthscales = sc, variance = var)

f, axes = plt.subplots(1 , 1, figsize=(12, 6), sharex=True, sharey=True)
plotkernelsample(gpflow.kernels.RBF(input_dim = 1, lengthscales = sc, variance = var), axes)

x_title = 'k(x,y) = {} exp [- {} ||x - y ||$^2$]'.format(var, 1/sc)
axes.set_xlabel(x_title)


print(k)

**Pregunta:** ¿Cómo afecta la escala y la varianza a las funciones resultantes?

## Construcción de nuevos kernels

A partir de estos kernels vistos se pueden construir nuevos. Una referencia de esto la podemos encontrar en el [Kernel Cookbook](https://www.cs.toronto.edu/~duvenaud/cookbook/). 

### Suma de kernels

In [None]:
k = gpflow.kernels.RBF(1) + gpflow.kernels.White(1, 1e-3)
np.random.seed(100)
f, axes = plt.subplots(1 , 1, figsize=(12, 6), sharex=True, sharey=True)
plotkernelsample(k, axes)

**Pregunta:** ¿Qué pasaría si sumaramos un kernel periódico con uno lineal?

### Multiplicación de kernels

In [None]:
k = gpflow.kernels.Linear(1) * gpflow.kernels.Linear(1)
np.random.seed(100)
f, axes = plt.subplots(1 , 1, figsize=(12, 6), sharex=True, sharey=True)
plotkernelsample(k, axes)

**Pregunta:** ¿Qué pasaría si multiplicaramos 3 kernels lineales?

## Kernels en varias dimensiones

### Dimensiones activas

Podemos aplicar determinados kernels en dimensiones específicas.

In [None]:
k1 = gpflow.kernels.Linear(1, active_dims=[0])
k2 = gpflow.kernels.Matern52(1, active_dims=[1])
k = k1 + k2
k.as_pandas_table()

### Automatic relevance determination

Esto significa que estamos poniendo un parámetro de escala $l$ distinto en cada dimensión. Esto hará que no todas las dimensiones contribuyan por igual. Cuando estimemos estos parámetros de escalas nos indicará la relevancia de cada dimensión ya que valores más altas denotan una dependencia más alta en esa dimensión respecto de la variable objetivo.

In [None]:
k1 = gpflow.kernels.RBF(5, ARD = True)
k1.as_pandas_table()