## Gaussian Regresssion
Es un proceso estocástico (una colección de variables aleatorias indexadas por tiempo o espacio), tal que cada colección finita de esas variables aleatorias tiene una distribución normal multivariada. Un proceso gaussiano es una distribución sobre funciones con un dominio continuo, por ejemplo, tiempo o espacio.

In [4]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.utils.random import check_random_state
from sklearn.datasets import make_friedman2
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import DotProduct, WhiteKernel

### Ejemplo Gaussiean Regression
Se aplicará Gaussian Regression para predecir la distancia entre un par de puntos (x,y) y (x1,y1), uno de ellos constante.$$ d = \sqrt{(x1-x)^2 + (y1 - y)^2} $$

### Generar el conjunto de datos
Para generar el conjunto de datos se calculará la distancia entre un conjunto de 5000 puntos (x,y) aleatorios, así, el modelo de regresión se ajustará a una proporción del 80% del conjunto y el 20% restante estará destinado a la predicción.

In [5]:
def calcular_distancia(X,Y,XF,YF):
    return np.round(np.sqrt(np.power(XF-X,2)+np.power(YF-Y,2)),2)

XF = 5
YF = 12.5

rng = check_random_state(0)

X = np.round(rng.uniform(1, 11, 10000).reshape(5000, 2),2)
XFs=[[XF] for i in range(5000)]
YFs=[[YF] for i in range(5000)]
X=np.append(X, XFs, axis=1)
X=np.append(X, YFs, axis=1)
Y = calcular_distancia(X[:, 0],X[:, 1],XF,YF)
x_train, x_test, y_train, y_test = train_test_split(X,Y,test_size=0.2,random_state=42)

### Crear y ajustar el modelo
Un kernel o núcleo es un método que permite separar los datos de una muestra agregando una dimensión sin tener que hacer cálculos basados en coordenadas. El propósito del kernel es encontrar una función que evite los problemas que implica el cálculo al agregar una dimensión más. El resultado de un kernel es un escalar, es decir, el resultado calculado estará en el espacio unidimensional. Para obtener el resultado se usa el producto punto<br>
Por otra parte, un WhiteKernel se usa como parte de un kernel sumatorio que explica que en la señal el ruido es independiente e identicamente distribuido.

In [10]:
kernel = DotProduct() + WhiteKernel()
gpr = GaussianProcessRegressor(kernel=kernel, random_state=0).fit(x_train, y_train)
print(gpr.score(x_train, y_train))

0.9464075565817812


### Métricas
Como es un modelo lineal, se utilizará la métrica $ R^2 $

In [9]:
gpr.predict(x_test, return_std=True)
print(gpr.score(x_test, y_test))

0.9509514732147729
