# Ajuste de curvas desde una perspectiva probabilística

![BLR](https://upload.wikimedia.org/wikipedia/commons/e/ed/Residuals_for_Linear_Regression_Fit.png)

> **Objetivos:**
> - Recordar el ajuste de curvas polinomiales.
> - Entender el fenómeno de overfitting en casos prácticos.
> - Explicar los mínimos cuadrados ordinaros mediante el principio de máxima verosimilitud.

> **Referencias:**
> 
> - Pattern Recognition and Machine Learning, by Christopher M. Bishop - Cap. 3.1.

## 1. Introducción

Al día de hoy todos debemos haber ajustado una línea recta (plano, o hiperplano) de la forma

$$
f(x) = w_1 x^{(1)} + w_2 x^{(2)} + \dots + w_d x^{(d)} = x^T w \qquad \text{(generalmente el primer término es de bias $x^{(1)} = 1$)}
$$

a un conjunto de puntos $\{(x_i, y_i)\}_{i=1}^{N}$, con $x_i\in\mathbb{R}^{d}$ y $y_i\in\mathbb{R}$, y parámetros $w\in\mathbb{R}^{d}$. Esto normalmente se hace bajo el enfoque de mínimos cuadrados, es decir:

$$
\hat{w} = \arg \min_{w} ||y - Xw||^2,
$$
  
donde 
 
$$
  X = \left[\begin{array}{ccc}
  - & x_1^T  & - \\
  - & x_2^T  & - \\
    & \vdots &   \\
  - & x_N^T  & - \\
  \end{array}\right] \in \mathbb{R}^{N \times d}, \qquad y = \left[\begin{array}{ccc}
  y_1 \\
  y_2 \\
  \vdots \\
  y_N \\
  \end{array}\right] \in \mathbb{R}^{N}.
$$

Este modelo es probablemente el más simple, ya que involucra únicamente una combinación lineal de las variables de entrada. Al ser lineal, es un modelo bastante limitado.

Por tanto, podemos extender este tipo de modelos para considerar combinaciones lineales de funciones no-lineales de las variables de entrada, de la forma:

$$
f(x) = w_1 \phi_1(x) + w_2 \phi_2(x) + \dots + w_d \phi_d(x) = \phi(x)^T w \qquad \text{(generalmente el primer término es de bias $\phi_1(x) = 1$)},
$$

donde $\phi = \left[\phi_1, \phi_2, \dots, \phi_d\right] \in \mathbb{R}^d$. De esta manera podemos modelar relaciones mucho más complejas. Este tipo de funciones las seguimos llamando **lineales** puesto que lo son respecto a los parámetros $w$.

En este caso, los parámetros los encontramos como

$$
\hat{w} = \arg \min_{w} ||y - \Phi w||^2,
$$

donde

$$
\Phi = \left[
    \begin{array}{ccc}
    - & \phi(x_1)^T  & - \\
    - & \phi(x_2)^T  & - \\
      & \vdots       &   \\
    - & \phi(x_N)^T  & - \\
    \end{array}
\right] \in \mathbb{R}^{N \times d}.
$$

Una elección común de las funciones $\phi_j(x) = x^{j-1}$, para lograr funciones polinomiales.

In [None]:
# Importamos librerías
from matplotlib import pyplot as plt
import numpy as np

In [None]:
# Generamos datos ficticios
N = 20
x = np.linspace(0, 1, N)
y = np.sin(2 * np.pi * x) + 0.3 * np.random.normal(size=N)

In [None]:
# Gráfica de los datos
plt.plot(x, y, '+', ms=5, label='Datos')
plt.xlabel("$x$")
plt.ylabel("$y$")
plt.grid()
plt.legend(loc="best")

### Ajuste de curvas

In [None]:
# sklearn.model_selection.train_test_split

# sklearn.preprocessing.PolynomialFeatures

# sklearn.linear_model.LinearRegression

# sklearn.preprocessing.StandardScaler

# sklearn.pipeline.Pipeline


Grado 3

In [None]:
# Definición del modelo


In [None]:
# Split train/test


In [None]:
# Ajuste del modelo


In [None]:
# Visualización del modelo


In [None]:
# Score sobre datos de entrenamiento


In [None]:
# Score sobre datos de prueba


Grado 10

In [None]:
# Definición del modelo


In [None]:
# Ajuste del modelo


In [None]:
# Visualización del modelo


In [None]:
# Score sobre datos de entrenamiento


In [None]:
# Score sobre datos de prueba


### Overfitting

### ¿Cómo lidiar con el overfitting? 

#### 1. Regularización

In [None]:
# Regularización


In [None]:
# Definición del modelo


In [None]:
# Ajuste del modelo


In [None]:
# Visualización del modelo


In [None]:
# Score sobre datos de entrenamiento


In [None]:
# Score sobre datos de prueba


In [None]:
# Sin regularizacion


In [None]:
# Regularizado


#### 2. Más datos

In [None]:
# Generamos datos ficticios


In [None]:
# Split train/test


In [None]:
# Definición del modelo


In [None]:
# Ajuste del modelo


In [None]:
# Visualización del modelo


In [None]:
# Score sobre datos de entrenamiento


In [None]:
# Score sobre datos de prueba


## 2. Distribución normal

Antes de entrar en detalles repasemos un poco la distribución normal.

### 2.1. Distribución normal univariada

Se dice que una VA distribuye normal si su función de densidad de probabilidad es:

$$
\mathcal{N}(x|\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left\{-\frac{(x - \mu)^2}{2 \sigma^2}\right\}
$$

con parámetros $\mu \in \mathbb{R}$: media de la VA X, y $\sigma^2 \in \mathbb{R}_{\geq0}$: varianza de la VA X.

**Ejercicio.** Demostrar que:

1. 
$$
\int_{-\infty}^{\infty} \mathcal{N}(x|\mu, \sigma^2) = 1.
$$

2. 
$$
\mu = \arg \max_{x} \mathcal{N}(x|\mu, \sigma^2)
$$

¿Cómo luce esta densidad?

In [None]:
# Importar scipy.stats
from scipy import stats
# Importar numpy
import numpy as np
# Importar matplitlib.pyplot
from matplotlib import pyplot as plt

In [None]:
# Tres VA normales
X = stats.norm(loc=0, scale=1)
Y = stats.norm(loc=1, scale=1)
Z = stats.norm(loc=0, scale=3)

In [None]:
# Vector x para graficar
x = np.linspace(-10, 10, 1001)

In [None]:
# Graficar
plt.plot(x, X.pdf(x), label=r'N(x|0,1)')
plt.plot(x, Y.pdf(x), label=r'N(x|1,1)')
plt.xlabel('$x$')
plt.grid()
plt.legend(loc="best")

In [None]:
plt.plot(x, X.pdf(x), label=r'N(x|0,1)')
plt.plot(x, Z.pdf(x), label=r'N(x|0,3^2)')
plt.xlabel('$x$')
plt.grid()
plt.legend(loc="best")

## 3. Desde una perspectiva probabilística

Para modelar la incertidumbre en este tipo de relaciones, podemos suponer que el ruido aditivo sigue una densidad Gaussiana:

$$
y = \phi(x)^T w + \epsilon,
$$

con $\epsilon \sim \mathcal{N}(0, \beta^{-1})$.

De manera que

$$
p(y | x, w) = \mathcal{N}(y | \phi(x)^T w, \beta^{-1}),
$$

es decir, con la relación $\phi(x)^T w$ modela el valor esperado de la variable de salida $y$.

### Estimación de parámetros: Máxima verosimilitud

Para estimar los parámetros, escribimos entonces la función de verosimilitud:

$$
\mathcal{L}(w) = p(y | X, w) = \prod_{i=1}^{N} \mathcal{N}(y_i | \phi(x_i)^T w, \beta^{-1}).
$$

Por tanto, la log verosimilitud es:

\begin{align}
l(w) & = \log \prod_{i=1}^{N} \mathcal{N}(y_i | \phi(x_i)^T w, \beta^{-1}) \\
     & = \sum_{i=1}^{N} \log\mathcal{N}(y_i | \phi(x_i)^T w, \beta^{-1}) \\
     & = \frac{N}{2}\log\beta - \frac{N}{2}\log(2 \pi) - \frac{\beta}{2} \sum_{i=1}^{N} (y_i - \phi(x_i)^T w)^2 \\
     & = \frac{N}{2}\log\beta - \frac{N}{2}\log(2 \pi) - \frac{\beta}{2} \left|\left|y - \Phi w\right|\right|^2,
\end{align}

donde:

$$
\Phi = \left[
    \begin{array}{ccc}
    - & \phi(x_1)^T  & - \\
    - & \phi(x_2)^T  & - \\
      & \vdots       &   \\
    - & \phi(x_N)^T  & - \\
    \end{array}
\right] \in \mathbb{R}^{N \times d}
$$

De esta manera, usando el principio de máxima verosimilitud, obtenemos que:

$$
\hat{w}_{MLE} = \arg \max_{w} l(w) = \arg \min_{w} \left|\left|y - \Phi w\right|\right|^2,
$$

justo como en mínimos cuadrados.

Observamos que la estimación de parámetros por máxima verosimilitud, explica nuestra intuición detrás de mínimos cuadrados.

Además, **una vez más concluimos que el enfoque de máxima verosimilitud nos puede traer problemas de overfitting**.

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Esteban Jiménez Rodríguez.
</footer>