<center>
<p><img src="https://www.gob.mx/cms/uploads/image/file/179499/outstanding_quienes-somos.jpg" width="300">
</p>



# Curso *Machine Learning con uso de pandas, scikit learn y libretas jupyter*

# Relación entre sesgo y varianza


<p> Julio Waissman Vilanova </p>
<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="80">
</p>
</center>

# Planteamiento del problema

Vamos a asumir que tenemos una función desconocida para el que hace una regresión, pero conocida por nosotros (haciendo trampa). La función es 

$$y = \sin(\pi x),$$

donde $x \in [-1, 1]$.

La función se vería como:

In [None]:
import numpy as np
import matplotlib.pyplot as plt



x = np.linspace(-1, 1, 1000)
y = np.sin(np.pi * x)

with plt.style.context(('ggplot')):
    plt.figure(figsize=(10, 5))
    plt.plot(x, y)
    plt.title("La función como si la conocieramos")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.show()

Pero el que está clasificando no sabe eso, al el solo le vamos a dar *dos valores de (x, y) seleccionados en forma aleatoria*. 

Con estos dos puntos solamente, el pobre tiene que hacer un modelo de regresión. 

Primero y antes que nada, vamos a definir un criterio de error, el cual (haciendo trampa) lo vamos a calcular usando la función que nosotros si conocemos. 

El pobre estimador solo tiene dos valores para hacer el aprendizaje, pero con el modelo aprendido, nosotros  vamos a aproximar el error en muestra con **todos** los 1000 datos que ya tenemos:

$$
E_{out} \approx \frac{1}{1000} \sum_{i=1}^{1000}{(y_i - \hat{y}_i)^2}
$$

**Programa la función que aproxima el error fuera de muestra**

In [None]:
def error_estimado(y, y_estimada):
    """
    Calcula el error fuera de muestra con el criterio MSE
    
    y: un ndarray de una dimensión
    y_estimada: un ndarray de una dimensión
    
    """    
    error = ---Inserta aqui tu código---
    
    return error

assert error_estimado(np.array([1, 2, 3, 4]), np.array([1, 2, 3, 4])) == 0.

assert error_estimado(np.array([1, 2, 3, 4]), np.array([4, 3, 2, 1])) == 5.

assert error_estimado(np.array([1, 2, 3, 4]), np.ones(4)) == 3.5

print("Ahí vamos")

# La hipótesis más simple

Ahora vams con el compa que anda aprendiendo, le vamos a dar un conjunto de hipótesis, las más sencillas posibles (recuerda que tiene que estimar una regresión con solo dos números)

La hipótesis va a ser entonces:

$$h_0(x) = b$$

Osea que va a estimar una constante. 

¿Y cual va a ser el algoritmo de entrenamiento/aprendizaje/optimización? Pues el único posible.

Esto es, si tenemos dos ejemplos $\{(x_1, y_1), (x_2, y_2)\}, el aprendizaje solo podria calcularse como:

$$b = \frac{y_1 + y_2}{2}$$,

Esto es, solo tenemos dos puntos, y aprendemos un modelo donde el valor estimado $\hat{y}$ va a ser el mismo, independientemente del valor de $x$.

Vamos entonces haciendo al algoritmo de aprendizaje, y el modelo de estimción:


In [None]:
def entrenamiento_h0(x_1, x_2, y_1, y_2):
    """
    Calcula el valor de los parámetros del modelo (en este caso b)
    
    x_1, x_2, valores entre -1 y 1 de dos ejemplos de x para el aprendizaje
    y_1 y y_2, valores entre -1 y 1 de los valores correspondientes en y de x_1 y x_2 respectivamente
    
    """
    b = ---Inserta aqui tu código---
    
    return b

def estimador_h0(b, x):
    """
    Estima los valores de y
    
    b : parámetro del modelo
    x : ndarray con entradas
    
    """
    
    y_estimada = ---Inserta aqui tu código---
    
    return y_estimada


assert abs(entrenamiento_h0(-.5, .3, .2, .4) - 0.3) < 1e-6
assert abs(entrenamiento_h0(-.1, .1, .3, .3) - 0.3) < 1e-6

assert np.sum(estimador_h0(0, np.linspace(-1,1,1000))) < 1e-6
assert (np.sum(estimador_h0(.7, np.linspace(-1,1,1000))) - 700) < 1e-6

print("A seguirle")

Y ahora vamos a calcular el error de aprendizaje para un par de ejemplos aleatorios

In [None]:
x1 = 2 * np.random.random() -1
x2 = 2 * np.random.random() -1

y1 = np.sin(np.pi * x1)
y2 = np.sin(np.pi * x2)

b = entrenamiento_h0(x1, x2, y1, y2)

x = np.linspace(-1, 1, 1000)
y = np.sin(np.pi * x)
y_estimada = estimador_h0(b, x)

E_out = error_estimado(y, y_estimada)

print("Tenemos dos ejemplos para el entrenamiento: ")
print(f"\t x1 = {x1}, y1 = {y1}")
print(f"\t x2 = {x2}, y1 = {y2}")
print(f"Con un modelo donde b = {b}")
print(f"y el error fuera de  muestra se estimo como {E_out}")

Ahora vamos a hacer lo mismo pero 10000 veces y vamos a calcular 10000 estimaciones. Vamos a calcular la varianza entre estimaciones y vamos a sacar una estimación promedio para calcular el error de la salida real con el valor promedio.

In [None]:
x = np.linspace(-1, 1, 10000)
y = np.sin(np.pi * x)

y_estimada = []
for _ in range(10000):
    x1 = 2 * np.random.random() -1
    x2 = 2 * np.random.random() -1

    y1 = np.sin(np.pi * x1)
    y2 = np.sin(np.pi * x2)

    b = entrenamiento_h0(x1, x2, y1, y2)
    y_estimada.append(estimador_h0(b, x))

y_est = np.vstack(y_estimada)

var = y_est.var()

y_est_media = y_est.mean(axis=0)
sesgo = error_estimado(y, y_est_media)

print(f"Este modelo presento un sesgo de {sesgo} y una varianza de {var}")


# La hipótesis más compleja

Bueno eso de compleja compleja, pues no, pero la mñas complejo que se puede hacer con dos pobres ejemplos para el aprendizaje.

La hipótesis va a ser entonces:

$$h_1(x) = ax + b$$

Una linea recta, la cual pasa *exactamente por los dos ejemplos*, con un error en muestra de 0 (aprendizaje perfecto). 

¿Y cual va a ser el algoritmo de entrenamiento/aprendizaje/optimización? Pues el único posible otra vez.

Esto es, si tenemos dos ejemplos $\{(x_1, y_1), (x_2, y_2)\}, el aprendizaje solo podria calcularse como:

$$a = \frac{y_2 - y_1}{x_2 - x_1}$$

$$b = y_1 - a x_1$$,

Si mis recuerdos de la secundaria no me fallan.

Vamos entonces haciendo al algoritmo de aprendizaje, y el modelo de estimción:

In [None]:
def entrenamiento_h1(x_1, x_2, y_1, y_2):
    """
    Calcula el valor de los parámetros del modelo (en este caso a y b)
    
    x_1, x_2, valores entre -1 y 1 de dos ejemplos de x para el aprendizaje
    y_1 y y_2, valores entre -1 y 1 de los valores correspondientes en y de x_1 y x_2 respectivamente
    
    """
    a = ---Inserta aqui tu código---
    b = ---Inserta aqui tu código---
    
    return a, b

def estimador_h1(a, b, x):
    """
    Estima los valores de y
    
    b : parámetro del modelo
    x : ndarray con entradas
    
    """
    
    y_estimada = ---Inserta aqui tu código---
    
    return y_estimada


assert(entrenamiento_h1(-.5, .5, -.5, .5)) == (1.0, 0.0)
assert(entrenamiento_h1(-.5, .5, .5, -.5)) == (-1.0, 0.0)
assert(entrenamiento_h1(-.5, .5, .3, .3)) == (0.0, 0.3)
assert np.mean(estimador_h1(1, 0, np.linspace(-1,1,1000))) == 0.0
assert (np.mean(estimador_h1(.1, 0.3, np.linspace(-1,1,1000))) - 0.3) < 1e-6

print("A seguirle")

Y ahora vamos a calcular el error de aprendizaje para un par de ejemplos aleatorios

In [None]:
x1 = 2 * np.random.random() -1
x2 = 2 * np.random.random() -1

y1 = np.sin(np.pi * x1)
y2 = np.sin(np.pi * x2)

a, b = entrenamiento_h1(x1, x2, y1, y2)

x = np.linspace(-1, 1, 1000)
y = np.sin(np.pi * x)
y_estimada = estimador_h1(a, b, x)

E_out = error_estimado(y, y_estimada)

print("Tenemos dos ejemplos para el entrenamiento: ")
print(f"\t x1 = {x1}, y1 = {y1}")
print(f"\t x2 = {x2}, y1 = {y2}")
print(f"Con un modelo donde a = {a} y b = {b}")
print(f"y el error fuera de  muestra se estimo como {E_out}")

Ahora vamos a hacer lo mismo que en el modelo anterior para calcular el sesgo y la varinza

In [None]:
x = np.linspace(-1, 1, 1000)
y = np.sin(np.pi * x)

y_estimada = []
for _ in range(10000):
    x1 = 2 * np.random.random() -1
    x2 = 2 * np.random.random() -1

    y1 = np.sin(np.pi * x1)
    y2 = np.sin(np.pi * x2)

    a, b = entrenamiento_h1(x1, x2, y1, y2)
    y_estimada.append(estimador_h1(a, b, x))

y_est = np.vstack(y_estimada)

var = y_est.var()

y_est_media = y_est.mean(axis=0)
sesgo = error_estimado(y, y_est_media)

print(f"Este modelo presento un sesgo de {sesgo} y una varianza de {var}")



# Comparando

1. ¿Como fue el sesgo y la varianza de cada modelo?
2. ¿Que significa tener un valor de sesgo alto o bajo?
3. ¿Qué significa tener un valor de varianza alto o bajo?
