
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <meta http-equiv="Content-Style-Type" content="text/css" />
    <meta name="generator" content="pandoc" />
    <title></title>
    <style type="text/css">code{white-space: pre;}</style>
  </head>
  



<h1> AMI </h1> 
<h1> Aprendizaje Supervisado: Regresores </h1>

<br>
    
En esta práctica implementaremos en Python sistemas regresores. Como se ha indicado este mecanismo es utilizado en el contexto del aprendizaje máquina para predecir el valor de variables de salida continuas y es de tipo supervisado ya que debemos contar con el valor de salida asociado a cada conjunto de entradas. 

En la próxima práctica estudiaremos el caso de variables de salida discreta (sistemas clasificadores), y para ello
nos valdremos de los conceptos estudiados durante esta primera práctica. 

Para la implementación de mecanismos de aprendizaje máquina es habitual enfrentarnos a algún problema de optimización. Por ejemplo, elegir los parámetros de la hipótesis h<sub>θ</sub>(x) de tal modo que el coste sea el menos por posible. De los diversos mecanismos posibles de optimización, nosotros implementaremos y usaremos el método de las ecuaciones normales y el descenso del gradiente en esta práctica.

Al finalizar veremos asimismo como mediante las librerías de Python podemos resolver rápidamente problemas de este tipo. Internamente hará uso de soluciones similares a las que nosotros hemos desarrollado paso a paso. 

<h2> Regresores lineales univariantes </h2>

Comenzaremos con el caso más sencillo, un regresor con una sóla variable independiente (<em>feature</em>) en terminología de aprendizaje máquina y una sóla salida (<em>target</em>). Primero cargaremos algunas librerías y generaremos un dataset de prueba, y lo mostramos:

In [None]:
# Librerias
import numpy as np
import os

# Para generar figuras
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

# Establecemos la semilla para generar siempre los mismos resultados
np.random.seed(1)

# Generamos dataset para pruebas
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Mostramos el dataset
plt.plot(X, y, "b.")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.axis([0, 2, 0, 15])
plt.show()


<h3> Aproximación lineal sin término independiente </h3>

La hipótesis lineal pura es de la forma:  h<sub>θ</sub>(x) = θx, siendo θ un escalar. Vamos a buscar el mejor valor para θ a la vista de los datos. Para ello queremos minimizar la función de coste J(θ) (el MSE) entre los valores reales y la aproximación. 

Es decir:

<p><font size="+1"><span class="math inline">$J(\theta)$=MSE=$\frac{1}{m} \sum_{i=1}^m (y^{(i)} - h_{\theta}(x^{(i)})^2$</span></font></p>

Sustituyendo la función de hipótesis: 

<p><font size="+1"><span class="math inline">$J(\theta)$=$\frac{1}{m} \sum_{i=1}^m (y^{(i)} - \theta x^{(i)})^2$</span></font></p>

Esta expresión la podemos "compactar" escribiendola con matrices y vectores:

<p><font size="+1"><span class="math inline">$J(\theta)$=$\frac{1}{m}\;(Y-X\theta)'(Y-X\theta)$</span></font></p>

<h4> Cuestión: Proporcione la fórmula y complete el código Python para obtener el θ óptimo en una regresión lineal sin término independiente</h4>

Es decir, debe obtener: <font size="+1"><span class="math inline">$\min\limits_{\theta} J(\theta)$</span></font>

Solución:
    
En este caso deberíamos derivar la expresión anterior e igualarla a cero. Es decir: 
    

<p><font size="+1"><span class="math inline">$\frac{d J(\theta)}{d \theta}=-\frac{1}{m}(X'(Y-X\theta) + ((Y-X\theta)'X)') = -\frac{1}{m}(X'Y - X'X\theta + X'Y - X'X\theta) = -\frac{2}{m}(X'Y - X'X\theta) = 0$</span></font></p>

Despejando θ obtenemos:

<p><font size="+1"><span class="math inline">$\theta=(X'X)^{-1}X'Y$</span></font></p>

Nota 1: Aunque X no es invertible (X'X) si puede serlo al ser cuadrada. Esta ecuación de resolución se denomina <b>ecuación normal</b>

Nota 2: Al trabajar con matrices observe que <font size="+1"><span class="math inline">$d(AB) = (dA) B + (A (dB))'$</span></font>

In [None]:
theta_best = # DEBE COMPLETAR 
theta_best
X_new = np.array([[0], [2]])
y_predict = # DEBE COMPLETAR
plt.plot(X_new, y_predict, "r-")
plt.plot(X, y, "b.")
plt.axis([0, 2, 0, 15])
plt.show()

<h3> Aproximación afín (lineal con término independiente) </h3>

<h4> Cuestión: Repita el mismo proceso que antes, pero suponiendo que la hipótesis es una función lineal con un termino independiente </h4>

<br>
<p><font size="+1"><span class="math inline">$h_{\theta} (x) = \theta_0 + \theta_1 x$</span></font></p>

Proporcione la fórmula y el código Python para obtener el vector <font size="+0.5"><span class="math inline">$\theta =  \begin{pmatrix}
\theta_0 \\
\theta_1
\end{pmatrix}$</span></font> óptimo.

Solución: 

DEBE COMPLETAR ESTE APARTADO

In [None]:
X_b = np.c_[np.ones((100, 1)), X]  # Añadimos bias (x0 = 1) a cada instancia

theta_best = # DEBE COMPLETAR 
X_new_b = np.c_[np.ones((2, 1)), X_new]  # Añadimos bias (x0 = 1) a cada instancia
y_predict = # DEBE COMPLETAR
plt.plot(X_new, y_predict, "r-")
plt.plot(X, y, "b.")
plt.axis([0, 2, 0, 15])
plt.show()

theta_best

<h3> Regresión usando el método del descenso del gradiente</h3>

En general no va a ser posible obtener directamente los parámetros de θ óptimos, o hacerlo por el método de las ecuaciones normales puede ser muy lento. Vamos a ver por qué en el siguiente ejercicio: 

<h4>Cuestión: Obtenga el tiempo de ejecución necesario para calcular el θ óptimo para m=100, m=1000, m=10000 y m=100000 donde m es el número de instancias</h4>

Nota 3: En ipython puede obtener el tiempo de ejecución de una instrucción predeciendola de la función "mágica" %timeit 

In [None]:
for m in [100,1000,10000,100000]:
    X_test = 2 * np.random.rand(m, 1)
    y_test = 4 + 3 * X_test + np.random.randn(m, 1)
    X_test_b = np.c_[np.ones((m, 1)), X_test]  # Añadimos bias (x0 = 1) a cada instancia
    print(m)
    # DEBE COMPLETAR 

El método del descenso del gradiente es una alternativa al cálculo explicito del óptimo. Como hemos visto en teoría se basa en corregir sucesivamente el punto de trabajo, <font size="+1"><span class="math inline">$\theta_i$</span></font>, moviendolo hacia la dirección contraría al máximo crecimiento de la función de pérdida. Es decir, hacía <font size="+1"><span class="math inline">$-\nabla J(\theta_i)$</span></font>, de tal modo que se actualice el punto de trabajo a: 

<p><font size="+0.5"><span class="math inline">$\theta_{i+1} = \theta_i - \alpha \nabla J(\theta_i)$</span></font></p>

Donde <font size="+1"><span class="math inline">$\alpha$</span></font> es el factor de aprendizaje (learning rate) y controla la velocidad de convergencia del algoritmo. Cuando mayor menos pasos habrá que dar hasta la convergencia, si bien, si es demasiado elevado puede hacer que el método no converja. 

<h4> Cuestión: Complete el siguiente código con el cálculo del gradiente </h4>


In [None]:
alpha = 0.1
n_iterations = 1000
theta = np.random.randn(2,1) # Punto inicial se escoge al azar

def gradient(X_b,y,theta):
#DEBE COMPLETAR
             
for iteration in range(n_iterations):
    gradients = gradient(X_b,y,theta)
    theta = theta - alpha * gradients

y_predict_grad = # DEBE COMPLETAR
print(y_predict_grad, y_predict) # Prediccion para los puntos x=0.0 y x=2.0,  comparamos con el anterior

A continuación vamos a mostrar la influencia del learning rate, mostrando la solución obtenida iterativamente para diferentes valores de α:

In [None]:
theta_path_bgd = []

def plot_gradient_descent(theta, alpha, theta_path=None):
    m = len(X_b)
    plt.plot(X, y, "b.")
    n_iterations = 1000
    for iteration in range(n_iterations):
        if iteration < 10:
            y_predict = # DEBE COMPLETAR
            style = "b-" if iteration > 0 else "r--"
            plt.plot(X_new, y_predict, style)
        theta = theta - alpha * gradient(X,y,theta)
        if theta_path is not None:
            theta_path.append(theta)
    plt.xlabel("$x_1$", fontsize=18)
    plt.axis([0, 2, 0, 15])
    plt.title(r"$\alpha = {}$".format(alpha), fontsize=16)
    
np.random.seed(11)    
theta = np.random.randn(2,1)  # random initialization
    
plt.figure(figsize=(10,4))
plt.subplot(131); plot_gradient_descent(theta, alpha=0.02)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.subplot(132); plot_gradient_descent(theta, alpha=0.1, theta_path=theta_path_bgd)
plt.subplot(133); plot_gradient_descent(theta, alpha=0.5)
plt.show()

<h4> Cuestión: Cálcule el tiempo de convergencia empleando los mismos números de instancias que en el caso anterior </h4>

In [None]:
alpha=0.1
n_iterations = 1000

import timeit

for m in [100,1000,10000,100000]:
    X_test = 2 * np.random.rand(m, 1)
    y_test = 4 + 3 * X_test + np.random.randn(m, 1)
    X_test_b = np.c_[np.ones((m, 1)), X_test]  # Añadimos bias (x0 = 1) a cada instancia
    print(m)
    start_time = timeit.default_timer()
    # DEBE COMPLETAR
    elapsed = timeit.default_timer() - start_time
    print(elapsed)

<h3> Regresión usando la librería scikit-learn </h3>

A continuación mostraremos el uso de las librerías scikit-learn de Python para poder abordar directamente problemas de regresión.

In [None]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)
y_predict_sklearn = lin_reg.predict(X_new) # Valor en x=0.0 y x=2.0, comparamos con el anterior
print(y_predict, y_predict_grad, y_predict_sklearn) # Deberían coincidir

<hr>

<h2> Regresores polínomicos univariantes </h2>

Para finalizar la sesión de hoy estuadiaremos el caso de un regresor con una sóla <em>feature</em>, donde la función de hipótesis va a ser de tipo polínomico de grado P, es decir:

<br>
<p><font size="+1"><span class="math inline">$h_{\theta} (x) = \sum_{p=1}^P \theta_p x^p$</span></font></p>

Para estudiar este caso, crearemos un nuevo dataset donde una regresión polínomica sea más adecuada:


In [None]:
import numpy as np
import numpy.random as rnd

np.random.seed(1)
m = 100
X = 6 * np.random.rand(m, 1) - 3
y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)
plt.plot(X, y, "b.")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.axis([-3, 3, 0, 10])
plt.show()

<h4>Cuestión: Obtenga la función de coste <span class="math inline">$J(\theta)$</span> y el gradiente <span class="math inline">$\nabla J(\theta)$</span> para este caso. Represente el resultado para P desde 1 hasta 5.</h4>

In [None]:
# DEBE COMPLETAR

<h3> Regresión polinómica usando la librería scikit-learn </h3>

A continuación mostraremos el uso de las librerías scikit-learn de Python para poder abordar directamente la regresión polinómica:

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly_features = PolynomialFeatures(degree=2, include_bias=False) # Configuramos el modelo
X_poly = poly_features.fit_transform(X)
in_reg = LinearRegression()

lin_reg.fit(X_poly, y) # Entrenamos el modelo

# Mostramos el resultado
X_new=np.linspace(-3, 3, 100).reshape(100, 1)
X_new_poly = poly_features.transform(X_new)
y_new = lin_reg.predict(X_new_poly)
plt.plot(X, y, "b.")
plt.plot(X_new, y_new, "r-", linewidth=2, label="Función hipótesis")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.axis([-3, 3, 0, 10])
plt.show()

<hr>
<h1> Funciones útiles de Python para el desarrollo de la práctica </h1>

<ul>
<li> Multiplicacion matrices A y B con numpy: A.dot(B)
<li> Traspuesta de matriz A con numpy: A.T
<li> Inversión de matriz A con numpy: np.linalg.inv(A)
<li> Matriz A por vector 𝜃 con numpy: A.dot(theta)
<li> Medida de tiempo de una orden con ipython: %timeit ...
<li> Medida de tiempo de un bloque con python: <br>
    start_time = timeit.default_timer()<br>
    ...<br>
    elapsed = timeit.default_timer() - start_time
    
</ul>