# Regresión lineal usando descenso por gradiente

En esta libreta programaremos y evaluaremos el algoritmo de descenso por gradiente para regresión lineal.

In [1]:
import numpy as np
np.random.seed(42)
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.metrics import mean_squared_error as ecm
from sklearn.model_selection import train_test_split

## Conjunto de datos

Posteriormente cargamos los datos de GPAs de alumnos de licenciatura (fuente: http://onlinestatbook.com/2/case_studies/sat.html). Usamos sólo el atributo Computer Science GPA (columna <tt>comp_GPA</tt>) como regresor para el University GPA (columna <tt>univ_GPA</tt>).

In [3]:
sat = pd.read_csv('http://onlinestatbook.com/2/case_studies/data/sat.txt', sep=' ')

X = sat.comp_GPA.to_numpy()[:, np.newaxis]
y = sat.univ_GPA.to_numpy()[:, np.newaxis]

ones = np.ones((X.shape[0], 1)) # vector columna de unos
X = np.concatenate([ones, X], axis = 1)

Dividimos aleatoriamente el conjunto de datos en 80% para entrenamiento y 20% para validación. Para eso usaremos la función <tt>train_test_split</tt> de scikit-learn.

In [4]:
X_ent, X_valid, y_ent, y_valid = train_test_split(X, y, test_size=0.2, random_state = 42)
X_rango = np.arange(2.0, 4.0, 0.01)[:, np.newaxis]
ones_rango = np.ones((X_rango.shape[0], 1))
X_rango = np.concatenate((ones_rango, X_rango), axis=1).T

## Descenso por gradiente

Vamos a entrenar un modelo de regresión lineal usando descenso por gradiente. En particular, buscaremos minimizar la suma de errores cuadráticos, la cual definimos de la siguiente manera: $$ E(y, \hat{y}) = \frac{1}{2} \sum_{i=1}^{n}(\hat{y}^{(i)} - y^{(i)})^2 $$

El gradiente de esta función de pérdida respecto a los parámetros $\theta \in \mathcal{R}^d$ está dado por
$$ \nabla E(y, \hat{y}) = [\frac{\partial E(y, \hat{y})}{\partial \theta_0}, \frac{\partial E(y, \hat{y})}{\partial \theta_1}, ..., \frac{\partial E(y, \hat{y})}{\partial \theta_d}]$$
donde
$$ \frac{\partial E(y, \hat{y})}{\partial \theta_j} = \sum_{i=1}^{n} (\hat{y}^{(i)} - y^{(i)}) \cdot x_j^{(i)}$$

In [5]:
def gradiente(X, y, y_pred):
    return X.T @ (y_pred - y)

El algoritmo de descenso por gradiente quedaría como sigue:

In [None]:
def descenso_gradiente(X, y, n_iter = 10, tasa = 0.001):
    hist_error = np.zeros(n_iter)
    # TODO