# Regresión Lineal y Polinomial

En este Notebook vamos a aprender cómo hacer una regresión lineal con Scikit Learn y después vamos a ver cómo entrenar nuestro propio modelo de regresión lineal con el algoritmo _Gradient Descent_.

## Regresión Lineal Simple

Para hacer una regresión lineal en Scikit Learn hacemos lo siguiente.

In [21]:
%matplotlib widget

import numpy as np
import matplotlib.pyplot as plt


# Creamos datos que se ven lineales

X = 2 * np.random.rand(100, 1)
y = 4 + 3*X + np.random.randn(100, 1)

plt.scatter(X, y)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

<matplotlib.collections.PathCollection at 0x11ed731f0>

In [22]:
from sklearn.linear_model import LinearRegression

# Hacemos la regresión lineal

lin_reg = LinearRegression()

lin_reg.fit(X, y)

# Imprimimos n y m
lin_reg.intercept_, lin_reg.coef_

(array([4.0168606]), array([[3.05005443]]))

In [23]:
# Hacemos una predicción

lin_reg.predict([[5]])

array([[19.26713274]])

## Regresión Lineal Multivariable

Para hacer una regresión multivariable seguimos la misma estructura de Scikit Learn que hemos usado hasta ahora.

In [24]:
%matplotlib widget

from mpl_toolkits.mplot3d import Axes3D

X = 2 * np.random.rand(100, 2)
y = 3 * X[:,[True, False]] + 4 * X[:,[False, True]] + np.random.randn(100, 1)

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(X[:,[True, False]], X[:,[False, True]], y,  zdir='z')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x11eaacc40>

In [25]:
lin_reg.fit(X, y)

lin_reg.intercept_, lin_reg.coef_

(array([0.14796548]), array([[2.64354684, 4.17852207]]))

In [26]:
# Hacer una predicción

lin_reg.predict([[5, 5]])

array([[34.25831004]])

## Regresión Polinomial

Cuando tenemos puntos en el plano, podemos hacer _fit_ de un polinomio por los puntos en el plano usando el mismo algoritmo de regresión multivariable. Supón que tienes los puntos:

$$
[(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)]
$$

Si queremos una regresión con un polinomio de grado $k$ sobre estos datos, tenemos que agregar potencias de cada _feature_ hasta $k$ y después hacer _fit_ sobre eso:

| $f_0$ | $f_1$ | $f_2$ | $\dots$ | $f_k$ |
|---|---|---|---|---|
| $1$ | $x_1$ | $x_1^2$ | $\dots$ | $x_1^k$ |
| $1$ | $x_2$ | $x_2^2$ | $\dots$ | $x_2^k$ |
| $1$ | $\dots$ | $\dots$ | $\dots$ | $\dots$ |
| $1$ | $x_n$ | $x_n^2$ | $\dots$ | $x_n^k$ |

Obtener estas _features_ extendidas es fácil con Scikit Learn.

In [27]:
%matplotlib widget

# Primero creamos datos que se ven cuadráticos

X = 7 * np.random.rand(100, 1) - 4
y = 0.5 * X**2 + X + 10 + np.random.randn(100, 1)

plt.scatter(X, y)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

<matplotlib.collections.PathCollection at 0x11eb76790>

In [28]:
from sklearn.preprocessing import PolynomialFeatures

# Si agregamos include_bias=True se crea una primera columna llena de 1s
# Esto representa el coeficiente de posición
# Pero el método fit de Linear Regression no lo necesita!
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
X_poly

array([[-2.96267896e+00,  8.77746664e+00],
       [-2.26065755e+00,  5.11057254e+00],
       [ 1.76834750e+00,  3.12705288e+00],
       [-1.21169749e+00,  1.46821080e+00],
       [ 7.65861477e-01,  5.86543802e-01],
       [ 1.86845800e+00,  3.49113529e+00],
       [ 1.81231801e+00,  3.28449656e+00],
       [ 2.68639556e+00,  7.21672108e+00],
       [-3.20491683e+00,  1.02714919e+01],
       [-2.25669630e-01,  5.09267818e-02],
       [ 7.69410181e-02,  5.91992026e-03],
       [-3.86001659e+00,  1.48997281e+01],
       [-3.41395908e-01,  1.16551166e-01],
       [ 6.07965921e-01,  3.69622561e-01],
       [-2.88713853e+00,  8.33556891e+00],
       [-2.64461210e+00,  6.99397317e+00],
       [-9.84852510e-01,  9.69934467e-01],
       [-1.62292859e+00,  2.63389722e+00],
       [ 7.03665175e-01,  4.95144678e-01],
       [ 1.70662717e+00,  2.91257629e+00],
       [-3.33510833e+00,  1.11229476e+01],
       [-1.79595137e+00,  3.22544134e+00],
       [-5.73956535e-01,  3.29426104e-01],
       [-2.

In [29]:
%matplotlib widget

# Ahora hacemos la regresión y la graficaremos

lin_reg = LinearRegression()
lin_reg.fit(X_poly, y)

plt.scatter(X, y)

# Para graficar la curva debemos ordenar los elementos según X y la primera columna de X_poly
# Recordemos además que predict recibe el x y x^2
plt.plot(X[X[:,0].argsort()], lin_reg.predict(X_poly[X_poly[:,0].argsort()]), color='purple')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

[<matplotlib.lines.Line2D at 0x11ee729d0>]

Ahora, ¿por qué esto funciona? Esto es algo que tendrás que descubrir en el control.