# Regresión lineal

La regresión lineal es tal vez uno de los algoritmos más básicos que se utilizan en el mundo del machine learning – como el nombre mismo nos indica, nos ayuda a resolver tareas de regresión, predecir un valor numérico continuo.

La clase <code>LinearRegression</code> es a su vez una de las más sencillas de usar en cuanto a cantidad de atributos.

Vamos a crear un conjunto de datos sintéticos para practicar nuestra regresión:

In [None]:
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

X, y = make_regression(n_samples=100, n_features=10, bias=2.0, noise=5.0, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y)

Este es un dataset genérico, que contiene 10 features, en este caso es un arreglo de datos numéricos listo para ser usado en la regresión. Recuerda que normalmente tienes que hacer feature engineering, pero como eso ya lo vimos, me lo voy a saltar aquí.

In [None]:
print(X)

Los pasos básicos implican importar la clase del módulo <code>linear_model</code>:

In [None]:
from sklearn.linear_model import LinearRegression

Crear una instancia:

In [None]:
linear_regression = LinearRegression()

Y llamar al método <code>fit</code> para entrenar el modelo en los datos de entrenamiento:

In [None]:
linear_regression.fit(X_train, y_train)

Por último, basta con llamar al método predict, pasándole los datos de prueba:

In [None]:
y_pred = linear_regression.predict(X_test)

En <code>y_pred</code> tenemos nuestros valores predichos que después podemos usar para evaluar el desempeño del modelo:

In [None]:
from sklearn.metrics import mean_absolute_error

mean_absolute_error(y_test, y_pred)

O si quieres, puedes ver esto de forma más gráfica con esta función que cree para el curso:

In [None]:
from utils import plot_regression_results

plot_regression_results(y_test, y_pred)

## Argumentos de <code>LinearRegression</code>

Como lo mencioné, la regresión lineal en scikit-learn es bastante simple, los argumentos que tiene son pocos e influencian en poco al comportamiento del modelo, tenemos:

 - <code>fit_intercept</code> (booleano, opcional): indica si se debe calcular el intercepto (también llamado "ordenada al origen"). Por defecto, el valor es <code>True</code>.

 - <code>normalize</code> (booleano, opcional): indica si las variables predictoras (también llamadas "características" o "features") deben ser normalizadas. Por defecto, el valor es <code>False</code>.

 - <code>copy_X</code> (booleano, opcional): indica si se debe hacer una copia de la matriz de variables predictoras (<code>X</code>) antes de realizar el ajuste. Por defecto, el valor es <code>True</code>.

 - <code>n_jobs</code> (entero, opcional): indica el número de trabajos en paralelo que se deben utilizar para ajustar el modelo. Por defecto, el valor es <code>None</code>, lo que significa que se utiliza un solo trabajo.

 - <code>positive</code> (booleano, opcional): indica si se deben forzar los coeficientes a ser no negativos. Por defecto, el valor es <code>False</code>.

El argumento más importante es <code>fit_intercept</code>, que determina si se debe ajustar un modelo que incluya un “intercept”. El intercepto es el valor de la función cuando todas las variables predictoras son iguales a cero. Si <code>fit_intercept=True</code>, el modelo incluirá un término independiente. Si <code>fit_intercept=False</code>, el modelo no incluirá un término independiente y pasará por el origen.

Los otros argumentos tienen efectos menores sobre el modelo ajustado. <code>normalize</code> se utiliza para normalizar las variables predictoras, lo que puede ser útil si las variables tienen diferentes escalas – y no las has normalizado previamente. <code>n_jobs</code> controla el número de trabajos en paralelo que se deben utilizar para ajustar el modelo, lo que puede ser útil si se dispone de múltiples núcleos de CPU – aunque solamente es usado en algunos casos especiales. Finalmente, <code>positive</code> forzará los coeficientes a ser no negativos, lo que puede ser útil en algunos casos.

## Atributos de la regresión lineal

La clase también tiene algunos atributos interesantes que te podrían ser útiles en algunas situaciones. Los más útiles son <code>coef_</code> e <code>intercept_</code>:

El atributo <code>coef_</code> es un arreglo unidimensional que contiene los coeficientes de regresión, uno para cada variables de entrada en el conjunto de datos. El orden de los coeficientes corresponde al orden de las variables predictoras en la matriz de datos de entrada utilizada para entrenar el modelo. Esto nos puede servir para determinar, de forma limitada, la importancia o el peso que cada variable tiene dentro del modelo.

El atributo <code>intercept_</code> es un escalar que representa el valor de la variable dependiente cuando todas las variables predictoras son cero. Por ejemplo, en un modelo de regresión lineal que predice el precio de una casa a partir de su tamaño en metros cuadrados, el término independiente podría representar el precio base de una casa. En este caso, el valor del término independiente podría ser utilizado para determinar si nuestro algoritmo está estimando correctamente el precio de una casa “base”.

Vamos a ver algo sencillo como ejemplo – un pequeño dataset que representa los precios de una casa en relación con sus dimensiones en metros cuadrados.

In [None]:
from utils import load_custom_houses
square_meters, price = load_custom_houses()

Podemos nosotros entrenar una regresión linear:

In [None]:
lr = LinearRegression()
lr.fit(square_meters, price)

Y también podemos revisar sus coeficientes:

In [None]:
lr.coef_

Y el intercept:

In [None]:
lr.intercept_

Gracias a esto tenemos que por cada metro que tenga nuestra casa, el precio aumentará por 373.95.

Y puedes inclusive calcular el precio total multiplicando:



In [None]:
y = square_meters[0] * lr.coef_[0] + lr.intercept_

In [None]:
lr.predict(square_meters[:1])

Y pues ahí lo tienen, esta es la regresión lineal, y aunque no lo crean es tal vez el modelo más usado en la industria. Obviamente, con muchas más variables y un montón de feature engineering.

Espero te hayan quedado claras las cosas que acá vimos. Recuerda que el notebook y las diapositivas están en los recursos de la lección.