## Regresión Lineal

### Definición
Es uno de los métodos de regresión más simples. La ventaja más grande que tiene es la facilidad en la interpretación de los resultados, ya que para ello se usa el **coeficiente de determinación** $ R^2 $ <br><br> $ R^2 $ determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo

### Tipos
#### RL Simple
* Para un conjunto de datos de una única entrada 'x' (variable independiente) y una única salida 'y' se trata de calcular los valores óptimos para el intercepto (punto por donde el valor predicho cruza el eje 'y)´y la pendiente de la línea de regresión estimada.

#### RL Multivariada
* En este caso el comportamiento es idéntico a la regresión simple, con la diferencia de que será más de una entrada (un array) y una única salida 'y'.

#### RL Polinómica
* Es un caso generalizado de la regresión lineal, en este tipo de regresión, además de los términos lineales, la función de regresión puede incluir términos no lineales. Recibe una o más variables independientes y el grado de la función polinómica para realizar la predicción.

### Ejemplo RL Multivariada
Se aplicará la regresión lineal para predecir la distancia entre un par de puntos (x,y) y (x1,y1), uno de ellos constante.$$ d = \sqrt{(x1-x)^2 + (y1 - y)^2} $$<br>
Se aplicará este tipo de regresión debido a que hay más de una variable independiente para la predicción.

In [1]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.utils.random import check_random_state
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

### Generar el conjunto de datos
Para generar el conjunto de datos se calculará la distancia entre un conjunto de 5000 puntos (x,y) aleatorios, así, el modelo de regresión se ajustará a una proporción del 80% del conjunto y el 20% restante estará destinado a la predicción.

In [2]:
def calcular_distancia(X,Y,XF,YF):
    return np.round(np.sqrt(np.power(XF-X,2)+np.power(YF-Y,2)),2)

XF = 5
YF = 12.5

rng = check_random_state(0)

X = np.round(rng.uniform(1, 11, 10000).reshape(5000, 2),2)
XFs=[[XF] for i in range(5000)]
YFs=[[YF] for i in range(5000)]
X=np.append(X, XFs, axis=1)
X=np.append(X, YFs, axis=1)
Y = calcular_distancia(X[:, 0],X[:, 1],XF,YF)
x_train, x_test, y_train, y_test = train_test_split(X,Y,test_size=0.2,random_state=42)

### Crear y ajustar el modelo
Se usará el 80% de los datos (x_train, y_train) para ajustar el modelo

In [3]:
model = LinearRegression().fit(x_train,y_train)

### Métrica (Coeficiente de determinanción $R^2$)

In [4]:
R2 = model.score(x_train,y_train)
print('Coeficiente de determinación:', R2)

Coeficiente de determinación: 0.9464075568554206


### Predicciones con datos desconocidos
Se usará el 20% de los datos (x_test,y_test) para probar el modelo de regresión con datos que no se tuvieron en cuenta en su 'entrenamiento'.

In [5]:
y_new = model.predict(x_test)
R2 = r2_score(y_test,y_new)
print('Coeficiente de determinación:', R2)

Coeficiente de determinación: 0.9509512200292076


## Ejemplo RL Polinómica
Una vez obtenido el conjunto de datos, las entradas deben transformarse, de manera que al conjunto de datos se le agregarán las columnas que correspondan al grado polinómico ($ X^2 $ por defecto).

In [6]:
transformador = PolynomialFeatures(degree = 2)
transformador.fit(x_train)
x_train_ = transformador.transform(x_train)

### Crear y ajustar el modelo
Se usará el 80% de los datos (x_train, y_train) para ajustar el modelo

In [7]:
model = LinearRegression().fit(x_train_,y_train)

### Métrica (Coeficiente de determinanción $R^2$)

In [8]:
R2 = model.score(x_train_,y_train)
print('Coeficiente de determinación:', R2)

Coeficiente de determinación: 0.9930496608946938


### Predicciones con datos desconocidos
Se usará el 20% de los datos (x_test,y_test) para probar el modelo de regresión con datos que no se tuvieron en cuenta en su 'entrenamiento'.

In [9]:
transformador = PolynomialFeatures(degree = 2)
transformador.fit(x_test)
x_test = transformador.transform(x_test)
y_new = model.predict(x_test)
R2 = r2_score(y_test,y_new)
print('Coeficiente de determinación:', R2)

Coeficiente de determinación: 0.9933145339780451
