# Regresión Lineal Mútliple

## Importar bibliotecas

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from sklearn.linear_model import LinearRegression

## Datos

In [4]:
data = pd.read_csv('Multiple linear regression.csv')
data.head()

Unnamed: 0,SAT,GPA,"Rand 1,2,3"
0,1714,2.4,1
1,1664,2.52,3
2,1760,2.54,3
3,1685,2.74,3
4,1693,2.83,2


In [5]:
data.describe()

Unnamed: 0,SAT,GPA,"Rand 1,2,3"
count,84.0,84.0,84.0
mean,1845.27381,3.330238,2.059524
std,104.530661,0.271617,0.855192
min,1634.0,2.4,1.0
25%,1772.0,3.19,1.0
50%,1846.0,3.38,2.0
75%,1934.0,3.5025,3.0
max,2050.0,3.81,3.0


## Creamos la regresión lineal mútliple

### Variables dependientes e independientes

In [6]:
# Dos variables independentes: 'SAT' y 'Rand'
x = data[['SAT','Rand 1,2,3']]

# variable dependiente
y = data['GPA']

### Regresión

In [7]:
reg = LinearRegression()
reg.fit(x,y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [8]:
# Los coeficientes de la regresión
reg.coef_

array([ 0.00165354, -0.00826982])

In [9]:
# La constante de la regresión
reg.intercept_

0.29603261264909486

## Calculando R-squared

In [10]:
# La r2 evalua que tambien ajustado esta el modelo
reg.score(x,y)

0.4066811952814285

### Formula de R^2 ajustada
R2 ajustada es mejor para regresiones multiples.
<br>
Se ajusta al número de variables incluidas en el modelo
<br>
Hay que calcularla a mano.
<br>
$R^2_{adj.} = 1 - (1-R^2)*\frac{n-1}{n-p-1}$

In [11]:
# Para calcular la R-squared ajustada necesitamos conocer la r2, el #observaciones, el #caracteristicas
r2 = reg.score(x,y)
# Numero de observaciones
n = x.shape[0]
# Numero de predictores
p = x.shape[1]

# Usamos la formula
adjusted_r2 = 1-(1-r2)*(n-1)/(n-p-1)
adjusted_r2

0.39203134825134023

Podemos concluir que:
<br>
Como $R^2 adj < R^2$ entonces una o mas predictores tiene poco poder explicativo.
<br>
Pero, cuál??

# Selección de Predictores

<ul>
<li> Simplifica el modelo </li>
<li> Mejora la eficiencia </li>
</ul>

Full documentation: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_regression.html
<br>
F-regression construye regresiones lineales simples por cada predictor.
<br>
Crea una regresion para GPA <- SAT y otra para GPA <- RAND

In [12]:
# Importamos el método
from sklearn.feature_selection import f_regression

In [13]:
# f_regression encuentra los F-statistics para las regresiones simples creadas con cada 
# una de las variables independientes
# Esto significa ejecutar una regresión lineal simple en GPA donde SAT es la variable independiente
# y una regresión lineal simple en GPA donde Rand es la variable independiente
# La limitación de este enfoque es que no tiene en cuenta el efecto mutuo de las dos características 

# Hay dos arreglos de salida
# El primero contiene las F-statistics para cada una de las regresiones
# El segundo contiene los p-value de estas F-statistics 
f_regression(x,y)

(array([56.04804786,  0.17558437]), array([7.19951844e-11, 6.76291372e-01]))

In [14]:
p_values = f_regression(x,y)[1]
p_values

array([7.19951844e-11, 6.76291372e-01])

In [15]:
p_values.round(3)

array([0.   , 0.676])

p-value de SAT = 0
<br>
p-value de RAND = 0.676
<br>
Entonces SAT es una variable útil mientras qeu RAND es una variable inútil

## Tabla de Resumen

In [16]:
# Construimos un dataframe con los nombres de los predictores
reg_summary = pd.DataFrame(data = x.columns.values, columns=['Features'])
reg_summary

Unnamed: 0,Features
0,SAT
1,"Rand 1,2,3"


In [18]:
# Construimos una segunda columna con los coeficientes de la regresion
reg_summary ['Coefficients'] = reg.coef_
# Agregamos los p-values
reg_summary ['p-values'] = p_values.round(3)
reg_summary

Unnamed: 0,Features,Coefficients,p-values
0,SAT,0.001654,0.0
1,"Rand 1,2,3",-0.00827,0.676


p-values es la mejor forma de determinar si una variable es redundante, pero no da información acerca de qué tan útil es una variable.
<br>
Podemos determinar que dos variables son importantes por su p-value pero no significa que sean igualmente importantes.