## Regresión Lineal Múltiple

En la regresión lineal múltiple se genera un modelo que predice la variable dependiente “y” a partir de un set de variables X1,X2,...,Nn. Esto implica por cada término X, calcular a partir de los datos una serie de parámetros beta, donde la ecuación queda de la siguiente forma: 

$$ y = \beta_0 * 1 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k $$  

En el monomio $\beta_0 * 1$ observamos un 1, esto es para poder calcular "y" como la multiplicacion de dos arreglos $\beta$ y  $X$, donde $X=[1,45,67,98,12]$, el uno es para que ambos vectores tengan las mismas dimensiones.

$$ y = \beta X^T$$

### Cálculo de los coeficientes beta utilizando mínimos cuadrados.

$$ \hat{\beta} = (X^TX)'X^Ty$$

In [1]:
import numpy as np
import pandas as pd

In [2]:
# vamos a cargar los datos del dataset de Autos
data = pd.read_csv("data/auto-mpg.csv")

# Eliminar una columna (drop)
data.drop('car name',axis=1,inplace=True)

# convertir columnas en datos numericos
for c in data.columns:
    data[c] = pd.to_numeric(data[c], errors ='coerce')
    
# vamos a reemplazar los valores nulos por la mediana.
data['horsepower'] = data['horsepower'].fillna(data['horsepower'].median())

# vamos a meter una columna de 1s a X
rows = data.shape[0]
data.insert(1,'unos',np.ones(rows).reshape(-1,1))

data.head()

Unnamed: 0,mpg,unos,cylinders,displacement,horsepower,weight,acceleration,model year,origin
0,18.0,1.0,8,307.0,130.0,3504,12.0,70,1
1,15.0,1.0,8,350.0,165.0,3693,11.5,70,1
2,18.0,1.0,8,318.0,150.0,3436,11.0,70,1
3,16.0,1.0,8,304.0,150.0,3433,12.0,70,1
4,17.0,1.0,8,302.0,140.0,3449,10.5,70,1


In [3]:
# seleccionamos los datos (menos mpg que es y)

X = data.iloc[:,1:]
y = data.iloc[:,0]
y = np.array(y).reshape(-1,1)

In [4]:
# calculos de los coeficientes Beta (vectorizados)
from numpy.linalg import inv

Xm = X.values # matriz

a = inv(np.dot(Xm.transpose(), Xm)) #inv(xTx)
b = np.dot(a, Xm.transpose()) # (xTx)^-1 * xT
betas = np.dot(b,y) # (xTx)^-1 * xT * y

for i,b in zip(np.arange(0,len(betas)+1), betas):
    print("b",i,":","%.2f"%b)

b 0 : -17.91
b 1 : -0.42
b 2 : 0.02
b 3 : -0.01
b 4 : -0.01
b 5 : 0.10
b 6 : 0.76
b 7 : 1.42


In [8]:
# Realizamos la prediccion de y_prima!
y_prima = np.dot(Xm, betas)
y_prima.head()

array([[15.00830083],
       [14.07928273],
       [15.32750541],
       [15.17894539],
       [15.01037361],
       [10.68877894],
       [10.70748272],
       [10.7348886 ],
       [10.28720164],
       [13.18600722],
       [15.36964415],
       [14.16987747],
       [14.56613679],
       [19.25500099],
       [24.15156089],
       [19.04314881],
       [19.43257798],
       [20.90172066],
       [25.50510632],
       [27.16534285],
       [21.00521705],
       [22.23734786],
       [22.78093271],
       [23.33571818],
       [20.31409316],
       [ 7.72083129],
       [ 8.59552276],
       [ 8.4939215 ],
       [ 6.58415953],
       [26.26089501],
       [23.40748206],
       [25.77366713],
       [24.36725979],
       [21.4723667 ],
       [16.13093031],
       [17.40592343],
       [17.73537726],
       [17.33754146],
       [11.42827342],
       [10.50024115],
       [12.11146718],
       [11.85923155],
       [ 6.82597734],
       [ 8.72255823],
       [ 6.02186146],
       [19

In [6]:
# calculamos el MSE con Sklearn!
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y, y_prima)
print("MSE:",mse)

MSE: 10.910811055666661
