## Regresión Lineal Múltiple con SkLearn

Vamos a replicar el cuaderno #4 pero con Sklearn!

In [1]:
import numpy as np
import pandas as pd

# vamos a cargar los datos del dataset de Autos
data = pd.read_csv("data/auto-mpg.csv")

# Eliminar una columna (drop)
data.drop('car name',axis=1,inplace=True)

# convertir columnas en datos numericos
for c in data.columns:
    data[c] = pd.to_numeric(data[c], errors ='coerce')
    
# vamos a reemplazar los valores nulos por la mediana.
data['horsepower'] = data['horsepower'].fillna(data['horsepower'].median())

# seleccionamos los datos (menos mpg que es y)

X = data.iloc[:,1:]
y = data.iloc[:,0]


In [2]:
from sklearn.linear_model import LinearRegression

model = LinearRegression().fit(X.values, y.values)

print("b",0,":","%.2f"%model.intercept_)
for i,b in zip(np.arange(1,len(model.coef_)+1), model.coef_):
    print("b",i,":", "%.2f"%b)

b 0 : -17.91
b 1 : -0.42
b 2 : 0.02
b 3 : -0.01
b 4 : -0.01
b 5 : 0.10
b 6 : 0.76
b 7 : 1.42


In [3]:
# Realizamos la prediccion de y_prima!
y_prima = model.predict(X)

# calculamos el MSE con Sklearn!
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y, y_prima)
print("MSE:",mse)

MSE: 10.910811055666656


## Estadisticas Adicionales con statsmodels

Nos Interesan: 
- **R-squared** (Coeficiente de Determinación): R² es el cuadrado del coeficiente de correlación de Pearson.
- **R-squared Adjusted**: lo mismo que R² que no penaliza la inclusión de variables no significativas.
- **AIC** (Akaike Information Criteria): Teoria de la información: se utiliza para determinar la información perdida al utilizar el modelo. Entre menos información pieda el modelo, este se considera de mejor calidad.
- **BIC** (Bayesian information Criteria): Es otra metrica para la seleccion de modelos donde el BIC menor es el modelo de preferencia.
- **Coef**: los betas! donde const es el intercept ($\beta_0$).
- **P>|t|**: probablilidad calculada de cada valor en una distribucion t (t-distribution): se dice que un p-value menor o igual 0.05 es estadisticamente significativo. Entonces se asume un 5% de riesgo de que la contribucion del coeficiente al modelo es mera casualidad.

In [6]:
# Sklearn No posee la funcion para calcular informacion adicional de regresion lineal...

#!pip3 install statsmodels
import statsmodels.api as sm

X2 = sm.add_constant(X)
model_ols = sm.OLS(y, X2)
pred = model_ols.fit()
print(pred.summary())

                            OLS Regression Results                            
Dep. Variable:                    mpg   R-squared:                       0.821
Model:                            OLS   Adj. R-squared:                  0.818
Method:                 Least Squares   F-statistic:                     255.4
Date:                Sat, 15 Aug 2020   Prob (F-statistic):          2.15e-141
Time:                        18:01:23   Log-Likelihood:                -1040.3
No. Observations:                 398   AIC:                             2097.
Df Residuals:                     390   BIC:                             2128.
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const          -17.9066      4.604     -3.890   