# Regresión lineal múltiple con el método OLS de Statsmodels.

El siguiente conjunto de datos, obtenido en la página kaggle.com del usuario harlfoxem, recoge información de las viviendas vendidas entre mayo del 2014 y mayo de 2015 en en King County Washington State, USA.

En este caso, disponemos de 21613 observaciones y 21 variables entre las cuales se encuentran los metros cuadrados, la localización, el precio por el que fue vendida, etc.

El objetivo de este estudio es predecir el precio de viviendas en King County Washington State, USA, así como entender cuáles son los factores más influyentes en dicha cifra, para lo cual hemos realizado el siguiente análisis de regresión lineal múltiple.

En primer lugar cargamos las librerías necesarias para manipular los datos.

In [1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm 
import time
import sys

Cargamos nuestro data set y mostramos las cinco primeras líneas

In [2]:
datos = pd.read_csv("./kc_house_data.csv")
    
datos.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


Eliminamos las columnas 'id' y 'date', puesto que se tratan de marcas identificativas, y por tanto no pueden ser clasificadas como'mejores' o 'peores' que otras, y , por consiguiente, no influyen en la predicción. También eliminamos la columna 'sqft_basement' puesto que depende linealmente del resto de predictores.

In [3]:
datos=datos.drop(['id','date','sqft_basement'], axis=1)
datos.head()

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,1955,0,98178,47.5112,-122.257,1340,5650
1,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,1951,1991,98125,47.721,-122.319,1690,7639
2,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,1933,0,98028,47.7379,-122.233,2720,8062
3,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,1965,0,98136,47.5208,-122.393,1360,5000
4,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,1987,0,98074,47.6168,-122.045,1800,7503


Ahora construímos dataframes X e Y que contengan las variables independientes y dependientes respectivamente:

In [4]:
#Variables independientes
X = datos.drop(['price'], axis=1)
X.head()

Unnamed: 0,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,3,1.0,1180,5650,1.0,0,0,3,7,1180,1955,0,98178,47.5112,-122.257,1340,5650
1,3,2.25,2570,7242,2.0,0,0,3,7,2170,1951,1991,98125,47.721,-122.319,1690,7639
2,2,1.0,770,10000,1.0,0,0,3,6,770,1933,0,98028,47.7379,-122.233,2720,8062
3,4,3.0,1960,5000,1.0,0,0,5,7,1050,1965,0,98136,47.5208,-122.393,1360,5000
4,3,2.0,1680,8080,1.0,0,0,3,8,1680,1987,0,98074,47.6168,-122.045,1800,7503


In [5]:
#Variables dependientes
Y = datos['price']
Y.head()

0    221900.0
1    538000.0
2    180000.0
3    604000.0
4    510000.0
Name: price, dtype: float64

Finalmente, creamos el modelo de regresión mediante el método de los mínimos cuadrados (OLS). Nótese que en este método es necesario añadir la constante de forma manual.

In [6]:
t1=time.time()

In [7]:
# Creación del modelo
X1 = sm.add_constant(X)
mreg = sm.OLS(Y, X1)

# Ajuste del modelo
reg = mreg.fit()


  return ptp(axis=axis, out=out, **kwargs)


In [8]:
#Estudio tiempo de ejecucion

t2=time.time()
t_linregress = float(t2-t1)

print('Regresion lineal utilizando Statsmodels.OLS')
print("Tiempo de ejecucion: {} segundos".format(t_linregress))

Regresion lineal utilizando Statsmodels.OLS
Tiempo de ejecucion: 0.06428909301757812 segundos


In [9]:
# Medimos el tamaño en bytes del objeto
print(sys.getsizeof(reg), 'bytes')

56 bytes


In [10]:
#Para conocer el resultado de la regresión
reg.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.7
Model:,OLS,Adj. R-squared:,0.7
Method:,Least Squares,F-statistic:,2960.0
Date:,"Mon, 02 Sep 2019",Prob (F-statistic):,0.0
Time:,11:18:57,Log-Likelihood:,-294600.0
No. Observations:,21613,AIC:,589200.0
Df Residuals:,21595,BIC:,589400.0
Df Model:,17,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,6.69e+06,2.93e+06,2.282,0.022,9.44e+05,1.24e+07
bedrooms,-3.577e+04,1891.843,-18.906,0.000,-3.95e+04,-3.21e+04
bathrooms,4.114e+04,3253.678,12.645,0.000,3.48e+04,4.75e+04
sqft_living,150.1005,4.385,34.227,0.000,141.505,158.696
sqft_lot,0.1286,0.048,2.683,0.007,0.035,0.223
floors,6689.5501,3595.859,1.860,0.063,-358.599,1.37e+04
waterfront,5.83e+05,1.74e+04,33.580,0.000,5.49e+05,6.17e+05
view,5.287e+04,2140.055,24.705,0.000,4.87e+04,5.71e+04
condition,2.639e+04,2351.461,11.221,0.000,2.18e+04,3.1e+04

0,1,2,3
Omnibus:,18384.201,Durbin-Watson:,1.99
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1868224.491
Skew:,3.566,Prob(JB):,0.0
Kurtosis:,47.985,Cond. No.,216000000.0
