# Práctica 7b Regresión lineal múltiple

El objetivo sigue siendo ajustar una línea que muestre mejor la relación entre una variable independiente $X$ y el objetivo $y$. La diferencia es que en la Regresión Lineal Múltiple, tenemos que tratar con al menos 2 características o variables independientes.

In [1]:
#Importamos librerías 
import pandas as pd
from sklearn.linear_model import LinearRegression 
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score

In [2]:
#Leemos dataframe
df = pd.read_csv("comprar_alquilar.csv")
df.head(5)

Unnamed: 0,ingresos,gastos_comunes,pago_coche,gastos_otros,ahorros,vivienda,estado_civil,hijos,trabajo,comprar
0,6000,1000,0,600,50000,400000,0,2,2,1
1,6745,944,123,429,43240,636897,1,3,6,0
2,6455,1033,98,795,57463,321779,2,1,8,1
3,7098,1278,15,254,54506,660933,0,0,3,0
4,6167,863,223,520,41512,348932,0,0,3,1


Dividimos el conjunto de datos originales en conjuntos de entrenamiento (90%) y de prueba (10%):

In [3]:
#Seleccionamos las columna 1,2,3,4
X_multiple= df.iloc[:, 1:5].values

In [4]:
#Definimos nuestra variable de salida en donde encontraremos los ingresos que tiene
y_multiple = df.iloc[:,0].values


Como ya tenemos nuestros datos ahora procedemos a separarlos en entrenamiento y prueba lo hacemos utilizando la instrucción train_test_split

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X_multiple, y_multiple, test_size=0.1)

Seguidamente definimos el algoritmo a utilizar que es el de LinearRegression.

In [6]:
rl_multiple = LinearRegression(normalize=True)

Definido el algoritmo ahora procedemos a entrenar nuestro modelo con los datos correspondiente, para ello utilizamos la instrucción fit.

In [7]:
#Entrenamos el modelo
rl_multiple.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=True)

Y finalmente realizamos la predicción utilizando los datos de prueba.


In [8]:
#Realizamos una predicción
y_pred_multiple = rl_multiple.predict(X_test)

Para comprobar la exactitud de una regresión, scikit-learn proporciona la función score(X, y) que evalúa el modelo en los datos de la prueba:

In [9]:
print ("Desempeño del modelo: ", rl_multiple.score(X_test, y_test))

Desempeño del modelo:  0.8257774353014893


La precisión global es de 82.5%, lo que es un resultado aceptable considerando la no linealidad del conjunto de datos original, pero también puede ser influenciado por la subdivisión hecha por train_test_split. En cambio, para la validación cruzada de k-fold, podemos utilizar la función cross_val_score(), que funciona con todos los métodos de aprendizaje.

In [10]:
scores = cross_val_score(rl_multiple, X_train, y_train, cv=7, scoring='neg_mean_squared_error')

In [11]:
scores.mean()

-972520.0321304912

In [12]:
scores.std()

201219.2818466353

Otra métrica muy importante utilizada en las regresiones se llama el coeficiente $R^2$ . Mide la cantidad de varianza en la predicción que se explica por el conjunto de datos. En otras palabras, es la diferencia entre la muestra y la predicción. Para nuestros propósitos, los valores de R2 cercanos a 1 significan una regresión casi perfecta, mientras que los valores cercanos a 0 (o negativos) implican un mal modelo. Usar esta métrica es bastante fácil con la validación cruzada:

In [13]:
scores = cross_val_score(rl_multiple, X_train, y_train, cv=7, scoring='r2')

In [14]:
scores.mean()

0.6376806056710961

In [15]:
scores.std()

0.08555729419333653

In [16]:
y_test

array([6813, 7273, 3334, 6251, 2485, 2937, 5099, 4708, 4792, 5552, 5656,
       2516, 7595, 5558, 7420, 6152, 3473, 2274, 3976, 2369, 6194],
      dtype=int64)

In [17]:
y_pred_multiple

array([6329.64485804, 6349.53721229, 3535.3097297 , 6339.16077281,
       2730.79068108, 2834.00837208, 4833.72523092, 5746.86064349,
       5062.84841159, 5825.99664604, 5919.44823406, 3010.56263382,
       5980.5514654 , 6062.24746147, 5854.41754778, 5151.51680327,
       3365.56656371, 3626.34115239, 3875.82044026, 2554.21611629,
       5978.39650185])