# Regresión Linear Múltiple (Python)
---
La regresión linear utiliza el método de mínimos cuadrados para encontrar la recta que resulta en la menor suma de errores al cuadrado (RMSE: Root Mean Square Error).  

La palabra múltiple se refiere a que la variable respuesta dependerá de más de 1 variable independiente: Y = f(X1,...,Xn)

In [1]:
# 1. Importar librerías
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
from beautifultable import BeautifulTable as BT

from sklearn.model_selection import train_test_split as separar
from sklearn.preprocessing import MinMaxScaler

In [26]:
# 2. Importar datos
datos = pd.read_csv('../Datos/4.1.Empresas.csv')
datos.head()

Unnamed: 0,Investigacion,Administracion,Marketing,Pais,Beneficio
0,165349.2,136897.8,471784.1,Nueva York,192261.83
1,162597.7,151377.59,443898.53,California,191792.06
2,153441.51,101145.55,407934.54,Florida,191050.39
3,144372.41,118671.85,383199.62,Nueva York,182901.99
4,142107.34,91391.77,366168.42,Florida,166187.94


In [27]:
# 3. Crear variable y respuesta
X = datos.iloc[:, :-1].values
y = datos.iloc[:, -1].values

In [28]:
# 4. ¡Variables categóricas! Encoding
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelE = LabelEncoder()

X[:,3] = labelE.fit_transform(X[:,3])
X[:,3]

array([2, 0, 1, 2, 1, 2, 0, 1, 2, 0, 1, 0, 1, 0, 1, 2, 0, 2, 1, 2, 0, 2, 1,
       1, 2, 0, 1, 2, 1, 2, 1, 2, 0, 1, 0, 2, 1, 0, 2, 0, 0, 1, 0, 2, 0, 2,
       1, 0, 2, 0], dtype=object)

In [29]:
oneHE  = OneHotEncoder(categorical_features=[3])
X = oneHE.fit_transform(X).toarray()
dataframe = pd.DataFrame(X)
dataframe.columns(['a', 'b', 'c', 'd', 'e', 'f'], axis=0)
dataframe.head()

TypeError: 'RangeIndex' object is not callable

In [11]:
# Para evitar la trampa de la variable 'Dummy' quitamos una columna
X = X[:, 1:]

In [7]:
# 5. Separar en Entranamiento y Validación
X_train, X_test, y_train, y_test = separar(X, y, test_size=0.3, random_state=0)
print('La forma de X_train es: ', X_train.shape)
print('La forma de y_train es: ', y_train.shape)
print('La forma de X_test es: ', X_test.shape)
print('La forma de y_test es: ', y_test.shape)

La forma de X_train es:  (35, 149)
La forma de y_train es:  (35,)
La forma de X_test es:  (15, 149)
La forma de y_test es:  (15,)


In [8]:
y_train = y_train.reshape(y_train.shape[0], 1)
y_test = y_test.reshape(y_test.shape[0], 1)
print('La forma de y_train es: ', y_train.shape)
print('La forma de y_test es: ', y_test.shape)

La forma de y_train es:  (35, 1)
La forma de y_test es:  (15, 1)


In [None]:
# 6. Escalar los datos
'''
En este caso no es necesario porque sklearn ya se encarga.

escaladorX = MinMaxScaler()
X_train = escaladorX.fit_transform(X_train)
X_test  = escaladorX.transform(X_test)

escaladorY = MinMaxScaler()
y_train = escaladorY.fit_transform(y_train)
y_test  = escaladorY.transform(y_test)
'''

In [9]:
# 7. Importar el modelo
from sklearn.linear_model import LinearRegression as LR
regresor = LR()
regresor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [10]:
# 8. Hacer las predicciones (predicciones -> y_pred)
y_fit = regresor.predict(X_train) # Valores ajustados durante el entrenamiento
y_pred = regresor.predict(X_test)  # Valores resultantes con la nueva información
y_pred

array([[ 111145.20387789],
       [ 100011.09115512],
       [ 111145.20387789],
       [ 111145.20387789],
       [ 111145.20387789],
       [ 121484.45374587],
       [ 121484.45374587],
       [ 121484.45374587],
       [ 111145.20387789],
       [ 111145.20387789],
       [ 111145.20387789],
       [ 121484.45374587],
       [ 111145.20387789],
       [ 100011.09115512],
       [ 111145.20387789]])

In [11]:
# 10. Cálculo del error
from statsmodels.tools.eval_measures import rmse
RMSE = rmse(y_pred, y_test)
print('RMSE = ', RMSE)
print('Media = ', np.mean(datos['Beneficio']))

RMSE =  [ 33943.3298334]
Media =  112012.63920000002


# Conclusión
---
Hemos visto como la RLS establece una relación lineal entre todas las variables independientes (predictores) y la variable dependiente (respuesta) en función de los datos disponibles en el conjunto de entrenamiento, y como aplica esta función para obtener nuevas prediciones con la nueva información disponible en el conjunto de validación.