# Regresión Linear Múltiple (Python)
---
La regresión linear utiliza el método de mínimos cuadrados para encontrar la recta que resulta en la menor suma de errores al cuadrado (RMSE: Root Mean Square Error).  

La palabra múltiple se refiere a que la variable respuesta dependerá de más de 1 variable independiente: Y = f(X1,...,Xn)


## Escenario del problema
---

<img src='../Imagenes/experiencia.png' style='width:12%;height:12%;float:left;margin-right:20px'>
Queremos encontrar la relación que existe entre los años de experiencia profesional y el salario que podemos esperar tener cuando lo hayamos conseguido.  
¡Vamos a ello!

In [1]:
# 1. Importar librerías
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
from beautifultable import BeautifulTable as BT

from sklearn.model_selection import train_test_split as separar
from sklearn.preprocessing import MinMaxScaler

In [2]:
# 2. Importar datos
datos = pd.read_csv('../Datos/4.1.Empresas.csv')
datos.head()

Unnamed: 0,Investigacion,Administracion,Marketing,Pais,Beneficio
0,165349.2,136897.8,471784.1,Nueva York,192261.83
1,162597.7,151377.59,443898.53,California,191792.06
2,153441.51,101145.55,407934.54,Florida,191050.39
3,144372.41,118671.85,383199.62,Nueva York,182901.99
4,142107.34,91391.77,366168.42,Florida,166187.94


In [3]:
# 3. Crear variable y respuesta
X = datos.iloc[:, :-1].values
y = datos.iloc[:, -1].values

In [4]:
# 4. ¡Variables categóricas! Encoding
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelE = LabelEncoder()
X[:,3] = labelE.fit_transform(X[:,3])
X[:,3]

array([2, 0, 1, 2, 1, 2, 0, 1, 2, 0, 1, 0, 1, 0, 1, 2, 0, 2, 1, 2, 0, 2, 1,
       1, 2, 0, 1, 2, 1, 2, 1, 2, 0, 1, 0, 2, 1, 0, 2, 0, 0, 1, 0, 2, 0, 2,
       1, 0, 2, 0], dtype=object)

In [5]:
oneHE  = OneHotEncoder(categorical_features=[3])
X = oneHE.fit_transform(X).toarray()
dataframe = pd.DataFrame(X, columns = (['Florida', 'Nueva York', 'California', 'Investigación', 'Administración', 'Marketing']))
dataframe.head()

Unnamed: 0,Florida,Nueva York,California,Investigación,Administración,Marketing
0,0.0,0.0,1.0,165349.2,136897.8,471784.1
1,1.0,0.0,0.0,162597.7,151377.59,443898.53
2,0.0,1.0,0.0,153441.51,101145.55,407934.54
3,0.0,0.0,1.0,144372.41,118671.85,383199.62
4,0.0,1.0,0.0,142107.34,91391.77,366168.42


Fijarse como hemos un OneHotEncoder para la variable categórica. Ahora todas nuestras variables sob de caracter numérico

In [6]:
# Para evitar la trampa de la variable 'Dummy' quitamos una columna
X = X[:, 1:] # Por ejemplo quitamos Florida

In [7]:
# 5. Separar en Entranamiento y Validación
X_train, X_test, y_train, y_test = separar(X, y, test_size=0.3, random_state=0)
print('La forma de X_train es: ', X_train.shape)
print('La forma de y_train es: ', y_train.shape)
print('La forma de X_test es: ', X_test.shape)
print('La forma de y_test es: ', y_test.shape)

La forma de X_train es:  (35, 5)
La forma de y_train es:  (35,)
La forma de X_test es:  (15, 5)
La forma de y_test es:  (15,)


In [None]:
# 6. Escalar los datos
'''
En este caso no es necesario porque sklearn ya se encarga.

escaladorX = MinMaxScaler()
X_train = escaladorX.fit_transform(X_train)
X_test  = escaladorX.transform(X_test)

escaladorY = MinMaxScaler()
y_train = escaladorY.fit_transform(y_train)
y_test  = escaladorY.transform(y_test)
'''

In [8]:
# 7. Importar el modelo
from sklearn.linear_model import LinearRegression as LR
regresor = LR()
regresor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [9]:
# 8. Hacer las predicciones (predicciones -> y_pred)
y_fit = regresor.predict(X_train) # Valores ajustados durante el entrenamiento
y_pred = regresor.predict(X_test)  # Valores resultantes con la nueva información
y_pred

array([ 104282.76472172,  132536.88499212,  133910.85007767,
         72584.77489417,  179920.9276189 ,  114549.31079232,
         66444.43261346,   98404.96840123,  114499.82808601,
        169367.50639895,   96522.62539981,   88040.6718287 ,
        110949.99405526,   90419.18978509,  128020.46250064])

In [10]:
# 10. Cálculo del error
from statsmodels.tools.eval_measures import rmse
RMSE = rmse(y_pred, y_test)
print('RMSE = ', RMSE)
print('Media = ', np.mean(datos['Beneficio']))

RMSE =  7867.85513354
Media =  112012.6392


# Conclusión
---
Hemos visto como la RLS establece una relación lineal entre todas las variables independientes (predictores) y la variable dependiente (respuesta) en función de los datos disponibles en el conjunto de entrenamiento, y como aplica esta función para obtener nuevas prediciones con la nueva información disponible en el conjunto de validación.