# <span style = "color:green"> Regresión lineal múltuple

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#Librerías para categorizar las variables
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer

#Librerias para la division de los conjuntos de entrenamiento
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression 

#Libreria para la eliminacion hacia atras
import statsmodels.api as sm


In [2]:
ds = pd.read_csv("50_Startups.csv")

In [3]:
ds.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State,Profit
0,165349.2,136897.8,471784.1,New York,192261.83
1,162597.7,151377.59,443898.53,California,191792.06
2,153441.51,101145.55,407934.54,Florida,191050.39
3,144372.41,118671.85,383199.62,New York,182901.99
4,142107.34,91391.77,366168.42,Florida,166187.94


# <span style = 'color:red'> 1. Separación de variables dependientes e independientes 

In [4]:
x = ds.iloc[:,:-1].values
y = ds.iloc[:,4].values

# <span style= 'color:red'> 2. Categorización de las variables

In [5]:
# Primero se transforman los strings a datos numéricos
# Luego la columna escogia se transforma a variable dummy (se generan las nuevas columnas)
labelenconder_x = LabelEncoder()
x[:,3] = labelenconder_x.fit_transform(x[:,3])

ct = ColumnTransformer(
    [('one_hot_encoder', OneHotEncoder(categories='auto'), [3])],   
    remainder='passthrough'                        
                      )#3
x = np.array(ct.fit_transform(x), dtype = float)

In [6]:
# Evitar la trampa de las variables dummy (se elimina una de las variables dummy)
# Se va a eliminar la columna cero
x = x[:,1:]

# <span style = 'color:red'> 3. Conjuntos de entrenamiento y de prueba

In [7]:
#Diviendo los conjuntos de entrenamiento y testing
# test_size indica el porcentaje del conjunto de prueba
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size = 0.2, random_state = 0)

In [8]:
#Ajuste del modelo de regresion lineal múltiple con el conjunto de entrenamiento
regression = LinearRegression()
regression.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

# <span style= 'color:red'> 4. Predicción de los resultados en el cojunto de entrenamiento y pruebas

In [9]:
y_pred = regression.predict(x_test)

# <span style= 'color:red'> 5. Eliminación hacia atrás

In [10]:
# Se va a agregar una columna de unos al inicio, y 1 corresponde al coeficiente
x = np.append(arr =np.ones((50,1)).astype(int), values = x, axis =1)

In [11]:
# Se va a crea una matriz que se va a quedar con las variables estadísticamente significativas
#2 Se vuelve a crear el modelo de regresion pero con statsmodel y para eliminar
SL = 0.05
x_opt = x[:,[0,1,2,3,4,5]]
#OrdinaryLeastSquares
regression_OLS = sm.OLS(endog = y, exog = x_opt).fit() #2
#Informacion de la regresion
regression_OLS.summary();

In [12]:
# Se elimina la primera variable
x_opt = x[:,[0,1,3,4,5]]
#OrdinaryLeastSquares
regression_OLS = sm.OLS(endog = y, exog = x_opt).fit() #2
#Informacion de la regresion
regression_OLS.summary();

In [13]:
# Se elimina la segunda variable
x_opt = x[:,[0,3,4,5]]
#OrdinaryLeastSquares
regression_OLS = sm.OLS(endog = y, exog = x_opt).fit() #2
#Informacion de la regresion
regression_OLS.summary();

In [14]:
# Se elimina la tercera variable
x_opt = x[:,[0,3,5]]
#OrdinaryLeastSquares
regression_OLS = sm.OLS(endog = y, exog = x_opt).fit() #2
#Informacion de la regresion
regression_OLS.summary();

In [17]:
# Se elimina la cuarta variable y mediante esta forma se obtiene un modelo lineal
x_opt = x[:,[0,3]]
#OrdinaryLeastSquares
regression_OLS = sm.OLS(endog = y, exog = x_opt).fit() #2
#Informacion de la regresion
regression_OLS.summary();