# Multiple Linear Regression
### Construir el modelo óptimo de RLM utilizando la Eliminación hacia atrás

- Como no se tiene reflejado en el dataset el `coeficiente independiente b0` entonces se procede a añadir una `columna llena de 1` (esto debido a que la librería `statsmodels` ya asume que una columna de `1` está asociada al coeficiente independiente) para que el análisis sea adecuado ya que este valor también debe formar parte de cuando se ejecute cualquier técnica de selección de datos, en este caso el de `Eliminación hacia atrás`

- Importante tomar en cuenta que, se debe eliminar una de las columnas generadas por Dummy Variables para evitar la multicolinealidad, por lo cual se pasa el parámetro `drop_first=True` con lo cual, `X` queda solo con 2 columnas nuevas en lugar de 3

In [1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

dataset = pd.read_csv('50_Startups.csv')
X = pd.get_dummies(dataset.iloc[:, :-1], dtype="int", drop_first=True).values
y = dataset.iloc[:, -1].values

X = np.append(arr = np.ones((50,1)).astype(int), values = X, axis = 1)
SL = 0.05
pd.DataFrame(X[0:5, :], columns=['b0', 'x1', 'x2', 'x3', 'x4', 'x5'])

Unnamed: 0,b0,x1,x2,x3,x4,x5
0,1.0,165349.2,136897.8,471784.1,0.0,1.0
1,1.0,162597.7,151377.59,443898.53,0.0,0.0
2,1.0,153441.51,101145.55,407934.54,1.0,0.0
3,1.0,144372.41,118671.85,383199.62,0.0,1.0
4,1.0,142107.34,91391.77,366168.42,1.0,0.0


En un inicio `X_optimo` va a tomar todas las variables y se va a hacer uso de la técnica de `Mínimos cuadrados ordinales (OLS)` para la regresión ya que la librería de `sklearn` y su método `LinearRegression` no devuelven un objeto como el que esperan los métodos de `statsmodels`

- endog => endógena => variable a predecir
- exog => exógena => variables independientes

En cada paso con el método `summary()` se obtiene una tabla con varios datos, entre estos los coeficientes y el p_valor representado por `P>|t|`. Para la técnica de elimincaión hacia atrás se debe eliminar todas las variables cuyo `p_valor > SL` (una en cada paso, la que tenga el valor más alto)

In [2]:
X_opt = X[:, [0, 1, 2, 3, 4, 5]]
regression_OLS = sm.OLS(endog = y, exog = X_opt.tolist()).fit()
print(regression_OLS.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.951
Model:                            OLS   Adj. R-squared:                  0.945
Method:                 Least Squares   F-statistic:                     169.9
Date:                Wed, 13 Sep 2023   Prob (F-statistic):           1.34e-27
Time:                        23:02:19   Log-Likelihood:                -525.38
No. Observations:                  50   AIC:                             1063.
Df Residuals:                      44   BIC:                             1074.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       5.013e+04   6884.820      7.281      0.0

In [3]:

X_opt = X[:, [0, 1, 2, 3, 4]]
regression_OLS = sm.OLS(endog = y, exog = X_opt.tolist()).fit()
print(regression_OLS.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.951
Model:                            OLS   Adj. R-squared:                  0.946
Method:                 Least Squares   F-statistic:                     217.2
Date:                Wed, 13 Sep 2023   Prob (F-statistic):           8.49e-29
Time:                        23:02:21   Log-Likelihood:                -525.38
No. Observations:                  50   AIC:                             1061.
Df Residuals:                      45   BIC:                             1070.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       5.011e+04   6647.870      7.537      0.0

In [4]:

X_opt = X[:, [0, 1, 2, 3]]
regression_OLS = sm.OLS(endog = y, exog = X_opt.tolist()).fit()
print(regression_OLS.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.951
Model:                            OLS   Adj. R-squared:                  0.948
Method:                 Least Squares   F-statistic:                     296.0
Date:                Wed, 13 Sep 2023   Prob (F-statistic):           4.53e-30
Time:                        23:02:23   Log-Likelihood:                -525.39
No. Observations:                  50   AIC:                             1059.
Df Residuals:                      46   BIC:                             1066.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       5.012e+04   6572.353      7.626      0.0

In [5]:
X_opt = X[:, [0, 1, 3]]
regression_OLS = sm.OLS(endog = y, exog = X_opt.tolist()).fit()
print(regression_OLS.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.950
Model:                            OLS   Adj. R-squared:                  0.948
Method:                 Least Squares   F-statistic:                     450.8
Date:                Wed, 13 Sep 2023   Prob (F-statistic):           2.16e-31
Time:                        23:02:25   Log-Likelihood:                -525.54
No. Observations:                  50   AIC:                             1057.
Df Residuals:                      47   BIC:                             1063.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       4.698e+04   2689.933     17.464      0.0

In [6]:
X_opt = X[:, [0, 1]]
regression_OLS = sm.OLS(endog = y, exog = X_opt.tolist()).fit()
print(regression_OLS.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.947
Model:                            OLS   Adj. R-squared:                  0.945
Method:                 Least Squares   F-statistic:                     849.8
Date:                Wed, 13 Sep 2023   Prob (F-statistic):           3.50e-32
Time:                        23:02:28   Log-Likelihood:                -527.44
No. Observations:                  50   AIC:                             1059.
Df Residuals:                      48   BIC:                             1063.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       4.903e+04   2537.897     19.320      0.0

CON ESTE NUEVO X_OPT QUE SE OBTIENE SE PROCEDE AL ENTRENAMIENTO

In [7]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

X_train, X_test, y_train, y_test = train_test_split(X_opt, y, test_size = 0.2, random_state = 0)

regressor = LinearRegression()
regressor.fit(X_train, y_train)

y_pred = regressor.predict(X_test)

pd.set_option('display.precision', 2)
# ndarray.reshape(filas, col)
print(pd.DataFrame(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1), columns=["prediction", "test"]))

   prediction       test
0   104667.28  103282.38
1   134150.83  144259.40
2   135207.80  146121.95
3    72170.54   77798.83
4   179090.59  191050.39
5   109824.77  105008.31
6    65644.28   81229.06
7   100481.43   97483.56
8   111431.75  110352.25
9   169438.15  166187.94
