# Regressió lineal múltiple - Fordward Selection
--------------------

La tècnica de selecció endavant no és l'efecte contrari o passos del mètdoe *Backward Eliminaton*.
Passos:
* **PAS 1**: Establir el nivell de significació (SL/α = 0.05) per entrar al model 
* **PAS 2**: Calcular **tots** els models de regressió lineal simple amb **cadascuna** de les variables independents i ens **quedarem** amb el model que tingui el p-valor més petit.
* **PAS 3**: Conservarem la variable independent del pas anterior i ajustem tots els mpossibles models incloent aquesta variable independent.    
* **PAS 4**: Considerem la variable independent abm el **menor p-valor** 
    *Si p-valor < α llavors passem al PAS 3
    *Altrament passem al PAS 5 - Fi
* **PAS 5**: Fi


L'exemple que utilitzarem serà un data set que conté el benerfici de 50 startups dels Estats Units juntament amb les dades de despesa en diferents àmbits: I+D, Màrqueting, Administració i la seva localització.

En aquest exemple volem veure si el benefici depèn de totes les variabled, d'unes quantes o de cap.
La lògica ens diu que si una startup gasta més en I+D segurament tindrà més benefici, però volem saber com influeix en el benefici la localitació i les despeses relacionades amb màrqueting i administració.

In [1]:
# Importem les llibreries necessàries
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [2]:

  
# Importem el dataset
df = pd.read_csv('dataset/50_Startups.csv')
df.head()


Unnamed: 0,R&D Spend,Administration,Marketing Spend,State,Profit
0,165349.2,136897.8,471784.1,New York,192261.83
1,162597.7,151377.59,443898.53,California,191792.06
2,153441.51,101145.55,407934.54,Florida,191050.39
3,144372.41,118671.85,383199.62,New York,182901.99
4,142107.34,91391.77,366168.42,Florida,166187.94


## Preparació de les dades

In [3]:

# Dividim el dataframe amb les variables independents (X) i les dependents (Y)
x = df[['R&D Spend', 'Administration', 'Marketing Spend', 'State']]
y = df['Profit']
x.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State
0,165349.2,136897.8,471784.1,New York
1,162597.7,151377.59,443898.53,California
2,153441.51,101145.55,407934.54,Florida
3,144372.41,118671.85,383199.62,New York
4,142107.34,91391.77,366168.42,Florida


In [4]:
y.head()

0    192261.83
1    191792.06
2    191050.39
3    182901.99
4    166187.94
Name: Profit, dtype: float64

In [5]:
# Construim les variables dummy a partir de la variable categòrica State
x = pd.get_dummies(x,columns=["State"],drop_first=True)
x.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State_Florida,State_New York
0,165349.2,136897.8,471784.1,0,1
1,162597.7,151377.59,443898.53,0,0
2,153441.51,101145.55,407934.54,1,0
3,144372.41,118671.85,383199.62,0,1
4,142107.34,91391.77,366168.42,1,0


In [6]:
# Dividim el dataset amb dades de test i de train.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 0)

In [7]:
print ("------\nTRAIN\n------")
print(x_train)
print(y_train)
print ("------\nTEST\n------")
print(x_test)
print(y_test)

------
TRAIN
------
    R&D Spend  Administration  Marketing Spend  State_Florida  State_New York
7   130298.13       145530.06        323876.68              1               0
14  119943.24       156547.42        256512.92              1               0
45    1000.23       124153.04          1903.93              0               1
48     542.05        51743.15             0.00              0               1
29   65605.48       153032.06        107138.38              0               1
15  114523.61       122616.84        261776.23              0               1
30   61994.48       115641.28         91131.24              1               0
32   63408.86       129219.61         46085.25              0               0
16   78013.11       121597.55        264346.06              0               0
42   23640.93        96189.63        148001.11              0               0
20   76253.86       113867.30        298664.47              0               0
43   15505.73       127382.30         35534.

In [7]:
import statsmodels.regression.linear_model as sm

# Afegim una columne de 1's per simular la columna del terme independent B0
x_train['terme_indep'] = 1;
#x = np.append(arr = np.ones((50, 1)).astype(int), values = x, axis = 1)
x_train.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State_Florida,State_New York,terme_indep
7,130298.13,145530.06,323876.68,1,0,1
14,119943.24,156547.42,256512.92,1,0,1
45,1000.23,124153.04,1903.93,0,1,1
48,542.05,51743.15,0.0,0,1,1
29,65605.48,153032.06,107138.38,0,1,1


In [8]:
## x_opt és el conjunt de variables independents òptimes / significatives
## per predir la y.
x_train_opt =  x_train.iloc[:, [0, 1, 2, 3, 4, 5]]
x_train_opt.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State_Florida,State_New York,terme_indep
7,130298.13,145530.06,323876.68,1,0,1
14,119943.24,156547.42,256512.92,1,0,1
45,1000.23,124153.04,1903.93,0,1,1
48,542.05,51743.15,0.0,0,1,1
29,65605.48,153032.06,107138.38,0,1,1


In [23]:
x_0 =  x_train.iloc[:,[0]]
x_1 =  x_train.iloc[:,[1]]
x_2 =  x_train.iloc[:,[2]]
x_3 =  x_train.iloc[:,[3]]
x_4 =  x_train.iloc[:,[4]]
x_5 =  x_train.iloc[:,[5]]

In [27]:
x_0.shape

(35, 1)

## Aplicació de l'algorimse *Forward Selction*

### PAS 1

Inicialitzem el nivell de significació

In [11]:
SL = 0.05

### PAS 2

In [16]:
# OLS = Ordinary List Squares. Tècnica dels mínims quadrats
# Áquesta OLS és el mateix que vàrem utilitzar en el cas de regressio_linieal_simple, 
# però en aquest cas ens retorna una sèrie d'estadístics que utilitzarem.
# ENDOG = VARIABLE A PREDIR (ENDÒGENA, INTRÍNSICA)
# EXOG = VAIRABLE EXTERNA (EXÒGENA)
# L'ordenada a l'origen no està incluida per defecte i l'hem d'afegir mitjançant una columna de 1's
#lr_ols = sm.OLS(endog = y_train, exog = x_0 ).fit()
