# Automatización del proceso de Backward elimination

Vamos a escribir una función que nos ayude con el proceso de selección de aquellas variables que son relevantes para nuestro modelo. Escribiremos en este *notebook* el algoritmo completo, y posteriormente se añadirá a la sección de código de esta sección y a la carpeta de funciones general.

Los parámetros que nos ayudarán a eliminar las distintas variables serán los **p-valores** y el $r^2$ ajustado. Se puede escribir otros algoritmos que tengan en cuenta otros parámetros, simplemente habría que añadirlos al algoritmo.

In [1]:
# bibliotecas
import pandas as pd
import numpy as np

In [2]:
# necesitamos la biblioteca statsmodels
import statsmodels.formula.api as sm

# Nuestra función
def backward_elimination(x, y, sl):
    """
    Función que nos selecciona las variables que mejor describen
    nuestro modelo. 
    
    :params
    
    :x Array
    :sl Int
    
    """
    # número de variables
    numVars = len(x[0])
    
    # for-loop
    for idx in range(0, numVars):
        
        # Realizamos la regresión
        regressor_OLS =sm.OLS(y, x).fit()
        
        # Valor máximo
        maxVar = max(regressor_OLS.pvalues).astype(float)
        
        # comparamos con nuestro nivel de significancia
        if maxVar > sl:
            
            for j in range(0, numVars - idx):
                
                if (regressor_OLS.pvalues[j].astype(float) == maxVar):
                    x = np.delete(x, j, 1)
    
    regressor_OLS.summary()
    
    return x

In [19]:
# necesitamos la biblioteca statsmodels
import statsmodels.formula.api as sm

# Nuestra función
def backward_elimination(x, y, sl):
    """
    Función que nos selecciona las variables que mejor describen
    nuestro modelo. 
    
    :params
    
    :x Array
    :sl Int
    
    """
    # variables
    numVars = len(x[0])
    maxVar = sl + 1
    
    # while-loop
    while maxVar > sl:
        # Realizamos la regresión
        regressor_OLS = sm.OLS(y, x).fit()

        # Valor máximo
        maxVar = max(regressor_OLS.pvalues).astype(float) 
        
        # comparamos con nuestro nivel de significancia
        if maxVar > sl:
            # Buscamos el índice de maxVar
            idx = np.where(regressor_OLS.pvalues == maxVar)

            # Eliminamos la variable con pvalor = maxVar
            x = np.delete(x, idx, axis = 1)

            # Reiniciamos maxVar
            maxVar = sl + 1
    
    regressor_OLS.summary()
    
    return x

In [3]:
# datos
df = pd.read_csv('../data/Advertising.csv')
df.head()

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [4]:
# nivel de significación
sl = 0.001

# variables
X_opt = df.loc[:,['TV', 'Radio', 'Newspaper']].values
y = df.loc[:,'Sales'].values

print("Shape: ", X_opt.shape, y.shape)
print("Variables: ", len(X_opt[0]))

Shape:  (200, 3) (200,)
Variables:  3


In [5]:
X_Modeled = backward_elimination(X_opt, y, sl)
print("Variables: ", len(X_Modeled[0]))

Variables:  2


In [20]:
X_Modeled = backward_elimination(X_opt, y, sl)
print("Variables: ", len(X_Modeled[0]))

1.001
0.012632664797316919
0.012632664797316919
Dentro de la condición
1.001
2.286240729727861e-75
Variables:  2
