# Bibliotecas

In [None]:
import numpy  as np
import pandas as pd

import warnings

from boruta                import BorutaPy
from sklearn.ensemble      import RandomForestRegressor

warnings.filterwarnings( 'ignore' )

# Importação de dados

In [2]:
df_05_train = pd.read_pickle('../exports/cicle_exports/05_data_preparation/df_05_train.pkl', compression="gzip")
df_05_val = pd.read_pickle('../exports/cicle_exports/05_data_preparation/df_05_val.pkl', compression="gzip")
df_05_test = pd.read_pickle('../exports/cicle_exports/05_data_preparation/df_05_test.pkl', compression="gzip")

# 6.0. Seleção de variáveis com algoritmo

## 6.2. Seleção de variáveis (feature selection)

O método de seleção escolhido é o **Boruta Feature Selector**, um algoritmo de selação de features por subset (wrapper method). O Boruta possibilita a escolha de um algoritmo de machine-learning para ser usado na seleção das features, no caso será selecionado o **RandomForestRegressor**.

Como o processo do Boruta leva várias horas de processamento, o código referente ao treinamento ficará comentado e seu resultado será codificado manualmente.

### 6.2.1. Executando o algoritmo Boruta Feature Selector

In [3]:
## Definindo os datasets de treino e teste para o Boruta (transformando de DataFrame e Series do Pandas para ndarray):
#X_train_n = df_05_train.drop(['date', 'sales'], axis=1).values
#y_train_n = df_05_train['sales'].values.ravel()

In [4]:
## Definindo o RandomForestRegressor:
#rf = RandomForestRegressor( n_jobs=-1 )
#
## Definindo e treinando o Boruta:
#boruta = BorutaPy( rf, n_estimators='auto', verbose=2, random_state=42 ).fit( X_train_n, y_train_n )

### 6.2.2. Coletando resultados do algoritmo Boruta Feature Selector

In [5]:
#cols_selected = boruta.support_.tolist()
#
## Listando features selecionadas pelo Boruta:
#X_train_fs = df_05_train.drop( ['date', 'sales'], axis=1 )
#cols_selected_boruta = X_train_fs.iloc[:, cols_selected].columns.to_list()
#
## Listando features descartadas pelo Boruta:
#cols_not_selected_boruta = list( np.setdiff1d( X_train_fs.columns, cols_selected_boruta ) )

**Colunas relevantes segundo o Boruta:**

['store',
 'promo',
 'store_type',
 'assortment',
 'competition_distance',
 'promo2',
 'competition_time_month',
 'promo_time_week',
 'day_of_week_sin',
 'day_of_week_cos',
 'month_cos',
 'day_sin',
 'day_cos']

In [6]:
# Selecionando colunas relevantes:

cols_selected_boruta = [
                        'store',
                        'promo',
                        'store_type',
                        'assortment',
                        'competition_distance',
                        'promo2',
                        'competition_time_month',
                        'promo_time_week',
                        'day_of_week_sin',
                        'day_of_week_cos',
                        'month_sin', # O algoritmo tinha descartado a variável 'month_sin', mas como ela é componente da variável 'month_cos' então manteremos ela no conjunto de dados.
                        'month_cos',
                        'day_sin',
                        'day_cos'
                        ]


Como se trata de um caso de **Série Temporal**, para realizar o **cross validation** vamos precisar de um dataframe contendo as vendas e a data para separar a base de dados respeitando a ordem temporal.

In [7]:
# Selecionando colunas relevantes mais 'date':
feat_to_add = ['date']

cols_selected_boruta_full = cols_selected_boruta.copy()
cols_selected_boruta_full.extend( feat_to_add )

## 6.3. Bases de dados X e y finais para o machine-learning e análise final

In [8]:
# Base X:
X_train = df_05_train[ cols_selected_boruta_full ]
X_val   = df_05_val[ cols_selected_boruta_full ]
X_test  = df_05_test[ cols_selected_boruta_full ]

# Bases y:
y_train = df_05_train['sales']
y_val   = df_05_val['sales']
y_test  = df_05_test['sales']

# Exportação de resultados

In [9]:
X_train.to_pickle   ('../exports/cicle_exports/06_feature_selection/X_train.pkl', compression='gzip')
X_val.to_pickle     ('../exports/cicle_exports/06_feature_selection/X_val.pkl', compression='gzip')
X_test.to_pickle    ('../exports/cicle_exports/06_feature_selection/X_test.pkl', compression='gzip')

y_train.to_pickle   ('../exports/cicle_exports/06_feature_selection/y_train.pkl', compression='gzip')
y_val.to_pickle     ('../exports/cicle_exports/06_feature_selection/y_val.pkl', compression='gzip')
y_test.to_pickle    ('../exports/cicle_exports/06_feature_selection/y_test.pkl', compression='gzip')