# Preparação do dados
_Feature Engineering_ e _Construção de Target_

---

## Sumário

1. **Importação de bibliotecas**
2. **Carregamento das bases**
3. **Análise dos dataframes**
4. **Feature Engineering**
   - 4.1. 
   - 4.2. 
   - 4.3. 
   - 4.4. 
   - 4.5. 
   - 4.6. 
5. **Conclusões**

<br>

---

<br>

## 1. Importação de bibliotecas

In [47]:
# Importação de pacotes e definição de parâmetros globais

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as mticker
import seaborn as sns
import missingno as msno
import warnings
import gc

In [48]:
# Configurações para exibição de dados no Jupyter Notebook

# Configurar opção para exibir todas as linhas do Dataframe
pd.set_option('display.max_rows', None)

# Configurar para exibir o conteúdo completo das colunas
pd.set_option('display.max_colwidth', None)

# Configurar a supressão de mensagens de aviso durante a execução
warnings.filterwarnings('ignore')

# Configurar estilo dos gráficos do seaborn
sns.set_style('whitegrid')

## 2. Carregamento das bases

In [49]:
# Efetuando a limpeza da memória antes do carregamento dos dados
print(f'\nQuantidade de objetos removidos da memória: {gc.collect()}')


Quantidade de objetos removidos da memória: 7


In [50]:
# Criando um dataframe a partir do arquivo train.csv
df_train = pd.read_csv('dados/train.csv', sep=',')
print('\nDATAFRAME: df_train')
df_train.head()


DATAFRAME: df_train


Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday
0,1,5,2015-07-31,5263,555,1,1,0,1
1,2,5,2015-07-31,6064,625,1,1,0,1
2,3,5,2015-07-31,8314,821,1,1,0,1
3,4,5,2015-07-31,13995,1498,1,1,0,1
4,5,5,2015-07-31,4822,559,1,1,0,1


In [51]:
# Criando um dataframe a partir do arquivo test.csv
df_test = pd.read_csv('dados/test.csv', sep=',')
print('\nDATAFRAME: df_test')
df_test.head()


DATAFRAME: df_test


Unnamed: 0,Id,Store,DayOfWeek,Date,Open,Promo,StateHoliday,SchoolHoliday
0,1,1,4,2015-09-17,1.0,1,0,0
1,2,3,4,2015-09-17,1.0,1,0,0
2,3,7,4,2015-09-17,1.0,1,0,0
3,4,8,4,2015-09-17,1.0,1,0,0
4,5,9,4,2015-09-17,1.0,1,0,0


In [52]:
# Criando um dataframe a partir do arquivo store.csv
df_store = pd.read_csv('dados/store.csv', sep=',')
print('\nDATAFRAME: df_store')
df_store.head()


DATAFRAME: df_store


Unnamed: 0,Store,StoreType,Assortment,CompetitionDistance,CompetitionOpenSinceMonth,CompetitionOpenSinceYear,Promo2,Promo2SinceWeek,Promo2SinceYear,PromoInterval
0,1,c,a,1270.0,9.0,2008.0,0,,,
1,2,a,a,570.0,11.0,2007.0,1,13.0,2010.0,"Jan,Apr,Jul,Oct"
2,3,a,a,14130.0,12.0,2006.0,1,14.0,2011.0,"Jan,Apr,Jul,Oct"
3,4,c,c,620.0,9.0,2009.0,0,,,
4,5,a,a,29910.0,4.0,2015.0,0,,,


## 3. Análise dos dataframes

In [53]:
# Exibindo a quantidade de linhas e colunas dos dataframes

# Criação de um dicionário com os dataframes e seus respectivos nomes
dfs = {
    'df_train': df_train,
    'df_test': df_test,
    'df_store': df_store
}

# Iteração sobre o dicionário para exibir o nome e as dimensões dos dataframes
print(f'\nVOLUMETRIA')
for nome, df in dfs.items():
    print(f'\n{nome}')
    print(f'-'*45)
    print(f'Quantidade de linhas (registros):  {df.shape[0]}')
    print(f'Quantidade de colunas (variáveis): {df.shape[1]}')   


VOLUMETRIA

df_train
---------------------------------------------
Quantidade de linhas (registros):  1017209
Quantidade de colunas (variáveis): 9

df_test
---------------------------------------------
Quantidade de linhas (registros):  41088
Quantidade de colunas (variáveis): 8

df_store
---------------------------------------------
Quantidade de linhas (registros):  1115
Quantidade de colunas (variáveis): 10


In [54]:
# Unindo df_train com df_store
df_train_full = pd.merge(df_train, df_store, on='Store', how='left')

# Unindo df_train com df_store
df_test_full = pd.merge(df_test, df_store, on='Store', how='left')

In [55]:
df_train_full.head()

Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,StateHoliday,SchoolHoliday,StoreType,Assortment,CompetitionDistance,CompetitionOpenSinceMonth,CompetitionOpenSinceYear,Promo2,Promo2SinceWeek,Promo2SinceYear,PromoInterval
0,1,5,2015-07-31,5263,555,1,1,0,1,c,a,1270.0,9.0,2008.0,0,,,
1,2,5,2015-07-31,6064,625,1,1,0,1,a,a,570.0,11.0,2007.0,1,13.0,2010.0,"Jan,Apr,Jul,Oct"
2,3,5,2015-07-31,8314,821,1,1,0,1,a,a,14130.0,12.0,2006.0,1,14.0,2011.0,"Jan,Apr,Jul,Oct"
3,4,5,2015-07-31,13995,1498,1,1,0,1,c,c,620.0,9.0,2009.0,0,,,
4,5,5,2015-07-31,4822,559,1,1,0,1,a,a,29910.0,4.0,2015.0,0,,,


In [56]:
df_test_full.head()

Unnamed: 0,Id,Store,DayOfWeek,Date,Open,Promo,StateHoliday,SchoolHoliday,StoreType,Assortment,CompetitionDistance,CompetitionOpenSinceMonth,CompetitionOpenSinceYear,Promo2,Promo2SinceWeek,Promo2SinceYear,PromoInterval
0,1,1,4,2015-09-17,1.0,1,0,0,c,a,1270.0,9.0,2008.0,0,,,
1,2,3,4,2015-09-17,1.0,1,0,0,a,a,14130.0,12.0,2006.0,1,14.0,2011.0,"Jan,Apr,Jul,Oct"
2,3,7,4,2015-09-17,1.0,1,0,0,a,c,24000.0,4.0,2013.0,0,,,
3,4,8,4,2015-09-17,1.0,1,0,0,a,a,7520.0,10.0,2014.0,0,,,
4,5,9,4,2015-09-17,1.0,1,0,0,a,c,2030.0,8.0,2000.0,0,,,


In [57]:
# Função para geração de um dataframe de metadados

def gerar_metadados(dataframe):
    '''
    Gera um dataframe contendo metadados das colunas do dataframe fornecido.

    :param dataframe: Dataframe
        DataFrame para o qual os metadados serão gerados.
    :return: DataFrame
        DataFrame contendo os metadados.
    '''
    metadados = pd.DataFrame({
        'Variável': dataframe.columns,
        'Tipo': dataframe.dtypes,
        'Qtde de nulos': dataframe.isnull().sum(),
        '% de nulos': round((dataframe.isnull().sum()/len(dataframe))*100, 2),
        'Cardinalidade': dataframe.nunique(),
    })
    metadados = metadados.sort_values(by='Qtde de nulos', ascending=False)
    metadados = metadados.reset_index(drop=True)
    return metadados

In [58]:
# Exibindo os metadados do dataframe unificado

gerar_metadados(df_train_full)

Unnamed: 0,Variável,Tipo,Qtde de nulos,% de nulos,Cardinalidade
0,Promo2SinceWeek,float64,508031,49.94,24
1,PromoInterval,object,508031,49.94,3
2,Promo2SinceYear,float64,508031,49.94,7
3,CompetitionOpenSinceYear,float64,323348,31.79,23
4,CompetitionOpenSinceMonth,float64,323348,31.79,12
5,CompetitionDistance,float64,2642,0.26,654
6,DayOfWeek,int64,0,0.0,7
7,Store,int64,0,0.0,1115
8,Date,object,0,0.0,942
9,Sales,int64,0,0.0,21734


In [59]:
# Transforma para o tipo de dados datetime
df_train_full['Date'] = pd.to_datetime(df_train_full['Date'])
df_test_full['Date'] = pd.to_datetime(df_test_full['Date'])

## 4. Feature Engineering

In [60]:
# Dicionário com os dataframes de treino e teste
dfs = {
    'df_train_full': df_train_full,
    'df_test_full': df_test_full
}

In [61]:
# Variáveis temporais

for name, df in dfs.items():
    df['Year'] = df['Date'].dt.year
    df['Month'] = df['Date'].dt.month
    df['Day'] = df['Date'].dt.day
    df['Quarter'] = df['Date'].dt.quarter
    df['DayOfWeek'] = df['Date'].dt.dayofweek
    df['IsWeekend'] = df['Date'].dt.dayofweek >= 5
    df['DayOfYear'] = df['Date'].dt.dayofyear

In [62]:
df_train_full[['Year','Month','Day','Quarter','DayOfWeek','DayOfYear']].head()

Unnamed: 0,Year,Month,Day,Quarter,DayOfWeek,DayOfYear
0,2015,7,31,3,4,212
1,2015,7,31,3,4,212
2,2015,7,31,3,4,212
3,2015,7,31,3,4,212
4,2015,7,31,3,4,212


In [63]:
# Variáveis de concorrência

def calculate_months_since_competition_opened(sub_df):
    '''
    Função para calcular os meses desde que a concorrência abriu.
    - B para bilhões
    - M para milhões
    - K para milhares
    
    :param val: int ou float
        O valor numérico que será formatado.
    :return: str
        O número formatado em string.
    ''' 
    months = (sub_df['Year'] - sub_df['CompetitionOpenSinceYear']) * 12 + (
        sub_df['Month'] - sub_df['CompetitionOpenSinceMonth'])
    return months.clip(lower=0)

# Função para calcular os anos desde que a concorrência abriu
def calculate_years_since_competition_opened(sub_df):
    years = (sub_df['Year'] - sub_df['CompetitionOpenSinceYear']) + (
        sub_df['Month'] - sub_df['CompetitionOpenSinceMonth']) / 12
    return years.clip(lower=0)

for name, df in dfs.items():
	# Agrupar por Store e calcular as variáveis
	df['MonthsSinceTheCompetitionOpened'] = (
		df.groupby('Store').apply(calculate_months_since_competition_opened
                            ).reset_index(drop=True))

	df['YearsSinceTheCompetitionOpened'] = (
		df.groupby('Store').apply(calculate_years_since_competition_opened
                            ).reset_index(drop=True))


In [64]:
df_train_full[['MonthsSinceTheCompetitionOpened','YearsSinceTheCompetitionOpened']].head()

Unnamed: 0,MonthsSinceTheCompetitionOpened,YearsSinceTheCompetitionOpened
0,82.0,6.833333
1,82.0,6.833333
2,82.0,6.833333
3,82.0,6.833333
4,82.0,6.833333
