**Table of contents**<a id='toc0_'></a>    
- 1. [Imports and Helper Functions](#toc1_)    
  - 1.1. [Bibliotecas](#toc1_1_)    
  - 1.2. [Helper Functions](#toc1_2_)    
  - 1.3. [Dados](#toc1_3_)    
- 2. [Data Description](#toc2_)    
  - 2.1. [Safety Copy](#toc2_1_)    
  - 2.2. [Adjusting the data](#toc2_2_)    
  - 2.3. [Adjusting variable types](#toc2_3_)    
  - 2.4. [Fillout NAs](#toc2_4_)    
  - 2.5. [Some plots](#toc2_5_)    
- 3. [Feature Engineering](#toc3_)    
  - 3.1. [Hipothesis List](#toc3_1_)    
    - 3.1.1. [Hipoteses Loja](#toc3_1_1_)    
    - 3.1.2. [Hipoteses Produto](#toc3_1_2_)    
    - 3.1.3. [Hipoteses Tempo](#toc3_1_3_)    
    - 3.1.4. [Lista Final de Hipóteses](#toc3_1_4_)    
  - 3.2. [Safety Copy](#toc3_2_)    
  - 3.3. [Making up some new variables](#toc3_3_)    
    - 3.3.1. [Splitting date into day, week_of_year, month and year variables](#toc3_3_1_)    
    - 3.3.2. [Competition since](#toc3_3_2_)    
    - 3.3.3. [Promo since](#toc3_3_3_)    
    - 3.3.4. [Assortment type](#toc3_3_4_)    
    - 3.3.5. [State holiday](#toc3_3_5_)    
    - 3.3.6. [Saving and loading all the work done so far](#toc3_3_6_)    
- 4. [Feature Filtering](#toc4_)    
  - 4.1. [Safety copy](#toc4_1_)    
  - 4.2. [Filtering lines](#toc4_2_)    
  - 4.3. [Filtering columns](#toc4_3_)    
  - 4.4. [Exporting pickle file](#toc4_4_)    
- 5. [Exploratory Data Analysis (EDA)](#toc5_)    
  - 5.1. [Safety copy](#toc5_1_)    
  - 5.2. [Univariate analysis](#toc5_2_)    
    - 5.2.1. [Target variable distribution](#toc5_2_1_)    
    - 5.2.2. [Reporting with YData Profiling](#toc5_2_2_)    
    - 5.2.3. [Numerical variables](#toc5_2_3_)    
    - 5.2.4. [Categorical variables](#toc5_2_4_)    
  - 5.3. [Bivariate analysis](#toc5_3_)    
  - 5.4. [Testing some hypothesis](#toc5_4_)    
    - 5.4.1. [<u>H01. Lojas com maior sortimentos deveriam vender mais.</u>](#toc5_4_1_)    
    - 5.4.2. [<s>H02. Lojas com competidores mais próximos deveriam vender menos.</s>](#toc5_4_2_)    
    - 5.4.3. [<u>H03. Lojas com competidores há mais tempo deveriam vender mais.</u>](#toc5_4_3_)    
    - 5.4.4. [<s>H04. Lojas com promoções ativas por mais tempo deveriam vender mais.</s>](#toc5_4_4_)    
    - 5.4.5. [H05. Lojas com mais dias de promoção deveriam vender mais.](#toc5_4_5_)    
    - 5.4.6. [H06. Lojas com mais promoçòes consecutivas deveriam vender mais.](#toc5_4_6_)    
    - 5.4.7. [<s>H07. Lojas abertas durante o feriado de Natal deveriam vender mais.</s>](#toc5_4_7_)    
    - 5.4.8. [H08. Lojas deveriam vender mais ao longo dos anos.](#toc5_4_8_)    
  - 5.5. [Multivariate analysis](#toc5_5_)    
    - 5.5.1. [Multivariate numerical variable analysis](#toc5_5_1_)    
    - 5.5.2. [Multivariate categorical variable analysis](#toc5_5_2_)    
  - 5.6. [Export as pickle](#toc5_6_)    
- 6. [Data Preparation](#toc6_)    
  - 6.1. [Safety copy](#toc6_1_)    
  - 6.2. [Normalization](#toc6_2_)    
  - 6.3. [Rescaling](#toc6_3_)    
  - 6.4. [Transformation](#toc6_4_)    
- 7. [Feature Selection](#toc7_)    
- 8. [Machine Learning Modelling](#toc8_)    
- 9. [Hyperparameter Fine-Tuning](#toc9_)    
- 10. [Error Interpretation](#toc10_)    
- 11. [Model Deployment](#toc11_)    

<!-- vscode-jupyter-toc-config
	numbering=true
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

# 1. <a id='toc1_'></a>[Imports and Helper Functions](#toc0_)

## 1.1. <a id='toc1_1_'></a>[Bibliotecas](#toc0_)

In [1]:
import datetime
import math
import numpy  as np
import pandas as pd
import random
import pickle
import requests
import warnings
import inflection
import seaborn as sns
import xgboost as xgb

from scipy                 import stats  as ss
from boruta                import BorutaPy
from matplotlib            import pyplot as plt
from IPython.display       import Image
from IPython.core.display  import HTML
from ydata_profiling       import ProfileReport

from sklearn.metrics       import mean_absolute_error, mean_squared_error
from sklearn.ensemble      import RandomForestRegressor
from sklearn.linear_model  import LinearRegression, Lasso
from sklearn.preprocessing import RobustScaler, MinMaxScaler, LabelEncoder

warnings.filterwarnings( 'ignore' )

## 1.2. <a id='toc1_2_'></a>[Helper Functions](#toc0_)

In [2]:
def jupyter_configs():
    plt.style.use( 'bmh' )
    plt.rcParams['figure.figsize'] = [20, 12]
    plt.rcParams['font.size'] = 24
    
    display( HTML( '<style>.container { width:100% !important; }</style>') )
    pd.options.display.max_columns = None
    pd.options.display.max_rows = None
    pd.set_option( 'display.expand_frame_repr', False )
    
    sns.set()
    
jupyter_configs()

## 1.3. <a id='toc1_3_'></a>[Dados](#toc0_)

In [None]:
# Load the data
sales_data = pd.read_csv('~/repos/DS_em_Prod/dataset/train.csv', low_memory=False)
store_data = pd.read_csv('~/repos/DS_em_Prod/dataset/store.csv', low_memory=False)

In [None]:
# Merge the store and sales dataframes
raw_data = pd.merge(store_data, sales_data, how = 'left', on = 'Store')

# 2. <a id='toc2_'></a>[Data Description](#toc0_)
O objetivo aqui é averiguar por cima os dados disponíveis no dataframe, arrumar os nomes e tipos de colunas, converter algumas variáveis em variáveis mais informativas e fazer uma breve exploração visual dos dados.

## 2.1. <a id='toc2_1_'></a>[Safety Copy](#toc0_)

In [None]:
# Copying the dataframe
df = raw_data.copy()

## 2.2. <a id='toc2_2_'></a>[Adjusting the data](#toc0_)

In [None]:
# Renomeando as colunas
cols_old = df.columns
snakecase = lambda x: inflection.underscore(x)
cols_new = list(map(snakecase, cols_old))
cols_new

In [None]:
df.columns = cols_new

In [None]:
# O tamanho do df
df.shape

In [None]:
# Breve descrição dos dados
df.describe().T

## 2.3. <a id='toc2_3_'></a>[Adjusting variable types](#toc0_)

In [None]:
# Inspecionando os tipos de cada variável
df.dtypes

# store                             int64  --->  
# store_type                       object  --->  
# assortment                       object  --->  
# competition_distance            float64  --->  
# competition_open_since_month    float64  --->  int64
# competition_open_since_year     float64  --->  int64
# promo2                            int64  --->  
# promo2_since_week               float64  --->  int64
# promo2_since_year               float64  --->  int64
# promo_interval                   object  --->   
# day_of_week                       int64  --->  
# date                             object  --->  datetime
# sales                             int64  --->  
# customers                         int64  --->  
# open                              int64  --->  
# promo                             int64  --->  
# state_holiday                    object  --->  
# school_holiday                    int64  --->  

In [None]:
# Inspecionando a variável date
df.date

In [None]:
# Convertendo os tipos de dados
df['date'] = pd.to_datetime(df['date'])
df['date']

## 2.4. <a id='toc2_4_'></a>[Fillout NAs](#toc0_)

In [None]:
# Inspecionando os valores faltantes
df.isnull().mean()

# Há valores faltantes nas colunas:
# [ x ]  competition_distance            0.002597 ----> distância até o concorrente
# [ x ]  competition_open_since_month    0.317878 ----> mês em que a concorrência abriu
# [ x ]  competition_open_since_year     0.317878 ----> ano em que a concorrência abriu
# [ x ]  promo2_since_week               0.499436 ----> desde que semana do ano a promo extendida está aberta
# [ x ]  promo2_since_year               0.499436 ----> desde que ano a promo extendida está aberta
# [ x ]  promo_interval                  0.499436 ----> intervalo de promoções


In [None]:
# Imputando uma distância muito grande para o competition distance
df['competition_distance'] = df['competition_distance'].apply(lambda x: 200000.0 if math.isnan(x) else x)

In [None]:
# Imputando o mês da venda no competition_open_since_month com NA
df['competition_open_since_month'] = df.apply(lambda x: x['date'].month if math.isnan(x['competition_open_since_month']) else x['competition_open_since_month'], axis = 1)

In [None]:
# Imputando o ano da venda no competition_open_since_year com NA
df['competition_open_since_year'] = df.apply(lambda x: x['date'].year if math.isnan(x['competition_open_since_year']) else x['competition_open_since_year'], axis=1)

In [None]:
# Imputando a semana do ano da venda para a coluna promo2_since_week com NAs
df['promo2_since_week'] = df.apply(lambda x: x['date'].week if math.isnan(x['promo2_since_week']) else x['promo2_since_week'], axis = 1)

In [None]:
# Imputando a semana do ano da venda para a coluna promo2_since_year com NAs
df['promo2_since_year'] = df.apply(lambda x: x['date'].year if math.isnan(x['promo2_since_year']) else x['promo2_since_year'], axis = 1)

In [None]:
# Criar uma nova coluna (is_promo) para informar, comparando a data da venda (date) com a os meses de intervalo da promoção (promo_interval), se a venda foi feita em período de promo (is_promo)
month_map = {1: 'Jan',  2: 'Feb',  3: 'Mar',  4: 'Apr',  5: 'May',  6: 'Jun',  7: 'Jul',  8: 'Aug',  9: 'Sept',  10: 'Oct', 11: 'Nov', 12: 'Dec'}

df['promo_interval'].fillna(0, inplace=True )

df['month_map'] = df['date'].dt.month.map( month_map )

df['is_promo'] = df.apply(lambda x: 0 if x['promo_interval'] == 0 else 1 if x['month_map'] in x['promo_interval'] else 0, axis=1)

df.sample(10)

In [None]:
# Conferindo se todos os NAs foram removidos corretamente
df.isna().sum()

In [None]:
# Verificando os tipos de dados novamente
df.dtypes

In [None]:
# Corrigindo os tipos de dados que ainda falatavam ser corrigidos
df['competition_open_since_month'] = df['competition_open_since_month'].astype('int64')
df['competition_open_since_year'] = df['competition_open_since_year'].astype('int64')
df['promo2_since_week'] = df['promo2_since_week'].astype('int64')
df['promo2_since_year'] = df['promo2_since_year'].astype('int64')
df.dtypes

## 2.5. <a id='toc2_5_'></a>[Some plots](#toc0_)

In [None]:
sns.histplot( df['competition_distance'], kde=True )

In [None]:
# Averiguar algumas variáveis categóricas e sua distribuição de dados:
aux = df[(df['school_holiday'] != 0) & (df['sales'] != 0)]
# State holiday
plt.subplot( 1, 3, 1 )
sns.boxplot( x='state_holiday', y='sales', data=aux )
# Store type
plt.subplot( 1, 3, 2 )
sns.boxplot( x='store_type', y='sales', data=aux )
# Assortment
plt.subplot( 1, 3, 3 )
sns.boxplot( x='assortment', y='sales', data=aux )

# 3. <a id='toc3_'></a>[Feature Engineering](#toc0_)
Agora que temos umas ideia de o que são os dados e as variáveis que temos disponíveis além de sua distribuição, podemos criar hipóteses a serem testadas considerando os dados disponíveis, bem como derivar novas variáveis que possam vir a nos ajudar. É interessante, aqui, criar um mapa mental de hipóteses a serem testadas.

Precisaremos:
- [x] Separar a coluna 'date' em:
  - day
  - month
  - year
  - week
  - year-week
- [ ] Transformar assortment em numérica (int64)
- [ ] Transformar state_holiday em numérica (int64)
- [ ] Criar uma coluna de tempo desde a promoção (promo_since)
- [ ] Criar uma coluna de tempo desde a competição (competition_since)

## 3.1. <a id='toc3_1_'></a>[Hipothesis List](#toc0_)

### 3.1.1. <a id='toc3_1_1_'></a>[Hipoteses Loja](#toc0_)

**1.** Lojas com número maior de funcionários deveriam vender mais.

**2.** Lojas com maior capacidade de estoque deveriam vender mais.

**3.** Lojas com maior porte deveriam vender mais.

**4.** Lojas com maior sortimentos deveriam vender mais.

**5.** Lojas com competidores mais próximos deveriam vender menos.

**6.** Lojas com competidores à mais tempo deveriam vendem mais.

### 3.1.2. <a id='toc3_1_2_'></a>[Hipoteses Produto](#toc0_)

**1.** Lojas que investem mais em Marketing deveriam vender mais.

**2.** Lojas com maior exposição de produto deveriam vender mais.

**3.** Lojas com produtos com preço menor deveriam vender mais.

**5.** Lojas com promoções mais agressivas ( descontos maiores ), deveriam vender mais.

**6.** Lojas com promoções ativas por mais tempo deveriam vender mais.

**7.** Lojas com mais dias de promoção deveriam vender mais.

**8.** Lojas com mais promoções consecutivas deveriam vender mais.

### 3.1.3. <a id='toc3_1_3_'></a>[Hipoteses Tempo](#toc0_)

**1.** Lojas abertas durante o feriado de Natal deveriam vender mais.

**2.** Lojas deveriam vender mais ao longo dos anos.

**3.** Lojas deveriam vender mais no segundo semestre do ano.

**4.** Lojas deveriam vender mais depois do dia 10 de cada mês.

**5.** Lojas deveriam vender menos aos finais de semana.

**6.** Lojas deveriam vender menos durante os feriados escolares.

### 3.1.4. <a id='toc3_1_4_'></a>[Lista Final de Hipóteses](#toc0_)

**1.** Lojas com maior sortimentos deveriam vender mais.

**2.** Lojas com competidores mais próximos deveriam vender menos.

**3.** Lojas com competidores à mais tempo deveriam vendem mais.

**4.** Lojas com promoções ativas por mais tempo deveriam vender mais.

**5.** Lojas com mais dias de promoção deveriam vender mais.

**7.** Lojas com mais promoções consecutivas deveriam vender mais.

**8.** Lojas abertas durante o feriado de Natal deveriam vender mais.

**9.** Lojas deveriam vender mais ao longo dos anos.

**10.** Lojas deveriam vender mais no segundo semestre do ano.

**11.** Lojas deveriam vender mais depois do dia 10 de cada mês.

**12.** Lojas deveriam vender menos aos finais de semana.

**13.** Lojas deveriam vender menos durante os feriados escolares.


## 3.2. <a id='toc3_2_'></a>[Safety Copy](#toc0_)

In [None]:
df03 = df.copy()

In [None]:
df03.head(1)

## 3.3. <a id='toc3_3_'></a>[Making up some new variables](#toc0_)

### 3.3.1. <a id='toc3_3_1_'></a>[Splitting date into day, week_of_year, month and year variables](#toc0_)

In [None]:
# Criando a variável year
df03['year'] = df03['date'].dt.year

# Criando a variável month
df03['month'] = df03['date'].dt.month

# Criando a variável day
df03['day'] = df03['date'].dt.day

# Criando a variável week_of_year
df03['week_of_year'] = df03['date'].dt.isocalendar().week

# Criando a variável year_week
df03['year_week'] = df03['date'].dt.strftime('%Y-%U')

In [None]:
df03.sample(5).T

### 3.3.2. <a id='toc3_3_2_'></a>[Competition since](#toc0_)

In [None]:
df03['competition_since'] = df03.apply( lambda x: datetime.datetime( year=x['competition_open_since_year'], month=x['competition_open_since_month'], day=1 ), axis=1 )
df03['competition_time_month'] = ( ( df03['date'] - df03['competition_since'] )/30 ).apply( lambda x: x.days ).astype( int )

### 3.3.3. <a id='toc3_3_3_'></a>[Promo since](#toc0_)

In [None]:
df03['promo_since'] = df03['promo2_since_year'].astype( str ) + '-' + df03['promo2_since_week'].astype( str )
df03['promo_since'] = df03['promo_since'].apply( lambda x: datetime.datetime.strptime( x + '-1', '%Y-%W-%w' ) - datetime.timedelta( days=7 ) )
df03['promo_time_week'] = ( ( df03['date'] - df03['promo_since'] )/7 ).apply( lambda x: x.days ).astype( int )

In [None]:
# if df03['date'].dt.year == df03['promo2_since_year']:
#     df03['week_of_year']
# else:
#     tempo_promo = df03['date'].dt.year - df03['promo2_since_year']
    
# lambda x: df03['week_of_year'] if df03['date'].dt.year == df03['promo2_since_year'] else df03['year'] - df03['promo2_since_year']


### 3.3.4. <a id='toc3_3_4_'></a>[Assortment type](#toc0_)

In [None]:
df03['assortment'] = df03['assortment'].apply( lambda x: 'basic' if x == 'a' else 'extra' if x == 'b' else 'extended' )

### 3.3.5. <a id='toc3_3_5_'></a>[State holiday](#toc0_)

In [None]:
df03['state_holiday'].unique()

In [None]:
df03['state_holiday'] = df03['state_holiday'].apply( lambda x: 'public_holiday' if x == 'a' else 'easter_holiday' if x == 'b' else 'christmas' if x == 'c' else 'regular_day' )

In [None]:
df03['state_holiday']

### 3.3.6. <a id='toc3_3_6_'></a>[Saving and loading all the work done so far](#toc0_)

In [None]:
# First we verify if everything is allright
df03.sample(3).T

In [None]:
# Salvando os objetos criados até aqui

# with open('df03.pkl', 'wb') as f:
#     pickle.dump(df03, f)
# f.close()

df03.to_pickle("df03.pkl")

In [None]:
# Carregando os objetos salvos

# with open('df03.pkl', 'rb') as f:
#     df03 = pickle.load(f)
# f.close

df_03 = pd.read_pickle("df03.pkl")

# 4. <a id='toc4_'></a>[Feature Filtering](#toc0_)

## 4.1. <a id='toc4_1_'></a>[Safety copy](#toc0_)

In [None]:
df04 = df03.copy()

## 4.2. <a id='toc4_2_'></a>[Filtering lines](#toc0_)

In [None]:
df04 = df04[(df04['open'] != 0) & (df04['sales'] > 0)]

## 4.3. <a id='toc4_3_'></a>[Filtering columns](#toc0_)

In [None]:
cols_drop = ['customers', 'open', 'promo_interval', 'month_map']
df04 = df04.drop( cols_drop, axis=1 )

## 4.4. <a id='toc4_4_'></a>[Exporting pickle file](#toc0_)

In [None]:
df04.to_pickle('df04.pkl')

In [None]:
# df04 = pd.read_pickle('df04.pkl')

# 5. <a id='toc5_'></a>[Exploratory Data Analysis (EDA)](#toc0_)

## 5.1. <a id='toc5_1_'></a>[Safety copy](#toc0_)

In [None]:
df05 = df04.copy()

## 5.2. <a id='toc5_2_'></a>[Univariate analysis](#toc0_)

### 5.2.1. <a id='toc5_2_1_'></a>[Target variable distribution](#toc0_)

In [None]:
sns.histplot(data = df05,
             x = 'sales',
             bins = 100)

### 5.2.2. <a id='toc5_2_2_'></a>[Reporting with YData Profiling](#toc0_)

In [None]:
report = ProfileReport(df05, title='Report')
report

In [None]:
report.to_file("your_report.html")

### 5.2.3. <a id='toc5_2_3_'></a>[Numerical variables](#toc0_)


In [None]:
num_variables = df05.select_dtypes( include=['int64', 'float64'] )

In [None]:
num_variables.hist(bins=25);

### 5.2.4. <a id='toc5_2_4_'></a>[Categorical variables](#toc0_)

In [None]:
# state_holiday
plt.subplot( 3, 2, 1 )
a = df05[df05['state_holiday'] != 'regular_day']
sns.countplot(data = a, x= a['state_holiday'] )

plt.subplot( 3, 2, 2 )
sns.kdeplot( df05[df05['state_holiday'] == 'public_holiday']['sales'], label='public_holiday', shade=True )
sns.kdeplot( df05[df05['state_holiday'] == 'easter_holiday']['sales'], label='easter_holiday', shade=True )
sns.kdeplot( df05[df05['state_holiday'] == 'christmas']['sales'], label='christmas', shade=True )

# store_type
plt.subplot( 3, 2, 3 )
sns.countplot( data = df05, x = df05['store_type'] )

plt.subplot( 3, 2, 4 )
sns.kdeplot( df05[df05['store_type'] == 'a']['sales'], label='a', shade=True )
sns.kdeplot( df05[df05['store_type'] == 'b']['sales'], label='b', shade=True )
sns.kdeplot( df05[df05['store_type'] == 'c']['sales'], label='c', shade=True )
sns.kdeplot( df05[df05['store_type'] == 'd']['sales'], label='d', shade=True )

# assortment
plt.subplot( 3, 2, 5 )
sns.countplot(data = df05, x = df05['assortment'] )

plt.subplot( 3, 2, 6 )
sns.kdeplot( df05[df05['assortment'] == 'extended']['sales'], label='extended', shade=True )
sns.kdeplot( df05[df05['assortment'] == 'basic']['sales'], label='basic', shade=True )
sns.kdeplot( df05[df05['assortment'] == 'extra']['sales'], label='extra', shade=True )

## 5.3. <a id='toc5_3_'></a>[Bivariate analysis](#toc0_)

## 5.4. <a id='toc5_4_'></a>[Testing some hypothesis](#toc0_)

In [None]:
df05.columns

### 5.4.1. <a id='toc5_4_1_'></a>[<u>H01. Lojas com maior sortimentos deveriam vender mais.</u>](#toc0_)
- A soma das vendas por sortimentos mostra que o tipo que vende menos, em média é o sortimento **a**, seguido por **c** e então **b**.
- Contudo considerando a soma das vendas, o sortimento que vende menos é **b**, seguido de **c** e **a** praticamente empatados.
- Os sortimentos que realizam menos vendas são **b**, **c** e **a**.
- As vendas das lojas de sortimento **a** e **c** tendem a ser afetadas por mais outliers.

In [None]:
aux = df05[['assortment', 'sales']].groupby('assortment').mean().reset_index()
aux

In [None]:
aux = df05[['assortment', 'sales']].groupby('assortment').sum().reset_index()
aux

In [None]:
aux = df05[['assortment', 'sales']].groupby('assortment').count().reset_index()
aux

In [None]:
sns.boxplot(data = df05,
            x = 'assortment',
            y = 'sales')

### 5.4.2. <a id='toc5_4_2_'></a>[<s>H02. Lojas com competidores mais próximos deveriam vender menos.</s>](#toc0_)
- Parece haver uma tendência inversamente proporcional entre a distância do competidor e as vendas, contrariando as expectativas.

In [None]:
aux = df05[(df05['sales']!=0) & (df05['competition_distance']!=0)]

In [None]:
sns.scatterplot(data = aux,
                x = 'competition_distance',
                y = 'sales',
                s = 150,
                hue = 'assortment',
                alpha = 0.3);

### 5.4.3. <a id='toc5_4_3_'></a>[<u>H03. Lojas com competidores há mais tempo deveriam vender mais.</u>](#toc0_)
- Contradizendo mais uma vez o esperado, há uma tendência de que lojas com competidores mais recentes vendam mais.

In [None]:
aux = df05[df05['sales']!= 0]
# df05[['competition_open_since_year', 'sales']]

In [None]:
aux['competition_timespan'] = aux['date'].dt.year - aux['competition_open_since_year']

In [None]:
sns.scatterplot(data = aux,
                x = 'competition_timespan',
                y = 'sales',
                s = 150,
                alpha = .3,
                hue = 'assortment');

### 5.4.4. <a id='toc5_4_4_'></a>[<s>H04. Lojas com promoções ativas por mais tempo deveriam vender mais.</s>](#toc0_)
- Não parece haver uma relação direta entre a duração das promoções e as vendas

In [None]:
sns.scatterplot(data = df05,
                x = 'competition_time_month',
                y = 'sales',
                s = 150,
                hue = 'assortment',
                alpha = .3)

### 5.4.5. <a id='toc5_4_5_'></a>[H05. Lojas com mais dias de promoção deveriam vender mais.](#toc0_)

### 5.4.6. <a id='toc5_4_6_'></a>[H06. Lojas com mais promoçòes consecutivas deveriam vender mais.](#toc0_)

### 5.4.7. <a id='toc5_4_7_'></a>[<s>H07. Lojas abertas durante o feriado de Natal deveriam vender mais.</s>](#toc0_)
- Embora as vendas no Natal sejam relativamente altas, não são as campeãs de vendas, perdendo para a a Páscoa

In [None]:
sns.boxplot(data = df05[(df05['sales'] != 0)],
            x = 'state_holiday',
            y = 'sales')

### 5.4.8. <a id='toc5_4_8_'></a>[H08. Lojas deveriam vender mais ao longo dos anos.](#toc0_)

## 5.5. <a id='toc5_5_'></a>[Multivariate analysis](#toc0_)

### 5.5.1. <a id='toc5_5_1_'></a>[Multivariate numerical variable analysis](#toc0_)

In [None]:
correlation = num_variables.corr( method='pearson' )
sns.heatmap( correlation, annot=True );

### 5.5.2. <a id='toc5_5_2_'></a>[Multivariate categorical variable analysis](#toc0_)

In [None]:
# # only categorical data
# a = df4.select_dtypes( include='object' )

# # Calculate cramer V
# a1 = cramer_v( a['state_holiday'], a['state_holiday'] )
# a2 = cramer_v( a['state_holiday'], a['store_type'] )
# a3 = cramer_v( a['state_holiday'], a['assortment'] )

# a4 = cramer_v( a['store_type'], a['state_holiday'] )
# a5 = cramer_v( a['store_type'], a['store_type'] )
# a6 = cramer_v( a['store_type'], a['assortment'] )

# a7 = cramer_v( a['assortment'], a['state_holiday'] )
# a8 = cramer_v( a['assortment'], a['store_type'] )
# a9 = cramer_v( a['assortment'], a['assortment'] )

# # Final dataset
# d = pd.DataFrame( {'state_holiday': [a1, a2, a3], 
#                'store_type': [a4, a5, a6],
#                'assortment': [a7, a8, a9]  })
# d = d.set_index( d.columns )

# sns.heatmap( d, annot=True )

## 5.6. <a id='toc5_6_'></a>[Export as pickle](#toc0_)

In [None]:
df05.to_pickle('df05.pkl')

# 6. <a id='toc6_'></a>[Data Preparation](#toc0_)

## 6.1. <a id='toc6_1_'></a>[Safety copy](#toc0_)

In [None]:
df06 = pd.read_pickle('df05.pkl')

In [None]:
df06.head().T

## 6.2. <a id='toc6_2_'></a>[Normalization](#toc0_)

## 6.3. <a id='toc6_3_'></a>[Rescaling](#toc0_)

## 6.4. <a id='toc6_4_'></a>[Transformation](#toc0_)

# 7. <a id='toc7_'></a>[Feature Selection](#toc0_)

# 8. <a id='toc8_'></a>[Machine Learning Modelling](#toc0_)

# 9. <a id='toc9_'></a>[Hyperparameter Fine-Tuning](#toc0_)

# 10. <a id='toc10_'></a>[Error Interpretation](#toc0_)

# 11. <a id='toc11_'></a>[Model Deployment](#toc0_)