## Contexto do Projeto

Rossmann opera mais de 3.000 drogarias em 7 países europeus. Atualmente, os gerentes de loja da Rossmann têm a tarefa de prever suas vendas diárias com até seis semanas de antecedência. As vendas da loja são influenciadas por muitos fatores, incluindo promoções, competição, feriados escolares e estaduais, sazonalidade e localidade. Com milhares de gerentes individuais prevendo vendas com base em suas circunstâncias únicas, a precisão dos resultados pode ser bastante variada. Você pode baixar o conjunto de dados aqui: https://www.kaggle.com/c/rossmann-store-sales/data.

Problema de Negócio
Em primeiro lugar, precisamos entender qual é o nosso problema de negócios. Portanto, criamos um contexto para nos ajudar a construir a solução. Então, vamos seguir essas quatro etapas.

Qual é o contexto?
Em reunião com os líderes de cada departamento, o CEO da Rossmann fez a proposta de reformar todas as lojas.

Qual é a causa?
O CEO da Rossmann quer prever quanto cada loja vai vender nas próximas 6 semanas. Ele precisa saber se o orçamento será suficiente para fazer uma reforma em cada loja.

Quem vai liderar o projeto?
Precisamos de alguém que realmente saiba qual é o problema do negócio, porque ele vai liderar a solução. Portanto, ele é nosso stakeholder.

Como ficará nossa solução?

Qual é o formato?

Granularidade (hora, dia, produto) ---> 6 semanas

Tipo de problema (classificação, regressão, agrupamento, etc.) ---> Regressão

Como vamos entregar? (painel, csv, Notebook) ---> Notebook

Etapas do Projeto:


Seguiremos todas essas etapas a seguir para a resolução do nosso projeto:


0.0. IMPORTS

1.0. DESCRIÇÃO DOS DADOS

2.0. FEATURE ENGINEERING

3.0. FILTRANDO OS DADOS

4.0. ANÁLISE EXPLORATÓRIA DOS DADOS

5.0. PREPARAÇÃO DOS DADOS

6.0. SELEÇÃO DE FEATURES

7.0. MACHINE LEARNING

8.0. INTERPRETANDO OS RESULTADOS


# 0.0 Imports 

In [None]:
import math 
import datetime
import inflection
import random
import warnings
import pickle
import pandas                as pd
import numpy                 as np
import seaborn               as sns
import matplotlib.pyplot     as plt
from tabulate                import tabulate
from matplotlib.gridspec     import GridSpec
from scipy                   import stats    as ss
from sklearn.preprocessing   import MinMaxScaler, RobustScaler, LabelEncoder
from sklearn.ensemble        import RandomForestRegressor
from sklearn.metrics         import mean_absolute_error, mean_squared_error, mean_absolute_error
from sklearn.linear_model    import LinearRegression, Lasso
from sklearn.model_selection import RandomizedSearchCV
from flask                   import Flask
from IPython.display         import Image

warnings.filterwarnings( 'ignore' )


### Loading data

In [None]:
df_sales_raw= pd.read_csv('train.csv',low_memory= False)
df_store_raw= pd.read_csv('store.csv',low_memory= False)

# Fazendo o merge dos dados para transformar os dois datasets em apenas 1 
df_raw=pd.merge(df_sales_raw,df_store_raw,how='left', on='Store')


In [None]:
df_raw.sample()

### Descrição dos dados das variáveis

Store - um ID único para cada loja.
DayOfWeek - Dia correspondente da semana.
Date - O dia do acontecimento do dado.
Sales - o volume de vendas.
Customers - o número de clientes em um determinado dia.
Open - um indicador para saber se a loja estava aberta: 0 = fechada, 1 = aberta
StateHoliday - indica um feriado estadual. Normalmente todas as lojas, com poucas exceções, fecham nos feriados estaduais. Observe que todas as escolas fecham nos feriados e finais de semana. a = feriado, b = feriado da Páscoa, c = Natal, 0 = Nenhum
SchoolHoliday - indica se (loja, data) foi afetado pelo fechamento de escolas públicas.
StoreType - diferencia entre 4 modelos de loja diferentes: a, b, c, d
Assortment - descreve um nível de sortimento: a = básico, b = extra, c = estendido
CompetitionDistance - distância em metros até a loja concorrente mais próxima.
CompetitionOpenSince [Month / Year] - fornece o mês e ano aproximados em que o concorrente mais próximo foi aberto.
Promo - indica se uma loja está fazendo uma promoção naquele dia.
Promo2 - Promo2 é uma promoção contínua e consecutiva para algumas lojas: 0 = a loja não está participando, 1 = a loja está participando.
Promo2Since [Year / Week] - descreve o ano e a semana em que a loja começou a participar da Promo2.
PromoInterval - descreve os intervalos consecutivos em que a Promo2 é iniciada, nomeando os meses em que a promoção é reiniciada. Por exemplo. "Fev, maio, agosto, novembro" significa que cada rodada começa em fevereiro, maio, agosto, novembro de qualquer ano para aquela loja.

## 0.1 Helper Functions

In [None]:
pd.set_option('max_columns', None)

def cramer_v(x, y):
    cm= np.asmatrix(pd.crosstab(x,y))
    n= cm.sum()
    r, k= cm.shape
    
    chi2= ss.chi2_contingency(cm)[0]
    chi2corr= max(0, chi2 - (k - 1) * (r-1)/n - 1)
    kcorr= k - (k - 1) ** 2 / (n - 1)
    rcorr= r - (r - 1) ** 2 / (n - 1)
    
    return np.sqrt((chi2corr / n) / (min(kcorr - 1, rcorr - 1)))

# 1.0 Descrição dos dados


### 1.1. Renomeando as colunas 

In [None]:
df1=df_raw.copy()  #criando uma copia do data para seguranca dos dados originais


In [None]:
df1.columns      #olhando os nomes das colunas

In [None]:
cols_old=['Store', 'DayOfWeek', 'Date', 'Sales', 'Customers', 'Open', 'Promo',
       'StateHoliday', 'SchoolHoliday', 'StoreType', 'Assortment',
       'CompetitionDistance', 'CompetitionOpenSinceMonth',
       'CompetitionOpenSinceYear', 'Promo2', 'Promo2SinceWeek',
       'Promo2SinceYear', 'PromoInterval']
snakecase=lambda x:inflection.underscore(x) 
cols_new=list(map(snakecase,cols_old))  #lambda: e a declaracao de uma funcao 
#snakecase: reencreve em minusculo e com _ como separador
#funcao map: faz o mapeamento da funcao snakecase em todas as palavras da lista cols_old

#Rename
df1.columns=cols_new


### 1.2 Dimensao dos dados

In [None]:
print('Numbers of Rows:{}'.format(df1.shape[0])) 
print('Numbers of Columns:{}'.format(df1.shape[1]))

### 1.3. Tipo de dados 

In [None]:
df1.dtypes

In [None]:
df1['date']=pd.to_datetime(df1['date'])  # ajustando a variavel de data 



### 1.4 Checando os NAs

In [None]:
df1.isna().sum()

### 1.5 Preenchendo os NAs

In [None]:

#competition_distance (Na's faltantes:  2642 )

df1['competition_distance']=df1['competition_distance'].apply(lambda x:2000000.0 if math.isnan(x) else x)
# distancia em metros do competidor mais proximo . 
# math.isnam : encontra na coluna os valores sem dados 



In [None]:
df1['competition_distance'].max()

In [None]:
df1.isna().sum()

In [None]:
df1.sample()

In [None]:

#nao possui competidor proximo ou nao tem o dado
#No entendimento assumo que : se tiver dados vazios(isnan.math) na coluna 'competition since mounth/year/week', eu vou pegar a coluna 'date' extrair o mes e substituindo o NA, aplicando(apply)em todas as colunas (axis 1)
    
#competition_open_since_month (Na's faltantes: 323348)
#mes e ano que o competidor abriu 
df1['competition_open_since_month']=df1.apply(lambda x:x ['date'].month if math.isnan (x['competition_open_since_month'])else x ['competition_open_since_month'],axis=1)

#competition_open_since_year   ( Na's faltantes:  323348)
df1['competition_open_since_year']=df1.apply(lambda x:x ['date'].year if math.isnan (x['competition_open_since_year'])else x ['competition_open_since_year'],axis=1)

#promo2_since_week             ( Na's faltantes:  508031)
df1['promo2_since_week']=df1.apply(lambda x:x ['date'].week if math.isnan (x['promo2_since_week'])else x ['promo2_since_week'],axis=1)

#promo2_since_year             ( Na's faltantes:  508031)
df1['promo2_since_year']=df1.apply(lambda x:x ['date'].year if math.isnan (x['promo2_since_year'])else x ['promo2_since_year'],axis=1)

#promo_interval                  508031
#crio uma lista de meses, se a data estiver dentro da lista a promo2 foi ativa.

month_map={1:'Jan',2:'Fev',3:'Mar',4:'Apr',5:'May',6:'Jun',7:'Jul',8:'Aug',9:'Sep',10:'Oct',11:'Nov',12:'Dec'}
df1['promo_interval'].fillna(0,inplace=True) #fillna na coluna promo_interval com valor 0, #inplace=true para nao retornar nada, com modificacao direto na coluna 

df1['month_map']=df1['date'].dt.month.map(month_map) # substituindo os dados da coluna date para os meses da lista month map
df1['is_promo']=df1[['promo_interval','month_map']].apply(lambda x:0 if x['promo_interval']==0 else 1if x['month_map']in x['promo_interval'].split(',')else 0, axis=1)                                      



In [None]:
df1.isna().sum()

In [None]:
df1.sample(5).T

### 1.6 Change types


In [None]:
df1.dtypes

In [None]:
df1['competition_open_since_year']=df1['competition_open_since_year'].astype(int)
df1['competition_open_since_month']=df1['competition_open_since_month'].astype(int)
df1['promo2_since_week']=df1['promo2_since_week'].astype(int)
df1['promo2_since_year']=df1['promo2_since_year'].astype(int)

### 1.7 Descrição estatística 

In [None]:
# separando as variaveis numericas e as categoricas 
num_attributes= df1.select_dtypes(include=['int64','float64'])
cat_attributes= df1.select_dtypes(exclude=['int64','float64','datetime64[ns]'])

In [None]:
num_attributes.sample(2)


In [None]:
cat_attributes.sample(2)

### 1.7.1 Numéricos

In [None]:
# central tendency- mean, median
ct1=pd.DataFrame(num_attributes.apply(np.mean)).T
ct2=pd.DataFrame(num_attributes.apply(np.median)).T
#Dispersion- std,min,max,range,skew,kurtosis
d1=pd.DataFrame(num_attributes.apply(np.std)).T
d2=pd.DataFrame(num_attributes.apply(min)).T
d3=pd.DataFrame(num_attributes.apply(max)).T
d4=pd.DataFrame(num_attributes.apply(lambda x:x.max()-x.min())).T
d5=pd.DataFrame(num_attributes.apply(lambda x:x.skew())).T
d6=pd.DataFrame(num_attributes.apply(lambda x:x.kurtosis())).T
#concatenate
m=pd.concat([d2,d3,d4,ct1,ct2,d1,d5,d6]).T.reset_index()
m.columns=(['attributes','min','max','range','mean','median','std','skew','kurtosis'])


In [None]:
m

### 1.7.2 Categóricos

In [None]:
cat_attributes.apply(lambda x:x.unique().shape[0] )

In [None]:
plt.figure(figsize= (17, 7))

aux1=df1[(df1['state_holiday']!='0')& (df1['sales']>0)];
plt.figure(figsize= (17, 7))

plt.subplot(1,3,1)
sns.boxplot(x='state_holiday',y='sales', data= aux1);

plt.subplot(1,3,2)
sns.boxplot(x='store_type',y='sales',data=aux1);

plt.subplot(1,3,3)
sns.boxplot(x='assortment',y='sales',data=aux1);
plt.tight_layout()


# 2.0 Feature engineering

### 2.1 Mapa das hipóteses 

In [None]:
Image('MindMapHypothesis.png') # ferramenta coggle


### 2.2 Criação de hipóteses 

#### 2.2.1 Hipóteses lojas

***1*** lojas com maior quadro de funcionarios deveriam vender mais

***2*** lojas com maior estoque deveriam vender mais

***3*** lojas com maior porte deveriam vender mais

***4*** lojas com maior sortimento deveriam vender mais

#### 2.2.2 Hipóteses Produtos

***1*** lojas que investem mais em marketing deveriam vender mais

***2*** lojas que expoem mais o produto deveriam vender mais

***3*** lojas que tem precos menores nos produtos deveriam vender mais

***4*** lojas que possuem precos menores por mais tempo deveriam vender mais


#### 2.2.3 Hipóteses Tempo

***1*** lojas que tem mais feriados deveriam vender mais

***2*** lojas que abrem nos primeiros 6 meses deveriam vender mais

***3*** lojas que abrem nos finais de semana deveriam vender mais

#### 2.2.4 Priorizaçao das hipóteses 

In [None]:
# Aquelas que já possuimos os dados 

***1*** lojas com maior sortimento deveriam vender mais

***2*** lojas com competidores mais proximos deveriam vender menos

***3*** lojas com competidores a mais tempos deveriam vender mais

***4*** lojas com promocoes ativas por mais tempos deveriam vender mais

***5*** lojas com mais dias de promocao deveriam vender mais 

***6*** lojas com mais promocoes consecutivas deveriam vender mais

***7*** lojas abertas durante os feriados deveriam vender mais

***8*** lojas deveriam vender mais ao longo dos anos

***9*** lojas deveriam vender mais no segundo semestre

***10*** lojas deveriam vender mais depois do dia 10 de cada mes

***11*** lojas deveriam vender menos aos finais de semana

***12*** lojas deveriam vender menos durante feriados escolares



In [None]:
df2=df1.copy()


### 2.3 Feature Engineering


In [None]:
#desmembrando da varivel "date" com a funcao dt.year
df2['year']=df2['date'].dt.year   
df2['month']=df2['date'].dt.month
df2['day']=df2['date'].dt.day
df2['week_of_year']=df2['date'].dt.weekofyear
df2['year_week']=df2['date'].dt.strftime('%Y-%W') 

#juntar as duas variaveis - competition since
df2['competition_since']=df2.apply(lambda x:datetime.datetime(year=x['competition_open_since_year'],month=x['competition_open_since_month'],day=1),axis=1)
df2['competition_time_month']=((df2['date']- df2['competition_since'])/30).apply(lambda x:x.days).astype(int)

#promo since 
df2['promo_since']=df2['promo2_since_year'].astype(str)+'-'+ df2['promo2_since_week'].astype(str)
df2['promo_since']=df2['promo_since'].apply(lambda x:datetime.datetime.strptime(x +'-1','%Y-%W-%w')- datetime.timedelta(days=7))
df2['promo_time_week']=((df2['date']-df2['promo_since'])/7).apply(lambda x:x.days).astype(int)

##assortment 
df2['assortment']=df2['assortment'].apply(lambda x:'basic' if x=='a' else 'extra' if x=='b' else 'extended')

#
df2['state_holiday']= df2['state_holiday'].apply(lambda x:'public_holiday' if x=='a' else 'easter_holiday' if x=='b' else 'christmas' if x=='c'else 'regular_day')


In [None]:
df2.head().T

# 3.0 Filtragem dos dados

In [None]:
df3=df2.copy()
df3.head(15)

## 3.1 Filtragem de linhas 

In [None]:
df3=df3[(df3['open']!=0)&(df3['sales']>0)]


## 3.2 Seleção de colunas 

In [None]:
cols_drop=['customers','open','promo_interval','month_map']
df3=df3.drop(cols_drop,axis=1)
df3.columns

In [None]:
df4=df3.copy()



# 4.0 Análise exploratória de dados 

## 4.1 Análise Univariada 

### 4.1.1 Resposta da variável

In [None]:
plt.figure(figsize= (10, 7))

sns.distplot(df4['sales'], kde= True)
plt.tight_layout()

### 4.1.2 Análise numérica 

In [None]:

num_attributes.hist(bins=40,figsize=(10,7));

### 4.1.3 Variavel Categórica

In [None]:
cat_attributes.head()

In [None]:
df4['state_holiday'].drop_duplicates()

In [None]:
# state holiday
a=df4[df4['state_holiday']!= 'regular_day']
sns.countplot(a['state_holiday']);

In [None]:
# state holiday + outros plots 
plt.figure(figsize= (10, 15))

plt.subplot(3,2,1)
a=df4[df4['state_holiday']!= 'regular_day']
sns.countplot(a['state_holiday'])

plt.subplot(3,2,2)
sns.kdeplot(df4[df4['state_holiday']=='public_holiday']['sales'],label='public_holiday',shade=True)
sns.kdeplot(df4[df4['state_holiday']=='easter_holiday']['sales'],label='easter_holiday',shade=True)
sns.kdeplot(df4[df4['state_holiday']=='christmas']['sales'],label='christmas',shade=True)


#store_type
plt.subplot(3,2,3)
sns.countplot(df4['store_type'])

plt.subplot(3,2,4)
sns.kdeplot(df4[df4['store_type']=='a']['sales'],label='a',shade=True)
sns.kdeplot(df4[df4['store_type']=='b']['sales'],label='b',shade=True)
sns.kdeplot(df4[df4['store_type']=='c']['sales'],label='c',shade=True)
sns.kdeplot(df4[df4['store_type']=='d']['sales'],label='d',shade=True)

# assortment
plt.subplot(3,2,5)
sns.countplot(df4['assortment'])

plt.subplot(3,2,6)
sns.kdeplot(df4[df4['assortment']=='extended']['sales'],label='extended',shade=True)
sns.kdeplot(df4[df4['assortment']=='basic']['sales'],label='basic',shade=True)
sns.kdeplot(df4[df4['assortment']=='extra']['sales'],label='extra',shade=True);
plt.tight_layout()


## 4.1 Análise Bivariada

***1*** lojas com maior sortimento deveriam vender mais

***2*** lojas com competidores mais proximos deveriam vender menos

***3*** lojas com competidores a mais tempos deveriam vender mais

***4*** lojas com promocoes ativas por mais tempos deveriam vender mais

***5*** lojas com mais dias de promocao deveriam vender mais 

***6*** lojas com mais promocoes consecutivas deveriam vender mais

***7*** lojas abertas durante os feriados deveriam vender mais

***8*** lojas deveriam vender mais ao longo dos anos

***9*** lojas deveriam vender mais no segundo semestre

***10*** lojas deveriam vender mais depois do dia 10 de cada mes

***11*** lojas deveriam vender menos aos finais de semana

***12*** lojas deveriam vender menos durante feriados escolares

## H1. Lojas com maior sortimento deveriam vender mais 



In [None]:
aux1 = df4[['assortment', 'sales']].groupby('assortment').sum().reset_index()
sns.barplot(x='assortment',y='sales',data=aux1);

aux2 = df4[['year_week','assortment','sales']].groupby(['year_week','assortment']).sum().reset_index()
aux2.pivot(index='year_week', columns='assortment', values='sales').plot()

aux3 = aux2[aux2['assortment']=='extra']
aux3.pivot(index='year_week', columns='assortment', values='sales').plot()


## H2. Lojas com competidores mais próximos  vendem menos.



In [None]:
# agrupamento(bin) para melhor visualizacao de 1000 em 1000.

aux1=df4[['competition_distance','sales']].groupby('competition_distance').sum().reset_index()
plt.figure(figsize= (15, 10))


bins=list(np.arange(0,20000,1000)) #np.arrange= cria um array(lista de mesmo tipo)

aux1['competition_distance_binned']=pd.cut(aux1['competition_distance'],bins=bins) # cut= separa o valores da coluna 'comp_distance'no DataFrame df nas faixas etárias calculadas usando o valor do argumento bins no método pandas
aux2=aux1[['competition_distance_binned','sales']].groupby('competition_distance_binned').sum().reset_index()


sns.barplot(x='competition_distance_binned',y='sales',data=aux2);
plt.xticks(rotation=90);




In [None]:
aux1=df4[['competition_distance','sales']].groupby('competition_distance').sum().reset_index()
plt.figure(figsize= (15, 15))

plt.subplot(1,3,1)
sns.scatterplot(x='competition_distance', y='sales',data=aux1);

plt.subplot(1,3,2)
bins=list(np.arange(0,20000,1000)) #np.arrange= cria um array(lista de mesmo tipo)
aux1['competition_distance_binned']=pd.cut(aux1['competition_distance'],bins=bins) # cut= separa o valores da coluna 'comp_distance'no DataFrame df nas faixas etárias calculadas usando o valor do argumento bins no método pandas
aux2=aux1[['competition_distance_binned','sales']].groupby('competition_distance_binned').sum().reset_index()
sns.barplot(x='competition_distance_binned',y='sales',data=aux2);
plt.xticks(rotation=90);


plt.subplot(1,3,3)
x=sns.heatmap(aux1.corr(method='pearson'),annot=True);
bottom,top=x.get_ylim()
x.set_ylim(bottom+0.5,top-0.5);


## H3.Lojas com competidores a mais tempo deveriam vender mais



In [None]:
plt.figure(figsize= (15, 15))

plt.subplot(1,3,1)
aux1=df4[['competition_time_month','sales',]].groupby('competition_time_month').sum().reset_index()
aux2=aux1[(aux1['competition_time_month']<120)&(aux1['competition_time_month']!=0)]
sns.barplot(x='competition_time_month',y='sales', data=aux2);
plt.xticks(rotation=90);

plt.subplot(1,3,2)
sns.regplot(x='competition_time_month',y='sales', data=aux2);

plt.subplot(1,3,3)
sns.heatmap(aux1.corr(method='pearson'),annot=True);
bottom,top=x.get_ylim()
x.set_ylim(bottom+0.5,top-0.5);


## H4. Lojas com promoçoes ativas por mais tempo vendem mais



In [None]:
plt.figure(figsize= (15, 15))

plt.subplot(2,1,1)
sns.scatterplot(x= 'competition_time_month', y= 'sales', data= df4[(df4['competition_time_month'] <200) & df4['competition_time_month'] != 0])
titulo=('Tempo com Concorrência', 20);



In [None]:
aux1=df4[['promo_time_week','sales']].groupby('promo_time_week').sum().reset_index()
plt.figure(figsize= (15, 15))

grid=GridSpec(2,3)

plt.subplot(grid[0,0])
aux2=aux1[aux1['promo_time_week']>0]
sns.barplot(x='promo_time_week',y='sales',data=aux2)
plt.xticks(rotation=90);


plt.subplot(grid[0,1])
sns.regplot(x='promo_time_week',y='sales',data=aux2)

plt.subplot(grid[1,0])
aux3=aux1[aux1['promo_time_week']<0]
sns.barplot(x='promo_time_week',y='sales',data=aux3)
plt.xticks(rotation=90);

plt.subplot(grid[1,1])
sns.regplot(x='promo_time_week',y='sales',data=aux3);

plt.subplot(grid[:,2])
sns.heatmap(aux1.corr(method='pearson'),annot=True);


##  H5. Lojas com mais promoçoes consecutivas vendem mais



In [None]:
df4[['promo','promo2','sales']].groupby(['promo','promo2']).sum().reset_index()

In [None]:
plt.figure(figsize= (15, 7))

aux1= df4[(df4['promo'] == 1) & (df4['promo2'] == 1)][['sales', 'year_week']].groupby('year_week').sum().reset_index()
sns.lineplot(x= 'year_week', y= 'sales', data= aux1, label= 'promo e promo2', estimator= sum)

aux2= df4[(df4['promo'] == 1) & (df4['promo2'] == 0)][['sales', 'year_week']].groupby('year_week').sum().reset_index()
sns.lineplot(x= 'year_week', y= 'sales', data= aux2, label= 'promo', estimator= sum)
plt.xticks(rotation= 90);

In [None]:
# Lojas com promoções menos consecutivas vendem mais

aux1 = df4[( df4['promo'] == 1 ) & ( df4['promo2'] == 1 )][['year_week', 'sales']].groupby( 'year_week' ).sum().reset_index()
ax = aux1.plot()

aux2 = df4[( df4['promo'] == 1 ) & ( df4['promo2'] == 0 )][['year_week', 'sales']].groupby( 'year_week' ).sum().reset_index()
aux2.plot( ax=ax )

ax.legend( labels=['Duas Promo Consecutivas', 'Promocao tradicional']);

## H6. Lojas que ficam abertas durante o feriado de Natal  vendem mais. 

In [None]:
plt.figure(figsize= (15, 7))

plt.subplot(1,2,1)
aux=df4[df4['state_holiday']!='regular_day']
aux1=aux[['state_holiday','sales']].groupby('state_holiday').sum().reset_index()
sns.barplot(x='state_holiday',y='sales',data=aux1);


plt.subplot(1,2,2)
aux2=aux[['year', 'state_holiday','sales']].groupby(['year','state_holiday']).sum().reset_index()
sns.barplot(x='year',y='sales',hue='state_holiday',data=aux2);



## H7. Lojas devem vender mais ao longo dos anos.

In [None]:
aux1= df4[['sales', 'year']].groupby('year').sum().reset_index()
plt.figure(figsize= (15, 7))

plt.subplot(1,3,1)
sns.barplot(x='year',y='sales', data=aux1);
plt.subplot(1,3,2)
sns.regplot(x='year',y='sales', data=aux1);

plt.subplot(1,3,3)
sns.heatmap(aux1.corr(method='pearson'), annot=True);


## H8. Lojas devem vender mais no segundo semestre do ano


In [None]:
aux1= df4[['sales', 'month']].groupby('month').sum().reset_index()
plt.figure(figsize= (15, 7))

plt.subplot(1,3,1)
sns.barplot(x='month',y='sales', data=aux1);

plt.subplot(1,3,2)
sns.regplot(x='month',y='sales', data=aux1);

plt.subplot(1,3,3)
sns.heatmap(aux1.corr(method='pearson'), annot=True);

## H9. Lojas vendem mais depois do dia 10 de cada mês 


In [None]:
aux1= df4[['sales', 'day']].groupby('day').sum().reset_index()
plt.figure(figsize= (15, 7))

plt.subplot(2,2,1)
sns.barplot(x='day',y='sales', data=aux1);

plt.subplot(2,2,2)
sns.regplot(x='day',y='sales', data=aux1);

plt.subplot(2,2,3)
sns.heatmap(aux1.corr(method='pearson'), annot=True);

aux1['before_after']= aux1['day'].apply(lambda x: 'before_10_days' if x<=10 else 'after_10_days')
aux2=aux1[['before_after','sales']].groupby ('before_after').sum().reset_index()

plt.subplot(2,2,4)
sns.barplot(x='before_after',y='sales', data=aux2);
plt.tight_layout()




In [None]:
# gastos por dia do mes

aux1= df4[['sales', 'day']].groupby('day').sum().reset_index()
plt.figure(figsize= (15, 7))
sns.lineplot(x= 'day', y= 'sales', data= aux1, ci= None, estimator= sum)
plt.xticks(range(1,32));
plt.tight_layout()



## H10. Lojas deveriam vender menos no final de semana

In [None]:
aux1= df4[['sales', 'day_of_week']].groupby('day_of_week').sum().reset_index()
plt.figure(figsize= (15, 7))

plt.subplot(2,2,1)
sns.barplot(x='day_of_week',y='sales', data= aux1);

plt.subplot(2,2,2)
sns.regplot(x='day_of_week',y='sales', data= aux1);

plt.subplot(2,2,3)
sns.heatmap(aux1.corr(method='pearson'), annot=True);



## H11. Lojas devem vender menos nos feriados escolares.


In [None]:
plt.figure(figsize= (15, 7))

aux1= df4[['sales','school_holiday']].groupby('school_holiday').sum().reset_index()

plt.subplot(2,1,1)
sns.barplot(x='school_holiday', y='sales', data=aux1);

aux2= df4[['month','school_holiday','sales']].groupby(['month','school_holiday']).sum().reset_index()

plt.subplot(2,1,2)
sns.barplot(x='month',y='sales',hue='school_holiday', data=aux2);


In [None]:
tab=[['Hipoteses','Conclusão','Relevância'],
     ['H1','Falsa','baixa'],
     ['H2','Falsa','média'],
     ['H3','Falsa','média'],
     ['H4','Falsa','baixa'],
     ['H5','Falsa','baixa'],
     ['H6','Falsa','baixa'],
     ['H7','Falsa','média'],
     ['H8','Falsa','alta'],
     ['H9','Falsa','alta'],
     ['H10','Verdadeira','alta'],
     ['H11','Verdadeira','alta'],
     ['H12','Verdadeira','baixa'],
    ]
print(tabulate(tab,headers='firstrow'))

## 4.3 Análise Multivariada 

## 4.3.1. Atributos Numéricos

In [None]:
plt.figure(figsize= (15, 10))
correlation=num_attributes.corr(method='pearson')
sns.heatmap(correlation, annot= True, linewidths= 1);

# escuros: mais relacionados , claros: menos relacionados 

## 4.3.2. Atributos Categóricos

In [None]:
df4.select_dtypes(include="object").head()

In [None]:
# e necessario fazer a correlacao de variaveis categoricas- Nao e possivel fazer pelo metodo de pearson.E necessario usar o cramer -v

In [None]:
#pd.crosstab(a['state_holiday'],a['store_type']) #possiveis combinacoes entre as variveis categoricas

In [None]:
#ex:
#a[(a['state_holiday']=='christmas')&(a['store_type']=='a')]    
# o resultado 4 é a confusion matrix(cm)

In [None]:
cm=pd.crosstab(a['state_holiday'],a['store_type'])

In [None]:
chi2=ss.chi2_contingency(cm

In [None]:
chi2

In [None]:
#(12792.159524019908) este e o valor de chi2
#ou
chi2=ss.chi2_contingency(cm)[0]
chi2

In [None]:
cm

In [None]:
#n: soma de todos os valores
n=cm.sum()
n

In [None]:
v=np.sqrt((chi2/n)/(min(k-1,r-1)))

In [None]:
a= df4.select_dtypes(include= 'object')

a1= cramer_v(a['state_holiday'], a['state_holiday'])
a2= cramer_v(a['state_holiday'], a['store_type'])
a3= cramer_v(a['state_holiday'], a['assortment'])
a4= cramer_v(a['store_type'], a['state_holiday'])
a5= cramer_v(a['store_type'], a['store_type'])
a6= cramer_v(a['store_type'], a['assortment'])
a7= cramer_v(a['assortment'], a['state_holiday'])
a8= cramer_v(a['assortment'], a['store_type'])
a9= cramer_v(a['assortment'], a['assortment'])

d= pd.DataFrame({'state_holiday': [a1, a2, a3],
                'store_type': [a4, a5, a6],
                'assortment': [a7, a8, a9]})

d= d.set_index(d.columns)
sns.heatmap(d, annot= True);

# 5.0 PREPARAÇÃO DOS DADOS


In [None]:
df5= df4.copy()


## 5.1 Normalização


Como podemos observar na seção 4.1.2, não apresentamos nenhuma variável numérica com distribuição normal, então não faremos a normalização dos dados.
Rescala o centro para o 0 com desvio padrao igual a 1
= variavel - media/desvio padrao

## 5.2 Reescaling

Primeiro vamos selecionar as variáveis numéricas para depois observar as features que possuem outliers e as que não possuem para aplicar diferentes métodos de reescaling, sendo o RobustScaler para o primeiro e o MinMaxScaler para o segundo.
Rescala para o intervalo entre 0 e 1
Distribuicao nao Gaussianas

In [None]:
df5.select_dtypes(include= ['int64', 'float64']).head()


In [None]:
plt.figure(figsize= (15, 25))

lista= ['competition_distance', 'competition_open_since_month',
       'competition_open_since_year', 'promo2_since_week','promo2_since_year', 'year', 'competition_time_month']

n= 1
for i in lista:
    plt.subplot(3, 3, n)
    sns.boxplot(x= i, data= df5)
    plt.xlabel('')
    n+= 1

In [None]:
rs= RobustScaler()  # quartis
mms= MinMaxScaler() 

# RobustScaler
df5['competition_distance']= rs.fit_transform(df5[['competition_distance']].values)

df5['competition_open_since_year']= rs.fit_transform(df5[['competition_open_since_year']].values)

df5['competition_time_month']= rs.fit_transform(df5[['competition_time_month']].values)

# MinMaxScaler
df5['competition_open_since_month']= mms.fit_transform(df5[['competition_open_since_month']].values)

df5['promo2_since_week']= mms.fit_transform(df5[['promo2_since_week']].values)

df5['promo2_since_year']= mms.fit_transform(df5[['promo2_since_year']].values)

df5['year']= mm.fit_transform(df5[['year']].values)


In [None]:
fig=plt.figure(figsize=(9,8))
sns.distplot(df5['competition_distance'],bins= 30)
plt.tight_layout()


## 5.3 Transformação variáveis categóricas


### 5.3.1 Encoding

ENCODING = converter a variavel categorica em numerica mantendo o conteudo da variável

PRINCIPAIS TIPOS: one hot encoding, label, ordinal,target,frequency,embedding

LabelEncoding é uma classe de utilitário para ajudar a normalizar rótulos de forma que contenham apenas valores entre 0 e n_classes-1. Pode ser usado para transformar rótulos não numéricos em rótulos numéricos.

One Hot Encoding
Esse tipo de codificação pode ser obtido com o OneHotEncoder e get_dummies, que transforma cada recurso categórico com valores possíveis de n_categories em recursos binários de ncategories, sendo um deles 1 e todos os outros 0. Por padrão, os valores que cada recurso pode assumir são inferidos automaticamente do conjunto de dados e podem ser encontrados no atributo categorias.

Ordinal Encoding
Para converter recursos categóricos em códigos inteiros, podemos usar o OrdinalEncoder. Este estimador transforma cada recurso categórico em um novo recurso de números inteiros (0 a n_categories - 1) conforme ordenado.

Vamos pegar as features que são objects e transforma-las em numéricas através dos métodos abaixo:

state_holiday: OneHot Encoding
store_type: Label Enconding
assortment: Ordinal Encoding

In [None]:
df5['assortment'].drop_duplicates()


In [None]:
df5.head()

In [None]:
# state_holiday - One Hot Encoding
df5 = pd.get_dummies(df5, prefix=['state_holiday'], columns = ['state_holiday'])

In [None]:
# store_type - Label Encoding
le = LabelEncoder()
df5['store_type'] = le.fit_transform(df5['store_type'])



In [None]:
# assortment - Ordinal
assortment_dict = {'basic':1,
                  'extra': 2,
                  'extended':3}

df5['assortment'] = df5['assortment'].map(assortment_dict)

In [None]:
# Após transformações
df5.head()