## <font color='blue'>Pré-Processamento de Dados Para E-Commerce Analytics</font>

- Análise Exploratória de Dados
    - EDA Parte 1
    - EDA Parte 2
- Engenharia de Atributos
- **Pré-Processamento de Dados**

O objetivo do Pré-processamento é deixar os dados no formato ideal para a próxima etapa dentro de um projeto de Ciência de Dados. Normalmente o Pré-processamento é a última etapa antes de treinar um modelo de Machine Learning.

Algumas técnicas de Pré-processamento devem ser aplicadas exclusivamente nos dados de treino. Como não faremos Machine Learning neste Estudo de Caso, aplicaremos todas as técnicas estudadas em todo o conjunto de dados. Nosso foco será estudar as técnicas.

In [1]:
# Imports
import sklearn
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler

In [None]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

## Carregando o Dataset

In [2]:
# Carrega o dataset
df = pd.read_csv('dados/df_eng.csv', index_col = 0)

In [3]:
df.shape

(10643, 16)

In [4]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,baixa,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,baixa,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,baixa,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,media,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,media,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10643 entries, 0 to 10999
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   ID                            10643 non-null  int64 
 1   corredor_armazem              10643 non-null  object
 2   modo_envio                    10643 non-null  object
 3   numero_chamadas_cliente       10643 non-null  int64 
 4   avaliacao_cliente             10643 non-null  int64 
 5   custo_produto                 10643 non-null  int64 
 6   compras_anteriores            10643 non-null  int64 
 7   prioridade_produto            10643 non-null  object
 8   genero                        10643 non-null  object
 9   desconto                      10643 non-null  int64 
 10  peso_gramas                   10643 non-null  int64 
 11  entregue_no_prazo             10643 non-null  int64 
 12  performance_prioridade_envio  10643 non-null  object
 13  performance_modo

In [6]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto'],
      dtype='object')

## Label Encoding

### Método 1 - Usando o própio python

In [7]:
# Variável categórica ordinal
df.prioridade_produto.value_counts()

baixa    5174
media    4587
alta      882
Name: prioridade_produto, dtype: int64

In [8]:
# Dicionário de mapeamento
dic_prioridade_produto = {'baixa' : 1, 'media' : 2, 'alta' : 0}

In [9]:
dic_prioridade_produto

{'baixa': 1, 'media': 2, 'alta': 0}

In [10]:
df['prioridade_produto'] = df['prioridade_produto'].map(dic_prioridade_produto)

In [11]:
df.prioridade_produto.value_counts()

1    5174
2    4587
0     882
Name: prioridade_produto, dtype: int64

In [12]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [13]:
# Variável categórica ordinal (passível de interpretação)
df.modo_envio.value_counts()

Navio       7212
Aviao       1728
Caminhao    1703
Name: modo_envio, dtype: int64

In [14]:
# Dicionário de mapeamento
dic_modo_envio = {'Navio' : 0, 'Aviao' : 1, 'Caminhao' : 2}

In [15]:
df['modo_envio'] = df['modo_envio'].map(dic_modo_envio)

In [16]:
df.modo_envio.value_counts()

0    7212
1    1728
2    1703
Name: modo_envio, dtype: int64

In [17]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,1,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,1,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,1,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,1,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


### Método 2 - usando o pacote sklearn.preprocessing (LabelEncoder)

In [18]:
# Variável categórica nominal
df.genero.value_counts()

F    5357
M    5286
Name: genero, dtype: int64

In [19]:
# Cria o objeto encoder
le = LabelEncoder()

In [20]:
# Treina o objeto (normalmente fazemos isso somente com dados de treino)
le.fit(df.genero)

LabelEncoder()

In [21]:
list(le.classes_)

['F', 'M']

In [22]:
# Aplicamos o objeto encoder treinado 
# (fazemos isso em dados de treino e teste e também em novos dados usados no modelo)
df.genero = le.transform(df.genero)

In [23]:
df.genero.value_counts()

0    5357
1    5286
Name: genero, dtype: int64

## One-Hot Encoding

In [24]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,0,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,1,4,5,216,2,1,1,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,1,2,2,183,4,1,1,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,1,3,3,176,4,2,1,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,1,2,2,184,3,2,0,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [25]:
# Variável categórica nominal
df.corredor_armazem.value_counts()

F    3539
B    1778
D    1777
A    1777
C    1772
Name: corredor_armazem, dtype: int64

In [26]:
# Variável categórica nominal
df.performance_prioridade_envio.value_counts()

Não Houve Atraso       6282
Atraso Tolerável       2134
Atraso Problemático    1917
Atraso Crítico          310
Name: performance_prioridade_envio, dtype: int64

In [27]:
# Variável categórica nominal
df.performance_modo_envio.value_counts()

Não Houve Atraso                               6282
Atraso Tolerável na Entrega Por Navio          1453
Atraso Problemático na Entrega Por Navio       1307
Atraso Tolerável na Entrega Por Caminhao        350
Atraso Tolerável na Entrega Por Aviao           331
Atraso Problemático na Entrega Por Caminhao     310
Atraso Problemático na Entrega Por Aviao        300
Atraso Crítico na Entrega Por Navio             194
Atraso Crítico na Entrega Por Aviao              65
Atraso Crítico na Entrega Por Caminhao           51
Name: performance_modo_envio, dtype: int64

In [28]:
# Variável categórica nominal
df.faixa_desconto.value_counts()

Desconto Abaixo da Media    8269
Desconto Acima da Media     2374
Name: faixa_desconto, dtype: int64

In [29]:
# Variável categórica nominal
df.performance_faixa_desconto.value_counts()

Atraso na Entrega com Desconto Abaixo da Media    4361
Entrega no Prazo com Desconto Abaixo da Media     3908
Entrega no Prazo com Desconto Acima da Media      2374
Name: performance_faixa_desconto, dtype: int64

In [30]:
# Aplicando One-Hot Encoding
for cat in ['corredor_armazem', 
            'performance_prioridade_envio', 
            'performance_modo_envio', 
            'faixa_desconto', 
            'performance_faixa_desconto']:
    onehots = pd.get_dummies(df[cat], prefix = cat)
    df = df.join(onehots)

In [31]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso Crítico',
       'performance_prioridade_envio_Atraso Problemático',
       'performance_prioridade_envio_Atraso Tolerável',
       'performance_prioridade_envio_Não Houve Atraso',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance

In [32]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,D,1,4,2,177,3,1,0,44,...,0,0,0,0,1,0,1,0,0,1
1,2,F,1,4,5,216,2,1,1,59,...,0,0,0,0,1,0,1,0,0,1
2,3,A,1,2,2,183,4,1,1,48,...,0,0,0,0,1,0,1,0,0,1
3,4,B,1,3,3,176,4,2,1,10,...,0,0,0,0,1,1,0,0,1,0
4,5,C,1,2,2,184,3,2,0,46,...,0,0,0,0,1,0,1,0,0,1


In [33]:
# Não precisaremos mais das colunas originais após aplicar One-Hot Encoding
df = df.drop(columns = ['corredor_armazem', 
                        'performance_prioridade_envio', 
                        'performance_modo_envio', 
                        'faixa_desconto', 
                        'performance_faixa_desconto'])

In [34]:
# Podemos remover a coluna ID
df = df.drop(columns = ['ID'])

In [35]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,4,2,177,3,1,0,44,1233,1,...,0,0,0,0,1,0,1,0,0,1
1,1,4,5,216,2,1,1,59,3088,1,...,0,0,0,0,1,0,1,0,0,1
2,1,2,2,183,4,1,1,48,3374,1,...,0,0,0,0,1,0,1,0,0,1
3,1,3,3,176,4,2,1,10,1177,1,...,0,0,0,0,1,1,0,0,1,0
4,1,2,2,184,3,2,0,46,2484,1,...,0,0,0,0,1,0,1,0,0,1


## Fature Scaling

- O dimensionamento de recursos (Fature Scaling) consiste em transformar o valor dos recursos em uma faixa semelhante, para que os algoritmos de aprendizado de máquina se comportem melhor, resultando em modelos ideais.

- Padronização e normalização são duas técnicas mais comuns para dimensionamento de recursos.

- A normalização é transformar os valores dos recursos para que caiam dentro dos intervalos limitados (min e max).

- A padronização é transformar os valores de recursos para cair em torno da média como 0 com desvio padrão como 1.

- A padronização mantém informações úteis sobre valores discrepantes e torna o algoritmo menos sensível a eles em contraste com o dimensionamento mínimo-máximo.

- A classe MinMaxScaler() de sklearn.preprocessing é usada para normalização de recursos.

- A classe StandardScaler() de sklearn.preprocessing é usada para padronização de recursos.

In [36]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,4,2,177,3,1,0,44,1233,1,...,0,0,0,0,1,0,1,0,0,1
1,1,4,5,216,2,1,1,59,3088,1,...,0,0,0,0,1,0,1,0,0,1
2,1,2,2,183,4,1,1,48,3374,1,...,0,0,0,0,1,0,1,0,0,1
3,1,3,3,176,4,2,1,10,1177,1,...,0,0,0,0,1,1,0,0,1,0
4,1,2,2,184,3,2,0,46,2484,1,...,0,0,0,0,1,0,1,0,0,1


In [37]:
df.columns

Index(['modo_envio', 'numero_chamadas_cliente', 'avaliacao_cliente',
       'custo_produto', 'compras_anteriores', 'prioridade_produto', 'genero',
       'desconto', 'peso_gramas', 'entregue_no_prazo', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso Crítico',
       'performance_prioridade_envio_Atraso Problemático',
       'performance_prioridade_envio_Atraso Tolerável',
       'performance_prioridade_envio_Não Houve Atraso',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Navio',
       'performance_m

**ATENÇÃO**: No caso de normalizar o conjunto de dados de treinamento e teste, o estimador MinMaxScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo.

In [38]:
df.peso_gramas.sample(5)

200     1471
8503    4412
6677    4305
6470    4078
8415    5559
Name: peso_gramas, dtype: int64

In [39]:
# Normalização
df['peso_gramas'] = MinMaxScaler().fit_transform(df['peso_gramas'].values.reshape(len(df), 1))

In [40]:
df.peso_gramas.sample(5)

8610     0.080058
2325     0.018846
10389    0.527246
8873     0.143462
1520     0.278890
Name: peso_gramas, dtype: float64

In [41]:
df.custo_produto.sample(5)

7121     98
8519    238
6767    176
6911    260
7938    204
Name: custo_produto, dtype: int64

In [42]:
# Normalização
df['custo_produto'] = MinMaxScaler().fit_transform(df['custo_produto'].values.reshape(len(df), 1))

In [None]:
df.custo_produto.sample(10)

**ATENÇÃO**: No caso de padronizar o conjunto de dados de treinamento e teste, o estimador StandardScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo.

In [None]:
# Padronização
df['desconto'] = StandardScaler().fit_transform(df['desconto'].values.reshape(len(df), 1))

In [None]:
df.desconto.sample(10)

In [None]:
# Padronização
df['numero_chamadas_cliente'] = StandardScaler().fit_transform(df['numero_chamadas_cliente'].values.reshape(len(df), 
                                                                                                            1))

In [None]:
df.numero_chamadas_cliente.sample(10)

In [None]:
# Padronização
df['avaliacao_cliente'] = StandardScaler().fit_transform(df['avaliacao_cliente'].values.reshape(len(df), 1))

In [None]:
df.avaliacao_cliente.sample(10)

In [None]:
# Padronização
df['compras_anteriores'] = StandardScaler().fit_transform(df['compras_anteriores'].values.reshape(len(df), 1))

In [None]:
df.compras_anteriores.sample(10)

In [None]:
df.head()

In [None]:
df.to_csv('dados/dataset_final.csv', sep = ',', encoding = 'utf-8')

# Fim