# Pré-Processamento de Dados Para E-Commerce Analytics

O objetivo do Pré-processamento é deixar os dados no formato ideal para a próxima etapa dentro de um projeto de Ciência de Dados. Normalmente o Pré-processamento é a última etapa antes de treinar um modelo de Machine Learning.

Algumas técnicas de Pré-processamento devem ser aplicadas exclusivamente nos dados de treino (isso será explicado durante as aulas). Como não faremos Machine Learning neste Estudo de Caso, aplicaremos todas as técnicas estudadas em todo o conjunto de dados. Nosso foco será estudar as técnicas.

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.12


In [2]:
# Imports
import sklearn
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler

In [3]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Lucas Castro" --iversions

Author: Lucas Castro

numpy  : 1.22.3
pandas : 1.4.2
sklearn: 1.0.2



## Carregando o Dataset (Gerado ao Final da Engenharia de Atributos)

In [4]:
# Carrega o dataset
df = pd.read_csv('dados/df_eng.csv', index_col = 0)

In [5]:
df.shape

(10643, 16)

In [6]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,baixa,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,baixa,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,baixa,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,media,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,media,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10643 entries, 0 to 10999
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   ID                            10643 non-null  int64 
 1   corredor_armazem              10643 non-null  object
 2   modo_envio                    10643 non-null  object
 3   numero_chamadas_cliente       10643 non-null  int64 
 4   avaliacao_cliente             10643 non-null  int64 
 5   custo_produto                 10643 non-null  int64 
 6   compras_anteriores            10643 non-null  int64 
 7   prioridade_produto            10643 non-null  object
 8   genero                        10643 non-null  object
 9   desconto                      10643 non-null  int64 
 10  peso_gramas                   10643 non-null  int64 
 11  entregue_no_prazo             10643 non-null  int64 
 12  performance_prioridade_envio  10643 non-null  object
 13  performance_modo

In [8]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto'],
      dtype='object')

## Label Encoding

Label  Encoding (codificação  de  rótulos) é  uma  técnica  de  codificação para  lidar  comvariáveis categóricas.Nesta técnica, a cada rótulo é atribuído um número inteiro exclusivo com base na ordem alfabética.

Na  codificação  de  rótulos  em  Python,  substituímos  o  valor  categórico  por  um  valor numérico entre 0 e o número de classes menos 1. Se o valor da variável categórica contiver 5 classes distintasusamos (0, 1, 2, 3 e 4).Observe que os dados são modificados, mas sem perder a informação que eles representam.

Isso  pode  ser  feito de  maneira  manual  (usando  dicionários  em  Python)  ou  com  o algoritmo LabelEncoder do pacote Scikit-Learn. Veremos os dois métodos na sequência.

### Método 1

In [9]:
# Variável categórica ordinal
df.prioridade_produto.value_counts()

baixa    5174
media    4587
alta      882
Name: prioridade_produto, dtype: int64

In [10]:
# Dicionário de mapeamento
dic_prioridade_produto = {'baixa' : 1, 'media' : 2, 'alta' : 0}

In [11]:
df['prioridade_produto'] = df['prioridade_produto'].map(dic_prioridade_produto)

In [12]:
df.prioridade_produto.value_counts()

1    5174
2    4587
0     882
Name: prioridade_produto, dtype: int64

In [13]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [14]:
# Variável categórica ordinal (passível de interpretação - diferença de CUSTO)
df.modo_envio.value_counts()

Navio       7212
Aviao       1728
Caminhao    1703
Name: modo_envio, dtype: int64

In [15]:
# Dicionário de mapeamento
dic_modo_envio = {'Navio' : 0, 'Aviao' : 1, 'Caminhao' : 2}

In [16]:
df['modo_envio'] = df['modo_envio'].map(dic_modo_envio)

In [17]:
df.modo_envio.value_counts()

0    7212
1    1728
2    1703
Name: modo_envio, dtype: int64

In [18]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,1,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,1,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,1,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,1,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


### Método 2

In [19]:
# Variável categórica nominal
df.genero.value_counts()

F    5357
M    5286
Name: genero, dtype: int64

In [20]:
# Cria o objeto encoder
le = LabelEncoder()

In [21]:
# Treina o objeto (normalmente fazemos isso somente com dados de treino)
le.fit(df.genero)

LabelEncoder()

In [22]:
list(le.classes_)

['F', 'M']

In [23]:
# Aplicamos o objeto encoder treinado 
# (fazemos isso em dados de treino e teste e também em novos dados usados no modelo)
df.genero = le.transform(df.genero)

In [24]:
df.genero.value_counts()

0    5357
1    5286
Name: genero, dtype: int64

## One-Hot Encoding

One-Hot  Encoding  é  outra  técnica  popular  para  tratar  variáveis  categóricas. Ele simplesmente cria recursos adicionais com base no número de valores exclusivos no recurso categórico.  Cada  valor  exclusivo  na  categoria  será  adicionado  como  um  recurso(uma  nova variável).

Nessa abordagem, para cada categoria de um recurso, criamos uma nova coluna (às vezes chamada de variável fictícia) com codificação binária (0 ou 1) para indicar se uma determinada linha pertence a essa categoria.

Vamos considerar aimagem abaixo. Observe que a variável Color possui 3 categorias (Red, Yellow e Green). Aplicando One-Hot Encoding3 novas variáveis são criadas, sendo o valor 1 quando a ocorrência daquela cor e 0 quando não há ocorrência.
![img](imagens/hot_encoding.png)

Uma  potencial  desvantagem  desse  método  é  um  aumento  significativo  na dimensionalidade do conjunto de dados (que é chamado de Curse of Dimensionality).

Ou seja, a codificação one-hot é o fato de estarmos criando colunas adicionais, uma para cada valor exclusivo no conjunto do atributo categórico que gostaríamos de codificar. Portanto, se  tivermos  um  atributo  categórico  que  contenha,  digamos,  1.000  valores  exclusivos,  essa codificação one-hot gerará 1.000 novos atributos adicionais e isso não é desejável.

Para simplificar, a codificação one-hot é uma ferramenta bastante poderosa, mas só é aplicável para dados categóricos que possuem um número baixo de valores exclusivos.

One-Hot Encoding é o processo de criação de variáveis fictícias(dummy variables).

In [25]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,0,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,1,4,5,216,2,1,1,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,1,2,2,183,4,1,1,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,1,3,3,176,4,2,1,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,1,2,2,184,3,2,0,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [26]:
# Variável categórica nominal
df.corredor_armazem.value_counts()

F    3539
B    1778
D    1777
A    1777
C    1772
Name: corredor_armazem, dtype: int64

In [27]:
# Variável categórica nominal - Passivel de interprtação
df.performance_prioridade_envio.value_counts()

Não Houve Atraso       6282
Atraso Tolerável       2134
Atraso Problemático    1917
Atraso Crítico          310
Name: performance_prioridade_envio, dtype: int64

In [28]:
# Variável categórica nominal
df.performance_modo_envio.value_counts()

Não Houve Atraso                               6282
Atraso Tolerável na Entrega Por Navio          1453
Atraso Problemático na Entrega Por Navio       1307
Atraso Tolerável na Entrega Por Caminhao        350
Atraso Tolerável na Entrega Por Aviao           331
Atraso Problemático na Entrega Por Caminhao     310
Atraso Problemático na Entrega Por Aviao        300
Atraso Crítico na Entrega Por Navio             194
Atraso Crítico na Entrega Por Aviao              65
Atraso Crítico na Entrega Por Caminhao           51
Name: performance_modo_envio, dtype: int64

In [29]:
# Variável categórica nominal
df.faixa_desconto.value_counts()

Desconto Abaixo da Media    8269
Desconto Acima da Media     2374
Name: faixa_desconto, dtype: int64

In [30]:
# Variável categórica nominal
df.performance_faixa_desconto.value_counts()

Atraso na Entrega com Desconto Abaixo da Media    4361
Entrega no Prazo com Desconto Abaixo da Media     3908
Entrega no Prazo com Desconto Acima da Media      2374
Name: performance_faixa_desconto, dtype: int64

In [31]:
# Aplicando One-Hot Encoding em multiplas colunas
for cat in ['corredor_armazem', 
            'performance_prioridade_envio', 
            'performance_modo_envio', 
            'faixa_desconto', 
            'performance_faixa_desconto']:
    onehots = pd.get_dummies(df[cat], prefix = cat)
    df = df.join(onehots)

In [32]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso Crítico',
       'performance_prioridade_envio_Atraso Problemático',
       'performance_prioridade_envio_Atraso Tolerável',
       'performance_prioridade_envio_Não Houve Atraso',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance

In [33]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,D,1,4,2,177,3,1,0,44,...,0,0,0,0,1,0,1,0,0,1
1,2,F,1,4,5,216,2,1,1,59,...,0,0,0,0,1,0,1,0,0,1
2,3,A,1,2,2,183,4,1,1,48,...,0,0,0,0,1,0,1,0,0,1
3,4,B,1,3,3,176,4,2,1,10,...,0,0,0,0,1,1,0,0,1,0
4,5,C,1,2,2,184,3,2,0,46,...,0,0,0,0,1,0,1,0,0,1


In [34]:
# Não precisaremos mais das colunas originais após aplicar One-Hot Encoding
df = df.drop(columns = ['corredor_armazem', 
                        'performance_prioridade_envio', 
                        'performance_modo_envio', 
                        'faixa_desconto', 
                        'performance_faixa_desconto'])

In [35]:
# Podemos remover a coluna ID
df = df.drop(columns = ['ID'])

In [36]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,4,2,177,3,1,0,44,1233,1,...,0,0,0,0,1,0,1,0,0,1
1,1,4,5,216,2,1,1,59,3088,1,...,0,0,0,0,1,0,1,0,0,1
2,1,2,2,183,4,1,1,48,3374,1,...,0,0,0,0,1,0,1,0,0,1
3,1,3,3,176,4,2,1,10,1177,1,...,0,0,0,0,1,1,0,0,1,0
4,1,2,2,184,3,2,0,46,2484,1,...,0,0,0,0,1,0,1,0,0,1


# Quando Usar Label Encoding e One Hot Encoding?

Essa pergunta geralmente depende do seu conjunto de dados e do modelo que você deseja aplicar. Mas ainda assim, há uma regra geral a ser observadaantes de escolher a técnica de codificação correta para o seu modelo:

<b>Aplicamos Label Encoding quando:</b>
- A variávelcategórica é ordinal (como por exemplo variável que indica escolaridade:ensino fundamental, ensino médio, etc...). Há uma ordem nas categorias da variável.

<b>Aplicamos One-Hot Encoding quando:</b>
- A variávelcategórica não é ordinal, ou seja, a variável é nominal(como por exemplo variávelpaís). Nesse casonão há uma ordem nas categorias da variável.

# O que é Feature Scaling? 

Muitos algoritmos de aprendizado de máquina funcionam melhor quando as variáveis de entrada são dimensionadas para um intervalo padrão. Esse processo de dimensionamento ou mudança de escala é chamado de Feature Scaling.

Isso inclui algoritmos que usam uma soma ponderada da entrada, como regressão linear, e algoritmos que usam medidas de distância, como k-vizinhos mais próximos (KNN).

As duas técnicas mais populares para dimensionar dados numéricos antes da modelagem 
são a normalização e a padronização. 

A normalização dimensiona cada variável de entrada separadamente para o intervalo 0-1, que é o intervalo para valores de ponto flutuante em que temos mais precisão. 

A padronização dimensiona cada variável de entrada separadamente subtraindo a média (chamada de centralização) e dividindo pelo desvio padrão para deslocar a distribuição para ter uma média de zero e um desvio padrão de um.

O dimensionamento de recursos (Feature Scaling) consiste em transformar os valores de diferentes  recursos  numéricos  para  que  caiam  em  um  intervalo  semelhante  entre  si.  O dimensionamento  de  recursos  é  usado para  evitar  que  os  modelos  de  aprendizado supervisionados sejam tendenciosos em relação a um inter
valo específico de valores. 

Por  exemplo,  se  seu  modelo  é  baseado  em  regressão  linear  e  você  não  dimensiona recursos,  alguns  recursos  podem  ter  um  impacto  maior  do  que  outros,  o  que  afetará  o desempenho das previsões, dando vantagem indevida a algumas variáveis sobre outras. Isso coloca certas classes em desvantagem durante o treinamento do modelo. É por isso que se torna importante usar algoritmos de dimensionamento para que você possa padronizar seus valores de recursos.

Esse  processo  de  dimensionamento de  recursos  é  feito  para  que  todos  os  recursos possam compartilhar a mesma escala e, portanto, evitar problemas como: perda de precisão e aumento no custo computacional à medida que os valores dos dados variam amplamente em diferentes ordens de magnitude.

A ideia é transformar o valor dos recursos em um intervalo semelhante como outros para que os algoritmos de aprendizado de máquina se comportem melhor, resultando em modelos ideais.

# Normalização X Padronização

As duas abordagens comuns para trazer diferentes recursos para a mesma escala são a 
normalização e a padronização.

<b>O que é Normalização?</b>

A normalização refere-se ao reescalonamento dos recursos para um intervalo de [0, 1], que  é  um  caso  especial  de  escalonamento  mínimo-máximo.  Para  normalizar  os  dados,  o 
dimensionamento mínimo-máximo pode ser aplicado a uma ou mais colunas de recursos. Abaixoestá a fórmula para normalizar os dados com base no dimensionamento mínimo-máximo. A normalização é útil quando os dados são necessários nos intervalos limitados.

![img]("imagens/normalizacao.png")

O método MinMaxScaler()do pacote sklearn.preprocessingoferece uma forma simples de realizar o procedimento.

<b>O que é Padronização?</b>

A técnica de padronização é usada para centralizar as colunas de recursos na média 0 com um desvio padrão de 1 para que as colunas de recursos tenham os mesmos parâmetros de uma distribuição normal padrão. Ao contrário da Normalização, a padronização mantém informações úteis sobre valores discrepantes e torna o algoritmo menos sensível a eles em contraste com o dimensionamento  mínimo-máximo,  que  dimensiona  os  dados  para  um  intervalo  limitado  de valores. 

Aqui está a fórmula para a padronização:

![img]("imagens/padronizacao.png")

O método StandardScaler() do pacote sklearn.preprocessingoferece uma forma simples 
de realizar o procedimento.

## Fature Scaling

Abaixo um resumo:

- O dimensionamento de recursos (Fature Scaling) consiste em transformar o valor dos recursos em uma faixa semelhante, para que os algoritmos de aprendizado de máquina se comportem melhor, resultando em modelos ideais.

- Padronização e normalização são duas técnicas mais comuns para dimensionamento de recursos.

- A normalização é transformar os valores dos recursos para que caiam dentro dos intervalos limitados (min e max).

- A padronização é transformar os valores de recursos para cair em torno da média como 0 com desvio padrão como 1.

- A padronização mantém informações úteis sobre valores discrepantes e torna o algoritmo menos sensível a eles em contraste com o dimensionamento mínimo-máximo.

- A classe MinMaxScaler() de sklearn.preprocessing é usada para normalização de recursos.

- A classe StandardScaler() de sklearn.preprocessing é usada para padronização de recursos.

In [37]:
# Fica bem claro que os dados estão em escalas diferentes(dezena, centena , milhar)
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,4,2,177,3,1,0,44,1233,1,...,0,0,0,0,1,0,1,0,0,1
1,1,4,5,216,2,1,1,59,3088,1,...,0,0,0,0,1,0,1,0,0,1
2,1,2,2,183,4,1,1,48,3374,1,...,0,0,0,0,1,0,1,0,0,1
3,1,3,3,176,4,2,1,10,1177,1,...,0,0,0,0,1,1,0,0,1,0
4,1,2,2,184,3,2,0,46,2484,1,...,0,0,0,0,1,0,1,0,0,1


In [38]:
df.columns

Index(['modo_envio', 'numero_chamadas_cliente', 'avaliacao_cliente',
       'custo_produto', 'compras_anteriores', 'prioridade_produto', 'genero',
       'desconto', 'peso_gramas', 'entregue_no_prazo', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso Crítico',
       'performance_prioridade_envio_Atraso Problemático',
       'performance_prioridade_envio_Atraso Tolerável',
       'performance_prioridade_envio_Não Houve Atraso',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Navio',
       'performance_m

**ATENÇÃO**: No caso de normalizar o conjunto de dados de treinamento e teste, o estimador MinMaxScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo.

In [39]:
df.peso_gramas.sample(5)

5584    5738
5208    4667
6418    4418
1448    1916
7601    4307
Name: peso_gramas, dtype: int64

In [40]:
df['peso_gramas'] = MinMaxScaler().fit_transform(df['peso_gramas'].values.reshape(len(df), 1))

In [41]:
df.custo_produto.sample(5)

2529    255
90      174
9605    255
5932    170
5687    111
Name: custo_produto, dtype: int64

In [42]:
df['custo_produto'] = MinMaxScaler().fit_transform(df['custo_produto'].values.reshape(len(df), 1))

**ATENÇÃO**: No caso de padronizar o conjunto de dados de treinamento e teste, o estimador StandardScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo.

In [43]:
df['desconto'] = StandardScaler().fit_transform(df['desconto'].values.reshape(len(df), 1))

In [44]:
df.desconto.sample(10)

5634    -0.502162
1427    -0.568868
2236     0.898654
10711   -0.168635
898      0.431715
3154    -0.302046
9318    -0.235340
1976     2.699703
114      2.499586
8099    -0.435457
Name: desconto, dtype: float64

In [45]:
df['numero_chamadas_cliente'] = StandardScaler().fit_transform(df['numero_chamadas_cliente'].values.reshape(len(df), 
                                                                                                            1))

In [46]:
df.numero_chamadas_cliente.sample(10)

3773    -0.930527
471     -0.057348
6023     0.815832
1320     0.815832
6332    -1.803706
10319   -0.930527
9302    -0.930527
3932     0.815832
7676     2.562190
366     -0.930527
Name: numero_chamadas_cliente, dtype: float64

In [47]:
df['avaliacao_cliente'] = StandardScaler().fit_transform(df['avaliacao_cliente'].values.reshape(len(df), 1))

In [48]:
df['compras_anteriores'] = StandardScaler().fit_transform(df['compras_anteriores'].values.reshape(len(df), 1))

In [49]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,-0.057348,-0.700376,0.378505,-0.359702,1,0,2.099353,0.033893,1,...,0,0,0,0,1,0,1,0,0,1
1,1,-0.057348,1.423904,0.560748,-1.135605,1,1,3.099936,0.304894,1,...,0,0,0,0,1,0,1,0,0,1
2,1,-1.803706,-0.700376,0.406542,0.416201,1,1,2.366175,0.346676,1,...,0,0,0,0,1,0,1,0,0,1
3,1,-0.930527,0.007718,0.373832,0.416201,2,1,-0.168635,0.025712,1,...,0,0,0,0,1,1,0,0,1,0
4,1,-1.803706,-0.700376,0.411215,-0.359702,2,0,2.232764,0.216654,1,...,0,0,0,0,1,0,1,0,0,1


In [50]:
df.to_csv('dados/dataset_final.csv', sep = ',', encoding = 'utf-8')

# Fim