In [1]:
# imports
import sklearn
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler

In [2]:
## Carregando o Dataset (Gerado no final do Cap4)
df = pd.read_csv('df_eng.csv', index_col = 0)

In [3]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,baixa,F,44,1233,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
1,2,F,Aviao,4,5,216,2,baixa,M,59,3088,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
2,3,A,Aviao,2,2,183,4,baixa,M,48,3374,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
3,4,B,Aviao,3,3,176,4,media,M,10,1177,1,Não houve atraso,Não houve atraso,Desconto abaixo da média,Entrega no Prazo com Desconto Abaixo da Média
4,5,C,Aviao,2,2,184,3,media,F,46,2484,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média


In [4]:
df.shape

(10643, 16)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10643 entries, 0 to 10999
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   ID                            10643 non-null  int64 
 1   corredor_armazem              10643 non-null  object
 2   modo_envio                    10643 non-null  object
 3   numero_chamadas_cliente       10643 non-null  int64 
 4   avaliacao_cliente             10643 non-null  int64 
 5   custo_produto                 10643 non-null  int64 
 6   compras_anteriores            10643 non-null  int64 
 7   prioridade_produto            10643 non-null  object
 8   genero                        10643 non-null  object
 9   desconto                      10643 non-null  int64 
 10  peso_gramas                   10643 non-null  int64 
 11  entregue_no_prazo             10643 non-null  int64 
 12  performance_prioridade_envio  10643 non-null  object
 13  performance_modo

In [6]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto'],
      dtype='object')

## Label Encoding

### Método 1

In [7]:
# Variável categórica ordinal (existe uma espécie de hierarquia)
df['prioridade_produto'].value_counts()

baixa    5174
media    4587
alta      882
Name: prioridade_produto, dtype: int64

In [8]:
# Dicionário de mapeamento (por ordem alfabética das categorias)
dic_prioridade_produto = {'baixa': 1, 'media': 2, 'alta': 0}

In [9]:
df['prioridade_produto'] = df['prioridade_produto'].map(dic_prioridade_produto)

In [10]:
df['prioridade_produto'].value_counts()

1    5174
2    4587
0     882
Name: prioridade_produto, dtype: int64

In [11]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,1,F,44,1233,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
1,2,F,Aviao,4,5,216,2,1,M,59,3088,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
2,3,A,Aviao,2,2,183,4,1,M,48,3374,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
3,4,B,Aviao,3,3,176,4,2,M,10,1177,1,Não houve atraso,Não houve atraso,Desconto abaixo da média,Entrega no Prazo com Desconto Abaixo da Média
4,5,C,Aviao,2,2,184,3,2,F,46,2484,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média


In [12]:
# Variável categórica ordinal (passível de interpretação, mas existe uma diferença de custo entre eles)

In [13]:
df['modo_envio'].value_counts()

Navio       7212
Aviao       1728
Caminhao    1703
Name: modo_envio, dtype: int64

In [14]:
dic_modo_envio = {'Navio': 0, 'Aviao': 1, 'Caminhao': 2}

In [15]:
df['modo_envio'] = df['modo_envio'].map(dic_modo_envio)

In [16]:
df['modo_envio'].value_counts()

0    7212
1    1728
2    1703
Name: modo_envio, dtype: int64

In [17]:
df.sample(5)

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
7403,7404,F,1,4,3,226,6,2,M,10,1174,0,Atraso problemárico,Atraso Problemático na Entrega por Aviao,Desconto abaixo da média,Atraso na Entrega com Desconto Abaixo da Média
8134,8135,C,0,4,5,226,2,1,M,1,4532,0,Atraso tolerável,Atraso Tolerável na Entrega por Navio,Desconto abaixo da média,Atraso na Entrega com Desconto Abaixo da Média
6258,6259,D,0,6,1,244,4,1,M,5,1867,0,Atraso tolerável,Atraso Tolerável na Entrega por Navio,Desconto abaixo da média,Atraso na Entrega com Desconto Abaixo da Média
3023,3024,F,1,3,4,155,3,2,M,4,1548,1,Não houve atraso,Não houve atraso,Desconto abaixo da média,Entrega no Prazo com Desconto Abaixo da Média
9748,9749,C,0,4,2,144,4,2,F,2,4316,0,Atraso problemárico,Atraso Problemático na Entrega por Navio,Desconto abaixo da média,Atraso na Entrega com Desconto Abaixo da Média


### Método 2

In [19]:
# Variável categórica nominal
df['genero'].value_counts()

F    5357
M    5286
Name: genero, dtype: int64

In [20]:
# Cria o objeto encoder
le = LabelEncoder()

In [21]:
# Treina o objeto (normalmente fazemos isso somente com dados de treino)
le.fit(df['genero'])

LabelEncoder()

In [22]:
list(le.classes_)

['F', 'M']

In [23]:
# Aplicamos o objeto encoder treinado
# (fazemos isso em dados de treino e teste e também em novos dados usados no modelo)
df['genero'] = le.transform(df['genero'])

In [24]:
df['genero'].value_counts()

0    5357
1    5286
Name: genero, dtype: int64

## One-Hot Encoding

In [28]:
# Usando para variáveis nominais

In [29]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,0,44,1233,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
1,2,F,1,4,5,216,2,1,1,59,3088,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
2,3,A,1,2,2,183,4,1,1,48,3374,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média
3,4,B,1,3,3,176,4,2,1,10,1177,1,Não houve atraso,Não houve atraso,Desconto abaixo da média,Entrega no Prazo com Desconto Abaixo da Média
4,5,C,1,2,2,184,3,2,0,46,2484,1,Não houve atraso,Não houve atraso,Desconto acima ou igual à média,Entrega no Prazo com Desconto Acima da Média


In [30]:
# Variável categórica nominal
df['corredor_armazem'].value_counts()

F    3539
B    1778
D    1777
A    1777
C    1772
Name: corredor_armazem, dtype: int64

In [31]:
# Variável categórica nominal
df['performance_prioridade_envio'].value_counts()

Não houve atraso       6282
Atraso tolerável       2134
Atraso problemárico    1917
Atraso crítico          310
Name: performance_prioridade_envio, dtype: int64

In [34]:
# Variável categórica nominal
df['performance_modo_envio'].value_counts()

Não houve atraso                               6632
Atraso Tolerável na Entrega por Navio          1453
Atraso Problemático na Entrega por Navio       1307
Atraso Tolerável na Entrega por Aviao           331
Atraso Problemático na Entrega por Caminhao     310
Atraso Problemático na Entrega por Aviao        300
Atraso Crítico na Entrega por Navio             194
Atraso Crítico na Entrega por Aviao              65
Atraso Crítico na Entrega por Caminhao           51
Name: performance_modo_envio, dtype: int64

In [32]:
# Variável categórica nominal
df['faixa_desconto'].value_counts()

Desconto abaixo da média           8269
Desconto acima ou igual à média    2374
Name: faixa_desconto, dtype: int64

In [33]:
# Variável categórica nominal
df['performance_faixa_desconto'].value_counts()

Atraso na Entrega com Desconto Abaixo da Média    4361
Entrega no Prazo com Desconto Abaixo da Média     3908
Entrega no Prazo com Desconto Acima da Média      2374
Name: performance_faixa_desconto, dtype: int64

In [35]:
# Aplicando One-Hot Encoding
for cat in ['corredor_armazem',
            'performance_prioridade_envio',
            'performance_modo_envio',
            'faixa_desconto',
            'performance_faixa_desconto']:
    onehots = pd.get_dummies(df[cat], prefix = cat)
    df = df.join(onehots)

In [36]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso crítico',
       'performance_prioridade_envio_Atraso problemárico',
       'performance_prioridade_envio_Atraso tolerável',
       'performance_prioridade_envio_Não houve atraso',
       'performance_modo_envio_Atraso Crítico na Entrega por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega por Aviao',
       'performance

In [37]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,...,performance_modo_envio_Atraso Problemático na Entrega por Caminhao,performance_modo_envio_Atraso Problemático na Entrega por Navio,performance_modo_envio_Atraso Tolerável na Entrega por Aviao,performance_modo_envio_Atraso Tolerável na Entrega por Navio,performance_modo_envio_Não houve atraso,faixa_desconto_Desconto abaixo da média,faixa_desconto_Desconto acima ou igual à média,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Média,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Média,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Média
0,1,D,1,4,2,177,3,1,0,44,...,0,0,0,0,1,0,1,0,0,1
1,2,F,1,4,5,216,2,1,1,59,...,0,0,0,0,1,0,1,0,0,1
2,3,A,1,2,2,183,4,1,1,48,...,0,0,0,0,1,0,1,0,0,1
3,4,B,1,3,3,176,4,2,1,10,...,0,0,0,0,1,1,0,0,1,0
4,5,C,1,2,2,184,3,2,0,46,...,0,0,0,0,1,0,1,0,0,1


In [38]:
# As variáveis originais não mais necessários depois criar as colunas do One-Hot Encoding
df.drop(columns = ['corredor_armazem',
                   'performance_prioridade_envio',
                   'performance_modo_envio',
                   'faixa_desconto',
                   'performance_faixa_desconto'])

Unnamed: 0,ID,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,...,performance_modo_envio_Atraso Problemático na Entrega por Caminhao,performance_modo_envio_Atraso Problemático na Entrega por Navio,performance_modo_envio_Atraso Tolerável na Entrega por Aviao,performance_modo_envio_Atraso Tolerável na Entrega por Navio,performance_modo_envio_Não houve atraso,faixa_desconto_Desconto abaixo da média,faixa_desconto_Desconto acima ou igual à média,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Média,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Média,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Média
0,1,1,4,2,177,3,1,0,44,1233,...,0,0,0,0,1,0,1,0,0,1
1,2,1,4,5,216,2,1,1,59,3088,...,0,0,0,0,1,0,1,0,0,1
2,3,1,2,2,183,4,1,1,48,3374,...,0,0,0,0,1,0,1,0,0,1
3,4,1,3,3,176,4,2,1,10,1177,...,0,0,0,0,1,1,0,0,1,0
4,5,1,2,2,184,3,2,0,46,2484,...,0,0,0,0,1,0,1,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10995,10996,0,4,1,232,5,2,0,6,1247,...,0,1,0,0,0,1,0,1,0,0
10996,10997,0,5,4,242,5,1,0,4,1155,...,0,0,0,1,0,1,0,1,0,0
10997,10998,0,5,2,223,6,2,1,2,1210,...,0,1,0,0,0,1,0,1,0,0
10998,10999,0,2,5,155,5,1,0,6,1639,...,0,0,0,1,0,1,0,1,0,0


In [39]:
# Podemos remover a coluna ID
df = df.drop(columns = ['ID'])

## Fature Scaling

- O dimensionamento de recursos (fature scaling) consiste em transformar o valor dos recursos em uma faixa semelhante, para que os algoritmos de aprendizado de máquina se comportem melhor, resuldando em modelos ideias.
- Padronização e normalização são duas técnicas mais comuns para dimensionamento de recursos.
- A normalização é transformar os valores dos recursos para que caiam dentro dos intervalos limitados (min e max).
- A padronização é transformar os valores dos recursos para cair em torno da média 0 com desvio padrão de 1.
- A padronização mantém informações úteis sobre valores discrepantes e torna o algoritmo menos senśivel a eles em constraste com o dimensionamento mínimo-máximo (normalização).
- A classe MinMaxScaler() do sklearn.preprocessing é usada para normalização de recursos.
- A classe StandardScaler() do sklearn.preprocessing é usada para padronização de recursos.

In [40]:
df.head()

Unnamed: 0,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,...,performance_modo_envio_Atraso Problemático na Entrega por Caminhao,performance_modo_envio_Atraso Problemático na Entrega por Navio,performance_modo_envio_Atraso Tolerável na Entrega por Aviao,performance_modo_envio_Atraso Tolerável na Entrega por Navio,performance_modo_envio_Não houve atraso,faixa_desconto_Desconto abaixo da média,faixa_desconto_Desconto acima ou igual à média,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Média,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Média,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Média
0,D,1,4,2,177,3,1,0,44,1233,...,0,0,0,0,1,0,1,0,0,1
1,F,1,4,5,216,2,1,1,59,3088,...,0,0,0,0,1,0,1,0,0,1
2,A,1,2,2,183,4,1,1,48,3374,...,0,0,0,0,1,0,1,0,0,1
3,B,1,3,3,176,4,2,1,10,1177,...,0,0,0,0,1,1,0,0,1,0
4,C,1,2,2,184,3,2,0,46,2484,...,0,0,0,0,1,0,1,0,0,1


In [41]:
df.columns

Index(['corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso crítico',
       'performance_prioridade_envio_Atraso problemárico',
       'performance_prioridade_envio_Atraso tolerável',
       'performance_prioridade_envio_Não houve atraso',
       'performance_modo_envio_Atraso Crítico na Entrega por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega por Aviao',
       'performance_modo_

### ATENÇÃO: No caso de normalizar o conjunto de ados de treinamento e teste, o estumador MinMaxScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimados será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo. 

In [43]:
df['peso_gramas'].sample(5)

9271     4454
7941     4718
648      3962
5898     4736
10598    5757
Name: peso_gramas, dtype: int64

In [44]:
df['peso_gramas'] = MinMaxScaler().fit_transform(df['peso_gramas'].values.reshape(len(df), 1))

In [45]:
df['peso_gramas'].sample(5)

728     0.009788
3203    0.479328
8317    0.016216
5235    0.584222
9726    0.493061
Name: peso_gramas, dtype: float64

In [46]:
df['custo_produto'] = MinMaxScaler().fit_transform(df['peso_gramas'].values.reshape(len(df), 1))

In [47]:
df['custo_produto'].sample(10)

4761     0.059898
5174     0.466618
10872    0.473192
5248     0.639445
783      0.030095
2570     0.130168
9351     0.037984
1476     0.064865
9051     0.516581
1259     0.011833
Name: custo_produto, dtype: float64

### ATENÇÃO: No caso de padronizar o conjunto de dados de treinamento e teste, o estimador StandardScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo. 

In [48]:
df['desconto'] = StandardScaler().fit_transform(df['desconto'].values.reshape(len(df), 1))

In [49]:
df['desconto'].sample(10)

1566     1.699120
4112    -0.502162
6219    -0.502162
6864    -0.768984
8764    -0.568868
10321   -0.635573
6916    -0.435457
3308    -0.168635
3967    -0.368751
9674    -0.702279
Name: desconto, dtype: float64

In [50]:
df['numero_chamadas_cliente'] = StandardScaler().fit_transform(df['desconto'].values.reshape(len(df), 1))

In [51]:
df['numero_chamadas_cliente'].sample(10)

4302    -0.568868
4737    -0.435457
800      1.565709
3444    -0.368751
3331    -0.702279
10133   -0.302046
2487    -0.302046
9884    -0.568868
939      0.164893
1569     1.499003
Name: numero_chamadas_cliente, dtype: float64

In [52]:
df['avaliacao_cliente'] = StandardScaler().fit_transform(df['desconto'].values.reshape(len(df), 1))

In [53]:
df['avaliacao_cliente'].sample(10)

5200    -0.502162
10328   -0.702279
645      3.166641
6270    -0.368751
811      1.032065
1641     0.765243
748      1.765825
10126   -0.502162
8368    -0.235340
9061    -0.235340
Name: avaliacao_cliente, dtype: float64

In [54]:
df['compras_anteriores'] = StandardScaler().fit_transform(df['desconto'].values.reshape(len(df), 1))

In [55]:
df['compras_anteriores'].sample(10)

439     3.033230
398     3.033230
1224   -0.235340
7129   -0.435457
7773   -0.502162
4679   -0.235340
3069   -0.302046
8982   -0.168635
7283   -0.235340
6437   -0.702279
Name: compras_anteriores, dtype: float64

In [56]:
df.head()

Unnamed: 0,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,...,performance_modo_envio_Atraso Problemático na Entrega por Caminhao,performance_modo_envio_Atraso Problemático na Entrega por Navio,performance_modo_envio_Atraso Tolerável na Entrega por Aviao,performance_modo_envio_Atraso Tolerável na Entrega por Navio,performance_modo_envio_Não houve atraso,faixa_desconto_Desconto abaixo da média,faixa_desconto_Desconto acima ou igual à média,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Média,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Média,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Média
0,D,1,2.099353,2.099353,0.033893,2.099353,1,0,2.099353,0.033893,...,0,0,0,0,1,0,1,0,0,1
1,F,1,3.099936,3.099936,0.304894,3.099936,1,1,3.099936,0.304894,...,0,0,0,0,1,0,1,0,0,1
2,A,1,2.366175,2.366175,0.346676,2.366175,1,1,2.366175,0.346676,...,0,0,0,0,1,0,1,0,0,1
3,B,1,-0.168635,-0.168635,0.025712,-0.168635,2,1,-0.168635,0.025712,...,0,0,0,0,1,1,0,0,1,0
4,C,1,2.232764,2.232764,0.216654,2.232764,2,0,2.232764,0.216654,...,0,0,0,0,1,0,1,0,0,1


In [57]:
df.to_csv('dataset_final.csv', sep = ',', encoding = 'utf-8')