In [1]:
#Bibliotecas
import sklearn
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler

## Carregando o Dataset (gerado na etapa de Engenharia de Atributos)

In [2]:
#Carrega o dataset
df = pd.read_csv('dados/df_eng.csv', index_col = 0)

In [3]:
df.shape

(10643, 16)

In [4]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,baixa,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,baixa,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,baixa,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,media,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,media,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10643 entries, 0 to 10999
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   ID                            10643 non-null  int64 
 1   corredor_armazem              10643 non-null  object
 2   modo_envio                    10643 non-null  object
 3   numero_chamadas_cliente       10643 non-null  int64 
 4   avaliacao_cliente             10643 non-null  int64 
 5   custo_produto                 10643 non-null  int64 
 6   compras_anteriores            10643 non-null  int64 
 7   prioridade_produto            10643 non-null  object
 8   genero                        10643 non-null  object
 9   desconto                      10643 non-null  int64 
 10  peso_gramas                   10643 non-null  int64 
 11  entregue_no_prazo             10643 non-null  int64 
 12  performance_prioridade_envio  10643 non-null  object
 13  performance_modo

In [6]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto'],
      dtype='object')

## Label Encoding

### Método 1

In [7]:
#Exemplo de variável categórica ordinal
df['prioridade_produto'].value_counts()

baixa    5174
media    4587
alta      882
Name: prioridade_produto, dtype: int64

In [8]:
#Normalmente o LabelEncoder lista as categorias em ordem alfabética, assim, o mesmo é feito aqui.
dic_prioridade_produto = {'baixa':1, 'media':2, 'alta':0}

In [9]:
df['prioridade_produto'] = df['prioridade_produto'].map(dic_prioridade_produto)

In [10]:
df['prioridade_produto'].value_counts()

1    5174
2    4587
0     882
Name: prioridade_produto, dtype: int64

In [11]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [12]:
#Considerando o modo de envio como uma variável categórica ordinal
df['modo_envio'].value_counts()

Navio       7212
Aviao       1728
Caminhao    1703
Name: modo_envio, dtype: int64

In [13]:
#Dessa vez sem ser em ordem alfabética
dic_modo_envio = {'Navio':0, 'Aviao':1, 'Caminhao':2}

In [14]:
df['modo_envio'] = df['modo_envio'].map(dic_modo_envio)

In [15]:
df['modo_envio'].value_counts()

0    7212
1    1728
2    1703
Name: modo_envio, dtype: int64

In [16]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,1,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,1,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,1,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,1,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


### Método 2

In [17]:
#Variável categórica nominal
df['genero'].value_counts()

F    5357
M    5286
Name: genero, dtype: int64

In [18]:
le = LabelEncoder()

In [19]:
#Treina o objeto (normalmente feito apenas com dados de treino, mas, como neste caso não temos um modelo de Machine Learning, faremos com todos)
le.fit(df['genero'])

LabelEncoder()

In [20]:
list(le.classes_)

['F', 'M']

In [21]:
#Aplicamos o encoder treinado
#Isso é aplicado a dados de treino, teste e também dados novos
df['genero'] = le.transform(df['genero'])

In [22]:
df['genero'].value_counts()

0    5357
1    5286
Name: genero, dtype: int64

## One-Hot Encoding

In [23]:
#Normalmente usado para variáveis categóricas nominais, por exemplo:
df['corredor_armazem'].value_counts()

F    3539
B    1778
D    1777
A    1777
C    1772
Name: corredor_armazem, dtype: int64

In [24]:
#Pode ser considerada ordinal, devido à hierarquia entre atrasos toleráveis, problemáticos e críticos.
df['performance_prioridade_envio'].value_counts()

Não Houve Atraso       6282
Atraso Tolerável       2134
Atraso Problemático    1917
Atraso Crítico          310
Name: performance_prioridade_envio, dtype: int64

In [25]:
#Pode ser considerada ordinal, devido à hierarquia entre atrasos toleráveis, problemáticos e críticos.
df['performance_modo_envio'].value_counts()

Não Houve Atraso                               6282
Atraso Tolerável na Entrega Por Navio          1453
Atraso Problemático na Entrega Por Navio       1307
Atraso Tolerável na Entrega Por Caminhao        350
Atraso Tolerável na Entrega Por Aviao           331
Atraso Problemático na Entrega Por Caminhao     310
Atraso Problemático na Entrega Por Aviao        300
Atraso Crítico na Entrega Por Navio             194
Atraso Crítico na Entrega Por Aviao              65
Atraso Crítico na Entrega Por Caminhao           51
Name: performance_modo_envio, dtype: int64

In [26]:
df['faixa_desconto'].value_counts()

Desconto Abaixo da Media    8269
Desconto Acima da Media     2374
Name: faixa_desconto, dtype: int64

In [27]:
df['performance_faixa_desconto'].value_counts()

Atraso na Entrega com Desconto Abaixo da Media    4361
Entrega no Prazo com Desconto Abaixo da Media     3908
Entrega no Prazo com Desconto Acima da Media      2374
Name: performance_faixa_desconto, dtype: int64

In [28]:
#Aplicando o One-Hot Encoding
for cat in ['corredor_armazem',
           'performance_prioridade_envio',
           'performance_modo_envio',
           'faixa_desconto',
           'performance_faixa_desconto']:
    onehots = pd.get_dummies(df[cat], prefix = cat)
    df = df.join(onehots)

In [29]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso Crítico',
       'performance_prioridade_envio_Atraso Problemático',
       'performance_prioridade_envio_Atraso Tolerável',
       'performance_prioridade_envio_Não Houve Atraso',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance

In [30]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,D,1,4,2,177,3,1,0,44,...,0,0,0,0,1,0,1,0,0,1
1,2,F,1,4,5,216,2,1,1,59,...,0,0,0,0,1,0,1,0,0,1
2,3,A,1,2,2,183,4,1,1,48,...,0,0,0,0,1,0,1,0,0,1
3,4,B,1,3,3,176,4,2,1,10,...,0,0,0,0,1,1,0,0,1,0
4,5,C,1,2,2,184,3,2,0,46,...,0,0,0,0,1,0,1,0,0,1


In [31]:
df = df.drop(columns = ['corredor_armazem',
           'performance_prioridade_envio',
           'performance_modo_envio',
           'faixa_desconto',
           'performance_faixa_desconto'])

In [32]:
df = df.drop(columns = ['ID'])

In [33]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,4,2,177,3,1,0,44,1233,1,...,0,0,0,0,1,0,1,0,0,1
1,1,4,5,216,2,1,1,59,3088,1,...,0,0,0,0,1,0,1,0,0,1
2,1,2,2,183,4,1,1,48,3374,1,...,0,0,0,0,1,0,1,0,0,1
3,1,3,3,176,4,2,1,10,1177,1,...,0,0,0,0,1,1,0,0,1,0
4,1,2,2,184,3,2,0,46,2484,1,...,0,0,0,0,1,0,1,0,0,1


## Feature Scaling

- O dimensionamento de recursos (Feature Scaling) consiste em transformar o valor dos recursos em uma faixa semelhante, para que os algoritmos de aprendizado de máquina se comportem melhor, resultando em modelos ideais.

- Padronização e normalização são duas técnicas mais comuns para dimensionamento de recursos.

- A normalização é transformar os valores dos recursos para que caiam dentro dos intervalos limitados (min e max).

- A padronização é transformar os valores de recursos para cair em torno da média como 0 com desvio padrão como 1.

- A padronização mantém informações úteis sobre valores discrepantes e torna o algoritmo menos sensível a eles em contraste com o dimensionamento mínimo-máximo.

- A classe MinMaxScaler() de sklearn.preprocessing é usada para normalização de recursos.

- A classe StandardScaler() de sklearn.preprocessing é usada para padronização de recursos.

**ATENÇÃO**: No caso de normalizar o conjunto de dados de treinamento e teste, o estimador MinMaxScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo.

In [34]:
df['peso_gramas'].sample(5)

5393    5239
8307    1626
1476    1445
3636    5001
1447    1367
Name: peso_gramas, dtype: int64

In [35]:
df['peso_gramas'] = MinMaxScaler().fit_transform(df['peso_gramas'].values.reshape(len(df),1))

In [36]:
df['peso_gramas'].sample(5)

6875    0.041344
8394    0.676114
8649    0.047918
4252    0.574434
6470    0.449525
Name: peso_gramas, dtype: float64

In [37]:
df['custo_produto'].sample(5)

8213    179
9691    275
3777    147
8226    245
1072    198
Name: custo_produto, dtype: int64

In [38]:
df['custo_produto'] = MinMaxScaler().fit_transform(df['custo_produto'].values.reshape(len(df),1))

In [39]:
df['custo_produto'].sample(5)

848     0.443925
5901    0.817757
5872    0.369159
1418    0.392523
4909    0.752336
Name: custo_produto, dtype: float64

**ATENÇÃO**: No caso de padronizar o conjunto de dados de treinamento e teste, o estimador StandardScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo.

In [40]:
df['desconto'] = StandardScaler(). fit_transform(df['desconto'].values.reshape(len(df),1))

In [41]:
df['desconto'].sample(10)

8388   -0.368751
7885   -0.368751
3934   -0.502162
6693   -0.235340
2674    1.298887
8090   -0.568868
2797    2.032647
2044    0.965359
3099    1.298887
7917   -0.635573
Name: desconto, dtype: float64

In [42]:
df['numero_chamadas_cliente'] = StandardScaler(). fit_transform(df['numero_chamadas_cliente'].values.reshape(len(df),1))

In [43]:
df['numero_chamadas_cliente'].sample(10)

9086     1.689011
9436     1.689011
7628    -0.057348
5841     1.689011
1413    -0.930527
10761    0.815832
9051    -1.803706
1502    -0.930527
9463     0.815832
1296    -0.930527
Name: numero_chamadas_cliente, dtype: float64

In [44]:
df['avaliacao_cliente'] = StandardScaler(). fit_transform(df['avaliacao_cliente'].values.reshape(len(df),1))

In [45]:
df['avaliacao_cliente'].sample(10)

7295     0.007718
1576    -1.408469
10592    1.423904
2225    -1.408469
480      0.715811
1922     1.423904
10384    0.715811
10138   -0.700376
4723     0.007718
3301     1.423904
Name: avaliacao_cliente, dtype: float64

In [46]:
df['compras_anteriores'] = StandardScaler(). fit_transform(df['compras_anteriores'].values.reshape(len(df),1))

In [47]:
df['compras_anteriores'].sample(10)

8632     0.416201
6531     2.743911
10587   -0.359702
28       0.416201
2269    -0.359702
2604    -0.359702
2227    -0.359702
7913    -1.135605
4137     1.192105
10030   -0.359702
Name: compras_anteriores, dtype: float64

In [48]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,-0.057348,-0.700376,0.378505,-0.359702,1,0,2.099353,0.033893,1,...,0,0,0,0,1,0,1,0,0,1
1,1,-0.057348,1.423904,0.560748,-1.135605,1,1,3.099936,0.304894,1,...,0,0,0,0,1,0,1,0,0,1
2,1,-1.803706,-0.700376,0.406542,0.416201,1,1,2.366175,0.346676,1,...,0,0,0,0,1,0,1,0,0,1
3,1,-0.930527,0.007718,0.373832,0.416201,2,1,-0.168635,0.025712,1,...,0,0,0,0,1,1,0,0,1,0
4,1,-1.803706,-0.700376,0.411215,-0.359702,2,0,2.232764,0.216654,1,...,0,0,0,0,1,0,1,0,0,1


In [49]:
df.to_csv('dados/dataset_final.csv', sep = ',', encoding = 'utf-8')