# Pré-Processamento - E-commerce Dataset - Descrição do Problema

**PARA ESTA FASE DE PRÉ-PROCESSAMENTO, SERÁ UTILIZADO O DATASET DESCRITO ABAIXO, PORÉM APÓS HAVER SIDO REALIZADA ENGENHARIA DE ATRIBUTOS NO MESMO**

**Uma empresa internacional de comércio eletrônico(E-commerce)que vende produtos eletrônicos deseja descobrir informações importantes de seu banco de dados de clientes.** 

**Os produtos ficam armazenados em um armazém na sede da empresa. Após concluir a compra no web site da empresa, o cliente recebe o produto em casa, em qualquer parte do mundo.**  

**Os  produtos  são  enviados  de  Navio,  Avião  ou  Caminhão,  dependendo  da  região  de entrega.** 

**Em cada compra o cliente pode receber um desconto dependendo do peso do produto comprado.** 

**Cada cliente pode fazer chamadas ao suporte da empresa no caso de dúvidas ou problemas e após receber o produto o cliente pode deixar uma avaliação sobre a experiência de compra.** 

**O único dado pessoal sobre o cliente que está disponível é o gênero.**

**Fonte dos dados: Serão utilizados dados fictícios que representam dados reais de uma empresa de E-Commerce.**

# Imports e Ignorando Warnings

In [1]:
import sklearn
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler 
import pandas as pd
import numpy as np
from IPython.display import Image
import warnings
warnings.filterwarnings("ignore")

# Carregando o Dataset

In [2]:
df = pd.read_csv('dados/df_eng.csv', index_col = 0)

In [3]:
df.sample(5)

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto,faixa_peso
1414,1415,C,Navio,6,5,225,6,baixa,F,55,2052,1,Não Houve Atraso,Não Houve Atraso,desconto acima da média,Entrega no Prazo com Desconto Acima da Média,Abaixo da Média
8227,8228,F,Aviao,3,4,224,3,baixa,F,10,4806,1,Não Houve Atraso,Não Houve Atraso,desconto abaixo da média,Entrega no Prazo com Desconto Abaixo da Média,Acima da Média
5662,5663,C,Navio,4,2,237,3,baixa,M,2,5277,0,Atraso Tolerável,Atraso Tolerável na Entrega Por Navio,desconto abaixo da média,Atraso na Entrega com Desconto Abaixo da Média,Acima da Média
6068,6069,A,Navio,4,1,224,4,media,F,5,4887,0,Atraso Problemático,Atraso Problemático na Entrega Por Navio,desconto abaixo da média,Atraso na Entrega com Desconto Abaixo da Média,Acima da Média
8932,8933,C,Navio,6,3,258,4,media,M,9,1924,0,Atraso Problemático,Atraso Problemático na Entrega Por Navio,desconto abaixo da média,Atraso na Entrega com Desconto Abaixo da Média,Abaixo da Média


In [4]:
df.shape

(10643, 17)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10643 entries, 0 to 10999
Data columns (total 17 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   ID                            10643 non-null  int64 
 1   corredor_armazem              10643 non-null  object
 2   modo_envio                    10643 non-null  object
 3   numero_chamadas_cliente       10643 non-null  int64 
 4   avaliacao_cliente             10643 non-null  int64 
 5   custo_produto                 10643 non-null  int64 
 6   compras_anteriores            10643 non-null  int64 
 7   prioridade_produto            10643 non-null  object
 8   genero                        10643 non-null  object
 9   desconto                      10643 non-null  int64 
 10  peso_gramas                   10643 non-null  int64 
 11  entregue_no_prazo             10643 non-null  int64 
 12  performance_prioridade_envio  10643 non-null  object
 13  performance_modo

In [6]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'faixa_peso'],
      dtype='object')

# Label Encoding

### Variável 'prioridade_produto'

In [7]:
df['prioridade_produto'].value_counts()

baixa    5174
media    4587
alta      882
Name: prioridade_produto, dtype: int64

In [8]:
dic_prioridade_produto = {'baixa' : 0, 'media' : 1, 'alta' : 2}

In [9]:
df['prioridade_produto'] = df['prioridade_produto'].map(dic_prioridade_produto)

In [10]:
df['prioridade_produto'].value_counts()

0    5174
1    4587
2     882
Name: prioridade_produto, dtype: int64

## Variável 'modo_envio'

In [11]:
df['modo_envio'].value_counts()

Navio       7212
Aviao       1728
Caminhao    1703
Name: modo_envio, dtype: int64

In [12]:
dic_modo_envio = {'Navio' : 0, 'Aviao' : 1, 'Caminhao' : 2}

In [13]:
df['modo_envio'] = df['modo_envio'].map(dic_modo_envio)

In [14]:
df['modo_envio'].value_counts()

0    7212
1    1728
2    1703
Name: modo_envio, dtype: int64

## Variável 'genero' (utilizando LabelEncoder())

In [15]:
df['genero'].value_counts()

F    5357
M    5286
Name: genero, dtype: int64

In [16]:
le = LabelEncoder()

In [17]:
le.fit(df['genero'])

LabelEncoder()

In [18]:
list(le.classes_)

['F', 'M']

In [19]:
df['genero'] = le.transform(df['genero'])

In [20]:
df['genero'].value_counts()

0    5357
1    5286
Name: genero, dtype: int64

# One-Hot Encoding

In [22]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'faixa_peso'],
      dtype='object')

In [24]:
df['corredor_armazem'].value_counts()

F    3539
B    1778
D    1777
A    1777
C    1772
Name: corredor_armazem, dtype: int64

In [29]:
df['faixa_desconto'].value_counts()

desconto abaixo da média    8339
desconto acima da média     2304
Name: faixa_desconto, dtype: int64

In [26]:
df['performance_prioridade_envio'].value_counts()

Não Houve Atraso       6282
Atraso Tolerável       2134
Atraso Problemático    1917
Atraso Crítico          310
Name: performance_prioridade_envio, dtype: int64

In [27]:
df['performance_modo_envio'].value_counts()

Não Houve Atraso                               6282
Atraso Tolerável na Entrega Por Navio          1453
Atraso Problemático na Entrega Por Navio       1307
Atraso Tolerável na Entrega Por Caminhao        350
Atraso Tolerável na Entrega Por Aviao           331
Atraso Problemático na Entrega Por Caminhao     310
Atraso Problemático na Entrega Por Aviao        300
Atraso Crítico na Entrega Por Navio             194
Atraso Crítico na Entrega Por Aviao              65
Atraso Crítico na Entrega Por Caminhao           51
Name: performance_modo_envio, dtype: int64

In [28]:
df['performance_faixa_desconto'].value_counts()

Atraso na Entrega com Desconto Abaixo da Média    4361
Entrega no Prazo com Desconto Abaixo da Média     3978
Entrega no Prazo com Desconto Acima da Média      2304
Name: performance_faixa_desconto, dtype: int64

In [30]:
for cat in ['performance_faixa_desconto', 'performance_modo_envio', 'performance_prioridade_envio', 'faixa_desconto', 'corredor_armazem']:
    onehots = pd.get_dummies(df[cat], prefix = cat)
    df = df.join(onehots)

In [31]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'faixa_peso',
       'performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Média',
       'performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Média',
       'performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Média',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Caminhao',
       'performance_m

In [32]:
df = df.drop(columns = ['performance_faixa_desconto', 'performance_modo_envio', 'performance_prioridade_envio', 'faixa_desconto', 'corredor_armazem'])

In [33]:
df = df.drop(columns = 'ID')

In [34]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_prioridade_envio_Atraso Problemático,performance_prioridade_envio_Atraso Tolerável,performance_prioridade_envio_Não Houve Atraso,faixa_desconto_desconto abaixo da média,faixa_desconto_desconto acima da média,corredor_armazem_A,corredor_armazem_B,corredor_armazem_C,corredor_armazem_D,corredor_armazem_F
0,1,4,2,177,3,0,0,44,1233,1,...,0,0,1,0,1,0,0,0,1,0
1,1,4,5,216,2,0,1,59,3088,1,...,0,0,1,0,1,0,0,0,0,1
2,1,2,2,183,4,0,1,48,3374,1,...,0,0,1,0,1,1,0,0,0,0
3,1,3,3,176,4,1,1,10,1177,1,...,0,0,1,1,0,0,1,0,0,0
4,1,2,2,184,3,1,0,46,2484,1,...,0,0,1,0,1,0,0,1,0,0


# Feature Scaling

## Normalização

In [35]:
df.columns

Index(['modo_envio', 'numero_chamadas_cliente', 'avaliacao_cliente',
       'custo_produto', 'compras_anteriores', 'prioridade_produto', 'genero',
       'desconto', 'peso_gramas', 'entregue_no_prazo', 'faixa_peso',
       'performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Média',
       'performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Média',
       'performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Média',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Navio',
       'performance_modo_envio_Atraso Tolerável na Entrega Por Aviao',
       'performance_modo_envi

In [37]:
df['peso_gramas'] = MinMaxScaler().fit_transform(df['peso_gramas'].values.reshape(len(df),1))

In [39]:
df['peso_gramas'].sample(5)

2834     0.142148
5282     0.039445
3376     0.532213
5153     0.580131
10253    0.571220
Name: peso_gramas, dtype: float64

In [40]:
df['custo_produto'] = MinMaxScaler().fit_transform(df['custo_produto'].values.reshape(len(df),1))

In [41]:
df['custo_produto'].sample(5)

1094    0.415888
3918    0.345794
3050    0.686916
9579    0.373832
1259    0.224299
Name: custo_produto, dtype: float64

## Padronização

In [42]:
df.columns

Index(['modo_envio', 'numero_chamadas_cliente', 'avaliacao_cliente',
       'custo_produto', 'compras_anteriores', 'prioridade_produto', 'genero',
       'desconto', 'peso_gramas', 'entregue_no_prazo', 'faixa_peso',
       'performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Média',
       'performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Média',
       'performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Média',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Navio',
       'performance_modo_envio_Atraso Tolerável na Entrega Por Aviao',
       'performance_modo_envi

In [43]:
df['desconto'] = StandardScaler().fit_transform(df['desconto'].values.reshape(len(df),1))

In [45]:
df['desconto'].sample(5)

1313    0.298304
6705   -0.635573
1848    3.166641
7598   -0.702279
7302   -0.235340
Name: desconto, dtype: float64

In [47]:
df['compras_anteriores'] = StandardScaler().fit_transform(df['compras_anteriores'].values.reshape(len(df),1))

In [48]:
df['compras_anteriores'].sample(5)

10679   -1.135605
7451     1.968008
9993     0.416201
4959     0.416201
2340    -0.359702
Name: compras_anteriores, dtype: float64

In [49]:
df['numero_chamadas_cliente'] = StandardScaler().fit_transform(df['numero_chamadas_cliente'].values.reshape(len(df),1))

In [50]:
df['numero_chamadas_cliente'].sample(5)

704     0.815832
7287   -0.930527
4895   -0.930527
6144    0.815832
261    -1.803706
Name: numero_chamadas_cliente, dtype: float64

In [52]:
df['avaliacao_cliente'] = StandardScaler().fit_transform(df['avaliacao_cliente'].values.reshape(len(df),1))

In [53]:
df.sample(5)

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_prioridade_envio_Atraso Problemático,performance_prioridade_envio_Atraso Tolerável,performance_prioridade_envio_Não Houve Atraso,faixa_desconto_desconto abaixo da média,faixa_desconto_desconto acima da média,corredor_armazem_A,corredor_armazem_B,corredor_armazem_C,corredor_armazem_D,corredor_armazem_F
9473,0,0.815832,-1.408469,0.191589,-0.359702,1,0,-0.168635,0.531775,0,...,1,0,0,1,0,0,0,0,0,1
3309,0,-0.057348,0.007718,0.817757,-0.359702,1,1,-0.768984,0.458145,0,...,1,0,0,1,0,0,1,0,0,0
794,0,-0.057348,1.423904,0.742991,0.416201,0,1,0.098187,0.306501,1,...,0,0,1,0,1,1,0,0,0,0
461,0,-0.930527,0.715811,0.579439,2.743911,0,1,2.032647,0.236523,1,...,0,0,1,0,1,0,0,0,0,1
3145,2,-0.930527,1.423904,0.186916,-1.135605,2,0,-0.768984,0.579985,0,...,0,0,0,1,0,0,0,0,0,1


# Salvando o Dataset na Máquina Local

In [54]:
df.to_csv('dados/dataset_final.csv', sep = ',', encoding = 'utf-8')