# <font color='blue'><u>Estudo de Caso</u></font>

## <font color='blue'>Pré Processamento de Dados Para E-Commerce Analytics</font>

#### Obs: Estaremos utilizando a mesma base de dados para trabalhar em um grande projeto de Ciência de Dados distribuído em 3 capítulos:

- Capítulo 4 (Análise Exploratória de Dados) 
- Capítulo 5 (Engenharia de Atributos)     
- Capítulo 6 (Pré-Processamento de Dados)   -> <strong>Atual</strong>

## Definição do Problema

Uma empresa internacional de comércio eletrônico (E-commerce) que vende produtos eletrônicos deseja descobrir informações importantes de seu banco de dados de clientes.

Os produtos ficam armazenados em um armazém na sede da empresa. Após concluir a compra no web site da empresa, o cliente recebe o produto em casa, em qualquer parte do mundo.  Os  produtos  são  enviados  de  Navio,  Avião  ou  Caminhão,  dependendo  da  região  de entrega.

Em cada compra o cliente pode receber um desconto dependendo do peso do produto comprado. Cada cliente pode fazer chamadas ao suporte da empresa no caso de dúvidas ou problemas e após receber o produto o cliente pode deixar uma avaliação sobre a experiência de compra. O único dado pessoal sobre o cliente que está disponível é o gênero.

Nosso trabalho neste <u>Estudo de Caso</u> é explorar os dados, compreender como estão organizados, detectar eventuais problemas e analisar os dados por diferentes perspectivas.

Trabalharemos com dados fictícios que representam dados reais de uma empresa de E-Commerce. Os dados estão disponíveis na pasta "dados". <br><br><br>

## Objetivo

O objetivo do <u>Pré Processamento</u> dos Dados é colocar tudo que for texto na sua representação numérica correspondente. E além disso, precisamos garantir que os dados estejam na mesma escala.

Portanto agora aplicaremos **técnicas de pré-processamento** de variáveis categóricas (**Label Encoding** e **One-HotEncoding**) e **Feature Scaling** de variáveis numéricas (**Normalização** e **Padronização**).

Assim o objetivo final é pré-processar os dados para a etapa de modelagem preditiva. 
<br><br><br>

## Dicionário de Dados<br><br>

<table border="2">
  <tr>
    <th>Nome da Coluna</th>
    <th>Tipo de Dado</th>
    <th>Descrição</th>
  </tr>
  <tr>
    <td>ID</td>
    <td>Int</td>
    <td>ID exclusivo de cada transação.</td>
  </tr>
  <tr>
    <td>corredor_armazem</td>
    <td>Character(1)</td>
    <td>Letra do corredor do armazém onde o produto está armazenado.</td>
  </tr>
  <tr>
    <td>modo_envio</td>
    <td>String</td>
    <td>Modo de envio do produto.</td>
  </tr>
  <tr>
    <td>numero_chamadas_cliente</td>
    <td>Int</td>
    <td>Número de vezes que o cliente acionou o suporte da empresa.</td>
  </tr>
  <tr>
    <td>avaliacao_cliente</td>
    <td>Int</td>
    <td>Avaliação do cliente sobre a experiência de compra.</td>
  </tr>
  <tr>
    <td>custo_produto</td>
    <td>Int</td>
    <td>Custo do produto.</td>
  </tr>
  <tr>
    <td>compras_anteriores</td>
    <td>Int</td>
    <td>Número de vezes que o cliente fez uma compra na empresa.</td>
  </tr>
  <tr>
    <td>prioridade_produto</td>
    <td>String</td>
    <td>Prioridade de entrega do produto.</td>
  </tr>
  <tr>
    <td>genero</td>
    <td>Character(1)</td>
    <td>Gênero do cliente (F ou M).</td>
  </tr>
  <tr>
    <td>desconto</td>
    <td>Int</td>
    <td>Desconto concedido na compra do produto.</td>
  </tr>
  <tr>
    <td>peso_gramas</td>
    <td>Int</td>
    <td>Peso do produto.</td>
  </tr>
  <tr>
    <td>entregue_no_prazo</td>
    <td>Character(1)</td>
    <td>Se o produto foi entregue no prazo, sendo 0 (não foi entregue no prazo) ou 1 (foi entregue no prazo).</td>
  </tr>
</table><br><br><br><br>

In [1]:
# Imports
import sklearn
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler

In [2]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

sklearn: 0.24.2
numpy  : 1.26.4
pandas : 2.2.1



## <br>Carregando o Dataset (Gerado ao Final do Estudo de Caso 4)

In [3]:
# Carrega o dataset
df = pd.read_csv('dados/df_eng.csv', index_col = 0)

df.shape

(10643, 16)

In [4]:
# Visualiza
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,baixa,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,baixa,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,baixa,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,media,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,media,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [5]:
# Info
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10643 entries, 0 to 10999
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   ID                            10643 non-null  int64 
 1   corredor_armazem              10643 non-null  object
 2   modo_envio                    10643 non-null  object
 3   numero_chamadas_cliente       10643 non-null  int64 
 4   avaliacao_cliente             10643 non-null  int64 
 5   custo_produto                 10643 non-null  int64 
 6   compras_anteriores            10643 non-null  int64 
 7   prioridade_produto            10643 non-null  object
 8   genero                        10643 non-null  object
 9   desconto                      10643 non-null  int64 
 10  peso_gramas                   10643 non-null  int64 
 11  entregue_no_prazo             10643 non-null  int64 
 12  performance_prioridade_envio  10643 non-null  object
 13  performance_modo_envi

# <br><br><br>Pré-Processamento de Variáveis Categóricas (Label Encoding e One-HotEncoding)<br>

## <br><br> <u>Label Encoding</u>
- Label Encoding (codificação de rótulos) é uma técnica de codificação para lidar com variáveis categóricas.
- Nesta técnica, a cada rótulo é atribuído um número inteiro exclusivo com base na ordem alfabética.<br>

- Na codificação de rótulos em **Python**, substituímos o valor categórico por um valor numérico entre 0 e o número de classes menos 1. Se o valor da variável categórica contiver 5 classes distintas usamos (0, 1, 2, 3 e 4).
- Observe que os dados são modificados, mas sem perder a informação que eles representam. Isso pode ser feito de maneira manual (usando dicionários em Python) ou com o algoritmo LabelEncoder do pacote Scikit-Learn.
- Veremos os dois métodos na sequência.


### <br>Método 1

#### Variável categórica 'prioridade_produto'

In [6]:
# Verificando value_counts de prioridade_produto (foi interpretado como uma variável categórica ordinal)
df.prioridade_produto.value_counts()

prioridade_produto
baixa    5174
media    4587
alta      882
Name: count, dtype: int64

In [7]:
# Criando Dicionário de Mapeamento (a numeração foi escolhida com base na ordem alfabética. 'Alta' começa com 'a')
dic_prioridade_produto = {'baixa' : 1, 'media' : 2, 'alta' : 0}
dic_prioridade_produto

{'baixa': 1, 'media': 2, 'alta': 0}

In [8]:
# Aplicando Label Enconding
df['prioridade_produto'] = df['prioridade_produto'].map(dic_prioridade_produto)

In [9]:
# Verificando value_counts
df.prioridade_produto.value_counts()

prioridade_produto
1    5174
2    4587
0     882
Name: count, dtype: int64

In [10]:
# Visualizando
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


#### <br>Variável categórica 'modo_envio'

In [12]:
# Verificando value_counts de modo_envio (também foi interpretado como uma variável categórica ordinal)
df.modo_envio.value_counts()

modo_envio
Navio       7212
Aviao       1728
Caminhao    1703
Name: count, dtype: int64

In [13]:
# Dicionário de mapeamento (aqui foi adotado nao seguir o padrão de ordem alfabética)
dic_modo_envio = {'Navio' : 0, 'Aviao' : 1, 'Caminhao' : 2}
dic_modo_envio

{'Navio': 0, 'Aviao': 1, 'Caminhao': 2}

In [14]:
# Aplicando Label Enconding
df['modo_envio'] = df['modo_envio'].map(dic_modo_envio)

In [15]:
# Verificando value_counts
df.modo_envio.value_counts()

modo_envio
0    7212
1    1728
2    1703
Name: count, dtype: int64

In [16]:
# Visualizando
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,1,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,1,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,1,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,1,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


### <br><br>Método 2

#### Variável categórica 'genero'

In [17]:
# Verificando value_counts de genero (foi interpretado como uma variável categórica nominal)
df.genero.value_counts()

genero
F    5357
M    5286
Name: count, dtype: int64

In [18]:
# Cria o objeto Encoder
le = LabelEncoder()

In [19]:
# Treina o objeto (Normalmente só fazemos isso somente com os dados de treino)
le.fit(df.genero)

LabelEncoder()

In [20]:
# Ao treinar o objeto, ele aprendeu o padrão da variável categṕrica e assim identificou as classes
list(le.classes_)

['F', 'M']

In [21]:
# Aplicamos o objeto encoder treinado 
# (fazemos isso em dados de treino e teste e também em novos dados usados no modelo)
df.genero = le.transform(df.genero)

In [22]:
# Verificando value_counts de genero (foi interpretado como uma variável categórica nominal)
df.genero.value_counts()

genero
0    5357
1    5286
Name: count, dtype: int64

## <br><br> <u>One-Hot Encoding</u>

-

#### Variáve categórica 'corredor_armazem'

In [None]:
# Verificando value_counts de prioridade_produto (foi interpretado como uma variável categórica nominal)
df.corredor_armazem.value_counts()

# <br><br><br><br><br>Pré-Processamento de Variáveis Numéricas (Fature Scaling)<br>

## <br><br> Fature Scaling

# <br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br>EXEMPLO SIMPLES

import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler

# 1. Carregar os dados
dados = pd.read_csv('caminho/do/arquivo.csv')

# 2. Identificar e tratar valores faltantes
# Verificar se há valores faltantes em alguma coluna
valores_faltantes = dados.isnull().sum()
print("Valores faltantes por coluna:\n", valores_faltantes)

# Se houver valores faltantes, realizar tratamento adequado, como preenchimento com a média ou moda

# 3. Aplicar Label Encoding e/ou One-Hot Encoding para variáveis categóricas
# Identificar as variáveis categóricas
variaveis_categoricas = ['corredor_armazem', 'modo_envio', 'prioridade_produto', 'genero']

# Aplicar Label Encoding para variáveis com baixa cardinalidade
le = LabelEncoder()
for coluna in variaveis_categoricas:
    if len(dados[coluna].unique()) <= 2:  # Se tiver apenas 2 categorias, usar Label Encoding
        dados[coluna] = le.fit_transform(dados[coluna])

# Aplicar One-Hot Encoding para variáveis com alta cardinalidade
dados = pd.get_dummies(dados, columns=['corredor_armazem', 'modo_envio', 'prioridade_produto'])

# 4. Aplicar Feature Scaling para variáveis numéricas
scaler = MinMaxScaler()  # Pode-se usar StandardScaler também, dependendo da distribuição dos dados
variaveis_numericas = ['numero_chamadas_cliente', 'avaliacao_cliente', 'custo_produto',
                       'compras_anteriores', 'desconto', 'peso_gramas']
dados[variaveis_numericas] = scaler.fit_transform(dados[variaveis_numericas])

# Salvar os dados pré-processados em um novo arquivo CSV
dados.to_csv('dados_preprocessados.csv', index=False)