
### <span style='background :PowderBlue'>Pré-processamento do dataset público fornecido pela Olist</span>

[Link para o dataset](https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce).

Primeiramente, será importada a biblioteca **Pandas**, a qual será usada durante todo o pré-processamento.

Então, cada arquivo CSV será **carregado** num DataFrame diferente. Estes serão combinados adiante.

In [1]:
# Importar a biblioteca Pandas.
import pandas as pd

In [2]:
# Carregar cada arquivo CSV num DataFrame diferente.
orders = pd.read_csv('orders.csv')

customers = pd.read_csv('customers.csv')

order_items = pd.read_csv('order_items.csv')

order_payments = pd.read_csv('order_payments.csv')

order_reviews = pd.read_csv('order_reviews.csv')

products = pd.read_csv('products.csv')

sellers = pd.read_csv('sellers.csv')

geolocation = pd.read_csv('geolocation.csv')

Para combinar todos os DataFrames num único DataFrame, será necessário **renomear a coluna** `customer_zip_code_prefix` da tabela `customers` para que corresponda à coluna `geolocation_zip_code_prefix` da tabela `geolocation`.

In [3]:
# Renomear a coluna 'customer_zip_code_prefix' da tabela 'customers'.
customers.rename(columns={'customer_zip_code_prefix': 'geolocation_zip_code_prefix'}, inplace=True)

Feito isso, os datasets serão **combinados** de acordo com o [esquema disponibilizado na página do Kaggle](https://i.imgur.com/HRhd2Y0.png).

In [4]:
# Comibar todos os DataFrames num único DataFrame para facilitar o pré-processamento.
merged_df = (
    order_items
    .merge(order_payments, on='order_id', how='left')
    .merge(order_reviews, on='order_id', how='left')
    .merge(sellers, on='seller_id', how='left')
    .merge(orders, on='order_id', how='left')
    .merge(customers, on='customer_id', how='left')
    .merge(geolocation, on='geolocation_zip_code_prefix', how='left')
)

In [5]:
# Inspecionar o DataFrame criado.
merged_df.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,payment_sequential,payment_type,payment_installments,payment_value,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp,seller_zip_code_prefix,seller_city,seller_state,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,geolocation_zip_code_prefix,customer_city,customer_state,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,1.0,credit_card,2.0,72.19,97ca439bc427b48bc1cd7177abe71365,5.0,,"Perfeito, produto entregue antes do combinado.",2017-09-21 00:00:00,2017-09-22 10:57:03,27277,volta redonda,SP,3ce436f183e68e07877b285a838db11a,delivered,2017-09-13 08:59:02,2017-09-13 09:45:35,2017-09-19 18:34:16,2017-09-20 23:43:48,2017-09-29 00:00:00,871766c5855e863f6eccc05f988b23cb,28013,campos dos goytacazes,RJ,-21.758076,-41.312633,campos dos goytacazes,RJ
1,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,1.0,credit_card,2.0,72.19,97ca439bc427b48bc1cd7177abe71365,5.0,,"Perfeito, produto entregue antes do combinado.",2017-09-21 00:00:00,2017-09-22 10:57:03,27277,volta redonda,SP,3ce436f183e68e07877b285a838db11a,delivered,2017-09-13 08:59:02,2017-09-13 09:45:35,2017-09-19 18:34:16,2017-09-20 23:43:48,2017-09-29 00:00:00,871766c5855e863f6eccc05f988b23cb,28013,campos dos goytacazes,RJ,-21.758843,-41.306754,campos dos goytacazes,RJ
2,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,1.0,credit_card,2.0,72.19,97ca439bc427b48bc1cd7177abe71365,5.0,,"Perfeito, produto entregue antes do combinado.",2017-09-21 00:00:00,2017-09-22 10:57:03,27277,volta redonda,SP,3ce436f183e68e07877b285a838db11a,delivered,2017-09-13 08:59:02,2017-09-13 09:45:35,2017-09-19 18:34:16,2017-09-20 23:43:48,2017-09-29 00:00:00,871766c5855e863f6eccc05f988b23cb,28013,campos dos goytacazes,RJ,-21.767046,-41.311328,campos dos goytacazes,RJ
3,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,1.0,credit_card,2.0,72.19,97ca439bc427b48bc1cd7177abe71365,5.0,,"Perfeito, produto entregue antes do combinado.",2017-09-21 00:00:00,2017-09-22 10:57:03,27277,volta redonda,SP,3ce436f183e68e07877b285a838db11a,delivered,2017-09-13 08:59:02,2017-09-13 09:45:35,2017-09-19 18:34:16,2017-09-20 23:43:48,2017-09-29 00:00:00,871766c5855e863f6eccc05f988b23cb,28013,campos dos goytacazes,RJ,-21.771661,-41.312119,campos dos goytacazes,RJ
4,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,1.0,credit_card,2.0,72.19,97ca439bc427b48bc1cd7177abe71365,5.0,,"Perfeito, produto entregue antes do combinado.",2017-09-21 00:00:00,2017-09-22 10:57:03,27277,volta redonda,SP,3ce436f183e68e07877b285a838db11a,delivered,2017-09-13 08:59:02,2017-09-13 09:45:35,2017-09-19 18:34:16,2017-09-20 23:43:48,2017-09-29 00:00:00,871766c5855e863f6eccc05f988b23cb,28013,campos dos goytacazes,RJ,-21.763006,-41.306182,campos dos goytacazes,RJ


Com o DataFrame combinado em mãos, o primeiro passo será checar o **tipo de dado** atribuído à cada coluna, verificando se é o mais adequado.

In [6]:
# Exibir o tipo de de dado de cada coluna.
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18064261 entries, 0 to 18064260
Data columns (total 35 columns):
 #   Column                         Dtype  
---  ------                         -----  
 0   order_id                       object 
 1   order_item_id                  int64  
 2   product_id                     object 
 3   seller_id                      object 
 4   shipping_limit_date            object 
 5   price                          float64
 6   freight_value                  float64
 7   payment_sequential             float64
 8   payment_type                   object 
 9   payment_installments           float64
 10  payment_value                  float64
 11  review_id                      object 
 12  review_score                   float64
 13  review_comment_title           object 
 14  review_comment_message         object 
 15  review_creation_date           object 
 16  review_answer_timestamp        object 
 17  seller_zip_code_prefix         int64  
 18  

O tipo de dado de cada coluna está **correto**.

Então, será checado o número de **nulos** por coluna.

In [12]:
# Exibir o número de nulos por coluna.
merged_df.isna().sum()

order_id                                0
order_item_id                           0
product_id                              0
seller_id                               0
shipping_limit_date                     0
price                                   0
freight_value                           0
payment_sequential                   1035
payment_type                         1035
payment_installments                 1035
payment_value                        1035
review_id                          141961
review_score                       141961
review_comment_title             16046110
review_comment_message           10664672
review_creation_date               141961
review_answer_timestamp            141961
seller_zip_code_prefix                  0
seller_city                             0
seller_state                            0
customer_id                             0
order_status                            0
order_purchase_timestamp                0
order_approved_at                 

Os valores nulos estão em **colunas em que se espera encontrar nulos** (pedidos feitos sem pagamento, pedidos sem avaliação, ou pedidos que não foram entregues).

Como os demais valores das linhas em que estes nulos se encontram serão importantes para a análise, as linhas com nulos não serão removidas.

O último passo será a criação de uma tabela com o **número de pedidos feitos por cada consumidor**. Esta tabela será importante para o cáculo da taxa de rotatividade durante a etapa de análise dos dados.

In [6]:
# Criar tabela com frequência em que consumidores fizeram pedidos.
df = pd.merge(orders, customers)

# Agrupar cada pedido único por ID do consumidor.
freq_customers = df.groupby('customer_unique_id').agg(freq=('order_id', 'nunique'))

In [9]:
# Inspecionar o DataFrame criado.
freq_customers.head()

Unnamed: 0_level_0,freq
customer_unique_id,Unnamed: 1_level_1
0000366f3b9a7992bf8c76cfdf3221e2,1
0000b849f77a49e4a4ce2b2a4ca5be3f,1
0000f46a3911fa3c0805444483337064,1
0000f6ccb0745a6a4b88665a16c9f078,1
0004aac84e0df4da2b147fca70cf8255,1


In [10]:
# Salvar o DataFrame criado como CSV para utilização na análise.
freq_customers.to_csv('freq_customers.csv')

Concluído o pré-processamento, será dado andamento à análise com SQL.