# 1. Preparação dos Dados (25 pontos)

In [154]:
!pip install pandas



In [155]:
# Biblioteca que permite remover acentos e caracteres especiais
import unidecode

# Biblioteca que permite importar os arquivos do tipo CSV, para dataframes
import pandas as pd

### a. Importação dos arquivos CSV

Abaixo importei todos os arquivos .CSV do dataset "Brazilian E-commerce Public Data ny Olist" utilizando a biblioteca pandas. Cada DataFrame representa uma das entidades principais e seus relacionamentos.

In [157]:
# Pedidos e Detalhes 
df_orders = pd.read_csv("olist_orders_dataset.csv", sep=",")
df_order_items = pd.read_csv("olist_order_items_dataset.csv", sep=",")
df_payments = pd.read_csv("olist_order_payments_dataset.csv", sep=",")
df_reviews = pd.read_csv("olist_order_reviews_dataset.csv", sep=",")

#Entidades Relacionadas
df_customers = pd.read_csv("olist_customers_dataset.csv", sep=",")
df_products = pd.read_csv("olist_products_dataset.csv", sep=",")
df_sellers = pd.read_csv("olist_sellers_dataset.csv", sep=",")
df_category = pd.read_csv("product_category_name_translation.csv", sep=",")
df_geolocation = pd.read_csv("olist_geolocation_dataset.csv", sep=",")

### b. Limpeza dos Dados

Nesta etapa do notebook, realizei o processo de limpeza dos valores em todos os dataframes.
1. Convertir as colunas com valores que continhas datas para o tipo datetime para facilitar análises temporais;
2. Removi valores duplicados, onde foi necessario;
3. No dataframe (df_orders) mantive os valores nulos nas colunas (order_delivered_carrier_date) e (order_delivered_customer_date), pois percebi que a ausencia desses dados, poderia significar que o pedido deve ter sido cancelado;
4. No dataframe (df_products), removi os dados da coluna (product_category_name), pois não são úteis para analises futuras.
5. Realizei o tratamento de strings nos campos textuais, removendo espaços em brancos indevidos antes e depos dos valores. Isso ajuda a evitar erros no momento de realizar joins, agrupamentos ou filtros;
6. Converti dados de das colunas categoricas que estavam no tipo objetos para tipos categoricos para tornar as analises mais corretas;
7. Verifiquei valores invalidos ou inesperados, como: status de pedidos inexisitentes, evitando distorções em analises futuras;
8. Verifiquei se havia inconsistencias de data, na data de entrega antes da compra, assim, evitando conclusões erradas sobre prazos logisticos e melhorando a confiabilidade das metricas temporais (estimativa de entrega dos produtos);
9. Analisei as coordenadas geográficas nulas ou inválidas. Assim, mantendo seguro a precisão em analises geoespaciais e mapas, evitando pontos imprecisos ou não existentes;
10. Verifiquei se a tradução de categorias de produtos PT-BR para EN-US estava funcionando corretamente, para assegurar que o publico que não fala português, entendam os dados contidos na coluna de categorias;
11. Encontrei algumas categorias sem tradução, então adicionei as traduções no df_category.

Verificando a quantidade de valores nulos e duplicados em todos os dataframes

In [161]:
# Verificando valores nulos e duplicatas em todos os DataFrames
dataframes = {
    'orders': df_orders,
    'order_items': df_order_items,
    'payments': df_payments,
    'reviews': df_reviews,
    'customers': df_customers,
    'sellers': df_sellers,
    'products': df_products,
    'category': df_category,
    'geolocation': df_geolocation
}

for name, df in dataframes.items():
    print(f"\n {name.upper()}")
    print("Quantidade de linhas com valores nulos:\n", df.isnull().sum())
    print("Linhas com valores duplicados:", df.duplicated().sum())


 ORDERS
Quantidade de linhas com valores nulos:
 order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64
Linhas com valores duplicados: 0

 ORDER_ITEMS
Quantidade de linhas com valores nulos:
 order_id               0
order_item_id          0
product_id             0
seller_id              0
shipping_limit_date    0
price                  0
freight_value          0
dtype: int64
Linhas com valores duplicados: 0

 PAYMENTS
Quantidade de linhas com valores nulos:
 order_id                0
payment_sequential      0
payment_type            0
payment_installments    0
payment_value           0
dtype: int64
Linhas com valores duplicados: 0

 REVIEWS
Quantidade de linhas com valores nulos:
 review_id                      0
order_id    

Convertendo as colunas de data para datetime, serve para podermos utilizar análises temporais mais eficazes.

In [163]:
colunas_data = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 
             'order_delivered_customer_date', 'order_estimated_delivery_date']
df_orders[colunas_data] = df_orders[colunas_data].apply(pd.to_datetime)

# Nenhuma coluna precisa ser preenchida com média ou mediana, pois datas ausentes em (approved ou delivered) podem representar cancelamentos dos pedidos.

# ### removendo valores duplicados dos dataframes ###

# removendo linhas duplicadas de orders
df_orders.drop_duplicates(inplace=True)
# removendo linhas duplicadas de order_items
df_order_items.drop_duplicates(inplace=True)
# removendo linhas duplicadas de payments
df_payments.drop_duplicates(inplace=True)

# Converter colunas de data do dataframa reviews
df_reviews['review_creation_date'] = pd.to_datetime(df_reviews['review_creation_date'])
df_reviews['review_answer_timestamp'] = pd.to_datetime(df_reviews['review_answer_timestamp'])
# removendo linhas duplicadas de reviews
df_reviews.drop_duplicates(inplace=True)

# removendo linhas duplicadas de customers
df_customers.drop_duplicates(inplace=True)
# removendo linhas duplicadas de sellers
df_sellers.drop_duplicates(inplace=True)

# Já que sabemos que existem linhas nulas no dataframe df_products, então teremos que usar uma estageria de manter ou remover os nulos
# isso vai depender de como nos iremos utilizar os dados futuramente.

# Verificar colunas com nulos do dataframe df_products. Retorna um valor boleano True or False. E soma a quantidade de dados nulos.
print(df_products.isnull().sum())

# Removemos do dataframe df_products todas as linhas que têm valor nulo apenas na coluna product_category_name
# Esse processo é importante para análises por categoria. Manter valores nulos nela pode atrapalhar agregações e visualizações.
df_products.dropna(subset=['product_category_name'], inplace=True)

# Removemos todas as linhas duplicadas da tabela df_products, pois o pandas considera como duplicadas as linhas que possuem valores iguais em todas as colunas.
df_products.drop_duplicates(inplace=True)
# removendo linhas duplicadas de category
df_category.drop_duplicates(inplace=True)
# Geolocation pode ter duplicatas porque existem várias entradas por cidade
df_geolocation.drop_duplicates(inplace=True)

product_id                      0
product_category_name         610
product_name_lenght           610
product_description_lenght    610
product_photos_qty            610
product_weight_g                2
product_length_cm               2
product_height_cm               2
product_width_cm                2
dtype: int64


Verificando as conversões

In [165]:
df_orders.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   order_id                       99441 non-null  object        
 1   customer_id                    99441 non-null  object        
 2   order_status                   99441 non-null  object        
 3   order_purchase_timestamp       99441 non-null  datetime64[ns]
 4   order_approved_at              99281 non-null  datetime64[ns]
 5   order_delivered_carrier_date   97658 non-null  datetime64[ns]
 6   order_delivered_customer_date  96476 non-null  datetime64[ns]
 7   order_estimated_delivery_date  99441 non-null  datetime64[ns]
dtypes: datetime64[ns](5), object(3)
memory usage: 6.1+ MB


Tratamento de Strings

In [167]:
# Essa função, faz o tratamento de remoção de espaços em brancos nas colunas do tipo string.
def remover_espacos(df):
    colunas_str = df.select_dtypes(include = 'object').columns
    df[colunas_str] = df[colunas_str].apply(lambda x: x.str.strip())
    return df

# Aplicar nos dataframes
df_orders = remover_espacos(df_orders)
df_order_items = remover_espacos(df_order_items)
df_payments = remover_espacos(df_payments)
df_reviews = remover_espacos(df_reviews)
df_customers = remover_espacos(df_customers)
df_sellers = remover_espacos(df_sellers)
df_products = remover_espacos(df_products)
df_category = remover_espacos(df_category)
df_geolocation = remover_espacos(df_geolocation)


In [168]:
# Exemplo para evitar conflitos entre nomes de cidades.
df2 = df_sellers[["seller_city", "seller_state"]]
df2

Unnamed: 0,seller_city,seller_state
0,campinas,SP
1,mogi guacu,SP
2,rio de janeiro,RJ
3,sao paulo,SP
4,braganca paulista,SP
...,...,...
3090,sarandi,PR
3091,palhoca,SC
3092,sao paulo,SP
3093,pelotas,RS


Verificando os tipos de inconsistencias. Para isso, vamos verificar se os tipos das colunas IDs e colunas categóricas, estão corretas. Então convertemos as colunas de categorias para o tipo category e verificamos os valores inválidos ou não esperados nessas colunas.

In [170]:
# Convertendo 
category_columns = ['order_status', 'payment_type', 'review_score',
               'product_category_name', 'customer_state', 'seller_state']

for coluna in category_columns:
    for df in [df_orders, df_payments, df_reviews, df_products, df_customers, df_sellers]:
        if coluna in df.columns:
            df[coluna] = df[coluna].astype('category')
            

Verificando a quantidade de valores invalidos ou inesperados das colunas categoricas

In [172]:
# Verificando a quantidade de valores invalidos ou inesperados das colunas categoricas
print("###### orders ######\n")
print(df_orders['order_status'].value_counts())
print("\n###### payments ######\n")
print(df_payments['payment_type'].value_counts())
print("\n###### reviews ######\n")
print(df_reviews['review_score'].value_counts())

###### orders ######

order_status
delivered      96478
shipped         1107
canceled         625
unavailable      609
invoiced         314
processing       301
created            5
approved           2
Name: count, dtype: int64

###### payments ######

payment_type
credit_card    76795
boleto         19784
voucher         5775
debit_card      1529
not_defined        3
Name: count, dtype: int64

###### reviews ######

review_score
5    57328
4    19142
1    11424
3     8179
2     3151
Name: count, dtype: int64


Verificando colunas que contem valores zero, mas não deveriam.
Penso em filtrar se parecerem inválidos, ou manter caso forem pedidos gratuitos ou testes.

In [174]:
print(df_payments[df_payments['payment_value'] == 0])

                                order_id  payment_sequential payment_type  \
19922   8bcbe01d44d147f901cd3192671144db                   4      voucher   
36822   fa65dad1b0e818e3ccc5cb0e39231352                  14      voucher   
43744   6ccb433e00daae1283ccc956189c82ae                   4      voucher   
51280   4637ca194b6387e2d538dc89b124b0ee                   1  not_defined   
57411   00b1cb0320190ca0daa2c88b35206009                   1  not_defined   
62674   45ed6e85398a87c253db47c2d9f48216                   3      voucher   
77885   fa65dad1b0e818e3ccc5cb0e39231352                  13      voucher   
94427   c8c528189310eaa44a745b8d9d26908b                   1  not_defined   
100766  b23878b3e8eb4d25a158f57d96331b18                   4      voucher   

        payment_installments  payment_value  
19922                      1            0.0  
36822                      1            0.0  
43744                      1            0.0  
51280                      1            0.0  

Verificando se existem datas inconsistens de entrega antes da data de compra ou aprovação das ordens produtos.

In [176]:
df_orders[df_orders['order_delivered_customer_date'] < df_orders['order_purchase_timestamp']]

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date


Verificando se existem localizações inválidas (geolocalização). Verificando se há latitudes/longitudes muito discrepantes ou iguais a zero.

In [178]:
df_geolocation.query("geolocation_lat < -90 or geolocation_lat > 90 or geolocation_lng < -180 or geolocation_lng > 180")
df_geolocation.query("geolocation_lat == 0 or geolocation_lng == 0")

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state


Verificando se a cobertura da tradução dos produtos sem categorias. Já que removemos os valores nulos da coluna (product_category_name) do dataframe (df_products) anteriormente. Agora vamos verificar se a tradução do dataframe (product_category_name_translation) esta funcionando corretamente para o PT-BR, no dataframe (df_products).

In [180]:
df_bol = df_products[~df_products['product_category_name'].isin(df_category['product_category_name'])]
df_bol_2 = df_bol[["product_id", "product_category_name"]]
df_bol_2

Unnamed: 0,product_id,product_category_name
1628,0105b5323d24fc655f73052694dbbb3a,pc_gamer
5821,6fd83eb3e0799b775e4f946bd66657c0,portateis_cozinha_e_preparadores_de_alimentos
7325,5d923ead886c44b86845f69e50520c3e,portateis_cozinha_e_preparadores_de_alimentos
7478,6727051471a0fc4a0e7737b57bff2549,pc_gamer
8819,bed164d9d628cf0593003389c535c6e0,portateis_cozinha_e_preparadores_de_alimentos
11039,1220978a08a6b29a202bc015b18250e9,portateis_cozinha_e_preparadores_de_alimentos
14266,ae62bb0f95af63d64eae5f93dddea8d3,portateis_cozinha_e_preparadores_de_alimentos
16182,1954739d84629e7323a4295812a3e0ec,portateis_cozinha_e_preparadores_de_alimentos
16930,dbe520fb381ad695a7e1f2807d20c765,pc_gamer
17800,c7a3f1a7f9eef146cc499368b578b884,portateis_cozinha_e_preparadores_de_alimentos


Foram encontrados 2 classificações de categorias em (df_products) que não existem no dataframe de tradução (df_category).
Para corrigir isso, vamos adicionar essas ambas categorias no (df_category).

In [182]:
df_category

Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor
...,...,...
66,flores,flowers
67,artes_e_artesanato,arts_and_craftmanship
68,fraldas_higiene,diapers_and_hygiene
69,fashion_roupa_infanto_juvenil,fashion_childrens_clothes


Adicionando ambas categorias no (df_category).

In [184]:
novas_categorias = pd.DataFrame({
    'product_category_name': ['pc_gamer', 'portateis_cozinha_e_preparadores_de_alimentos'],
    'product_category_name_english': ['gaming_pc', 'portable_kitchen']
})

df_category = pd.concat([df_category, novas_categorias], ignore_index=True)

In [185]:
df_category

Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor
...,...,...
68,fraldas_higiene,diapers_and_hygiene
69,fashion_roupa_infanto_juvenil,fashion_childrens_clothes
70,seguros_e_servicos,security_and_services
71,pc_gamer,gaming_pc


Vamos consultar novamente o dataframe df_product, e podemos perceber que todas as categorias estão com tradução.

In [187]:
df_bol = df_products[~df_products['product_category_name'].isin(df_category['product_category_name'])]
df_bol_2 = df_bol[["product_id", "product_category_name"]]
df_bol_2

Unnamed: 0,product_id,product_category_name


### c. Normalização dos Data Frames

Nessa etapa do desafio, realizei a padronização e consistência das colunas dos DataFrames. Realizei etapas que não tinha executado anterior mente na etapa de limpeza de dados.

1. Padronizei os nomes das colunas para o snake_case, minuscula, sem espaços e sem acentos;
2. Verificação de colunas categóricas e conversão para formato consistente;
3. Converti de colunas numéricas com tipo inadequado (price, freight_value) para o tipo float;
4. Padronização de nomes de categorias de produtos traduzidas.

Como algumas colunas podem ter letras maiusculas ou inconsistentes. Então vamos padronizar os seus nomes aplicando a normalizaçao snake_case.

In [191]:
def normalizar_nomes_colunas(df):
    df.columns = (
        df.columns
        .str.strip()                      # Remove espaços no início/fim do nome da coluna (isso foi feito anteriormente, mas vamos reforçar)
        .str.lower()                      # Converte todas as letras dos valores para caracteres minúsculas
        .str.replace(' ', '_')            # Substitui espaços por underline ( _ )
        .str.replace('-', '_')            # Substitui hífens por underline ( _ )
        .map(unidecode.unidecode)         # Remove caracteres especiais e acentos
    )
    return df

# criação de uma lista com todos os dataframes a serem normalizados
dfs = [df_orders, df_order_items, df_customers, df_geolocation, df_payments,
       df_reviews, df_products, df_sellers, df_category]

# aplicando a normalização em todos eles
df_orders, df_order_items, df_customers, df_geolocation, df_payments, \
df_reviews, df_products, df_sellers, df_category = [normalizar_nomes_colunas(df) for df in dfs]

In [192]:
df_sellers

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP
...,...,...,...,...
3090,98dddbc4601dd4443ca174359b237166,87111,sarandi,PR
3091,f8201cab383e484733266d1906e2fdfa,88137,palhoca,SC
3092,74871d19219c7d518d0090283e03c137,4650,sao paulo,SP
3093,e603cf3fec55f8697c9059638d6c8eb5,96080,pelotas,RS


Agora vamos normalizar os textos categóricos, como: cidades, estados, categorias e etc dos dataframes que são composto por esses valores. Nesse processo tratei os nomes das cidades em minusculos e as siglas em maiusculos.

In [194]:
# .str.lower() --> coloca as strings tudo em Minusculos
# .str.upper() --> coloca as strings tudo em Maiusculos

df_customers['customer_city'] = df_customers['customer_city'].str.lower()
df_customers['customer_state'] = df_customers['customer_state'].str.upper()
df_sellers['seller_city'] = df_sellers['seller_city'].str.lower()
df_sellers['seller_state'] = df_sellers['seller_state'].str.upper()

In [195]:
df_category.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73 entries, 0 to 72
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   product_category_name          73 non-null     object
 1   product_category_name_english  73 non-null     object
dtypes: object(2)
memory usage: 1.3+ KB


Verificando a normalização do dataframe (df_customers).

In [197]:
df_customers

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP
...,...,...,...,...,...
99436,17ddf5dd5d51696bb3d7c6291687be6f,1a29b476fee25c95fbafc67c5ac95cf8,3937,sao paulo,SP
99437,e7b71a9017aa05c9a7fd292d714858e8,d52a67c98be1cf6a5c84435bd38d095d,6764,taboao da serra,SP
99438,5e28dfe12db7fb50a4b2f691faecea5e,e9f50caf99f032f0bf3c55141f019d99,60115,fortaleza,CE
99439,56b18e2166679b8a959d72dd06da27f9,73c2643a0a458b49f58cea58833b192e,92120,canoas,RS


Verificando a normalização do dataframe (df_sellers).

In [199]:
df_sellers

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP
...,...,...,...,...
3090,98dddbc4601dd4443ca174359b237166,87111,sarandi,PR
3091,f8201cab383e484733266d1906e2fdfa,88137,palhoca,SC
3092,74871d19219c7d518d0090283e03c137,4650,sao paulo,SP
3093,e603cf3fec55f8697c9059638d6c8eb5,96080,pelotas,RS


Vamor normalizar colunas numericas do dataframe (df_order_items) que podem estar com valores de strings, estão vamos normalizar para que elas recebam valores somente inteiros ou floats

In [201]:
# pd.to_numeric() converte coolunas para tipo float ou int, depedento de como a string esta informada.
# errors='coerce' transforma valores com anomalias em NaN, evitando erro de codigo.

df_order_items['price'] = pd.to_numeric(df_order_items['price'], errors='coerce')
df_order_items['freight_value'] = pd.to_numeric(df_order_items['freight_value'], errors='coerce')

Verificando os tipos após conversão.

In [203]:
df_order_items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


Vamos agora padronizar o dataframe df_category. É interessante garantir que as traduções estejam limpas e minúsculas para melhor analises futuras.

In [205]:
# Transformando todas as string em minusculos
df_category['product_category_name'] = df_category['product_category_name'].str.lower()
df_category['product_category_name_english'] = df_category['product_category_name_english'].str.lower()

# Substituir strings com espaços por underlines
df_category['product_category_name_english'] = df_category['product_category_name_english'].str.replace(' ', '_')

# Remover acentos e caracteres especiais das strings
df_category['product_category_name'] = df_category['product_category_name'].apply(unidecode.unidecode)
df_category['product_category_name_english'] = df_category['product_category_name_english'].apply(unidecode.unidecode)

### d. Criar um modelo relacional e conectar as tabelas adequadamente