In [2]:
import os

# Caminho para a pasta de dados
data_path = 'dados/' # Como o notebook está na raiz do projeto, o caminho relativo deve funcionar

# Listar os arquivos na pasta de dados
try:
    file_list = os.listdir(data_path)
    print("Arquivos encontrados na pasta 'dados':")
    for file_name in file_list:
        if file_name.endswith('.csv'): # Filtrar apenas arquivos CSV
            print(f"- {file_name}")
except FileNotFoundError:
    print(f"Erro: A pasta '{data_path}' não foi encontrada. Verifique o caminho.")

Arquivos encontrados na pasta 'dados':
- olist_customers_dataset.csv
- olist_geolocation_dataset.csv
- olist_orders_dataset.csv
- olist_order_items_dataset.csv
- olist_order_payments_dataset.csv
- olist_order_reviews_dataset.csv
- olist_products_dataset.csv
- olist_sellers_dataset.csv
- product_category_name_translation.csv


In [3]:
import pandas as pd
import os # Já importamos antes, mas é bom ter aqui caso esta célula seja executada isoladamente.

# Caminho base para os dados
data_path = 'dados/'

In [4]:
# Carregar o dataset de clientes
customers_df = pd.read_csv(os.path.join(data_path, 'olist_customers_dataset.csv'))

# Exibir as primeiras 5 linhas
print("olist_customers_dataset.csv - Primeiras 5 linhas:")
print(customers_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame (tipos de dados, valores não nulos)
print("olist_customers_dataset.csv - Informações:")
customers_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"olist_customers_dataset.csv - Formato (linhas, colunas): {customers_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas (para colunas numéricas, se houver)
print("olist_customers_dataset.csv - Estatísticas Descritivas:")
print(customers_df.describe(include='all')) # include='all' para incluir colunas não numéricas também

olist_customers_dataset.csv - Primeiras 5 linhas:
                        customer_id                customer_unique_id  \
0  06b8999e2fba1a1fbc88172c00ba8bc7  861eff4711a542e4b93843c6dd7febb0   
1  18955e83d337fd6b2def6b18a428ac77  290c77bc529b7ac935b93aa66c333dc3   
2  4e7b3e00288586ebd08712fdd0374a03  060e732b5b29e8181a18229c7b0b2b5e   
3  b2b6027bc5c5109e529d4dc6358b12c3  259dac757896d24d7702b9acbbff3f3c   
4  4f2d8ab171c80ec8364f7c12e35b23ad  345ecd01c38d18a9036ed96c73b8d066   

   customer_zip_code_prefix          customer_city customer_state  
0                     14409                 franca             SP  
1                      9790  sao bernardo do campo             SP  
2                      1151              sao paulo             SP  
3                      8775        mogi das cruzes             SP  
4                     13056               campinas             SP  

--------------------------------------------------

olist_customers_dataset.csv - Informações:
<class 

In [5]:
# 2. Tabela de Geolocalização (olist_geolocation_dataset.csv)

# Carregar o dataset de geolocalização
geolocation_df = pd.read_csv(os.path.join(data_path, 'olist_geolocation_dataset.csv'))

# Exibir as primeiras 5 linhas
print("olist_geolocation_dataset.csv - Primeiras 5 linhas:")
print(geolocation_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame
print("olist_geolocation_dataset.csv - Informações:")
geolocation_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"olist_geolocation_dataset.csv - Formato (linhas, colunas): {geolocation_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas
print("olist_geolocation_dataset.csv - Estatísticas Descritivas:")
print(geolocation_df.describe(include='all'))
print("\n--------------------------------------------------\n")

# Verificar a quantidade de prefixos de CEP únicos
print(f"Número de prefixos de CEP únicos (geolocation_zip_code_prefix): {geolocation_df['geolocation_zip_code_prefix'].nunique()}")

olist_geolocation_dataset.csv - Primeiras 5 linhas:
   geolocation_zip_code_prefix  geolocation_lat  geolocation_lng  \
0                         1037       -23.545621       -46.639292   
1                         1046       -23.546081       -46.644820   
2                         1046       -23.546129       -46.642951   
3                         1041       -23.544392       -46.639499   
4                         1035       -23.541578       -46.641607   

  geolocation_city geolocation_state  
0        sao paulo                SP  
1        sao paulo                SP  
2        sao paulo                SP  
3        sao paulo                SP  
4        sao paulo                SP  

--------------------------------------------------

olist_geolocation_dataset.csv - Informações:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000163 entries, 0 to 1000162
Data columns (total 5 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       -

In [6]:
# 3. Tabela de Pedidos (olist_orders_dataset.csv)

# Carregar o dataset de pedidos
orders_df = pd.read_csv(os.path.join(data_path, 'olist_orders_dataset.csv'))

# Exibir as primeiras 5 linhas
print("olist_orders_dataset.csv - Primeiras 5 linhas:")
print(orders_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame
print("olist_orders_dataset.csv - Informações:")
orders_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"olist_orders_dataset.csv - Formato (linhas, colunas): {orders_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas, incluindo colunas de data/hora como object inicialmente
print("olist_orders_dataset.csv - Estatísticas Descritivas:")
print(orders_df.describe(include='all'))
print("\n--------------------------------------------------\n")

# Verificar os valores únicos da coluna 'order_status'
print("Valores únicos em 'order_status':")
print(orders_df['order_status'].value_counts())

olist_orders_dataset.csv - Primeiras 5 linhas:
                           order_id                       customer_id  \
0  e481f51cbdc54678b7cc49136f2d6af7  9ef432eb6251297304e76186b10a928d   
1  53cdb2fc8bc7dce0b6741e2150273451  b0830fb4747a6c6d20dea0b8c802d7ef   
2  47770eb9100c2d0c44946d9cf07ec65d  41ce2a54c0b03bf3443c3d931a367089   
3  949d5b44dbf5de918fe9c16f97b45f8a  f88197465ea7920adcdbec7375364d82   
4  ad21c59c0840e6cb83a9ceb5573f8159  8ab97904e6daea8866dbdbc4fb7aad2c   

  order_status order_purchase_timestamp    order_approved_at  \
0    delivered      2017-10-02 10:56:33  2017-10-02 11:07:15   
1    delivered      2018-07-24 20:41:37  2018-07-26 03:24:27   
2    delivered      2018-08-08 08:38:49  2018-08-08 08:55:23   
3    delivered      2017-11-18 19:28:06  2017-11-18 19:45:59   
4    delivered      2018-02-13 21:18:39  2018-02-13 22:20:29   

  order_delivered_carrier_date order_delivered_customer_date  \
0          2017-10-04 19:55:00           2017-10-10 21:25:13   
1

In [7]:
# 4. Tabela de Itens do Pedido (olist_order_items_dataset.csv)

# Carregar o dataset de itens do pedido
order_items_df = pd.read_csv(os.path.join(data_path, 'olist_order_items_dataset.csv'))

# Exibir as primeiras 5 linhas
print("olist_order_items_dataset.csv - Primeiras 5 linhas:")
print(order_items_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame
print("olist_order_items_dataset.csv - Informações:")
order_items_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"olist_order_items_dataset.csv - Formato (linhas, colunas): {order_items_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas
print("olist_order_items_dataset.csv - Estatísticas Descritivas:")
print(order_items_df.describe(include='all'))
print("\n--------------------------------------------------\n")

# Verificar a quantidade de order_id únicos e order_item_id
print(f"Número de order_id únicos: {order_items_df['order_id'].nunique()}")
print(f"Valores únicos e contagem para 'order_item_id':")
print(order_items_df['order_item_id'].value_counts().sort_index())

olist_order_items_dataset.csv - Primeiras 5 linhas:
                           order_id  order_item_id  \
0  00010242fe8c5a6d1ba2dd792cb16214              1   
1  00018f77f2f0320c557190d7a144bdd3              1   
2  000229ec398224ef6ca0657da4fc703e              1   
3  00024acbcdf0a6daa1e931b038114c75              1   
4  00042b26cf59d7ce69dfabb4e55b4fd9              1   

                         product_id                         seller_id  \
0  4244733e06e7ecb4970a6e2683c13e61  48436dade18ac8b2bce089ec2a041202   
1  e5f2d52b802189ee658865ca93d83a8f  dd7ddc04e1b6c2c614352b383efe2d36   
2  c777355d18b72b67abbeef9df44fd0fd  5b51032eddd242adc84c38acab88f23d   
3  7634da152a4610f1595efa32f14722fc  9d7a1d34a5052409006425275ba1c2b4   
4  ac6c3623068f30de03045865e4e10089  df560393f3a51e74553ab94004ba5c87   

   shipping_limit_date   price  freight_value  
0  2017-09-19 09:45:35   58.90          13.29  
1  2017-05-03 11:05:13  239.90          19.93  
2  2018-01-18 14:48:30  199.00          

In [8]:
# 5. Tabela de Pagamentos do Pedido (olist_order_payments_dataset.csv)

# Carregar o dataset de pagamentos
order_payments_df = pd.read_csv(os.path.join(data_path, 'olist_order_payments_dataset.csv'))

# Exibir as primeiras 5 linhas
print("olist_order_payments_dataset.csv - Primeiras 5 linhas:")
print(order_payments_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame
print("olist_order_payments_dataset.csv - Informações:")
order_payments_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"olist_order_payments_dataset.csv - Formato (linhas, colunas): {order_payments_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas
print("olist_order_payments_dataset.csv - Estatísticas Descritivas:")
print(order_payments_df.describe(include='all'))
print("\n--------------------------------------------------\n")

# Verificar os valores únicos da coluna 'payment_type'
print("Valores únicos em 'payment_type':")
print(order_payments_df['payment_type'].value_counts())
print("\n--------------------------------------------------\n")

# Verificar os valores únicos da coluna 'payment_sequential'
# Isso indica se um pedido teve múltiplas formas de pagamento ou múltiplos pagamentos
print("Valores únicos em 'payment_sequential':")
print(order_payments_df['payment_sequential'].value_counts().sort_index())

olist_order_payments_dataset.csv - Primeiras 5 linhas:
                           order_id  payment_sequential payment_type  \
0  b81ef226f3fe1789b1e8b2acac839d17                   1  credit_card   
1  a9810da82917af2d9aefd1278f1dcfa0                   1  credit_card   
2  25e8ea4e93396b6fa0d3dd708e76c1bd                   1  credit_card   
3  ba78997921bbcdc1373bb41e913ab953                   1  credit_card   
4  42fdf880ba16b47b59251dd489d4441a                   1  credit_card   

   payment_installments  payment_value  
0                     8          99.33  
1                     1          24.39  
2                     1          65.71  
3                     8         107.78  
4                     2         128.45  

--------------------------------------------------

olist_order_payments_dataset.csv - Informações:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---

In [9]:
# 6. Tabela de Avaliações do Pedido (olist_order_reviews_dataset.csv)

# Carregar o dataset de avaliações
order_reviews_df = pd.read_csv(os.path.join(data_path, 'olist_order_reviews_dataset.csv'))

# Exibir as primeiras 5 linhas
print("olist_order_reviews_dataset.csv - Primeiras 5 linhas:")
print(order_reviews_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame
print("olist_order_reviews_dataset.csv - Informações:")
order_reviews_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"olist_order_reviews_dataset.csv - Formato (linhas, colunas): {order_reviews_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas
print("olist_order_reviews_dataset.csv - Estatísticas Descritivas:")
print(order_reviews_df.describe(include='all'))
print("\n--------------------------------------------------\n")

# Verificar os valores únicos e contagem para 'review_score'
print("Valores únicos e contagem para 'review_score':")
print(order_reviews_df['review_score'].value_counts().sort_index())
print("\n--------------------------------------------------\n")

# Verificar a porcentagem de valores ausentes nas colunas de comentário
print("Porcentagem de valores ausentes nas colunas de comentário:")
print(f"review_comment_title: {order_reviews_df['review_comment_title'].isnull().sum() / len(order_reviews_df) * 100:.2f}%")
print(f"review_comment_message: {order_reviews_df['review_comment_message'].isnull().sum() / len(order_reviews_df) * 100:.2f}%")

olist_order_reviews_dataset.csv - Primeiras 5 linhas:
                          review_id                          order_id  \
0  7bc2406110b926393aa56f80a40eba40  73fc7af87114b39712e6da79b0a377eb   
1  80e641a11e56f04c1ad469d5645fdfde  a548910a1c6147796b98fdf73dbeba33   
2  228ce5500dc1d8e020d8d1322874b6f0  f9e4b658b201a9f2ecdecbb34bed034b   
3  e64fb393e7b32834bb789ff8bb30750e  658677c97b385a9be170737859d3511b   
4  f7c4243c7fe1938f181bec41a392bdeb  8e6bfb81e283fa7e4f11123a3fb894f1   

   review_score review_comment_title  \
0             4                  NaN   
1             5                  NaN   
2             5                  NaN   
3             5                  NaN   
4             5                  NaN   

                              review_comment_message review_creation_date  \
0                                                NaN  2018-01-18 00:00:00   
1                                                NaN  2018-03-10 00:00:00   
2                                  

In [10]:
# 7. Tabela de Produtos (olist_products_dataset.csv)

# Carregar o dataset de produtos
products_df = pd.read_csv(os.path.join(data_path, 'olist_products_dataset.csv'))

# Exibir as primeiras 5 linhas
print("olist_products_dataset.csv - Primeiras 5 linhas:")
print(products_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame
print("olist_products_dataset.csv - Informações:")
products_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"olist_products_dataset.csv - Formato (linhas, colunas): {products_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas
print("olist_products_dataset.csv - Estatísticas Descritivas:")
print(products_df.describe(include='all'))
print("\n--------------------------------------------------\n")

# Verificar a quantidade de categorias de produtos únicas
# e a contagem de produtos por categoria (Top 10)
if 'product_category_name' in products_df.columns:
    print(f"Número de categorias de produto únicas: {products_df['product_category_name'].nunique()}")
    print("\nTop 10 categorias de produto mais frequentes:")
    print(products_df['product_category_name'].value_counts().nlargest(10))
else:
    print("A coluna 'product_category_name' não foi encontrada.")

olist_products_dataset.csv - Primeiras 5 linhas:
                         product_id  product_category_name  \
0  1e9e8ef04dbcff4541ed26657ea517e5             perfumaria   
1  3aa071139cb16b67ca9e5dea641aaa2f                  artes   
2  96bd76ec8810374ed1b65e291975717f          esporte_lazer   
3  cef67bcfe19066a932b7673e239eb23d                  bebes   
4  9dc1a7de274444849c219cff195d0b71  utilidades_domesticas   

   product_name_lenght  product_description_lenght  product_photos_qty  \
0                 40.0                       287.0                 1.0   
1                 44.0                       276.0                 1.0   
2                 46.0                       250.0                 1.0   
3                 27.0                       261.0                 1.0   
4                 37.0                       402.0                 4.0   

   product_weight_g  product_length_cm  product_height_cm  product_width_cm  
0             225.0               16.0               10

In [11]:
# 8. Tabela de Vendedores (olist_sellers_dataset.csv)

# Carregar o dataset de vendedores
sellers_df = pd.read_csv(os.path.join(data_path, 'olist_sellers_dataset.csv'))

# Exibir as primeiras 5 linhas
print("olist_sellers_dataset.csv - Primeiras 5 linhas:")
print(sellers_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame
print("olist_sellers_dataset.csv - Informações:")
sellers_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"olist_sellers_dataset.csv - Formato (linhas, colunas): {sellers_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas
print("olist_sellers_dataset.csv - Estatísticas Descritivas:")
print(sellers_df.describe(include='all'))
print("\n--------------------------------------------------\n")

# Verificar a quantidade de cidades e estados únicos dos vendedores
if 'seller_city' in sellers_df.columns and 'seller_state' in sellers_df.columns:
    print(f"Número de cidades únicas de vendedores: {sellers_df['seller_city'].nunique()}")
    print(f"Número de estados únicos de vendedores: {sellers_df['seller_state'].nunique()}")
    print("\nTop 10 cidades de vendedores mais frequentes:")
    print(sellers_df['seller_city'].value_counts().nlargest(10))
    print("\nTop 10 estados de vendedores mais frequentes:")
    print(sellers_df['seller_state'].value_counts().nlargest(10))
else:
    print("Colunas 'seller_city' ou 'seller_state' não encontradas.")

olist_sellers_dataset.csv - Primeiras 5 linhas:
                          seller_id  seller_zip_code_prefix  \
0  3442f8959a84dea7ee197c632cb2df15                   13023   
1  d1b65fc7debc3361ea86b5f14c68d2e2                   13844   
2  ce3ad9de960102d0677a81f5d0bb7b2d                   20031   
3  c0f3eea2e14555b6faeea3dd58c1b1c3                    4195   
4  51a04a8a6bdcb23deccc82b0b80742cf                   12914   

         seller_city seller_state  
0           campinas           SP  
1         mogi guacu           SP  
2     rio de janeiro           RJ  
3          sao paulo           SP  
4  braganca paulista           SP  

--------------------------------------------------

olist_sellers_dataset.csv - Informações:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   seller_id               3095 non-null   object
 

In [12]:
# 9. Tabela de Tradução de Nomes de Categoria de Produto (product_category_name_translation.csv)

# Carregar o dataset de tradução de categorias
category_translation_df = pd.read_csv(os.path.join(data_path, 'product_category_name_translation.csv'))

# Exibir as primeiras 5 linhas
print("product_category_name_translation.csv - Primeiras 5 linhas:")
print(category_translation_df.head())
print("\n--------------------------------------------------\n")

# Exibir informações sobre o DataFrame
print("product_category_name_translation.csv - Informações:")
category_translation_df.info()
print("\n--------------------------------------------------\n")

# Exibir o número de linhas e colunas
print(f"product_category_name_translation.csv - Formato (linhas, colunas): {category_translation_df.shape}")
print("\n--------------------------------------------------\n")

# Exibir estatísticas descritivas (embora aqui seja mais sobre o mapeamento)
print("product_category_name_translation.csv - Estatísticas Descritivas:")
print(category_translation_df.describe(include='all'))
print("\n--------------------------------------------------\n")

# Verificar se há nomes de categoria únicos em português e inglês
print(f"Número de 'product_category_name' (PT) únicos: {category_translation_df['product_category_name'].nunique()}")
print(f"Número de 'product_category_name_english' (EN) únicos: {category_translation_df['product_category_name_english'].nunique()}")

product_category_name_translation.csv - Primeiras 5 linhas:
    product_category_name product_category_name_english
0            beleza_saude                 health_beauty
1  informatica_acessorios         computers_accessories
2              automotivo                          auto
3         cama_mesa_banho                bed_bath_table
4        moveis_decoracao               furniture_decor

--------------------------------------------------

product_category_name_translation.csv - Informações:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   product_category_name          71 non-null     object
 1   product_category_name_english  71 non-null     object
dtypes: object(2)
memory usage: 1.2+ KB

--------------------------------------------------

product_category_name_translation.csv - Formato (linhas, colunas): 