# Importação das bibliotecas e as funções que serão usadas

## Bibliotecas

In [1]:
import pandas as pd

## Funções

In [2]:
def contar_em_branco(df):
    colunas = list()
    for coluna in df.columns:
        coluna_em_branco = df[df[coluna]==""][coluna].count()
        if coluna_em_branco>0:
            colunas.append(coluna)
        
    if len(colunas)>0:
        print(f"A(s) coluna(s) {colunas}, possuem valores preenchidos de forma errada, ou seja, com espaços em branco.")

    else:
        print("Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.")

# Importando os dados

## Clientes

In [3]:
clientes = pd.read_csv("../dados/olist_customers_dataset.csv")
clientes.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


In [4]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


In [5]:
contar_em_branco(clientes)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


In [6]:
clientes['customer_zip_code_prefix'].value_counts()

customer_zip_code_prefix
22790    142
24220    124
22793    121
24230    117
22775    110
        ... 
35698      1
99370      1
64808      1
60876      1
99043      1
Name: count, Length: 14994, dtype: int64

In [7]:
clientes.describe(include="object")

Unnamed: 0,customer_id,customer_unique_id,customer_city,customer_state
count,99441,99441,99441,99441
unique,99441,96096,4119,27
top,06b8999e2fba1a1fbc88172c00ba8bc7,8d50f5eadf50201ccdcedfb9e2ac8455,sao paulo,SP
freq,1,17,15540,41746


O DataFrame de clientes traz algumas informações sobre os clientes, tais como:
+ **customer_id**: Valores de identificação únicos atribuídos a cada cliente em uma compra.
+ **customer_unique_id**: Valores de identificação únicos atribuídos a cada cliente. Alguns desses valores se repetem, indicando que determinado cliente pode ter feito mais de uma compra, resultando em pedidos diferentes.
+ **customer_zip_code_prefix**: Os primeiros cinco números que identificam a localização do cliente. Esses números podem se repetir, já que pode haver mais de um cliente para cada cidade ou bairro.
+ **customer_city**: Cidade onde o cliente reside.
+ **customer_state**: Estado onde o cliente reside.

Além disso, observa-se que não há valores faltantes em nenhuma das colunas deste DataFrame, assim como não há valores preenchidos em branco.

## Itens por pedidos

In [8]:
itens_pedidos = pd.read_csv("../dados/olist_order_items_dataset.csv")
itens_pedidos.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


In [9]:
itens_pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


In [10]:
contar_em_branco(itens_pedidos)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


In [11]:
itens_pedidos.describe()

Unnamed: 0,order_item_id,price,freight_value
count,112650.0,112650.0,112650.0
mean,1.197834,120.653739,19.99032
std,0.705124,183.633928,15.806405
min,1.0,0.85,0.0
25%,1.0,39.9,13.08
50%,1.0,74.99,16.26
75%,1.0,134.9,21.15
max,21.0,6735.0,409.68


In [12]:
itens_pedidos.describe(include="object")

Unnamed: 0,order_id,product_id,seller_id,shipping_limit_date
count,112650,112650,112650,112650
unique,98666,32951,3095,93318
top,8272b63d03f5f79c56e9e4120aec44ef,aca2eb7d00ea1a7b8ebd4e68314663af,6560211a19b47992c3666cc44a7e94c0,2017-07-21 18:25:23
freq,21,527,2033,21


O DataFrame de itens por pedidos traz alguns dados resultantes do cruzamento entre os pedidos e os produtos, incluindo informações sobre quem os vendeu e a quantidade de cada item contida em cada pedido. Assim, temos as seguintes colunas:

+ **customer_id**: Esta coluna é um identificador gerado para cada pedido. Ela pode se repetir mais de uma vez, já que um pedido pode conter mais de um item.
+ **order_item_id**: Indica a quantidade de itens em cada pedido.
+ **product_id**: Identificador único de cada produto.
+ **seller_id**: Identificador único de cada vendedor.
+ **shipping_limit_date**: A data e hora em que o pedido foi feito.
+ **price**: Valor do produto.
+ **freight_value**: Valor do frete cobrado.

Para este DataFrame, algumas análises precisarão ser feitas posteriormente. Ao examinar os valores de venda dos produtos, observa-se a presença de valores que requerem verificação, como valores acima de R$ 6.000,00, bem como valores de frete acima de R$ 400,00. Nestes casos, podem ocorrer erros de digitação ou, simplesmente, a venda de um produto um pouco mais caro. No entanto, é importante realizar uma análise mais detalhada, considerando que a média dos valores para os produtos vendidos está próxima de R$ 200,00.

Além disso, é relevante mencionar que não foram identificados valores faltantes ou preenchidos em branco em nenhuma das colunas deste DataFrame.

## Pagamentos

In [13]:
pagamentos = pd.read_csv("../dados/olist_order_payments_dataset.csv")
pagamentos.head()

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


In [14]:
pagamentos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB


In [15]:
contar_em_branco(pagamentos)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


In [24]:
pagamentos.describe()

NameError: name 'pagamentos' is not defined

## Avaliações

In [16]:
avaliacoes = pd.read_csv("../dados/olist_order_reviews_dataset.csv")
avaliacoes.head()

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53


In [18]:
avaliacoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                99224 non-null  object
 1   order_id                 99224 non-null  object
 2   review_score             99224 non-null  int64 
 3   review_comment_title     11568 non-null  object
 4   review_comment_message   40977 non-null  object
 5   review_creation_date     99224 non-null  object
 6   review_answer_timestamp  99224 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB


In [19]:
contar_em_branco(avaliacoes)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


## Pedidos

In [21]:
pedidos = pd.read_csv("../dados/olist_orders_dataset.csv")
pedidos.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


## Produtos

In [None]:
produtos = pd.read_csv("../dados/olist_products_dataset.csv")
produtos.head()

## Vendedores

In [None]:
vendedores = pd.read_csv("../dados/olist_sellers_dataset.csv")
vendedores.head()