# Importação das bibliotecas e as funções que serão usadas

## Bibliotecas

In [1]:
import pandas as pd

## Funções

In [2]:
def contar_em_branco(df):
    colunas = list()
    for coluna in df.columns:
        coluna_em_branco = df[df[coluna]==""][coluna].count()
        if coluna_em_branco>0:
            colunas.append(coluna)
        
    if len(colunas)>0:
        print(f"A(s) coluna(s) {colunas}, possuem valores preenchidos de forma errada, ou seja, com espaços em branco.")

    else:
        print("Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.")

# Importando os dados

## Clientes

In [3]:
clientes = pd.read_csv("../dados/olist_customers_dataset.csv")
clientes.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


In [4]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


In [5]:
contar_em_branco(clientes)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


In [6]:
clientes['customer_zip_code_prefix'] = clientes['customer_zip_code_prefix'].map(str)

In [7]:
clientes.describe(include="object")

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
count,99441,99441,99441,99441,99441
unique,99441,96096,14994,4119,27
top,06b8999e2fba1a1fbc88172c00ba8bc7,8d50f5eadf50201ccdcedfb9e2ac8455,22790,sao paulo,SP
freq,1,17,142,15540,41746


O DataFrame de clientes fornece informações sobre os clientes, incluindo:

+ **customer_id**: Valores de identificação únicos atribuídos a cada cliente em uma compra.
+ **customer_unique_id**: Valores de identificação únicos atribuídos a cada cliente. Com 96.096 valores únicos, é possível inferir que alguns clientes realizaram mais de uma compra.
+ **customer_zip_code_prefix**: Os primeiros cinco números que identificam a localização do cliente. Com 14.994 valores únicos neste campo, é viável realizar um mapeamento geográfico das vendas.
+ **customer_city**: Cidade onde o cliente reside. Com 4.119 valores diferentes, observa-se uma variedade de locais de compra, destacando-se São Paulo com 15.540 entradas.
+ **customer_state**: Estado onde o cliente reside. Existem 27 valores únicos, indicando vendas para os 26 estados mais o Distrito Federal, com o maior número de vendas ocorrendo em São Paulo, totalizando 41.746 entradas.

Esses dados iniciais fornecem insights importantes para análises futuras. Além disso, não foram identificados valores faltantes ou preenchidos em branco em nenhuma das colunas deste DataFrame.

## Itens por pedidos

In [8]:
itens_pedidos = pd.read_csv("../dados/olist_order_items_dataset.csv")
itens_pedidos.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


In [9]:
itens_pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


In [10]:
contar_em_branco(itens_pedidos)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


In [11]:
itens_pedidos.describe()

Unnamed: 0,order_item_id,price,freight_value
count,112650.0,112650.0,112650.0
mean,1.197834,120.653739,19.99032
std,0.705124,183.633928,15.806405
min,1.0,0.85,0.0
25%,1.0,39.9,13.08
50%,1.0,74.99,16.26
75%,1.0,134.9,21.15
max,21.0,6735.0,409.68


In [12]:
itens_pedidos.describe(include="object")

Unnamed: 0,order_id,product_id,seller_id,shipping_limit_date
count,112650,112650,112650,112650
unique,98666,32951,3095,93318
top,8272b63d03f5f79c56e9e4120aec44ef,aca2eb7d00ea1a7b8ebd4e68314663af,6560211a19b47992c3666cc44a7e94c0,2017-07-21 18:25:23
freq,21,527,2033,21


O DataFrame de itens por pedidos traz alguns dados resultantes do cruzamento entre os pedidos e os produtos, incluindo informações sobre quem os vendeu e a quantidade de cada item contida em cada pedido. Assim, temos as seguintes colunas:

+ **order_id**: Esta coluna é um identificador gerado para cada pedido. Existem 98666 entradas únicas, 
+ **order_item_id**: Indica a quantidade de itens em cada pedido.
+ **product_id**: Identificador único de cada produto. Existem 32951 valores neste variável, sendo assim é possível limitar a quantidade de produtos que foram vendidos.
+ **seller_id**: Identificador único de cada vendedor. Já a coluna de vendedores, existem 3095, valores únicos informando justamente a quantidade de vendedores que realizaram pelo menos uma venda, porém pelo menos um vendedor tem 2033 entradas, o que pode totalizar seu total de vendas. 
+ **shipping_limit_date**: A data e hora em que o pedido foi feito. Foram 93318 entradas, aqui fica um pouco difícil analisar os dias de maior venda pois ainda existe a hora atrelado a venda, sendo assim precisar de uma analise mais detalhada posteriormente. 
+ **price**: Valor do produto. É possível contar 112650 valores com preços variando entre produtos de R$ 0.85 e produtos de R$ 6735.00, com uma média de R$ 183.63 por produto. Este campo requer uma analise mais detalhada posteriormente, afinal é o foco principal desta analise.
+ **freight_value**: Valor do frete cobrado. Possui também 112650 entradas e está em um intervalo de R$ 0.00 (frete grátis) e R$ 409.68, com uma media de R$ 15.81 por frete. 

Além disso, é relevante mencionar que não foram identificados valores faltantes ou preenchidos em branco em nenhuma das colunas deste DataFrame.

## Pagamentos

In [13]:
pagamentos = pd.read_csv("../dados/olist_order_payments_dataset.csv")
pagamentos.head()

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


In [14]:
pagamentos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB


In [15]:
contar_em_branco(pagamentos)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


In [16]:
pagamentos.describe()

Unnamed: 0,payment_sequential,payment_installments,payment_value
count,103886.0,103886.0,103886.0
mean,1.092679,2.853349,154.10038
std,0.706584,2.687051,217.494064
min,1.0,0.0,0.0
25%,1.0,1.0,56.79
50%,1.0,1.0,100.0
75%,1.0,4.0,171.8375
max,29.0,24.0,13664.08


In [17]:
pagamentos.describe(include="object")

Unnamed: 0,order_id,payment_type
count,103886,103886
unique,99440,5
top,fa65dad1b0e818e3ccc5cb0e39231352,credit_card
freq,29,76795


O DataFrame de pagamentos contém informações sobre os pagamentos feitos, incluindo:

+ **order_id**: Identificador único do pedido. É comum encontrar valores repetidos, já que um pedido pode ter múltiplos pagamentos associados.
+ **payment_sequential**: Esta coluna representa a sequência de pagamentos associada a cada pedido. Em média, há aproximadamente uma sequência de pagamento por pedido, com um intervalo de 1 a 29 sequências.
+ **payment_type**: Tipo de pagamento utilizado. Existem cinco tipos distintos de pagamento, sendo o cartão de crédito o mais comum.
+ **payment_installments**: Esta coluna pode representar o número de parcelas em que o pagamento foi dividido. Em média, os pagamentos são divididos um pouco mais de duas vezes, com um intervalo de 0 a 24 parcelas. É necessário investigar a questão das parcelas zeradas.
+ **payment_value**: Valor total pago, compreendendo a soma dos valores dos produtos e do frete. Os valores variam de R$ 0,00 (possivelmente indicando um produto gratuito) a R$ 13.664,08. Em média, o valor pago foi de R$ 217,49.


Além disso, assim como nos DataFrames anteriores, não foram identificados valores faltantes ou preenchidos em branco em nenhuma das colunas deste DataFrame.

## Avaliações

In [18]:
avaliacoes = pd.read_csv("../dados/olist_order_reviews_dataset.csv")
avaliacoes.head()

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53


In [19]:
avaliacoes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                99224 non-null  object
 1   order_id                 99224 non-null  object
 2   review_score             99224 non-null  int64 
 3   review_comment_title     11568 non-null  object
 4   review_comment_message   40977 non-null  object
 5   review_creation_date     99224 non-null  object
 6   review_answer_timestamp  99224 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB


In [20]:
contar_em_branco(avaliacoes)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


In [21]:
avaliacoes.describe()

Unnamed: 0,review_score
count,99224.0
mean,4.086421
std,1.347579
min,1.0
25%,4.0
50%,5.0
75%,5.0
max,5.0


In [22]:
avaliacoes.describe(include="object")

Unnamed: 0,review_id,order_id,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
count,99224,99224,11568,40977,99224,99224
unique,98410,98673,4527,36159,636,98248
top,7b606b0d57b078384f0b58eac1d41d78,c88b1d1b157a9999ce368f218a407141,Recomendo,Muito bom,2017-12-19 00:00:00,2017-06-15 23:21:05
freq,3,3,423,230,463,4


O DataFrame de avaliações contém informações sobre as avaliações feitas pelos usuários. No entanto, como o objetivo deste projeto é analisar o aspecto das vendas e não a qualidade ou problemas dos produtos, a coluna mais relevante é review_score.

+ **review_id**: Identificador da avaliação.
+ **order_id**: Identificador do pedido para o qual a avaliação foi feita.
+ **review_score**: Nota atribuída à avaliação do produto, variando de 1 a 5. A média da nota é de 1,34, porém sua mediana é de 4,08.
+ **review_comment_title**: Título da avaliação. Embora seja improvável que haja muitos títulos repetidos devido à natureza pessoal dos títulos, observa-se que 423 avaliações usaram o título "Recomendo", possivelmente refletindo uma avaliação positiva.
+ **review_comment_message**: Mensagem escrita na avaliação. Assim como os títulos, as mensagens podem ser únicas e difíceis de avaliar. No entanto, observa-se que a mensagem "Muito bom" foi escrita em 230 avaliações, possivelmente refletindo uma alta satisfação nessas avaliações.
+ **review_creation_date**: Data da avaliação.
+ **review_answer_timestamp**: Data e hora da resposta à avaliação.


Neste DataFrame, é possível observar que faltam valores em algumas das variáveis, o que é completamente normal, pois os clientes não são obrigados a fornecer uma avaliação. Portanto, é esperado que haja avaliações sem mensagem ou título. Como mencionado anteriormente, o aspecto mais importante neste estudo é a nota dada pelos clientes.

## Pedidos

In [23]:
pedidos = pd.read_csv("../dados/olist_orders_dataset.csv")
pedidos.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


In [24]:
pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB


In [25]:
pedidos.describe()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
count,99441,99441,99441,99441,99281,97658,96476,99441
unique,99441,99441,8,98875,90733,81018,95664,459
top,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2018-04-11 10:48:14,2018-02-27 04:31:10,2018-05-09 15:48:00,2018-05-08 23:38:46,2017-12-20 00:00:00
freq,1,1,96478,3,9,47,3,522


No DataFrame de pedidos, estão disponíveis informações sobre os pedidos, com foco especial na situação e na entrega dos mesmos. Portanto, é possível encontrar variáveis como status e datas relacionadas à entrega.

+ **order_id**: Identificador único do pedido.
+ **customer_id**: Identificador do cliente.
+ **order_status**: Situação do pedido. Observa-se que a maioria dos pedidos (96478) está com o status "delivered" (entregue).
+ **order_purchase_timestamp**: Data e hora em que o pedido foi realizado.
+ **order_approved_at**: Data e hora da aprovação do pedido, juntamente com as instituições de pagamento.
+ **order_delivered_carrier_date**: Data em que o pedido foi entregue à transportadora.
+ **order_delivered_customer_date**: Data em que o cliente recebeu seu pedido.
+ **order_estimated_delivery_date**: Data estimada para a entrega ao cliente.


Também é observado que alguns campos estão em branco. Isso é normal, pois não é possível registrar a data de entrega ao cliente se o pedido ainda não foi entregue, seja por cancelamento ou outros motivos. Portanto, os aspectos mais relevantes deste DataFrame são a situação atual do pedido e eventuais atrasos na entrega.

## Produtos

In [26]:
produtos = pd.read_csv("../dados/olist_products_dataset.csv")
produtos.head()

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


In [27]:
produtos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32341 non-null  object 
 2   product_name_lenght         32341 non-null  float64
 3   product_description_lenght  32341 non-null  float64
 4   product_photos_qty          32341 non-null  float64
 5   product_weight_g            32949 non-null  float64
 6   product_length_cm           32949 non-null  float64
 7   product_height_cm           32949 non-null  float64
 8   product_width_cm            32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB


In [28]:
produtos.describe()

Unnamed: 0,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
count,32341.0,32341.0,32341.0,32949.0,32949.0,32949.0,32949.0
mean,48.476949,771.495285,2.188986,2276.472488,30.815078,16.937661,23.196728
std,10.245741,635.115225,1.736766,4282.038731,16.914458,13.637554,12.079047
min,5.0,4.0,1.0,0.0,7.0,2.0,6.0
25%,42.0,339.0,1.0,300.0,18.0,8.0,15.0
50%,51.0,595.0,1.0,700.0,25.0,13.0,20.0
75%,57.0,972.0,3.0,1900.0,38.0,21.0,30.0
max,76.0,3992.0,20.0,40425.0,105.0,105.0,118.0


In [29]:
produtos.describe(include="object")

Unnamed: 0,product_id,product_category_name
count,32951,32341
unique,32951,73
top,1e9e8ef04dbcff4541ed26657ea517e5,cama_mesa_banho
freq,1,3029


O DataFrame de produtos traz informações sobre os produtos, incluindo dimensões e a categoria à qual pertencem.

+ **product_id**: Identificador único do produto.
+ **product_category_name**: Categoria na qual o produto está inserido. Existem 73 categorias, sendo que a categoria "cama mesa banho" possui o maior número de produtos, com 3029 entradas.
+ **product_name_length**: Comprimento do nome do produto. Os nomes têm, em média, aproximadamente 10 caracteres, variando de 5 a 76 caracteres.
+ **product_description_length**: Comprimento da descrição do produto. As descrições variam de 4 a 3992 caracteres, com uma média de aproximadamente 635 caracteres por descrição.
+ **product_photos_qty**: Quantidade de fotos do produto. A quantidade de fotos varia de 1 a 40425, com uma média de quase 2 fotos por produto.
+ **product_weight_g**: Peso do produto em gramas. O peso varia de 0 (possivelmente indicando zero gramas) a 40425 gramas, com uma média de aproximadamente 4282 gramas por produto.
+ **product_length_cm**: Comprimento do produto em centímetros. O comprimento varia de 7 a 105 centímetros, com uma média de aproximadamente 16 cm por produto.
+ **product_height_cm**: Altura do produto em centímetros. A altura varia de 2 a 105 centímetros, com uma média de aproximadamente 13 centímetros por produto.
+ **product_width_cm**: Largura do produto em centímetros. A largura varia de 6 a 118 centímetros, com uma média de aproximadamente 12 centímetros por produto.


É importante observar que existem valores faltantes em algumas das variáveis. Embora seja ideal ter esses valores preenchidos, sua ausência não afetará significativamente a análise, pois os aspectos mais relevantes neste DataFrame para este estudo são a categoria, o nome e a descrição do produto, os quais passarão por um tratamento posterior.

## Vendedores

In [30]:
vendedores = pd.read_csv("../dados/olist_sellers_dataset.csv")
vendedores.head()

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP


In [31]:
vendedores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   seller_id               3095 non-null   object
 1   seller_zip_code_prefix  3095 non-null   int64 
 2   seller_city             3095 non-null   object
 3   seller_state            3095 non-null   object
dtypes: int64(1), object(3)
memory usage: 96.8+ KB


In [32]:
contar_em_branco(vendedores)

Todas as colunas estão preenchidas de forma correta, ou seja, não possuem valores preenchidos em branco.


In [34]:
vendedores['seller_zip_code_prefix'] = vendedores['seller_zip_code_prefix'].map(str)

In [35]:
vendedores.describe()

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
count,3095,3095,3095,3095
unique,3095,2246,611,23
top,3442f8959a84dea7ee197c632cb2df15,14940,sao paulo,SP
freq,1,49,694,1849


O DataFrame de vendedores apresenta informações sobre os vendedores, incluindo cidade e estado de atuação.

+ **seller_id**: Identificador único para cada vendedor.
+ **seller_zip_code_prefix**: Os cinco primeiros dígitos do código postal de cada vendedor.
+ **seller_city**: Cidade na qual o vendedor está localizado. É possível observar que há vendedores em 611 cidades do Brasil, sendo que o maior número de vendedores (694) está em São Paulo.
+ **seller_state**: Estado no qual o vendedor está localizado. É interessante notar que nem todos os estados possuem vendedores, já que apenas 23 estados têm representação. O estado de São Paulo lidera com 1849 vendedores.


Neste DataFrame, não há dados faltantes ou em branco, o que contribui para uma análise mais completa e confiável.