# Introdução

A modalidade de vendas online já se consolidou em diversos modelos de negócio e continua a crescer a cada dia. Este estudo tem como propósito analisar as vendas realizadas pela empresa Olist, uma das líderes no setor de tecnologia e soluções para vendas online, no período de 2016 a 2018. Através dessa análise, buscamos responder a algumas perguntas fundamentais, tais como:

- Quais estados apresentam o maior número de clientes?
- Em quais estados há uma presença mais expressiva de vendedores ativos?
- Quais estados se destacam em termos de volume de compras?
- Quais clientes são os maiores gastadores?
- Qual é a média de gastos por estado?
- Até que ponto o valor do frete impacta nas decisões de compra?

Para abordar essas questões, é essencial analisar os Dataframes disponíveis, os quais contêm informações sobre clientes, vendedores, avaliações, e outros aspectos que abrangem o ciclo completo, desde a compra até a entrega do produto.

Ao examinar esses Dataframes, identificamos variáveis cruciais para compreender e responder às perguntas mencionadas, e até mesmo para formular novas questões. No entanto, é imperativo verificar cada variável, pois podem existir valores ausentes, tipos incorretos ou informações imprecisas.

In [2]:
import pandas as pd
import suporte.suporte as sp

In [50]:
clientes = pd.read_csv('dados/olist_customers_dataset.csv') #OK
geolocalizacao = pd.read_csv('dados/olist_geolocation_dataset.csv') #OK
itens_por_pedido = pd.read_csv('dados/olist_order_items_dataset.csv') #OK
pagamentos = pd.read_csv('dados/olist_order_payments_dataset.csv') #OK
avaliacao = pd.read_csv('dados/olist_order_reviews_dataset.csv') # Mudar o formato da data
pedidos = pd.read_csv('dados/olist_orders_dataset.csv') # Mudas os pagamentos das datas
produtos = pd.read_csv('dados/olist_products_dataset.csv')
vendedor = pd.read_csv('dados/olist_sellers_dataset.csv') #OK

# Correções

## Correção do tipo

In [76]:
itens_por_pedido['shipping_limit_date'] = pd.to_datetime(itens_por_pedido['shipping_limit_date'])
avaliacao['review_creation_date'] = pd.to_datetime(avaliacao['review_creation_date'])
avaliacao['review_answer_timestamp'] = pd.to_datetime(avaliacao['review_answer_timestamp'])
pedidos['order_purchase_timestamp'] = pd.to_datetime(pedidos['order_purchase_timestamp'])
pedidos['order_approved_at'] = pd.to_datetime(pedidos['order_approved_at'])
pedidos['order_delivered_carrier_date'] = pd.to_datetime(pedidos['order_delivered_carrier_date'])
pedidos['order_delivered_customer_date'] = pd.to_datetime(pedidos['order_delivered_customer_date'])
pedidos['order_estimated_delivery_date'] = pd.to_datetime(pedidos['order_estimated_delivery_date'])


## Correção de valores faltantes

In [5]:
produtos.query('product_id == "a5f6ba3fe91a2e73f10b612131cb2404"')

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
14357,a5f6ba3fe91a2e73f10b612131cb2404,eletronicos,45.0,1057.0,3.0,138.0,19.0,17.0,16.0


In [10]:
itens_por_pedido.query('product_id == "5eb564652db742ff8f28759cd8d2652a"')

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
7098,101157d4fae1c9fb74a00a5dee265c25,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-04-11 08:02:26,29.0,14.52
9233,1521c6bb7b1028154c8c67cf80fa809f,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-04-07 10:10:16,29.0,16.05
28715,415cfaaaa8cea49f934470548797fed1,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-04-07 10:35:19,29.0,14.52
28716,415cfaaaa8cea49f934470548797fed1,2,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-04-07 10:35:19,29.0,14.52
39299,595316a07cd3dea9db7adfcc7e247ae7,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-08-18 04:26:04,39.0,9.27
48424,6e150190fbe04c642a9cf0b80d83ee16,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-06-30 16:45:14,39.0,16.79
48980,6f497c40431d5fb0cfbd6c943dd29215,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-04-11 05:55:32,29.0,10.96
71134,a2456e7f02197951664897a94c87242d,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-04-06 11:50:09,29.0,24.84
73556,a7a43f469c0d7bdb0a23a82db125aefa,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-08-28 13:15:11,39.0,15.1
82767,bbfc7badbed2f1828e22b6d629201bd4,1,5eb564652db742ff8f28759cd8d2652a,4e922959ae960d389249c378d1c939f5,2017-07-18 04:04:10,39.0,11.85


In [42]:
venda_total_item = itens_por_pedido.query('product_id == "5eb564652db742ff8f28759cd8d2652a"')['price'].sum()
venda_total_item

563.0

In [43]:
venda_total_vendedor = itens_por_pedido.query('seller_id == "4e922959ae960d389249c378d1c939f5"')['price'].sum()
venda_total_vendedor

46030.369999999995

In [41]:
venda_total_vendedor - venda_total_item

45467.369999999995

In [30]:
produtos_analisados = itens_por_pedido.query('seller_id == "4e922959ae960d389249c378d1c939f5"')['product_id'].to_list()
produtos_analisados

['bd6e8cf9fe4122c385da2bcb9f979d5d',
 '6ff1fc9209c7854704a4f75c9fac41b4',
 '6ff1fc9209c7854704a4f75c9fac41b4',
 '6ff1fc9209c7854704a4f75c9fac41b4',
 '6ff1fc9209c7854704a4f75c9fac41b4',
 'bd6e8cf9fe4122c385da2bcb9f979d5d',
 'bd6e8cf9fe4122c385da2bcb9f979d5d',
 'bd6e8cf9fe4122c385da2bcb9f979d5d',
 'c19d5ba108c34b8255cf9a524da92bc4',
 '4c1e109ecdf58453de365d217cefa64c',
 'bee2e070c39f3dd2f6883a17a5f0da45',
 '59f17be62604541797d4df87ae80cf73',
 'bee2e070c39f3dd2f6883a17a5f0da45',
 'd566c6f148d426bff95179d7e2e91d61',
 'a69f9b04d1e45bb3ee9f544c91a23b29',
 'b980f3256c981fc178514325143b1fc8',
 '1dceebcc5f23c02ea23e16d5bedca000',
 'df3a82b424a1bb351c314547f6644066',
 'f9a26e326cd01165ff614a519473afbb',
 'c19d5ba108c34b8255cf9a524da92bc4',
 'bee2e070c39f3dd2f6883a17a5f0da45',
 'e1ea2e133d4ca99d20c365d4e3173989',
 'b9e628152d37d0bb6e3164afd8114ec7',
 '4c1e109ecdf58453de365d217cefa64c',
 'c19d5ba108c34b8255cf9a524da92bc4',
 '4c1e109ecdf58453de365d217cefa64c',
 'a5f6ba3fe91a2e73f10b612131cb2404',
 

In [23]:
ordens_analisadas = itens_por_pedido.query('product_id == "5eb564652db742ff8f28759cd8d2652a"')['order_id'].to_list()
ordens_analisadas

['101157d4fae1c9fb74a00a5dee265c25',
 '1521c6bb7b1028154c8c67cf80fa809f',
 '415cfaaaa8cea49f934470548797fed1',
 '415cfaaaa8cea49f934470548797fed1',
 '595316a07cd3dea9db7adfcc7e247ae7',
 '6e150190fbe04c642a9cf0b80d83ee16',
 '6f497c40431d5fb0cfbd6c943dd29215',
 'a2456e7f02197951664897a94c87242d',
 'a7a43f469c0d7bdb0a23a82db125aefa',
 'bbfc7badbed2f1828e22b6d629201bd4',
 'bf49f84a0580ef6751e13357776b7ed9',
 'c1424efcde3c9e9febd9e1761667789e',
 'd38dcb503cd4ddc6ce7702552918bd8f',
 'd38dcb503cd4ddc6ce7702552918bd8f',
 'ddf16d77e858a32f36e10c289a28ef61',
 'e3daea0200104991cb979c2fcc509ae7',
 'eb855beb3ac99461f7a076b4c3652472']

In [27]:
clientes_analisados = pedidos[pedidos['order_id'].isin(ordens_analisadas)]['customer_id']
clientes[clientes['customer_id'].isin(clientes_analisados)]['customer_unique_id'].unique()

array(['5c71f03d38ea1426874ace382efa488d',
       '2eab2d0ae1015e2e7fb2062f465f524f',
       '90c205b0bed658a20ba141d2960d6811',
       '5a06bd3849da761b21e0bd78eeda8688',
       '20b4eaef2100b061787764c2cba43541',
       '8f5f778f80efda903eb24efe69d2a6c3',
       'c5628087b9b42549720ee8b57f0a6a98',
       '720bef87b58a7744196ef8f494ac9617',
       'cd63fb1b20b66ae7f91f848942895493',
       'cf5e6a37d7ffef60af859e8025b3112d',
       'a330c3cd4e607dd2f8dca4e303325e6f',
       '047c439e6c563abb6ab4b9ff18298d55',
       'c0378e9280a6e9401f2b0fd4a288496b',
       'eabb0c62caa8436a85aa820d2ac1323b',
       '4e78d9253ba5cc1d990eb09ea45a3a2c'], dtype=object)

In [5]:
vendas = itens_por_pedido.merge(pagamentos).merge(produtos).merge(pedidos).merge(clientes)
vendas

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,payment_sequential,payment_type,payment_installments,...,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,1,credit_card,2,...,delivered,2017-09-13 08:59:02,2017-09-13 09:45:35,2017-09-19 18:34:16,2017-09-20 23:43:48,2017-09-29 00:00:00,871766c5855e863f6eccc05f988b23cb,28013,campos dos goytacazes,RJ
1,130898c0987d1801452a8ed92a670612,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-07-05 02:44:11,55.9,17.96,1,boleto,1,...,delivered,2017-06-28 11:52:20,2017-06-29 02:44:11,2017-07-05 12:00:33,2017-07-13 20:39:29,2017-07-26 00:00:00,0fb8e3eab2d3e79d92bb3fffbb97f188,75800,jatai,GO
2,532ed5e14e24ae1f0d735b91524b98b9,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2018-05-23 10:56:25,64.9,18.33,1,credit_card,2,...,delivered,2018-05-18 10:25:53,2018-05-18 12:31:43,2018-05-23 14:05:00,2018-06-04 18:34:26,2018-06-07 00:00:00,3419052c8c6b45daf79c1e426f9e9bcb,30720,belo horizonte,MG
3,6f8c31653edb8c83e1a739408b5ff750,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-07 18:55:08,58.9,16.17,1,credit_card,3,...,delivered,2017-08-01 18:38:42,2017-08-01 18:55:08,2017-08-02 19:07:36,2017-08-09 21:26:33,2017-08-25 00:00:00,e7c828d22c0682c1565252deefbe334d,83070,sao jose dos pinhais,PR
4,7d19f4ef4d04461989632411b7e588b9,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-16 22:05:11,58.9,13.29,1,credit_card,4,...,delivered,2017-08-10 21:48:40,2017-08-10 22:05:11,2017-08-11 19:43:07,2017-08-24 20:04:21,2017-09-01 00:00:00,0bb98ba72dcc08e95f9d8cc434e9a2cc,36400,conselheiro lafaiete,MG
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117596,ffebd80e3291e811c308365936897efd,1,4cc4d02efc8f249c13355147fb44e34d,d1c7fa84e48cfa21a0e595167c1c500e,2018-07-18 20:23:55,129.9,51.20,1,credit_card,1,...,delivered,2018-07-13 20:04:05,2018-07-13 20:23:55,2018-07-17 10:03:00,2018-07-23 19:44:45,2018-08-07 00:00:00,a1c2e4b4c1b29e41684ebdf3cc6538f8,28740,conceicao de macabu,RJ
117597,ffee31fb4b5e35c9123608015637c495,1,b10ecf8e33aaaea419a9fa860ea80fb5,0241d4d5d36f10f80c644447315af0bd,2018-08-21 10:10:11,99.0,13.52,1,credit_card,2,...,delivered,2018-08-18 10:00:59,2018-08-18 10:10:11,2018-08-20 10:01:00,2018-08-21 12:18:57,2018-08-23 00:00:00,4e15fee963523774998876e3624952f4,83065,sao jose dos pinhais,PR
117598,fff7c4452f050315db1b3f24d9df5fcd,1,dd469c03ad67e201bc2179ef077dcd48,7e93a43ef30c4f03f38b393420bc753a,2017-06-07 17:05:23,736.0,20.91,1,credit_card,1,...,delivered,2017-06-01 16:53:03,2017-06-01 17:05:23,2017-06-02 11:49:53,2017-06-08 13:04:40,2017-06-26 00:00:00,c86ab5ff2bac777c4e770a383feca4eb,27261,volta redonda,RJ
117599,fffa82886406ccf10c7b4e35c4ff2788,1,bbe7651fef80287a816ead73f065fc4b,8f2ce03f928b567e3d56181ae20ae952,2017-12-22 17:31:42,229.9,44.02,1,credit_card,7,...,delivered,2017-12-18 16:33:07,2017-12-18 17:33:04,2017-12-20 18:55:00,2018-01-08 18:23:10,2018-01-24 00:00:00,2a3ab9bf9639491997586882c502540a,59955,tenente ananias,RN


In [6]:
vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 117601 entries, 0 to 117600
Data columns (total 30 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   order_id                       117601 non-null  object 
 1   order_item_id                  117601 non-null  int64  
 2   product_id                     117601 non-null  object 
 3   seller_id                      117601 non-null  object 
 4   shipping_limit_date            117601 non-null  object 
 5   price                          117601 non-null  float64
 6   freight_value                  117601 non-null  float64
 7   payment_sequential             117601 non-null  int64  
 8   payment_type                   117601 non-null  object 
 9   payment_installments           117601 non-null  int64  
 10  payment_value                  117601 non-null  float64
 11  product_category_name          115903 non-null  object 
 12  product_name_lenght           

## O DataFrame `pedidos` possui alguns <font color = "#C6C633">valores faltantes</font>.

- Os valores da coluna `ORDER_ID` são identificadores para cada pedido. Não há duplicidade.<font color = '#7AF13F'> É chave estrangeira para os DataFrames `pagamentos`, `avaliacao` e `itens_por_pedido`</font>.
- Os valores da coluna `CUSTOMER_ID` são identificadores dos clientes. Não há duplicidade. <font color = '#7AF13F'> É chave estrangeira para o DataFrame `clientes`</font>.
- Os valores da coluna `ORDER_STATUS` representa o estado do pedido. Pode haver duplicidade. <font color = '#7AF13F'> Não é chave estrangeira</font>.
- Os valores da coluna `ORDER_PURCHASE_TIMESTAMP` representa a data e a hora da compra.<font color="#33C6C4"> Verificar se pode haver duplicidade</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.
- Os valores da coluna `ORDER_APPROVED_AT` representa a data e a hora que aprovado o pagamento.<font color="#33C6C4"> Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.<font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados</font>.
- Os valores da coluna `ORDER_DELIVERED_CARRIER_DATE` representa a data e a hora da postagem do pedido. Pode haver duplicidade. <font color="#33C6C4"> Verificar se pode haver valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.<font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados</font>.
- Os valores da coluna `ORDER_DELIVERED_CUSTOMER_DATE` representa a data e a hora da entrega do pedido.<font color="#33C6C4"> Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.<font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados</font>.
- Os valores da coluna `ORDER_ESTIMATED_DELIVERY_DATE` representa a data estimada da entrega do pedido.<font color="#33C6C4"> Verificar se pode haver duplicidade</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.<font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados</font>.

## O DataFrame `clientes` não possui nenhum valor vazio.

- Os valores da coluna `CUSTOMER_ID` são únicos, ou seja, estes valores são indentificadores para este DataFrame. Porém acredito que este identificador esteja atrelado a compra feita por cada cliente, por isso não se repente, pois para se repetir tem que ter além da hora e da data, o produto e o valor sendo similares.<font color = '#7AF13F'> Chave estrangeira para o DataFrame `pedidos`. </font>
- Os valores da coluna `CUSTOMER_UNIQUE_ID` se repetem, sendo assim não esta coluna não é um indentificador. Acredito que estes valores sejam o real identificador de cada cliente.<font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `CUSTOMER_ZIP_CODE_PREFIX`, representam os 5 primeiros números do código postal do comprador. É normal que se repita.<font color = '#7AF13F'> Chave estrangeira para o DataFrame `geolocalizacao`.</font>
- Os valores da coluna `CUSTOMER_CITY`, representa a cidade de cada cliente.<font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `CUSTOMER_STATE`, representa o estado de cada cliente.<font color = '#7AF13F'> Não é chave estrangeira.</font>

## O DataFrame `geolocalizacao` não possui valores vazios

- Os valores da coluna `GEOLOCATION_ZIP_CODE_PREFIX` representam os 5 primeiros números do código postal. Sendo assim é normal que se repita.<font color = '#7AF13F'> É chave estrangeira tanto para o DataFrame de clientes quanto para o de vendedores.</font>
- Os valores da coluna `GEOLOCATION_LAT` representam a latitude do endereço. Normal que se repita, apesar que se dois endereços possuírem mesma latitude e longitude é por que estes estão se referindo ao mesmo lugar.<font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `GEOLOCATION_LNG` representam a longitude do endereço. Eles possuem uma análise parecida com a latitude.<font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `GEOLOCATION_CITY` representam as cidades dos vendedores e dos clientes.<font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `GEOLOCATION_STATE` representam os estados dos vendedores e dos clientes.<font color = '#7AF13F'> Não é chave estrangeira.</font>

## O DataFrame `itens_por_pedido` não possui nenhum valor vazio.
- Os valores da coluna `ORDER_ID` são identificadores exclusivo para cada pedidos. Sendo assim pode haver valores repetidos pois em um pedido pode haver mais de um item. <font color='#7AF13F'>É chave estrangeira para o DataFrame `pedidos`.</font>
- Os valores da coluna `ORDER_ITEM_ID` representam a quantidade de itens em um mesmo pedido. Neste caso pode possuir valores similares.<font color='#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `PRODUCT_ID` são identificadores dos produtos. Pode possuir valores repetidos, afinal um mesmo produto pode ser vendido para várias pessoas. <font color='#7AF13F'> É chave estrangeira para o DataFrame `produtos`.</font>
- Os valores da coluna `SELLER_ID` são identificadores dos vendedores. Como um mesmo vendedor pode fazer mais de uma venda é normal que esse código se repita. <font color='#7AF13F'> É chave estrangeira para o DataFrame `vendedor`.</font>
- Os valores da coluna `SHIPPING_LIMIT_DATE` são as datas limites para que o vendedor envie o produto. Também é normal haver datas repetidas.<font color='#7AF13F'> Não é chave estrangeira.</font><font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados.</font>
- Os valores da coluna `PRICE` são os valores a serem pagos por cada produto. Também é normal haver datas repetidas.<font color='#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `FREIGHT_VALUE` são os valores a serem pagos pelo frente. Se o pedido tiver mais de um produto o valor e divido por todos os produtos. Também é normal haver datas repetidas.<font color='#7AF13F'> Não é chave estrangeira.</font>

## O DataFrame `pagamentos` não possui nenhum valor vazio.

- Os valores da coluna `ORDER_ID` são únicos para cada pedido. Como um pedido pode conter mais de um item é normal que haja valores repetidos. <font color = '#7AF13F'> Chave estrangeira para o DataFrame `pedidos`. </font>
- Os valores da coluna `PAYMENT_SEQUENTIAL` representam a quantidade de métodos de pagamento para cada pedido. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `PAYMENT_TYPE` representam a forma de pagamento escolhida pelo cliente. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `PAYMENT_INSTALLMENTS` representam a quantidade de parcelas escolhida pelo cliente. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `PAYMENT_VALUE` representam o valor pago pelo cliente. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `PAYMENT_VALUE` representam o valor pago pelo cliente. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>

## O DataFrame `avaliacao` possui alguns <font color = "#C6C633">valores faltantes</font>.

- Os valores da coluna `REVIEW_ID` são identificadores para cada avaliação. <font color="#33C6C4">Verificar se pode haver duplicidade</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `ORDER_ID` são identificadores para cada pedido. <font color="#33C6C4">Verificar se pode haver duplicidade</font>. <font color = '#7AF13F'> É chave estrangeira para o DataFrame `pedidos`.</font>
- Os valores da coluna `REVIEW_SCORE` representa a pontuação da avaliação. Pode haver duplicidade pois, as notas são de 1 a 5.<font color="#33C6C4"> Verificar se pode haver valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `REVIEW_COMMENT_TITLE` representa o título de cada avaliação. Pode haver duplicidade.<font color="#33C6C4">Verificar se pode haver valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `REVIEW_COMMENT_MESSAGE` representa a avaliação escrita pelo cliente sobre a compra.<font color="#33C6C4">Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `REVIEW_CREATION_DATE` representa a data em que foi escrita a avaliação.<font color="#33C6C4">Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `REVIEW_ANSWER_TIMESTAMP` representa a data  e a hora em que foi escrita a avaliação.<font color="#33C6C4">Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>


# Analise Inicial 

# Limpeza dos dados