# Introdução

A modalidade de vendas online já se consolidou em diversos modelos de negócio e continua a crescer a cada dia. Este estudo tem como propósito analisar as vendas realizadas pela empresa Olist, uma das líderes no setor de tecnologia e soluções para vendas online, no período de 2016 a 2018. Através dessa análise, buscamos responder a algumas perguntas fundamentais, tais como:

- Quais estados apresentam o maior número de clientes?
- Em quais estados há uma presença mais expressiva de vendedores ativos?
- Quais estados se destacam em termos de volume de compras?
- Quais clientes são os maiores gastadores?
- Qual é a média de gastos por estado?
- Até que ponto o valor do frete impacta nas decisões de compra?

Para abordar essas questões, é essencial analisar os Dataframes disponíveis, os quais contêm informações sobre clientes, vendedores, avaliações, e outros aspectos que abrangem o ciclo completo, desde a compra até a entrega do produto.

Ao examinar esses Dataframes, identificamos variáveis cruciais para compreender e responder às perguntas mencionadas, e até mesmo para formular novas questões. No entanto, é imperativo verificar cada variável, pois podem existir valores ausentes, tipos incorretos ou informações imprecisas.

In [1]:
import pandas as pd
import suporte.suporte as sp

In [2]:
clientes = pd.read_csv('dados/olist_customers_dataset.csv')
geolocalizacao = pd.read_csv('dados/olist_geolocation_dataset.csv')
itens_por_pedido = pd.read_csv('dados/olist_order_items_dataset.csv')
pagamentos = pd.read_csv('dados/olist_order_payments_dataset.csv')
avaliacao = pd.read_csv('dados/olist_order_reviews_dataset.csv')
pedidos = pd.read_csv('dados/olist_orders_dataset.csv')
produtos = pd.read_csv('dados/olist_products_dataset.csv')
vendedor = pd.read_csv('dados/olist_sellers_dataset.csv')

In [3]:
sp.verificacao_de_valores(pedidos)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB


Valores nulos:
order_id -> 0
customer_id -> 0
order_status -> 0
order_purchase_timestamp -> 0
order_approved_at -> 160
order_delivered_carrier_date -> 1783
order_delivered_customer_date -> 2965
order_estimated_delivery_date -> 0


########## Verificando os val

## O DataFrame `pedidos` possui alguns <font color = "#C6C633">valores faltantes</font>.

- Os valores da coluna `ORDER_ID` são identificadores para cada pedido. Não há duplicidade.<font color = '#7AF13F'> É chave estrangeira para os DataFrames `pagamentos`, `avaliacao` e `itens_por_pedido`</font>.
- Os valores da coluna `CUSTOMER_ID` são identificadores dos clientes. Não há duplicidade. <font color = '#7AF13F'> É chave estrangeira para o DataFrame `clientes`</font>.
- Os valores da coluna `ORDER_STATUS` representa o estado do pedido. Pode haver duplicidade. <font color = '#7AF13F'> Não é chave estrangeira</font>.
- Os valores da coluna `ORDER_PURCHASE_TIMESTAMP` representa a data e a hora da compra.<font color="#33C6C4"> Verificar se pode haver duplicidade</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.
- Os valores da coluna `ORDER_APPROVED_AT` representa a data e a hora que aprovado o pagamento.<font color="#33C6C4"> Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.<font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados</font>.
- Os valores da coluna `ORDER_DELIVERED_CARRIER_DATE` representa a data e a hora da postagem do pedido. Pode haver duplicidade. <font color="#33C6C4"> Verificar se pode haver valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.<font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados</font>.
- Os valores da coluna `ORDER_DELIVERED_CUSTOMER_DATE` representa a data e a hora da entrega do pedido.<font color="#33C6C4"> Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.<font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados</font>.
- Os valores da coluna `ORDER_ESTIMATED_DELIVERY_DATE` representa a data estimada da entrega do pedido.<font color="#33C6C4"> Verificar se pode haver duplicidade</font>. <font color = '#7AF13F'> Não é chave estrangeira</font>.<font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados</font>.

## O DataFrame `clientes` não possui nenhum valor vazio.

- Os valores da coluna `CUSTOMER_ID` são únicos, ou seja, estes valores são indentificadores para este DataFrame. Porém acredito que este identificador esteja atrelado a compra feita por cada cliente, por isso não se repente, pois para se repetir tem que ter além da hora e da data, o produto e o valor sendo similares.<font color = '#7AF13F'> Chave estrangeira para o DataFrame `pedidos`. </font>
- Os valores da coluna `CUSTOMER_UNIQUE_ID` se repetem, sendo assim não esta coluna não é um indentificador. Acredito que estes valores sejam o real identificador de cada cliente.<font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `CUSTOMER_ZIP_CODE_PREFIX`, representam os 5 primeiros números do código postal do comprador. É normal que se repita.<font color = '#7AF13F'> Chave estrangeira para o DataFrame `geolocalizacao`.</font>
- Os valores da coluna `CUSTOMER_CITY`, representa a cidade de cada cliente.<font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `CUSTOMER_STATE`, representa o estado de cada cliente.<font color = '#7AF13F'> Não é chave estrangeira.</font>

## O DataFrame `geolocalizacao` não possui valores vazios

- Os valores da coluna `GEOLOCATION_ZIP_CODE_PREFIX` representam os 5 primeiros números do código postal. Sendo assim é normal que se repita.<font color = '#7AF13F'> É chave estrangeira tanto para o DataFrame de clientes quanto para o de vendedores.</font>
- Os valores da coluna `GEOLOCATION_LAT` representam a latitude do endereço. Normal que se repita, apesar que se dois endereços possuírem mesma latitude e longitude é por que estes estão se referindo ao mesmo lugar.<font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `GEOLOCATION_LNG` representam a longitude do endereço. Eles possuem uma análise parecida com a latitude.<font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `GEOLOCATION_CITY` representam as cidades dos vendedores e dos clientes.<font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `GEOLOCATION_STATE` representam os estados dos vendedores e dos clientes.<font color = '#7AF13F'> Não é chave estrangeira.</font>

## O DataFrame `itens_por_pedido` não possui nenhum valor vazio.
- Os valores da coluna `ORDER_ID` são identificadores exclusivo para cada pedidos. Sendo assim pode haver valores repetidos pois em um pedido pode haver mais de um item. <font color='#7AF13F'>É chave estrangeira para o DataFrame `pedidos`.</font>
- Os valores da coluna `ORDER_ITEM_ID` representam a quantidade de itens em um mesmo pedido. Neste caso pode possuir valores similares.<font color='#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `PRODUCT_ID` são identificadores dos produtos. Pode possuir valores repetidos, afinal um mesmo produto pode ser vendido para várias pessoas. <font color='#7AF13F'> É chave estrangeira para o DataFrame `produtos`.</font>
- Os valores da coluna `SELLER_ID` são identificadores dos vendedores. Como um mesmo vendedor pode fazer mais de uma venda é normal que esse código se repita. <font color='#7AF13F'> É chave estrangeira para o DataFrame `vendedor`.</font>
- Os valores da coluna `SHIPPING_LIMIT_DATE` são as datas limites para que o vendedor envie o produto. Também é normal haver datas repetidas.<font color='#7AF13F'> Não é chave estrangeira.</font><font color = '#E87F69'> Os valores desta coluna deveriam está no formato data, pois isso facilitará na hora de fazer o estudo temporal dos dados.</font>
- Os valores da coluna `PRICE` são os valores a serem pagos por cada produto. Também é normal haver datas repetidas.<font color='#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `FREIGHT_VALUE` são os valores a serem pagos pelo frente. Se o pedido tiver mais de um produto o valor e divido por todos os produtos. Também é normal haver datas repetidas.<font color='#7AF13F'> Não é chave estrangeira.</font>

## O DataFrame `pagamentos` não possui nenhum valor vazio.

- Os valores da coluna `ORDER_ID` são únicos para cada pedido. Como um pedido pode conter mais de um item é normal que haja valores repetidos. <font color = '#7AF13F'> Chave estrangeira para o DataFrame `pedidos`. </font>
- Os valores da coluna `PAYMENT_SEQUENTIAL` representam a quantidade de métodos de pagamento para cada pedido. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `PAYMENT_TYPE` representam a forma de pagamento escolhida pelo cliente. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `PAYMENT_INSTALLMENTS` representam a quantidade de parcelas escolhida pelo cliente. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `PAYMENT_VALUE` representam o valor pago pelo cliente. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>
- Os valores da coluna `PAYMENT_VALUE` representam o valor pago pelo cliente. É normal encontrarmos valores repetidos. <font color = '#7AF13F'> Não é chave estrangeira. </font>

## O DataFrame `avaliacao` possui alguns <font color = "#C6C633">valores faltantes</font>.

- Os valores da coluna `REVIEW_ID` são identificadores para cada avaliação. <font color="#33C6C4">Verificar se pode haver duplicidade</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `ORDER_ID` são identificadores para cada pedido. <font color="#33C6C4">Verificar se pode haver duplicidade</font>. <font color = '#7AF13F'> É chave estrangeira para o DataFrame `pedidos`.</font>
- Os valores da coluna `REVIEW_SCORE` representa a pontuação da avaliação. Pode haver duplicidade pois, as notas são de 1 a 5.<font color="#33C6C4"> Verificar se pode haver valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `REVIEW_COMMENT_TITLE` representa o título de cada avaliação. Pode haver duplicidade.<font color="#33C6C4">Verificar se pode haver valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `REVIEW_COMMENT_MESSAGE` representa a avaliação escrita pelo cliente sobre a compra.<font color="#33C6C4">Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `REVIEW_CREATION_DATE` representa a data em que foi escrita a avaliação.<font color="#33C6C4">Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>
- Os valores da coluna `REVIEW_ANSWER_TIMESTAMP` representa a data  e a hora em que foi escrita a avaliação.<font color="#33C6C4">Verificar se pode haver duplicidade ou valores faltantes</font>. <font color = '#7AF13F'> Não é chave estrangeira.</font>


# Analise Inicial 

# Limpeza dos dados