# Introdução

A modalidade de vendas online já se consolidou em diversos modelos de negócio e continua a crescer a cada dia. Este estudo tem como propósito analisar as vendas realizadas pela empresa Olist, uma das líderes no setor de tecnologia e soluções para vendas online, no período de 2016 a 2018. Através dessa análise, buscamos responder a algumas perguntas fundamentais, tais como:

- Quais estados apresentam o maior número de clientes?
- Em quais estados há uma presença mais expressiva de vendedores ativos?
- Quais estados se destacam em termos de volume de compras?
- Quais clientes são os maiores gastadores?
- Qual é a média de gastos por estado?
- Até que ponto o valor do frete impacta nas decisões de compra?

Para abordar essas questões, é essencial analisar os Dataframes disponíveis, os quais contêm informações sobre clientes, vendedores, avaliações, e outros aspectos que abrangem o ciclo completo, desde a compra até a entrega do produto.

Ao examinar esses Dataframes, identificamos variáveis cruciais para compreender e responder às perguntas mencionadas, e até mesmo para formular novas questões. No entanto, é imperativo verificar cada variável, pois podem existir valores ausentes, tipos incorretos ou informações imprecisas.

In [1]:
import pandas as pd
import suporte.suporte as sp

In [2]:
clientes = pd.read_csv('dados/olist_customers_dataset.csv')
geolocalizacao = pd.read_csv('dados/olist_geolocation_dataset.csv')
itens_por_pedido = pd.read_csv('dados/olist_order_items_dataset.csv')
pagamentos = pd.read_csv('dados/olist_order_payments_dataset.csv')
avaliacao = pd.read_csv('dados/olist_order_reviews_dataset.csv')
pedidos = pd.read_csv('dados/olist_orders_dataset.csv')
produtos = pd.read_csv('dados/olist_products_dataset.csv')
vendedor = pd.read_csv('dados/olist_sellers_dataset.csv')

In [3]:
sp.verificacao_de_valores(itens_por_pedido)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


Valores nulos:
order_id -> 0
order_item_id -> 0
product_id -> 0
seller_id -> 0
shipping_limit_date -> 0
price -> 0
freight_value -> 0


########## Verificando os valores ##########


Coluna: ORDER_ID


---------- Valores únicos ----------
['00010242fe8c5a6d1ba2dd792cb16214' '00018f77f2f0320c557190d7a144bdd3'
 '000229ec398224ef6ca0657da4fc703e' ... 'fffce4705a9662cd

## O DataFrame `itens_por_pedido` não possui nenhum valor vazio.
- Os valores da coluna `ORDER_ID` são identificadores de cada compra. Sendo assim pode haver valores repetidos pois em um pedido pode haver mais de um item. <font color='E87F69'>Chave estrangeira para o DataFrame `pagamento` e `avaliacao`.</font>
- Os valores da coluna `ORDER_ITEM_ID` são identificadores de cada compra. Sendo assim pode haver valores repetidos pois em um pedido pode haver mais de um item. <font color='E87F69'>Chave estrangeira para o DataFrame `pagamento`.</font>



## O DataFrame `clientes` não possui nenhum valor vazio.

- Os valores da coluna `CUSTOMER_ID` são únicos, ou seja, estes valores são indentificadores para este DataFrame. Porém acredito que este identificador esteja atrelado a compra feita por cada cliente, por isso não se repente, pois para se repetir tem que ter além da hora e da data, o produto e o valor sendo similares. Chave estrangeira para o DataFrame `pedidos`.
- Os valores da coluna `CUSTOMER_UNIQUE_ID` se repetem, sendo assim não esta coluna não é um indentificador. Acredito que estes valores sejam o real identificador de cada cliente. Não é chave estrangeira.
- Os valores da coluna `CUSTOMER_ZIP_CODE_PREFIX`, representam os 5 primeiros números do código postal do comprador. É normal que se repita. Chave estrangeira para o DataFrame `geolocalizacao`.
- Os valores da coluna `CUSTOMER_CITY`, representa a cidade de cada cliente. Não é chave estrangeira.
- Os valores da coluna `CUSTOMER_STATE`, representa o estado de cada cliente. Não é chave estrangeira.

## O DataFrame `geolocalizacao` não possui valores vazios

- Os valores da coluna `GEOLOCATION_ZIP_CODE_PREFIX` representam os 5 primeiros números do código postal. Sendo assim é normal que se repita. É chave estrangeira tanto para o DataFrame de clientes quanto para o de vendedores.
- Os valores da coluna `GEOLOCATION_LAT` representam a latitude do endereço. Normal que se repita, apesar que se dois endereços possuírem mesma latitude e longitude é por que estes estão se referindo ao mesmo lugar. Não é chave estrangeira.
- Os valores da coluna `GEOLOCATION_LNG` representam a longitude do endereço. Eles possuem uma análise parecida com a latitude. Não é chave estrangeira. 
- Os valores da coluna `GEOLOCATION_CITY` representam as cidades dos vendedores e dos clientes.
- Os valores da coluna `GEOLOCATION_STATE` representam os estados dos vendedores e dos clientes.

# Analise Inicial 

# Limpeza dos dados