# Introdução

A modalidade de vendas online já se consolidou em diversos modelos de negócio e continua a crescer a cada dia. Este estudo tem como propósito analisar as vendas realizadas pela empresa Olist, uma das líderes no setor de tecnologia e soluções para vendas online, no período de 2016 a 2018. Através dessa análise, buscamos responder a algumas perguntas fundamentais, tais como:

- Quais estados apresentam o maior número de clientes?
- Em quais estados há uma presença mais expressiva de vendedores ativos?
- Quais estados se destacam em termos de volume de compras?
- Quais clientes são os maiores gastadores?
- Qual é a média de gastos por estado?
- Até que ponto o valor do frete impacta nas decisões de compra?

Para abordar essas questões, é essencial analisar os Dataframes disponíveis, os quais contêm informações sobre clientes, vendedores, avaliações, e outros aspectos que abrangem o ciclo completo, desde a compra até a entrega do produto.

Ao examinar esses Dataframes, identificamos variáveis cruciais para compreender e responder às perguntas mencionadas, e até mesmo para formular novas questões. No entanto, é imperativo verificar cada variável, pois podem existir valores ausentes, tipos incorretos ou informações imprecisas.

In [1]:
import pandas as pd
import suporte.suporte as sp

In [2]:
clientes = pd.read_csv('dados/olist_customers_dataset.csv')
geolocalizacao = pd.read_csv('dados/olist_geolocation_dataset.csv')
itens_por_pedido = pd.read_csv('dados/olist_order_items_dataset.csv')
pagamentos = pd.read_csv('dados/olist_order_payments_dataset.csv')
avaliacao = pd.read_csv('dados/olist_order_reviews_dataset.csv')
pedidos = pd.read_csv('dados/olist_orders_dataset.csv')
produtos = pd.read_csv('dados/olist_products_dataset.csv')
vendedor = pd.read_csv('dados/olist_sellers_dataset.csv')

In [3]:
sp.verificacao_de_valores(clientes)

########## Verificando os valores ##########


coluna CUSTOMER_ID


---------- Valores unicos ----------
Coluna: *customer_id* - >['06b8999e2fba1a1fbc88172c00ba8bc7' '18955e83d337fd6b2def6b18a428ac77'
 '4e7b3e00288586ebd08712fdd0374a03' ... '5e28dfe12db7fb50a4b2f691faecea5e'
 '56b18e2166679b8a959d72dd06da27f9' '274fa6071e5e17fe303b9748641082c8']

---------- Contand os Valores ----------
customer_id contagem -> customer_id
06b8999e2fba1a1fbc88172c00ba8bc7    1
c023f30c1147aeb0358474f3b1dbc707    1
b5cbf43f42281920a175fc99650c91d6    1
19f4e983f8f05b7de16670f8a0cf0ac7    1
229ac14c6ee6d6a606264ebcc861beb7    1
                                   ..
31665bd5bc542687ab54c9fd9ed9917b    1
37fb9cce079a4887c96b59bae2011d05    1
1d815f3ad9b2017b6da2c4f1cbb1180b    1
6b05c8f3a25a71005d5eb9b51766c333    1
274fa6071e5e17fe303b9748641082c8    1
Name: count, Length: 99441, dtype: int64

A coluna customer_id NÃO tem valores vazios


########## Verificando os valores ##########


coluna CUSTOMER_UNIQU

In [4]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


# Analise Inicial 

# Limpeza dos dados