# Introdução

A modalidade de vendas online já se consolidou em diversos modelos de negócio e continua a crescer a cada dia. Este estudo tem como propósito analisar as vendas realizadas pela empresa Olist, uma das líderes no setor de tecnologia e soluções para vendas online, no período de 2016 a 2018. Através dessa análise, buscamos responder a algumas perguntas fundamentais, tais como:

- Quais estados apresentam o maior número de clientes?
- Em quais estados há uma presença mais expressiva de vendedores ativos?
- Quais estados se destacam em termos de volume de compras?
- Quais clientes são os maiores gastadores?
- Qual é a média de gastos por estado?
- Até que ponto o valor do frete impacta nas decisões de compra?

Para abordar essas questões, é essencial analisar os Dataframes disponíveis, os quais contêm informações sobre clientes, vendedores, avaliações, e outros aspectos que abrangem o ciclo completo, desde a compra até a entrega do produto.

Ao examinar esses Dataframes, identificamos variáveis cruciais para compreender e responder às perguntas mencionadas, e até mesmo para formular novas questões. No entanto, é imperativo verificar cada variável, pois podem existir valores ausentes, tipos incorretos ou informações imprecisas.

In [19]:
import pandas as pd

In [32]:
clientes = pd.read_csv('dados/olist_customers_dataset.csv')
geolocalizacao = pd.read_csv('dados/olist_geolocation_dataset.csv')
itens_por_pedido = pd.read_csv('dados/olist_order_items_dataset.csv')
pagamentos = pd.read_csv('dados/olist_order_payments_dataset.csv')
avaliacao = pd.read_csv('dados/olist_order_reviews_dataset.csv')
pedidos = pd.read_csv('dados/olist_orders_dataset.csv')
produtos = pd.read_csv('dados/olist_products_dataset.csv')
vendedor = pd.read_csv('dados/olist_sellers_dataset.csv')

In [33]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


In [38]:
def verificacao_valores_unicos(df):
    print('Verificando os valores')
    for coluna_v in df.columns:
        print(f'Coluna: *{coluna_v}* - >{df[coluna_v].unique()}\n')

    print('Contando os Valores')
    for coluna_c in df.columns:
        print(f'{coluna_c} contagem: {df[coluna_c].value_counts()}')

Coluna: *customer_id* - >['06b8999e2fba1a1fbc88172c00ba8bc7' '18955e83d337fd6b2def6b18a428ac77'
 '4e7b3e00288586ebd08712fdd0374a03' ... '5e28dfe12db7fb50a4b2f691faecea5e'
 '56b18e2166679b8a959d72dd06da27f9' '274fa6071e5e17fe303b9748641082c8']

Coluna: *customer_unique_id* - >['861eff4711a542e4b93843c6dd7febb0' '290c77bc529b7ac935b93aa66c333dc3'
 '060e732b5b29e8181a18229c7b0b2b5e' ... 'e9f50caf99f032f0bf3c55141f019d99'
 '73c2643a0a458b49f58cea58833b192e' '84732c5050c01db9b23e19ba39899398']

Coluna: *customer_zip_code_prefix* - >[14409  9790  1151 ...  5538 74980 99043]

Coluna: *customer_city* - >['franca' 'sao bernardo do campo' 'sao paulo' ... 'monte bonito'
 'sao rafael' 'eugenio de castro']

Coluna: *customer_state* - >['SP' 'SC' 'MG' 'PR' 'RJ' 'RS' 'PA' 'GO' 'ES' 'BA' 'MA' 'MS' 'CE' 'DF'
 'RN' 'PE' 'MT' 'AM' 'AP' 'AL' 'RO' 'PB' 'TO' 'PI' 'AC' 'SE' 'RR']



# Analise Inicial 

# Limpeza dos dados