# Análise de vendas de um e-commerce

por [Lucas Fiorani Diniz](https://www.linkedin.com/in/lcfdiniz/)

## Qualidade de dados

Como uma primeira etapa de análise, será avaliada a qualidade dos dados armazenados. Sendo assim, será verificada a existência de valores nulos, fora dos domínios definidos na etapa de modelagem ou em discordância com as regras de negócio observadas. Também serão verificados os valores mínimo, máximo e médio para as variáveis categóricas e possíveis categorias para as variáveis categóricas.

É esperado que os dados não apresentem problemas de qualidade, visto que estes foram curados e bem tratados antes de serem disponibilizados na plataforma do Kaggle.

### Tabela Vendedor

Essa tabela possui três colunas:

- `seller_id`: identificador único para cada vendedor;
- `seller_city`: cidade onde o vendedor está localizado;
- `seller_state`: unidade federativa onde o vendedor está localizado.

É esperado um número de valores distintos de id igual ao de registros na tabela, e no máximo 27 diferentes estados (contando o Distrito Federal).

In [0]:
select * 
from vendedor
limit 5;

In [0]:
select count(*)
from vendedor;

In [0]:
select *
from vendedor
where seller_id is null or
    seller_city is null or
    seller_state is null;

In [0]:
select count(distinct seller_id) as seller_ids,
    count(distinct seller_city) as seller_cities,
    count(distinct seller_state) as seller_states
from vendedor;

In [0]:
select distinct seller_state as seller_states
from vendedor;

### Tabela Produto

Essa tabela possui seis colunas:

- `product_id`: identificador único para cada registro de produto;
- `product_category`: categoria do produto;
- `product_weight`: peso do produto, em gramas;
- `product_lenght`: comprimento do produto, em centímetros;
- `product_height`: altura do produto, em centímetros;
- `product_width`: largura do produto, em centímetros.

É esperado que exista um id para cada registro na tabela. Também é esperado que as medidas de peso, comprimento, altura e largura sejam positivas.

In [0]:
select * 
from produto
limit 5;

In [0]:
select count(*)
from produto;

In [0]:
select *
from produto
where product_id is null or
    product_category is null or
    product_weight is null or
    product_length is null or
    product_height is null or
    product_width is null;

Nesse caso, encontramos dois produtos com valores nulos para as dimensões físicas. Seriam esses produtos digitais?

In [0]:
select count(distinct product_id) as product_ids,
    count(distinct product_category) as product_categories
from produto;

In [0]:
select max(product_weight) as max_product_weight,
    max(product_length) as max_product_length,
    max(product_height) as max_product_height,
    max(product_width) as max_product_width
from produto;

In [0]:
select min(product_weight) as min_product_weight,
    min(product_length) as min_product_length,
    min(product_height) as min_product_height,
    min(product_width) as min_product_width
from produto;

In [0]:
select avg(product_weight) as avg_product_weight,
    avg(product_length) as avg_product_length,
    avg(product_height) as avg_product_height,
    avg(product_width) as avg_product_width
from produto;

### Tabela Pedido

Essa tabela possui três colunas:

- `order_id`: identificador único do pedido;
- `customer_id`: identificador do cliente que realizou o pedido;
- `order_status`: status do pedido.

É esperado que exista um único id para cada registro da tabela.

In [0]:
select * 
from pedido
limit 5;

In [0]:
select count(*)
from pedido;

In [0]:
select *
from pedido
where order_id is null or
    customer_id is null or
    order_status is null;

In [0]:
select count(distinct order_id) as order_ids,
    count(distinct customer_id) as customer_ids,
    count(distinct order_status) as order_statuses
from pedido;

In [0]:
select distinct order_status as order_statuses
from pedido;

### Tabela Cliente

Essa tabela possui três colunas:

- `customer_id`: identificador único para cada cliente;
- `customer_city`: cidade onde o cliente está localizado;
- `customer_state`: unidade federativa onde o cliente está localizado.

É esperado um número de valores distintos de id igual ao de registros na tabela, e no máximo 27 diferentes estados (contando o Distrito Federal).

In [0]:
select * 
from cliente
limit 5;

In [0]:
select count(*)
from cliente;

In [0]:
select *
from cliente
where customer_id is null or
    customer_city is null or
    customer_state is null;

In [0]:
select count(distinct customer_id) as customer_ids,
    count(distinct customer_city) as customer_cities,
    count(distinct customer_state) as customer_states
from cliente;

In [0]:
select distinct customer_state as customer_states
from cliente;

### Tabela Review

Essa tabela possui três colunas:

- `review_id`: identificador único do review;
- `order_id`: pedido ao qual o review se refere;
- `review_score`: nota dada para o pedido no review.

É esperado um id para cada registro da tabela e um valor de score entre 1 e 5.

In [0]:
select * 
from review
limit 5;

In [0]:
select count(*)
from review;

In [0]:
select *
from review
where review_id is null or
    order_id is null or
    review_score is null;

In [0]:
select count(distinct review_id) as review_ids,
    count(distinct order_id) as order_ids,
    count(distinct review_score) as review_scores
from review;

In [0]:
select max(review_score) as max_review_score,
    min(review_score) as min_review_score,
    avg(review_score) as avg_review_score
from review;

### Tabela Pagamento

Essa tabela possui seis colunas:

- `payment_id`: identificador único do pagamento;
- `order_id`: pedido associado ao pagamento;
- `payment_sequential`: número do pagamento dentro do pedido;
- `payment_type`: forma de pagamento;
- `payment_installments`: número de parcelas do pagamento;
- `payment_value`: valor do pagamento.

É esperado um id para cada registro da tabela, um número de parcelas igual ou maior que 1 e um valor de pagamento positivo.

In [0]:
select * 
from pagamento
limit 5;

In [0]:
select count(*)
from pagamento;

In [0]:
select *
from pagamento
where payment_id is null or
    order_id is null or
    payment_sequential is null or
    payment_type is null or
    payment_installments is null or
    payment_value_float is null;

In [0]:
select count(distinct payment_id) as payment_ids,
    count(distinct order_id) as order_ids,
    count(distinct payment_type) as payment_types
from pagamento;

In [0]:
select distinct payment_type as payment_types
from pagamento;

In [0]:
select max(payment_sequential) as max_payment_sequential,
    max(payment_installments) as max_payment_installments,
    max(payment_value_float) as max_payment_value
from pagamento;

In [0]:
select min(payment_sequential) as min_payment_sequential,
    min(payment_installments) as min_payment_installments,
    min(payment_value_float) as min_payment_value
from pagamento;

Um pagamento igual a 0 U.M. é um tanto quanto estranho. Podemos investigar em quais registros isso ocorre:

In [0]:
select *
from pagamento
where payment_value_float = 0

Aqui percebemos que isso ocorre nos pagamentos com vouchers, que provavelmente se originam de campanhas ou promoções.

In [0]:
select avg(payment_sequential) as avg_payment_sequential,
    avg(payment_installments) as avg_payment_installments,
    avg(payment_value_float) as avg_payment_value
from pagamento;

### Tabela Tempo

Essa tabela possui sete atributos:

- `time_id`: identificador único do registro de tempo;
- `order_id`: pedido associado a esse tempo de compra;
- `time_day`: dia do mês de realização do pedido;
- `time_month`: mês de realização do pedido;
- `time_year`: ano de realização do pedido;
- `time_hour`: hora do dia na qual o pedido foi realizado;
- `time_minute`: minuto em que o pedido foi realizado.

É esperado um id único para cada registro da tabela, o dia limitado entre 1 e 31, o mês limitado entre 1 e 12, o ano entre 2016 e 2018, a hora entre 0 e 23 e o minuto entre 0 e 59.

In [0]:
select * 
from tempo
limit 5;

In [0]:
select count(*)
from tempo;

In [0]:
select *
from tempo
where time_id is null or
    order_id is null or
    time_day is null or
    time_month is null or
    time_year is null or
    time_hour is null or
    time_minute is null;

In [0]:
select count(distinct time_id) as time_ids,
    count(distinct order_id) as order_ids
from tempo;

In [0]:
select max(time_day) as max_time_day,
    max(time_month) as max_time_month,
    max(time_year) as max_time_year,
    max(time_hour) as max_time_hour,
    max(time_minute) as max_time_minute
from tempo;

In [0]:
select min(time_day) as min_time_day,
    min(time_month) as min_time_month,
    min(time_year) as min_time_year,
    min(time_hour) as min_time_hour,
    min(time_minute) as min_time_minute
from tempo;

In [0]:
select avg(time_day) as avg_time_day,
    avg(time_month) as avg_time_month,
    avg(time_year) as avg_time_year,
    avg(time_hour) as avg_time_hour,
    avg(time_minute) as avg_time_minute
from tempo;

### Tabela Venda

Essa tabela possui seis colunas:

- `order_id`: número do pedido associado à venda;
- `product_id`: número do produto associado à venda;
- `seller_id`: número do vendedor associado à venda;
- `quantity`: quantidade de items vendida;
- `price`: preço total da venda;
- `freight_value`: preço total de frete.

É esperado que a quantidade, preço e valor de frete sejam positivos.

In [0]:
select * 
from venda
limit 5;

In [0]:
select count(*)
from venda;

In [0]:
select *
from venda
where order_id is null or
    product_id is null or
    seller_id is null or
    quantity is null or
    price is null or
    freight_value is null;

In [0]:
select max(quantity) as max_quantity,
    max(price) as max_price,
    max(freight_value) as max_freight_value
from venda;

In [0]:
select min(quantity) as min_quantity,
    min(price) as min_price,
    min(freight_value) as min_freight_value
from venda;

In [0]:
select avg(quantity) as avg_quantity,
    avg(price) as avg_price,
    avg(freight_value) as avg_freight_value
from venda;