# Aula 4: SQL - Exercícios

### Case Olist

A Olist é uma loja de departamentos que participa dos principais marketplaces do país:  Mercado Livre, Walmart.com, Americanas.com, Submarino, Casas Bahia entre outros. Mais informações podem ser encontradas [aqui](https://blog.olist.com/olist-chega-para-facilitar-a-vida-de-quem-quer-vender-na-internet-e-em-grandes-varejistas/).

![](https://ensinandomaquinasblog.files.wordpress.com/2020/11/f1.png?w=1024)
![](https://i.imgur.com/Jory0O3.png)

Abaixo, segue uma descrição de cada uma das tabelas contidas no arquivo `salesOlist.db` e em qual arquivo as informações se encontram. Também podem ser conferidas as informações sobre cada coluna.
 - **Customers**: guarda a cidade, o CEP e o estado do consumidor. Chave: customer_id.
  - Colunas:
    - **customer_id:** cada pedido possui um único `customer_id`;
    - **customer_unique_id:** identificador único de cada consumidor;
    - **customer_zip_code_prefix:** primeiros 5 dígitos do CEP do consumidor;
    - **customer_city:** cidade onde o consumidor se encontra; 
    - **customer_state:** estado onde o consumidor se encontra.
 - **Geolocation**: guarda informações de cidades tais como o CEP, latitude, longitude, nome e estado;
  - Colunas:
    - **geolocation_zip_code_prefix:** 5 primeiros dígitos do local;
    - **geolocation_lat:** latitude do local;
    - **geolocation_lng:** longitude do local;
    - **geolocation_city:** cidade onde se encontra o local; e
    - **geolocation_state:** estado onde se encontra o local.
 - **OrderItems**: guarda informações sobre quais produtos foram vendidos em cada pedido, seu valor, seu vendedor, preço de venda e preço de frete.
  - Colunas:
    - **order_id:** identificador único dos pedidos;
    - **order_item_id:** identificador sequencial indicando a quantidade de produtos por pedido;
    - **product_id:** identificador único de cada produto;
    - **seller_id:** identificador único de cada vendedor;
    - **price:** preço cobrado por produto; e
    - **freight_value:** preço cobrado por frete.
 - **OrderPayments**: guarda informações sobre o pagamento, parcelas e o valor pago por cada pedido.
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **payment_sequential**;
    - **payment_type:** método escolhido para o pagamento;
    - **payment_installments:** número de parcelas; e
    - **payment_value:** total pago.
 - **OrderReviews**: guarda informações sobre *reviews* do pedido.
  - Colunas:
    - **review_id:** identificador único de cada avaliação;
    - **order_id:** identificador único de cada pedido;
    - **review_score:** nota dada ao pedido;
    - **review_comment_title:** título do comentário;
    - **review_comment_message:** comentário sobre o pedido;
    - **review_creation_date:** data do envio do questionário de satisfação; e
    - **review_answer_timestamp:** data da resposta ao questionário de satisfação .
 - **Orders**: guarda informações sobre o qual o consumidor efetuou a compra, o *status* do pedido, data da compra, datas de entrega (estimada e efetiva)
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **customer_id:**; 
    - **order_status:** chave para a tabela `Customers` (cada pedido tem uma única chave);
    - **order_purchase_timestamp:** *timestamp* para a data do pedido;
    - **order_approved_at:** *timestamp* para a aprovação do pagamento;
    - **order_delivered_carrier_date:** *timestamp* para a data de postagem do pedido;
    - **order_delivered_customer_date:** data da entrega do pedido; e
    - **order_estimated_delivery_date:** data estimada da entrega.
 - **Products**: guarda informações sobre sobre a categoria e tamanho dos produtos vendidos. 
  - Colunas:
    - **product_id:** identificador único de cada pedido;
    - **product_category_name:** nome da categoria do produto;
    - **product_name_lenght:** comprimento do nome do produto;
    - **product_description_lenght:** comprimento da descrição do produto;
    - **product_photos_qty:** quantidade de fotos do produto;
    - **product_weight_g:** massa do produto em gramas;
    - **product_length_cm:** comprimento do produto em cm;
    - **product_height_cm:** altu e
    - product_width_cm.
 - **Sellers**: guarda informações do vendedor, tais como a cidade, estado e o código postal
  - Colunas:
    -**seller_id:** identificador único do vendedor;
    - **seller_zip_code_prefix:** guarda informações dos 4 primeiros dígitos do CEP do vendedor;
    - **seller_city:** cidade do vendedor; e
    - **seller_state:** estado do vendedor.
 - **QualifiedLeads**: informações de *leads* da Olist.
  - Colunas:
    - **mql_id:** identificador único da *lead*;
    - **first_contact_date:** data do primeiro contato;
    - **landing_page_id:** página que adquiriu a *lead*; e 
    - **origin:** tipo da mídia que adquriu a *lead*.
 - **ClosedDeals**: informações de negócios com vendedores 
    - **mql_id:** identificador único da lead;
    - **seller_id:** identificador único do vendedor;
    - **sdr_id:** identificador único do representante de vendas e desenvolvimento;
    - **sr_id:** identificador único do representante de vendas;
    - **won_date:** data do fechamento do contrato;
    - **business_segment:** segmento do *lead*; 
    - **lead_type:** tipo da *lead* (*online*, *offline*, indústria, etc);
    - **lead_behaviour_profile:** 
    - **has_company:**: o *lead* tem uma companhia (documentada)?
    - **has_gtin:** a companhia possi código de barras internacional para seus produtos?
    - **average_stock:** tamanho do estoque declarado;
    - **business_type:** tipo de negócio (revendedor/fabricante/etc);
    - **declared_product_catalog_size:** tamanho do catálogo declarado; e
    - **declared_monthly_revenue:** renda mensal declarada.

In [2]:
import pandas as pd
import sqlite3

In [3]:
con = sqlite3.connect('salesOlist.db')
cursor = con.cursor()
cursor.execute('SELECT name FROM sqlite_master WHERE type="table" ORDER BY name')
cursor.fetchall()

[('ClosedDeals',),
 ('Customers',),
 ('Geolocation',),
 ('OrderItems',),
 ('OrderPayments',),
 ('OrderReviews',),
 ('Orders',),
 ('Products',),
 ('QualifiedLeads',),
 ('Sellers',)]

## Conte o número de clientes por estado e ordene em ordem decrescente

In [4]:
query = '''
    SELECT customer_state, COUNT(*) AS num_clientes
    FROM Customers
    GROUP BY customer_state 
    ORDER BY num_clientes DESC
'''

df = pd.read_sql_query(query, con)

## Conte quantas cidades existem em cada estado da região sul usando a tabela `geolocation`

In [8]:
query = '''
    SELECT geolocation_state, COUNT(DISTINCT geolocation_city) AS cidades
    FROM Geolocation
    WHERE geolocation_state IN ('SC', 'PR', 'RS')
    GROUP BY geolocation_state
'''

pd.read_sql_query(query, con)

Unnamed: 0,geolocation_state,cidades
0,PR,651
1,RS,691
2,SC,420


## Informe para cada tipo de pagamento o somatório e a média do valor de pagamento

In [14]:
query = '''
    SELECT payment_type, SUM(payment_value), AVG(payment_value)
    FROM OrderPayments 
    GROUP BY payment_type
'''

pd.read_sql_query(query, con)

Unnamed: 0,payment_type,SUM(payment_value),AVG(payment_value)
0,boleto,2869361.0,145.034435
1,credit_card,12542080.0,163.319021
2,debit_card,217989.8,142.57017
3,not_defined,0.0,0.0
4,voucher,379436.9,65.703354


## Conte quantas cidades únicas existem por geolocation_state e ordene do menor ao maior valor

In [4]:
query = '''
    SELECT geolocation_state, COUNT(DISTINCT(geolocation_city))
   FROM Geolocation
   GROUP BY geolocation_state
   ORDER BY COUNT(DISTINCT(geolocation_city))
'''

pd.read_sql_query(query, con)

Unnamed: 0,geolocation_state,COUNT(DISTINCT(geolocation_city))
0,RR,14
1,AP,17
2,DF,28
3,AC,34
4,AM,74
5,RO,83
6,SE,96
7,AL,130
8,MS,133
9,ES,160


## Conte quantos vendedores existem por estado e possuam menos de 50 lojas ordenando do maior estado para o menor

In [5]:
query = '''
    SELECT seller_state, COUNT(seller_id) 
    FROM Sellers
    GROUP BY seller_state
    HAVING COUNT(seller_id) < 50
    ORDER BY COUNT(seller_id) DESC
'''

pd.read_sql_query(query, con)

Unnamed: 0,seller_state,COUNT(seller_id)
0,GO,40
1,DF,30
2,ES,23
3,BA,19
4,CE,13
5,PE,9
6,PB,6
7,RN,5
8,MS,5
9,MT,4


## Veja quais são as categorias mais bem avaliadas pelos clientes

crie uma tabela com a **categoria do produto, a contagem de product_ids e a média de review_score** e ordene a tabela pela média das categorias melhores avaliadas para as piores avaliadas

In [16]:
query = '''
    SELECT d.product_category_name, count(d.product_id), AVG(review_score)
    
    FROM OrderReviews AS a
    LEFT JOIN Orders AS b
        ON a.order_id = b.order_id
    LEFT JOIN OrderItems AS c
        ON a.order_id = c.order_id
    LEFT JOIN Products AS d
        ON c.product_id = d.product_id
               
    GROUP BY d.product_category_name               
    ORDER BY AVG(review_score) DESC
'''
pd.read_sql_query(query, con)

Unnamed: 0,product_category_name,count(d.product_id),AVG(review_score)
0,cds_dvds_musicais,14,4.642857
1,fashion_roupa_infanto_juvenil,8,4.500000
2,livros_interesse_geral,553,4.439421
3,livros_importados,60,4.400000
4,construcao_ferramentas_ferramentas,103,4.359223
...,...,...,...
69,pc_gamer,9,3.333333
70,portateis_cozinha_e_preparadores_de_alimentos,15,3.266667
71,fraldas_higiene,39,3.256410
72,,1612,3.137657
