# Aula 3: SQL - Exercícios

### Case Olist

A Olist é uma loja de departamentos que participa dos principais marketplaces do país:  Mercado Livre, Walmart.com, Americanas.com, Submarino, Casas Bahia entre outros. Mais informações podem ser encontradas [aqui](https://blog.olist.com/olist-chega-para-facilitar-a-vida-de-quem-quer-vender-na-internet-e-em-grandes-varejistas/).

![](https://ensinandomaquinasblog.files.wordpress.com/2020/11/f1.png?w=1024)
![](https://i.imgur.com/Jory0O3.png)

Abaixo, segue uma descrição de cada uma das tabelas contidas no arquivo `salesOlist.db` e em qual arquivo as informações se encontram. Também podem ser conferidas as informações sobre cada coluna.
 - **Customers**: guarda a cidade, o CEP e o estado do consumidor. Chave: customer_id.
  - Colunas:
    - **customer_id:** cada pedido possui um único `customer_id`;
    - **customer_unique_id:** identificador único de cada consumidor;
    - **customer_zip_code_prefix:** primeiros 5 dígitos do CEP do consumidor;
    - **customer_city:** cidade onde o consumidor se encontra; 
    - **customer_state:** estado onde o consumidor se encontra.
 - **Geolocation**: guarda informações de cidades tais como o CEP, latitude, longitude, nome e estado;
  - Colunas:
    - **geolocation_zip_code_prefix:** 5 primeiros dígitos do local;
    - **geolocation_lat:** latitude do local;
    - **geolocation_lng:** longitude do local;
    - **geolocation_city:** cidade onde se encontra o local; e
    - **geolocation_state:** estado onde se encontra o local.
 - **OrderItems**: guarda informações sobre quais produtos foram vendidos em cada pedido, seu valor, seu vendedor, preço de venda e preço de frete.
  - Colunas:
    - **order_id:** identificador único dos pedidos;
    - **order_item_id:** identificador sequencial indicando a quantidade de produtos por pedido;
    - **product_id:** identificador único de cada produto;
    - **seller_id:** identificador único de cada vendedor;
    - **price:** preço cobrado por produto; e
    - **freight_value:** preço cobrado por frete.
 - **OrderPayments**: guarda informações sobre o pagamento, parcelas e o valor pago por cada pedido.
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **payment_sequential**;
    - **payment_type:** método escolhido para o pagamento;
    - **payment_installments:** número de parcelas; e
    - **payment_value:** total pago.
 - **OrderReviews**: guarda informações sobre *reviews* do pedido.
  - Colunas:
    - **review_id:** identificador único de cada avaliação;
    - **order_id:** identificador único de cada pedido;
    - **review_score:** nota dada ao pedido;
    - **review_comment_title:** título do comentário;
    - **review_comment_message:** comentário sobre o pedido;
    - **review_creation_date:** data do envio do questionário de satisfação; e
    - **review_answer_timestamp:** data da resposta ao questionário de satisfação .
 - **Orders**: guarda informações sobre o qual o consumidor efetuou a compra, o *status* do pedido, data da compra, datas de entrega (estimada e efetiva)
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **customer_id:**; 
    - **order_status:** chave para a tabela `Customers` (cada pedido tem uma única chave);
    - **order_purchase_timestamp:** *timestamp* para a data do pedido;
    - **order_approved_at:** *timestamp* para a aprovação do pagamento;
    - **order_delivered_carrier_date:** *timestamp* para a data de postagem do pedido;
    - **order_delivered_customer_date:** data da entrega do pedido; e
    - **order_estimated_delivery_date:** data estimada da entrega.
 - **Products**: guarda informações sobre sobre a categoria e tamanho dos produtos vendidos. 
  - Colunas:
    - **product_id:** identificador único de cada pedido;
    - **product_category_name:** nome da categoria do produto;
    - **product_name_lenght:** comprimento do nome do produto;
    - **product_description_lenght:** comprimento da descrição do produto;
    - **product_photos_qty:** quantidade de fotos do produto;
    - **product_weight_g:** massa do produto em gramas;
    - **product_length_cm:** comprimento do produto em cm;
    - **product_height_cm:** altu e
    - product_width_cm.
 - **Sellers**: guarda informações do vendedor, tais como a cidade, estado e o código postal
  - Colunas:
    -**seller_id:** identificador único do vendedor;
    - **seller_zip_code_prefix:** guarda informações dos 4 primeiros dígitos do CEP do vendedor;
    - **seller_city:** cidade do vendedor; e
    - **seller_state:** estado do vendedor.
 - **QualifiedLeads**: informações de *leads* da Olist.
  - Colunas:
    - **mql_id:** identificador único da *lead*;
    - **first_contact_date:** data do primeiro contato;
    - **landing_page_id:** página que adquiriu a *lead*; e 
    - **origin:** tipo da mídia que adquriu a *lead*.
 - **ClosedDeals**: informações de negócios com vendedores 
    - **mql_id:** identificador único da lead;
    - **seller_id:** identificador único do vendedor;
    - **sdr_id:** identificador único do representante de vendas e desenvolvimento;
    - **sr_id:** identificador único do representante de vendas;
    - **won_date:** data do fechamento do contrato;
    - **business_segment:** segmento do *lead*; 
    - **lead_type:** tipo da *lead* (*online*, *offline*, indústria, etc);
    - **lead_behaviour_profile:** 
    - **has_company:**: o *lead* tem uma companhia (documentada)?
    - **has_gtin:** a companhia possi código de barras internacional para seus produtos?
    - **average_stock:** tamanho do estoque declarado;
    - **business_type:** tipo de negócio (revendedor/fabricante/etc);
    - **declared_product_catalog_size:** tamanho do catálogo declarado; e
    - **declared_monthly_revenue:** renda mensal declarada.

In [5]:
!pip install pandas

Collecting pandas
  Downloading pandas-1.3.1-cp39-cp39-win_amd64.whl (10.4 MB)
Collecting numpy>=1.17.3
  Downloading numpy-1.21.1-cp39-cp39-win_amd64.whl (14.0 MB)
Installing collected packages: numpy, pandas
Successfully installed numpy-1.21.1 pandas-1.3.1


In [1]:
import pandas as pd
import sqlite3

In [2]:
con = sqlite3.connect('salesOlist.db')
cursor = con.cursor()
cursor.execute('SELECT name FROM sqlite_master WHERE type="table" ORDER BY name')
cursor.fetchall()

[('ClosedDeals',),
 ('Customers',),
 ('Geolocation',),
 ('OrderItems',),
 ('OrderPayments',),
 ('OrderReviews',),
 ('Orders',),
 ('Products',),
 ('QualifiedLeads',),
 ('Sellers',)]

## Mostre 5 linhas da tabela `Customers`

In [8]:
pd.read_sql(""" 
    SELECT 
    *
    FROM
    Customers
    LIMIT 5
""", con)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


## Mostre 5 linhas da tabela `Geolocation`

In [9]:
pd.read_sql("""
SELECT 
*
FROM
Geolocation
LIMIT 5
""", con)

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP


## Crie uma tabela nova juntando as tabelas `Customers` e `Geolocation`

In [3]:
pd.read_sql("""
SELECT *
FROM 
Customers
LEFT JOIN
Geolocation ON geolocation_zip_code_prefix = customer_zip_code_prefix
LIMIT 5
""", con)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,14409,-20.509897,-47.397866,franca,SP
1,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,14409,-20.497396,-47.399241,franca,SP
2,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,14409,-20.510459,-47.399553,franca,SP
3,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,14409,-20.48094,-47.394161,franca,SP
4,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,14409,-20.515413,-47.398194,franca,SP


## Informe todas as colunas da tabela `Customers` e adicione uma coluna (`region`) com a seguinte regra:

- Se o `customer_state` for SP, MG, RJ ou ES então region será "Sudeste", do contrário será "Outro"

In [28]:
pd.read_sql("""
SELECT 
*
FROM Customers
LIMIT 0""", con).columns

Index(['customer_id', 'customer_unique_id', 'customer_zip_code_prefix',
       'customer_city', 'customer_state', 'region'],
      dtype='object')

In [8]:
con.executescript("""
ALTER TABLE 
Customers
ADD COLUMN region VARCHAR(10)
""")

<sqlite3.Cursor at 0x2a0dfe1ef10>

In [31]:
con.executescript("""
UPDATE 
Customers 
SET 
region = 
    CASE 
        WHEN customer_state IN ('SP', 'MG', 'RJ', 'ES') THEN 
        'Sudeste' 
        ELSE
         'Outro'
    END
""")

<sqlite3.Cursor at 0x2a0df765490>

In [44]:
pd.read_sql("""
SELECT
* 
FROM
Customers
""", con)[["region", "customer_state"]].groupby("region", group_keys=False).customer_state.value_counts()

region   customer_state
Outro    RS                 5466
         PR                 5045
         SC                 3637
         BA                 3380
         DF                 2140
         GO                 2020
         PE                 1652
         CE                 1336
         PA                  975
         MT                  907
         MA                  747
         MS                  715
         PB                  536
         PI                  495
         RN                  485
         AL                  413
         SE                  350
         TO                  280
         RO                  253
         AM                  148
         AC                   81
         AP                   68
         RR                   46
Sudeste  SP                41746
         RJ                12852
         MG                11635
         ES                 2033
Name: customer_state, dtype: int64

## Crie uma tabela contendo as seguintes colunas:

- customer_unique_id
- order_id
- payment_type
- payment_value

In [45]:
con.executescript("""
    CREATE TABLE payments(
        customer_unique_id INT AUTO_INCREMENT PRIMARY KEY,
        order_id INT NOT NULL, 
        payment_type INT NOT NULL,
        payment_value REAL NOT NULL
    )
""")

<sqlite3.Cursor at 0x2a0eba90ab0>

In [47]:
pd.read_sql("""
SELECT
*
FROM 
payments
""", con)

Unnamed: 0,customer_unique_id,order_id,payment_type,payment_value


## Crie uma tabela contendo as seguintes colunas:

- landing_page_id
- origin
- lead_type
- seller_id
- seller_city
- seller_state

In [49]:
con.executescript("""
    CREATE TABLE sellings(
        landing_page_id INT AUTO_INCREMENT PRIMARY KEY,
        origin INT NOT NULL, 
        lead_type INT NOT NULL,
        seller_id INT NOT NULL,
        seller_city INT NOT NULL,
        seller_state INT NOT NULL
    )
""")

<sqlite3.Cursor at 0x2a0e201f650>

In [50]:
pd.read_sql("""
SELECT
*
FROM
sellings 
""", con)

Unnamed: 0,landing_page_id,origin,lead_type,seller_id,seller_city,seller_state
