# Aula 3: SQL - Exercícios

### Case Olist

A Olist é uma loja de departamentos que participa dos principais marketplaces do país:  Mercado Livre, Walmart.com, Americanas.com, Submarino, Casas Bahia entre outros. Mais informações podem ser encontradas [aqui](https://blog.olist.com/olist-chega-para-facilitar-a-vida-de-quem-quer-vender-na-internet-e-em-grandes-varejistas/).

![](https://ensinandomaquinasblog.files.wordpress.com/2020/11/f1.png?w=1024)
![](https://i.imgur.com/Jory0O3.png)

Abaixo, segue uma descrição de cada uma das tabelas contidas no arquivo `salesOlist.db` e em qual arquivo as informações se encontram. Também podem ser conferidas as informações sobre cada coluna.
 - **Customers**: guarda a cidade, o CEP e o estado do consumidor. Chave: customer_id.
  - Colunas:
    - **customer_id:** cada pedido possui um único `customer_id`;
    - **customer_unique_id:** identificador único de cada consumidor;
    - **customer_zip_code_prefix:** primeiros 5 dígitos do CEP do consumidor;
    - **customer_city:** cidade onde o consumidor se encontra; 
    - **customer_state:** estado onde o consumidor se encontra.
 - **Geolocation**: guarda informações de cidades tais como o CEP, latitude, longitude, nome e estado;
  - Colunas:
    - **geolocation_zip_code_prefix:** 5 primeiros dígitos do local;
    - **geolocation_lat:** latitude do local;
    - **geolocation_lng:** longitude do local;
    - **geolocation_city:** cidade onde se encontra o local; e
    - **geolocation_state:** estado onde se encontra o local.
 - **OrderItems**: guarda informações sobre quais produtos foram vendidos em cada pedido, seu valor, seu vendedor, preço de venda e preço de frete.
  - Colunas:
    - **order_id:** identificador único dos pedidos;
    - **order_item_id:** identificador sequencial indicando a quantidade de produtos por pedido;
    - **product_id:** identificador único de cada produto;
    - **seller_id:** identificador único de cada vendedor;
    - **price:** preço cobrado por produto; e
    - **freight_value:** preço cobrado por frete.
 - **OrderPayments**: guarda informações sobre o pagamento, parcelas e o valor pago por cada pedido.
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **payment_sequential**;
    - **payment_type:** método escolhido para o pagamento;
    - **payment_installments:** número de parcelas; e
    - **payment_value:** total pago.
 - **OrderReviews**: guarda informações sobre *reviews* do pedido.
  - Colunas:
    - **review_id:** identificador único de cada avaliação;
    - **order_id:** identificador único de cada pedido;
    - **review_score:** nota dada ao pedido;
    - **review_comment_title:** título do comentário;
    - **review_comment_message:** comentário sobre o pedido;
    - **review_creation_date:** data do envio do questionário de satisfação; e
    - **review_answer_timestamp:** data da resposta ao questionário de satisfação .
 - **Orders**: guarda informações sobre o qual o consumidor efetuou a compra, o *status* do pedido, data da compra, datas de entrega (estimada e efetiva)
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **customer_id:**; 
    - **order_status:** chave para a tabela `Customers` (cada pedido tem uma única chave);
    - **order_purchase_timestamp:** *timestamp* para a data do pedido;
    - **order_approved_at:** *timestamp* para a aprovação do pagamento;
    - **order_delivered_carrier_date:** *timestamp* para a data de postagem do pedido;
    - **order_delivered_customer_date:** data da entrega do pedido; e
    - **order_estimated_delivery_date:** data estimada da entrega.
 - **Products**: guarda informações sobre sobre a categoria e tamanho dos produtos vendidos. 
  - Colunas:
    - **product_id:** identificador único de cada pedido;
    - **product_category_name:** nome da categoria do produto;
    - **product_name_lenght:** comprimento do nome do produto;
    - **product_description_lenght:** comprimento da descrição do produto;
    - **product_photos_qty:** quantidade de fotos do produto;
    - **product_weight_g:** massa do produto em gramas;
    - **product_length_cm:** comprimento do produto em cm;
    - **product_height_cm:** altu e
    - product_width_cm.
 - **Sellers**: guarda informações do vendedor, tais como a cidade, estado e o código postal
  - Colunas:
    -**seller_id:** identificador único do vendedor;
    - **seller_zip_code_prefix:** guarda informações dos 4 primeiros dígitos do CEP do vendedor;
    - **seller_city:** cidade do vendedor; e
    - **seller_state:** estado do vendedor.
 - **QualifiedLeads**: informações de *leads* da Olist.
  - Colunas:
    - **mql_id:** identificador único da *lead*;
    - **first_contact_date:** data do primeiro contato;
    - **landing_page_id:** página que adquiriu a *lead*; e 
    - **origin:** tipo da mídia que adquriu a *lead*.
 - **ClosedDeals**: informações de negócios com vendedores 
    - **mql_id:** identificador único da lead;
    - **seller_id:** identificador único do vendedor;
    - **sdr_id:** identificador único do representante de vendas e desenvolvimento;
    - **sr_id:** identificador único do representante de vendas;
    - **won_date:** data do fechamento do contrato;
    - **business_segment:** segmento do *lead*; 
    - **lead_type:** tipo da *lead* (*online*, *offline*, indústria, etc);
    - **lead_behaviour_profile:** 
    - **has_company:**: o *lead* tem uma companhia (documentada)?
    - **has_gtin:** a companhia possi código de barras internacional para seus produtos?
    - **average_stock:** tamanho do estoque declarado;
    - **business_type:** tipo de negócio (revendedor/fabricante/etc);
    - **declared_product_catalog_size:** tamanho do catálogo declarado; e
    - **declared_monthly_revenue:** renda mensal declarada.

In [4]:
import pandas as pd
import sqlite3

In [10]:
con = sqlite3.connect('salesOlist.db')
cursor = con.cursor()
cursor.execute('SELECT name FROM sqlite_master WHERE type="table" ORDER BY name')
cursor.fetchall()

[('ClosedDeals',),
 ('Customers',),
 ('Geolocation',),
 ('OrderItems',),
 ('OrderPayments',),
 ('OrderReviews',),
 ('Orders',),
 ('Products',),
 ('QualifiedLeads',),
 ('Sellers',)]

## Mostre 5 linhas da tabela `Customers`

In [11]:
query = '''
    SELECT *
    FROM Customers
    LIMIT 5
'''

pd.read_sql(query, con)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


## Mostre 5 linhas da tabela `Geolocation`

In [12]:
query = '''
    SELECT *
    FROM Geolocation
    LIMIT 5
'''

pd.read_sql(query, con)

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP


## Crie uma tabela nova juntando as tabelas `Customers` e `Geolocation`

![](https://www.dofactory.com/img/sql/sql-joins.png)

In [13]:
query = '''
    SELECT *
    FROM Customers AS a
    JOIN Geolocation AS b
    ON a.customer_zip_code_prefix = b.geolocation_zip_code_prefix
    
    LIMIT 5
'''

pd.read_sql(query, con)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,05b005e82f3f2dcc41b5504f00484e50,3ef8c1513fc80fb905ccd8d57da5e9b8,1037,sao paulo,SP,1037,-23.545621,-46.639292,sao paulo,SP
1,19ee522d0dd140702062bb89e4820e19,8e7b6c489f1fe794c0ca58c80868a24b,1037,sao paulo,SP,1037,-23.545621,-46.639292,sao paulo,SP
2,6519f59a7687a4661f7c8a7e24f28f94,324ce23e08a1768007118a11836ea7d3,1037,sao paulo,SP,1037,-23.545621,-46.639292,sao paulo,SP
3,0c65144301b9eb1274a016aedd1248cb,0894227c11f8b1ac819ff943c6c0a612,1046,sao paulo,SP,1046,-23.546081,-46.64482,sao paulo,SP
4,149fa0076bccc504ba9a6464a9ad7906,588d9c533b57582a00dce71dbda73fc3,1046,sao paulo,SP,1046,-23.546081,-46.64482,sao paulo,SP


## Informe todas as colunas da tabela `Customers` e adicione uma coluna (`region`) com a seguinte regra:

- Se o `customer_state` for SP, MG, RJ ou ES então region será "Sudeste", do contrário será "Outro"

In [16]:
query = '''
    SELECT *,
            CASE WHEN customer_state IN ('SP', 'MG', 'RJ', 'ES') 
                THEN 'Sudeste'
                ELSE 'Outro'
            END AS region
                
    FROM Customers
'''

df = pd.read_sql(query, con)

In [19]:
df['customer_state'].value_counts()

SP    41746
RJ    12852
MG    11635
RS     5466
PR     5045
SC     3637
BA     3380
DF     2140
ES     2033
GO     2020
PE     1652
CE     1336
PA      975
MT      907
MA      747
MS      715
PB      536
PI      495
RN      485
AL      413
SE      350
TO      280
RO      253
AM      148
AC       81
AP       68
RR       46
Name: customer_state, dtype: int64

In [18]:
pd.crosstab(df['customer_state'], df['region'])

region,Outro,Sudeste
customer_state,Unnamed: 1_level_1,Unnamed: 2_level_1
AC,81,0
AL,413,0
AM,148,0
AP,68,0
BA,3380,0
CE,1336,0
DF,2140,0
ES,0,2033
GO,2020,0
MA,747,0


## Crie uma tabela contendo as seguintes colunas:

- customer_unique_id
- order_id
- payment_type
- payment_value

In [23]:
query = '''
    SELECT a.customer_unique_id
            ,b.order_id
            ,c.payment_type
            ,c.payment_value
            
    FROM Customers AS a
    JOIN Orders AS b
        ON a.customer_id = b.customer_id
    JOIN OrderPayments AS c
        ON b.order_id = b.order_id
    
    LIMIT 5
'''
pd.read_sql(query, con)

Unnamed: 0,customer_unique_id,order_id,payment_type,payment_value
0,7c396fd4830fd04220f754e42b4e5bff,e481f51cbdc54678b7cc49136f2d6af7,credit_card,99.33
1,7c396fd4830fd04220f754e42b4e5bff,e481f51cbdc54678b7cc49136f2d6af7,credit_card,24.39
2,7c396fd4830fd04220f754e42b4e5bff,e481f51cbdc54678b7cc49136f2d6af7,credit_card,65.71
3,7c396fd4830fd04220f754e42b4e5bff,e481f51cbdc54678b7cc49136f2d6af7,credit_card,107.78
4,7c396fd4830fd04220f754e42b4e5bff,e481f51cbdc54678b7cc49136f2d6af7,credit_card,128.45


## Crie uma tabela contendo as seguintes colunas:

- landing_page_id
- origin
- lead_type
- seller_id
- seller_city
- seller_state

In [30]:
query = '''
    SELECT a.landing_page_id
            ,a.origin
            ,b.lead_type
            ,c.seller_id
            ,c.seller_city
            ,c.seller_state
            
    FROM QualifiedLeads AS a
    JOIN ClosedDeals AS b
        ON a.mql_id = b.mql_id
    JOIN Sellers AS c
        ON b.seller_id = c.seller_id
    
    LIMIT 5
'''
pd.read_sql(query, con)

Unnamed: 0,landing_page_id,origin,lead_type,seller_id,seller_city,seller_state
0,b48ec5f3b04e9068441002a19df93c6c,organic_search,online_medium,2c43fb513632d29b3b58df74816f1b06,belo horizonte,MG
1,1ceb590cd1e00c7ee95220971f82693d,organic_search,online_big,612170e34b97004b3ba37eae81836b4c,novo hamburgo,RS
2,a0fbc0263cb98bdb0d72b9f9f283a172,unknown,industry,ed8cb7b190ceb6067227478e48cf8dde,santos,SP
3,40dec9f3d5259a3d2dbcdab2114fae47,organic_search,online_medium,1c742ac33582852aaf3bcfbf5893abcf,belo horizonte,MG
4,b76ef37428e6799c421989521c0e5077,unknown,offline,44ed138eca6214d572ce1d813fb0049b,canoas,RS


## Extra: Armazene as tabelas isoladamente em variáveis no python e refaça os comandos utilizando pandas

### Crie uma tabela nova juntando as tabelas `Customers` e `Geolocation`

In [47]:
query = 'SELECT COUNT(*) FROM Customers'
pd.read_sql_query(query, con)

Unnamed: 0,COUNT(*)
0,99441


In [48]:
query = 'SELECT COUNT(*) FROM Geolocation'
pd.read_sql_query(query, con)

Unnamed: 0,COUNT(*)
0,1000163


In [51]:
query = 'SELECT * FROM Customers'
df_customers = pd.read_sql_query(query, con)

In [32]:
query = 'SELECT * FROM Geolocation'
df_geolocation = pd.read_sql_query(query, con)

In [46]:
df_customers.shape, df_geolocation.shape

((99441, 5), (1000163, 5))

In [52]:
df_customers.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


In [64]:
texto = 'hello world'

In [65]:
# mostrar o tipo do objeto
type(texto)

str

In [None]:
# mostrar métodos e atributos do objeto
dir(texto)

In [73]:
texto

'hello world'

In [76]:
texto.upper()

'HELLO WORLD'

In [75]:
texto.upper().replace('WORLD', 'GENTE')

'HELLO GENTE'

In [78]:
df_customers.shape

(99441, 5)

In [80]:
df_customers.columns

Index(['customer_id', 'customer_unique_id', 'customer_zip_code_prefix',
       'customer_city', 'customer_state'],
      dtype='object')

In [77]:
df_customers['customer_state'].str.lower().str.replace('sp', 'sampa')

0        sampa
1        sampa
2        sampa
3        sampa
4        sampa
         ...  
99436    sampa
99437    sampa
99438       ce
99439       rs
99440    sampa
Name: customer_state, Length: 99441, dtype: object

In [82]:
df_customers['customer_zip_code_prefix'] = df_customers['customer_zip_code_prefix']\
.astype(str).str.zfill(5)

In [59]:
df_geolocation['geolocation_zip_code_prefix'].head()

0    01037
1    01046
2    01046
3    01041
4    01035
Name: geolocation_zip_code_prefix, dtype: object

In [85]:
df_cust_geo = pd.merge(df_customers, df_geolocation, how='inner',
         left_on='customer_zip_code_prefix',
         right_on='geolocation_zip_code_prefix')

In [86]:
df_cust_geo.shape

(15083455, 10)

- `shift + tab` (dentro do parenteses):  mostra documentação

In [None]:
df_customers.merge(df_geolocation, how='inner',
                   left_on='customer_zip_code_prefix',
                   right_on='geolocation_zip_code_prefix').head()

### Informe todas as colunas da tabela `Customers` e adicione uma coluna (`region`) com a seguinte regra:

- Se o `customer_state` for SP, MG, RJ ou ES então region será "Sudeste", do contrário será "Outro"

In [88]:
import numpy as np

In [89]:
uf_sudeste = ['SP', 'MG', 'RJ', 'ES']

In [91]:
df_customers['region'] = \
    np.where(df_customers['customer_state'].isin(uf_sudeste),
             'Sudeste', 'Outros')

In [92]:
df_customers.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,region
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,Sudeste
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,Sudeste
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,Sudeste
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,Sudeste
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,Sudeste


In [93]:
pd.crosstab(df_customers['customer_state'], df_customers['region'])

region,Outros,Sudeste
customer_state,Unnamed: 1_level_1,Unnamed: 2_level_1
AC,81,0
AL,413,0
AM,148,0
AP,68,0
BA,3380,0
CE,1336,0
DF,2140,0
ES,0,2033
GO,2020,0
MA,747,0
