# Aula 4: SQL - Exercícios

### Case Olist

A Olist é uma loja de departamentos que participa dos principais marketplaces do país:  Mercado Livre, Walmart.com, Americanas.com, Submarino, Casas Bahia entre outros. Mais informações podem ser encontradas [aqui](https://blog.olist.com/olist-chega-para-facilitar-a-vida-de-quem-quer-vender-na-internet-e-em-grandes-varejistas/).

![](https://ensinandomaquinasblog.files.wordpress.com/2020/11/f1.png?w=1024)
![](https://i.imgur.com/Jory0O3.png)

Abaixo, segue uma descrição de cada uma das tabelas contidas no arquivo `salesOlist.db` e em qual arquivo as informações se encontram. Também podem ser conferidas as informações sobre cada coluna.
 - **Customers**: guarda a cidade, o CEP e o estado do consumidor. Chave: customer_id.
  - Colunas:
    - **customer_id:** cada pedido possui um único `customer_id`;
    - **customer_unique_id:** identificador único de cada consumidor;
    - **customer_zip_code_prefix:** primeiros 5 dígitos do CEP do consumidor;
    - **customer_city:** cidade onde o consumidor se encontra; 
    - **customer_state:** estado onde o consumidor se encontra.
 - **Geolocation**: guarda informações de cidades tais como o CEP, latitude, longitude, nome e estado;
  - Colunas:
    - **geolocation_zip_code_prefix:** 5 primeiros dígitos do local;
    - **geolocation_lat:** latitude do local;
    - **geolocation_lng:** longitude do local;
    - **geolocation_city:** cidade onde se encontra o local; e
    - **geolocation_state:** estado onde se encontra o local.
 - **OrderItems**: guarda informações sobre quais produtos foram vendidos em cada pedido, seu valor, seu vendedor, preço de venda e preço de frete.
  - Colunas:
    - **order_id:** identificador único dos pedidos;
    - **order_item_id:** identificador sequencial indicando a quantidade de produtos por pedido;
    - **product_id:** identificador único de cada produto;
    - **seller_id:** identificador único de cada vendedor;
    - **price:** preço cobrado por produto; e
    - **freight_value:** preço cobrado por frete.
 - **OrderPayments**: guarda informações sobre o pagamento, parcelas e o valor pago por cada pedido.
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **payment_sequential**;
    - **payment_type:** método escolhido para o pagamento;
    - **payment_installments:** número de parcelas; e
    - **payment_value:** total pago.
 - **OrderReviews**: guarda informações sobre *reviews* do pedido.
  - Colunas:
    - **review_id:** identificador único de cada avaliação;
    - **order_id:** identificador único de cada pedido;
    - **review_score:** nota dada ao pedido;
    - **review_comment_title:** título do comentário;
    - **review_comment_message:** comentário sobre o pedido;
    - **review_creation_date:** data do envio do questionário de satisfação; e
    - **review_answer_timestamp:** data da resposta ao questionário de satisfação .
 - **Orders**: guarda informações sobre o qual o consumidor efetuou a compra, o *status* do pedido, data da compra, datas de entrega (estimada e efetiva)
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **customer_id:**; 
    - **order_status:** chave para a tabela `Customers` (cada pedido tem uma única chave);
    - **order_purchase_timestamp:** *timestamp* para a data do pedido;
    - **order_approved_at:** *timestamp* para a aprovação do pagamento;
    - **order_delivered_carrier_date:** *timestamp* para a data de postagem do pedido;
    - **order_delivered_customer_date:** data da entrega do pedido; e
    - **order_estimated_delivery_date:** data estimada da entrega.
 - **Products**: guarda informações sobre sobre a categoria e tamanho dos produtos vendidos. 
  - Colunas:
    - **product_id:** identificador único de cada pedido;
    - **product_category_name:** nome da categoria do produto;
    - **product_name_lenght:** comprimento do nome do produto;
    - **product_description_lenght:** comprimento da descrição do produto;
    - **product_photos_qty:** quantidade de fotos do produto;
    - **product_weight_g:** massa do produto em gramas;
    - **product_length_cm:** comprimento do produto em cm;
    - **product_height_cm:** altu e
    - product_width_cm.
 - **Sellers**: guarda informações do vendedor, tais como a cidade, estado e o código postal
  - Colunas:
    -**seller_id:** identificador único do vendedor;
    - **seller_zip_code_prefix:** guarda informações dos 4 primeiros dígitos do CEP do vendedor;
    - **seller_city:** cidade do vendedor; e
    - **seller_state:** estado do vendedor.
 - **QualifiedLeads**: informações de *leads* da Olist.
  - Colunas:
    - **mql_id:** identificador único da *lead*;
    - **first_contact_date:** data do primeiro contato;
    - **landing_page_id:** página que adquiriu a *lead*; e 
    - **origin:** tipo da mídia que adquriu a *lead*.
 - **ClosedDeals**: informações de negócios com vendedores 
    - **mql_id:** identificador único da lead;
    - **seller_id:** identificador único do vendedor;
    - **sdr_id:** identificador único do representante de vendas e desenvolvimento;
    - **sr_id:** identificador único do representante de vendas;
    - **won_date:** data do fechamento do contrato;
    - **business_segment:** segmento do *lead*; 
    - **lead_type:** tipo da *lead* (*online*, *offline*, indústria, etc);
    - **lead_behaviour_profile:** 
    - **has_company:**: o *lead* tem uma companhia (documentada)?
    - **has_gtin:** a companhia possi código de barras internacional para seus produtos?
    - **average_stock:** tamanho do estoque declarado;
    - **business_type:** tipo de negócio (revendedor/fabricante/etc);
    - **declared_product_catalog_size:** tamanho do catálogo declarado; e
    - **declared_monthly_revenue:** renda mensal declarada.

In [1]:
import pandas as pd
import sqlite3

In [2]:
con = sqlite3.connect('salesOlist.db')
cursor = con.cursor()
cursor.execute('SELECT name FROM sqlite_master WHERE type="table" ORDER BY name')
cursor.fetchall()

[('ClosedDeals',),
 ('Customers',),
 ('Geolocation',),
 ('OrderItems',),
 ('OrderPayments',),
 ('OrderReviews',),
 ('Orders',),
 ('Products',),
 ('QualifiedLeads',),
 ('Sellers',)]

## Conte o número de clientes por estado e ordene em ordem decrescente

In [13]:
query = '''
SELECT customer_state, COUNT(customer_unique_id) as qtd_clientes
FROM Customers
GROUP BY customer_state
ORDER BY qtd_clientes DESC
'''
# query = '''
# SELECT DISTINCT customer_state
# FROM Customers
# '''
pd.read_sql_query(query, con)

Unnamed: 0,customer_state,qtd_clientes
0,SP,41746
1,RJ,12852
2,MG,11635
3,RS,5466
4,PR,5045
5,SC,3637
6,BA,3380
7,DF,2140
8,ES,2033
9,GO,2020


## Conte quantas cidades existem em cada estado da região sul usando a tabela `geolocation`

In [24]:
query = '''
SELECT geolocation_state, COUNT(DISTINCT geolocation_city) as qtd_cidades
FROM Geolocation
WHERE geolocation_state IN("RS","SC","PR")
GROUP BY geolocation_state
'''

pd.read_sql_query(query, con)

Unnamed: 0,geolocation_state,qtd_cidades
0,PR,651
1,RS,691
2,SC,420


In [25]:
# Tratando os dados de cidades
query = '''
SELECT *
FROM Geolocation
WHERE geolocation_state IN("RS","SC","PR")
'''

df = pd.read_sql_query(query, con)

In [32]:
df[df['geolocation_city'].str.contains('city')]

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
56346,87660,-22.938255,-52.156524,paranacity,PR
56350,87660,-22.928823,-52.154654,paranacity,PR
56353,87660,-22.923669,-52.153376,paranacity,PR
56356,87660,-22.927287,-52.157753,paranacity,PR
56371,87660,-22.934924,-52.152023,paranacity,PR
56374,87660,-22.938255,-52.156524,paranacity,PR
56375,87660,-22.933028,-52.144724,paranacity,PR
56387,87660,-22.930796,-52.158842,paranacity,PR
56391,87660,-22.931764,-52.162555,paranacity,PR
56395,87660,-22.931779,-52.153774,paranacity,PR


## Informe para cada tipo de pagamento o somatório e a média do valor de pagamento

In [16]:
# OrderPayments: guarda informações sobre o pagamento, parcelas e o valor pago por cada pedido.
# Colunas:
# order_id: identificador único de cada pedido;
# payment_sequential;
# payment_type: método escolhido para o pagamento;
# payment_installments: número de parcelas; e
# payment_value: total pago.
query = '''
SELECT payment_type, SUM(payment_value) as somatorio, AVG(payment_value) as media
FROM OrderPayments
GROUP BY payment_type
'''

pd.read_sql_query(query, con)

Unnamed: 0,payment_type,somatorio,media
0,boleto,2869361.0,145.034435
1,credit_card,12542080.0,163.319021
2,debit_card,217989.8,142.57017
3,not_defined,0.0,0.0
4,voucher,379436.9,65.703354


## Conte quantas cidades únicas existem por geolocation_state e ordene do menor ao maior valor

In [17]:
query = '''
SELECT geolocation_state, COUNT(DISTINCT geolocation_city) as qtd_cidades
FROM Geolocation
GROUP BY geolocation_state
ORDER BY qtd_cidades
'''

pd.read_sql_query(query, con)

Unnamed: 0,geolocation_state,qtd_cidades
0,RR,14
1,AP,17
2,DF,28
3,AC,34
4,AM,74
5,RO,83
6,SE,96
7,AL,130
8,MS,133
9,ES,160


## Conte quantos vendedores existem por estado e possuam menos de 50 lojas ordenando do maior estado para o menor

In [19]:
# Sellers: guarda informações do vendedor, tais como a cidade, estado e o código postal
# Colunas: -seller_id: identificador único do vendedor;
# seller_zip_code_prefix: guarda informações dos 4 primeiros dígitos do CEP do vendedor;
# seller_city: cidade do vendedor; e
# seller_state: estado do vendedor.
query = '''
SELECT seller_state, COUNT(seller_id) as qtd_vendedores
FROM Sellers
GROUP BY seller_state
HAVING qtd_vendedores < 50
ORDER BY qtd_vendedores DESC
'''

pd.read_sql_query(query, con)

Unnamed: 0,seller_state,qtd_vendedores
0,GO,40
1,DF,30
2,ES,23
3,BA,19
4,CE,13
5,PE,9
6,PB,6
7,RN,5
8,MS,5
9,MT,4


## Veja quais são as categorias mais bem avaliadas pelos clientes

crie uma tabela com a **categoria do produto, a contagem de product_ids e a média de review_score** e ordene a tabela pela média das categorias melhores avaliadas para as piores avaliadas

In [21]:
# Products: guarda informações sobre sobre a categoria e tamanho dos produtos vendidos.
# Colunas:
# product_id: identificador único de cada pedido;
# product_category_name: nome da categoria do produto;
# product_name_lenght: comprimento do nome do produto;
# product_description_lenght: comprimento da descrição do produto;
# product_photos_qty: quantidade de fotos do produto;
# product_weight_g: massa do produto em gramas;
# product_length_cm: comprimento do produto em cm;
# product_height_cm: altu e
# product_width_cm.

# OrderItems: guarda informações sobre quais produtos foram vendidos em cada pedido, seu valor, seu vendedor, preço de venda e preço de frete.
# Colunas:
# order_id: identificador único dos pedidos;
# order_item_id: identificador sequencial indicando a quantidade de produtos por pedido;
# product_id: identificador único de cada produto;
# seller_id: identificador único de cada vendedor;
# price: preço cobrado por produto; e
# freight_value: preço cobrado por frete.

# OrderReviews: guarda informações sobre reviews do pedido.
# Colunas:
# review_id: identificador único de cada avaliação;
# order_id: identificador único de cada pedido;
# review_score: nota dada ao pedido;
# review_comment_title: título do comentário;
# review_comment_message: comentário sobre o pedido;
# review_creation_date: data do envio do questionário de satisfação; e
# review_answer_timestamp: data da resposta ao questionário de satisfação .


query = '''
SELECT p.product_category_name, COUNT(p.product_id) as qtd_produtos, AVG(orv.review_score) as nota_media
FROM Products p
INNER JOIN OrderItems oi
ON oi.product_id = p.product_id
INNER JOIN OrderReviews orv
ON orv.order_id = oi.order_id
GROUP BY p.product_category_name
ORDER BY nota_media DESC
'''

pd.read_sql_query(query, con)

Unnamed: 0,product_category_name,qtd_produtos,nota_media
0,cds_dvds_musicais,14,4.642857
1,fashion_roupa_infanto_juvenil,8,4.500000
2,livros_interesse_geral,553,4.439421
3,livros_importados,60,4.400000
4,construcao_ferramentas_ferramentas,103,4.359223
...,...,...,...
69,casa_conforto_2,30,3.366667
70,pc_gamer,9,3.333333
71,portateis_cozinha_e_preparadores_de_alimentos,15,3.266667
72,fraldas_higiene,39,3.256410


## Extra: Armazene as tabelas isoladamente em variáveis no python e refaça os comandos utilizando pandas

In [3]:
query = 'SELECT * FROM Customers'
df_customers = pd.read_sql_query(query, con)

query = 'SELECT * FROM Geolocation'
df_geo = pd.read_sql_query(query, con)

query = 'SELECT * FROM Products'
df_p = pd.read_sql_query(query, con)

query = 'SELECT * FROM OrderPayments'
df_op = pd.read_sql_query(query, con)

query = 'SELECT * FROM OrderItems'
df_oi = pd.read_sql_query(query, con)

query = 'SELECT * FROM OrderReviews'
df_or = pd.read_sql_query(query, con)

query = 'SELECT * FROM Sellers'
df_s = pd.read_sql_query(query, con)

### 1.1  Conte o número de clientes por estado e ordene em ordem decrescente

In [39]:
df_customers.groupby('customer_state', as_index=False)['customer_unique_id'].count().sort_values(by='customer_unique_id',ascending=False)

Unnamed: 0,customer_state,customer_unique_id
25,SP,41746
18,RJ,12852
10,MG,11635
22,RS,5466
17,PR,5045
23,SC,3637
4,BA,3380
6,DF,2140
7,ES,2033
8,GO,2020


### 1.2  Conte quantas cidades existem em cada estado da região sul usando a tabela geolocation

In [43]:
lst_uf_sul = ['RS','SC','PR']
(
df_geo.loc[df_geo['geolocation_state'].isin(lst_uf_sul)]
.drop_duplicates(subset=['geolocation_state','geolocation_city'])
.groupby('geolocation_state', as_index=False)
.agg({'geolocation_city':'count'})
).rename(columns={'geolocation_state': 'UF', 'geolocation_city': 'qtd_cidades'})

Unnamed: 0,UF,qtd_cidades
0,PR,651
1,RS,691
2,SC,420


### 1.3  Informe para cada tipo de pagamento o somatório e a média do valor de pagamento

In [8]:

df_op.groupby('payment_type').agg({'payment_value':['sum','mean']})
# df_op.head()

Unnamed: 0_level_0,payment_value,payment_value
Unnamed: 0_level_1,sum,mean
payment_type,Unnamed: 1_level_2,Unnamed: 2_level_2
boleto,2869361.0,145.034435
credit_card,12542080.0,163.319021
debit_card,217989.8,142.57017
not_defined,0.0,0.0
voucher,379436.9,65.703354


###  1.4  Conte quantas cidades únicas existem por geolocation_state e ordene do menor ao maior valor

In [5]:
from unidecode import unidecode

In [6]:
unidecode('órgão')

'orgao'

In [8]:
df_geo[df_geo['geolocation_city'].str.contains('cidad')]['geolocation_city'].unique()

array(['cidade ocidental', '* cidade', 'cidade gaucha', 'cidade gaúcha'],
      dtype=object)

In [9]:
df_geo.shape

(1000163, 5)

In [10]:
df_geo = df_geo[df_geo['geolocation_city'] != '* cidade']

In [11]:
df_geo.shape

(1000162, 5)

In [13]:
df_geo['geolocation_city'].nunique()

8010

In [17]:
df_geo['geolocation_city_std'] = df_geo['geolocation_city'].apply(unidecode)

In [23]:
df_geo['geolocation_city_std'].nunique()

5968

In [18]:
df_geo.head()

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state,geolocation_city_std
0,1037,-23.545621,-46.639292,sao paulo,SP,sao paulo
1,1046,-23.546081,-46.64482,sao paulo,SP,sao paulo
2,1046,-23.546129,-46.642951,sao paulo,SP,sao paulo
3,1041,-23.544392,-46.639499,sao paulo,SP,sao paulo
4,1035,-23.541578,-46.641607,sao paulo,SP,sao paulo


In [55]:
(
df_geo.groupby('geolocation_state', as_index=False)['geolocation_city_std']
.nunique()
.rename(columns={'geolocation_city_std':'qtd_cidades'})
.sort_values(by='qtd_cidades')
)

Unnamed: 0,geolocation_state,qtd_cidades
21,RR,12
3,AP,14
6,DF,21
0,AC,26
2,AM,59
20,RO,67
24,SE,73
11,MS,98
1,AL,108
7,ES,125


### 1.5  Conte quantos vendedores existem por estado e possuam menos de 50 lojas ordenando do maior estado para o menor

In [49]:

(
df_s.pivot_table(index='seller_state', values='seller_id', aggfunc='count')
.rename(columns={'seller_id':'qtd_vendedores'})
.mask(lambda df: df['qtd_vendedores'] >= 50) # tira do dataframe os valores que são >= 50
.dropna()
).sort_values(by='qtd_vendedores', ascending=False).reset_index()

Unnamed: 0,seller_state,qtd_vendedores
0,GO,40.0
1,DF,30.0
2,ES,23.0
3,BA,19.0
4,CE,13.0
5,PE,9.0
6,PB,6.0
7,MS,5.0
8,RN,5.0
9,MT,4.0


### 1.6  Veja quais são as categorias mais bem avaliadas pelos clientes

In [60]:
%%time
(
pd.merge(df_p[['product_id','product_category_name']], df_oi[['product_id','order_id']], on='product_id').merge(df_or[['order_id','review_score']], on='order_id')
.pivot_table(index='product_category_name', values=['product_id','review_score'], aggfunc={'product_id':'count', 'review_score':'mean'})
.rename(columns={'product_id':'qtd_produtos', 'review_score':'nota_media'})
).sort_values(by='nota_media', ascending=False)

Wall time: 296 ms


Unnamed: 0_level_0,qtd_produtos,nota_media
product_category_name,Unnamed: 1_level_1,Unnamed: 2_level_1
cds_dvds_musicais,14,4.642857
fashion_roupa_infanto_juvenil,8,4.500000
livros_interesse_geral,553,4.439421
livros_importados,60,4.400000
construcao_ferramentas_ferramentas,103,4.359223
...,...,...
casa_conforto_2,30,3.366667
pc_gamer,9,3.333333
portateis_cozinha_e_preparadores_de_alimentos,15,3.266667
fraldas_higiene,39,3.256410


In [62]:
# outra forma de fazer
%%time
(
pd.merge(df_p[['product_id','product_category_name']], df_oi[['product_id','order_id']], on='product_id').merge(df_or[['order_id','review_score']], on='order_id')
.groupby('product_category_name').agg({'product_id':'count', 'review_score':'mean'})
.rename(columns={'product_id':'qtd_produtos', 'review_score':'nota_media'})
).sort_values(by='nota_media', ascending=False)

Wall time: 283 ms


Unnamed: 0_level_0,qtd_produtos,nota_media
product_category_name,Unnamed: 1_level_1,Unnamed: 2_level_1
cds_dvds_musicais,14,4.642857
fashion_roupa_infanto_juvenil,8,4.500000
livros_interesse_geral,553,4.439421
livros_importados,60,4.400000
construcao_ferramentas_ferramentas,103,4.359223
...,...,...
casa_conforto_2,30,3.366667
pc_gamer,9,3.333333
portateis_cozinha_e_preparadores_de_alimentos,15,3.266667
fraldas_higiene,39,3.256410
