# Aula 4: SQL - Exercícios

### Case Olist

A Olist é uma loja de departamentos que participa dos principais marketplaces do país:  Mercado Livre, Walmart.com, Americanas.com, Submarino, Casas Bahia entre outros. Mais informações podem ser encontradas [aqui](https://blog.olist.com/olist-chega-para-facilitar-a-vida-de-quem-quer-vender-na-internet-e-em-grandes-varejistas/).

![](https://ensinandomaquinasblog.files.wordpress.com/2020/11/f1.png?w=1024)
![](https://i.imgur.com/Jory0O3.png)

Abaixo, segue uma descrição de cada uma das tabelas contidas no arquivo `salesOlist.db` e em qual arquivo as informações se encontram. Também podem ser conferidas as informações sobre cada coluna.
 - **Customers**: guarda a cidade, o CEP e o estado do consumidor. Chave: customer_id.
  - Colunas:
    - **customer_id:** cada pedido possui um único `customer_id`;
    - **customer_unique_id:** identificador único de cada consumidor;
    - **customer_zip_code_prefix:** primeiros 5 dígitos do CEP do consumidor;
    - **customer_city:** cidade onde o consumidor se encontra; 
    - **customer_state:** estado onde o consumidor se encontra.
 - **Geolocation**: guarda informações de cidades tais como o CEP, latitude, longitude, nome e estado;
  - Colunas:
    - **geolocation_zip_code_prefix:** 5 primeiros dígitos do local;
    - **geolocation_lat:** latitude do local;
    - **geolocation_lng:** longitude do local;
    - **geolocation_city:** cidade onde se encontra o local; e
    - **geolocation_state:** estado onde se encontra o local.
 - **OrderItems**: guarda informações sobre quais produtos foram vendidos em cada pedido, seu valor, seu vendedor, preço de venda e preço de frete.
  - Colunas:
    - **order_id:** identificador único dos pedidos;
    - **order_item_id:** identificador sequencial indicando a quantidade de produtos por pedido;
    - **product_id:** identificador único de cada produto;
    - **seller_id:** identificador único de cada vendedor;
    - **price:** preço cobrado por produto; e
    - **freight_value:** preço cobrado por frete.
 - **OrderPayments**: guarda informações sobre o pagamento, parcelas e o valor pago por cada pedido.
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **payment_sequential**;
    - **payment_type:** método escolhido para o pagamento;
    - **payment_installments:** número de parcelas; e
    - **payment_value:** total pago.
 - **OrderReviews**: guarda informações sobre *reviews* do pedido.
  - Colunas:
    - **review_id:** identificador único de cada avaliação;
    - **order_id:** identificador único de cada pedido;
    - **review_score:** nota dada ao pedido;
    - **review_comment_title:** título do comentário;
    - **review_comment_message:** comentário sobre o pedido;
    - **review_creation_date:** data do envio do questionário de satisfação; e
    - **review_answer_timestamp:** data da resposta ao questionário de satisfação .
 - **Orders**: guarda informações sobre o qual o consumidor efetuou a compra, o *status* do pedido, data da compra, datas de entrega (estimada e efetiva)
  - Colunas:
    - **order_id:** identificador único de cada pedido;
    - **customer_id:**; 
    - **order_status:** chave para a tabela `Customers` (cada pedido tem uma única chave);
    - **order_purchase_timestamp:** *timestamp* para a data do pedido;
    - **order_approved_at:** *timestamp* para a aprovação do pagamento;
    - **order_delivered_carrier_date:** *timestamp* para a data de postagem do pedido;
    - **order_delivered_customer_date:** data da entrega do pedido; e
    - **order_estimated_delivery_date:** data estimada da entrega.
 - **Products**: guarda informações sobre sobre a categoria e tamanho dos produtos vendidos. 
  - Colunas:
    - **product_id:** identificador único de cada pedido;
    - **product_category_name:** nome da categoria do produto;
    - **product_name_lenght:** comprimento do nome do produto;
    - **product_description_lenght:** comprimento da descrição do produto;
    - **product_photos_qty:** quantidade de fotos do produto;
    - **product_weight_g:** massa do produto em gramas;
    - **product_length_cm:** comprimento do produto em cm;
    - **product_height_cm:** altu e
    - product_width_cm.
 - **Sellers**: guarda informações do vendedor, tais como a cidade, estado e o código postal
  - Colunas:
    -**seller_id:** identificador único do vendedor;
    - **seller_zip_code_prefix:** guarda informações dos 4 primeiros dígitos do CEP do vendedor;
    - **seller_city:** cidade do vendedor; e
    - **seller_state:** estado do vendedor.
 - **QualifiedLeads**: informações de *leads* da Olist.
  - Colunas:
    - **mql_id:** identificador único da *lead*;
    - **first_contact_date:** data do primeiro contato;
    - **landing_page_id:** página que adquiriu a *lead*; e 
    - **origin:** tipo da mídia que adquriu a *lead*.
 - **ClosedDeals**: informações de negócios com vendedores 
    - **mql_id:** identificador único da lead;
    - **seller_id:** identificador único do vendedor;
    - **sdr_id:** identificador único do representante de vendas e desenvolvimento;
    - **sr_id:** identificador único do representante de vendas;
    - **won_date:** data do fechamento do contrato;
    - **business_segment:** segmento do *lead*; 
    - **lead_type:** tipo da *lead* (*online*, *offline*, indústria, etc);
    - **lead_behaviour_profile:** 
    - **has_company:**: o *lead* tem uma companhia (documentada)?
    - **has_gtin:** a companhia possi código de barras internacional para seus produtos?
    - **average_stock:** tamanho do estoque declarado;
    - **business_type:** tipo de negócio (revendedor/fabricante/etc);
    - **declared_product_catalog_size:** tamanho do catálogo declarado; e
    - **declared_monthly_revenue:** renda mensal declarada.

In [None]:
!pip install SQLAlchemy --upgrade

In [1]:
import sqlalchemy

In [2]:
import pandas as pd
import sqlite3

In [3]:
con = sqlite3.connect('salesOlist.db')
cursor = con.cursor()
cursor.execute('SELECT name FROM sqlite_master WHERE type="table" ORDER BY name')
cursor.fetchall()

[('ClosedDeals',),
 ('Customers',),
 ('Geolocation',),
 ('OrderItems',),
 ('OrderPayments',),
 ('OrderReviews',),
 ('Orders',),
 ('Products',),
 ('QualifiedLeads',),
 ('Sellers',)]

## Conte o número de clientes por estado e ordene em ordem decrescente

## Conte quantas cidades existem em cada estado da região sul usando a tabela `geolocation`

In [12]:
# gabarito
query = '''
        SELECT geolocation_state, COUNT(DISTINCT geolocation_city)
        FROM Geolocation
        WHERE geolocation_state IN ('RS', 'SC', 'PR')
        GROUP BY geolocation_state
'''
pd.read_sql(query, con)


Unnamed: 0,geolocation_state,COUNT(DISTINCT geolocation_city)
0,PR,651
1,RS,691
2,SC,420


Forma correta

In [25]:
query = '''
        SELECT *
        FROM Geolocation
        WHERE geolocation_state IN ('SC', 'PR', 'RS')
''' 

df = pd.read_sql(query, con)

In [26]:
df.head(3)

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,79750,-22.242062,-53.343159,nova andradina,RS
1,80010,-25.435488,-49.270214,curitiba,PR
2,80035,-25.402833,-49.247231,curitiba,PR


In [29]:
df.shape

(158038, 5)

In [30]:
df = df[df['geolocation_city']!='* cidade']

In [31]:
df.shape

(158037, 5)

In [19]:
from unidecode import unidecode

In [32]:
df.head(3)

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,79750,-22.242062,-53.343159,nova andradina,RS
1,80010,-25.435488,-49.270214,curitiba,PR
2,80035,-25.402833,-49.247231,curitiba,PR


In [37]:
df['geolocation_city'].nunique()

1736

In [39]:
df['geolocation_city_std'] = df['geolocation_city'].apply(unidecode)

In [40]:
df.head()

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state,geolocation_city_std
0,79750,-22.242062,-53.343159,nova andradina,RS,nova andradina
1,80010,-25.435488,-49.270214,curitiba,PR,curitiba
2,80035,-25.402833,-49.247231,curitiba,PR,curitiba
3,80010,-25.430272,-49.266603,curitiba,PR,curitiba
4,80060,-25.432111,-49.259768,curitiba,PR,curitiba


In [41]:
df.groupby('geolocation_state')['geolocation_city_std'].nunique()

geolocation_state
PR    469
RS    524
SC    313
Name: geolocation_city_std, dtype: int64

In [None]:
PR - 399
RS - 497
SC - 295

In [42]:
a = pd.read_html('https://pt.wikipedia.org/wiki/Lista_de_estados_brasileiros_por_n%C3%BAmero_de_munic%C3%ADpios')

In [49]:
type(a)

list

In [50]:
len(a)

5

In [54]:
a[2]

Unnamed: 0,Posição,Estado,Região,Número demunicípios[8],Número de habitantespor estado federado[9],Média de habitantespor município
0,1,Minas Gerais,Sudeste,853,20 989 259,"24 606,40"
1,2,São Paulo,Sudeste,645,44 744 199,"69 370,85"
2,3,Rio Grande do Sul,Sul,497,11 290 773,"22 717,85"
3,4,Bahia,Nordeste,417,15 271 073,"36 621,28"
4,5,Paraná,Sul,399,11 241 665,"28 174,60"
5,6,Santa Catarina,Sul,295,6 882 793,"23 331,50"
6,7,Goiás,Centro-Oeste,246,6 690 173,"27 195,83"
7,8,Piauí,Nordeste,224,3 212 374,"14 340,96"
8,9,Paraíba,Nordeste,223,3 995 541,"17 917,22"
9,10,Maranhão,Nordeste,217,6 945 547,"32 007,13"


In [47]:
a[2]

Unnamed: 0,Posição,Estado,Região,Número demunicípios[8],Número de habitantespor estado federado[9],Média de habitantespor município
0,1,Minas Gerais,Sudeste,853,20 989 259,"24 606,40"
1,2,São Paulo,Sudeste,645,44 744 199,"69 370,85"
2,3,Rio Grande do Sul,Sul,497,11 290 773,"22 717,85"
3,4,Bahia,Nordeste,417,15 271 073,"36 621,28"
4,5,Paraná,Sul,399,11 241 665,"28 174,60"
5,6,Santa Catarina,Sul,295,6 882 793,"23 331,50"
6,7,Goiás,Centro-Oeste,246,6 690 173,"27 195,83"
7,8,Piauí,Nordeste,224,3 212 374,"14 340,96"
8,9,Paraíba,Nordeste,223,3 995 541,"17 917,22"
9,10,Maranhão,Nordeste,217,6 945 547,"32 007,13"


In [10]:
df['geolocation_city'].unique().tolist()

['nova andradina',
 'curitiba',
 'balneario de picarras',
 '* cidade',
 'são josé dos pinhais',
 'sao jose dos pinhais',
 'tijucas do sul',
 'paranagua',
 'matinhos',
 'pontal do parana',
 'guaratuba',
 'paranaguá',
 'pontal do paraná',
 'alexandra',
 'ilha dos valadares',
 'pinhais',
 'morretes',
 'piraquara',
 'guaraquecaba',
 'antonina',
 'porto de cima',
 'guaraqueçaba',
 'colombo',
 'quatro barras',
 'tunas do parana',
 'campina grande do sul',
 'bocaiuva do sul',
 'borda do campo',
 'adrianópolis',
 'bocaiúva do sul',
 'adrianopolis',
 'tunas do paraná',
 'almirante tamandare',
 'almirante tamandaré',
 'rio branco do sul',
 'itaperuçu',
 'cerro azul',
 'itaperucu',
 'doutor ulysses',
 'campo magro',
 'campo largo',
 'balsa nova',
 'bugre',
 'lapa',
 'araucaria',
 'araucária',
 'contenda',
 'mariental',
 'fazenda rio grande',
 'rio negro',
 'campo do tenente',
 'quitandinha',
 'mandirituba',
 'pien',
 'piên',
 'agudos do sul',
 'areia branca dos assis',
 'sao mateus do sul',
 'são

## Informe para cada tipo de pagamento o somatório e a média do valor de pagamento

## Conte quantas cidades únicas existem por geolocation_state e ordene do menor ao maior valor

## Conte quantos vendedores existem por estado e possuam menos de 50 lojas ordenando do maior estado para o menor

## Veja quais são as categorias mais bem avaliadas pelos clientes

crie uma tabela com a **categoria do produto, a contagem de product_ids e a média de review_score** e ordene a tabela pela média das categorias melhores avaliadas para as piores avaliadas

## Extra: Armazene as tabelas isoladamente em variáveis no python e refaça os comandos utilizando pandas