# 0.0 Imports

In [3]:
import pandas as pd
from sqlalchemy import create_engine

# 1.0 Questões de Negócio

## Perguntas

01. Quantos pedidos foram feitos para cada tipo de pagamento?
02. Qual o número máximo e mínimo de parcelas nos pagamentos?
03. Quais são os top 10 pedidos com os maiores valores?
04. Quais são os últimos 10 pedidos com os menores valores?
05. Qual a média do valor de pagamento por tipo de pagamento?
06. Quais os top 5 clientes com os maiores valores de pagamento no boleto?
07. Quais os top 5 clientes com os maiores valores de pagamento no cartão de crédito?
08. Quais os 10 produtos mais caros?
09. Quais os 10 produtos mais baratos?
10. Quais as 10 categorias mais compradas?
11. Quais os 5 produtos com maior número de reviews?
12. Quais os top 10 produtos sem nenhum review?
13. Quais os 10 clientes com maior quantidade de pedidos?
14. Quais os 10 clientes com a menor quantidade de pedidos?
15. Quais vendedores existem na base?
16. Qual a distribuição de vendedores por estado?
17. Qual a distribuição de clientes por estado?
18. Quais são os top 10 vendedores que mais receberam pagamentos por boleto?
19. Quais são os 10 piores vendedores em termos de número de vendas?
20. Quantos produtos são comprados, em média, por pedido?

# 2.0 Coleta dos Dados

In [4]:
db = create_engine( 'sqlite:///db_olist.sqlite', echo=False )
conn = db.connect()

In [5]:
# dataset
df_customer = pd.read_csv( 'olist_customers_dataset.csv' )
schema_customer = """
CREATE TABLE customer(
customer_id TEXT,
customer_unique_id TEXT,
customer_zip_code_prefix INTEGER,
customer_city TEXT,
customer_state TEXT
)
"""
# crate schema
#conn.execute( schema_customer )
# insert data into table
df_customer.to_sql( 'customer', con=conn, if_exists='append', index=False )

99441

In [8]:
# dataset
df_geolocation = pd.read_csv( 'olist_geolocation_dataset.csv' )
schema_geolocation = """
CREATE TABLE geolocation(
geolocation_zip_code_prefix INTEGER,
geolocation_lat REAL,
geolocation_lng REAL,
geolocation_city TEXT,
geolocation_state TEXT
)
"""
# crate schema
conn.execute( schema_geolocation )
# insert data into table
df_geolocation.to_sql( 'geolocation', con=conn, if_exists='append', index=False)

1000163

In [11]:
# dataset
df_order_items = pd.read_csv( 'olist_order_items_dataset.csv' )
schema_order_items = """
CREATE TABLE order_items(
order_id TEXT,
order_item_id INTEGER,
product_id TEXT,
seller_id TEXT,
shipping_limit_date TEXT,
price REAL,
freight_value REAL
)
"""
# crate schema
#conn.execute( schema_order_items )
# insert data into table
df_order_items.to_sql( 'order_items', con=conn, if_exists='append', index=False)

112650

In [12]:
# dataset
df_order_payments = pd.read_csv( 'olist_order_payments_dataset.csv' )
schema_order_payments = """
CREATE TABLE order_payments(
order_id TEXT,
payment_sequential INTEGER,
payment_type TEXT,
payment_installments INTEGER,
payment_value REAL
)
"""
# crate schema
#conn.execute( schema_order_payments )
# insert data into table
df_order_payments.to_sql( 'order_payments', con=conn, if_exists='append'
,index=False )

103886

In [13]:
# dataset
df_order_reviews = pd.read_csv( 'olist_order_reviews_dataset.csv' )
schema_order_reviews = """
CREATE TABLE order_reviews(
review_id TEXT,
order_id TEXT,
review_score INTEGER,
review_comment_title TEXT,
review_comment_message TEXT,
review_creation_date TEXT,
review_answer_timestamp TEXT
)
"""
# crate schema
#conn.execute( schema_order_reviews )
# insert data into table
df_order_reviews.to_sql( 'order_reviews', con=conn, if_exists='append',
index=False )

99224

In [14]:
# dataset
df_orders = pd.read_csv( 'olist_orders_dataset.csv' )
schema_orders = """
CREATE TABLE orders(
order_id TEXT,
customer_id TEXT,
order_status TEXT,
order_purchase_timestamp TEXT,
order_approved_at TEXT,
order_delivered_carrier_date TEXT,
order_delivered_customer_date TEXT,
order_estimated_delivery_date TEXT
)
"""
# crate schema
#conn.execute( schema_orders )
# insert data into table
df_orders.to_sql( 'orders', con=conn, if_exists='append', index=False )

99441

In [15]:
# dataset
df_products = pd.read_csv( 'olist_products_dataset.csv' )
schema_products = """
CREATE TABLE products(
product_id TEXT,
product_category_name TEXT,
product_name_lenght REAL,
product_description_lenght REAL,
product_photos_qty REAL,
product_weight_g REAL,
product_length_cm REAL,
product_height_cm REAL,
product_width_cm REAL
)
"""
# crate schema
#conn.execute( schema_products )
# insert data into table
df_products.to_sql( 'products', con=conn, if_exists='append', index=False )

32951

In [16]:
# dataset
df_sellers = pd.read_csv( 'olist_sellers_dataset.csv' )
schema_sellers = """
CREATE TABLE sellers(
seller_id TEXT,
seller_zip_code_prefix INTEGER,
seller_city TEXT,
seller_state TEXT
)
"""
# crate schema
#conn.execute( schema_sellers )
# insert data into table
df_sellers.to_sql( 'sellers', con=conn, if_exists='append', index=False )

3095

In [17]:
# dataset
df_product_category_name = pd.read_csv( 'product_category_name_translation.csv' )
schema_product_category_name = """
CREATE TABLE product_category_name(
product_category_name TEXT,
product_category_name_english TEXT
)
"""
# crate schema
#conn.execute( schema_product_category_name )
# insert data into table
df_product_category_name.to_sql( 'product_category_name', con=conn,
if_exists='append', index=False )

71

In [18]:
query = """
SELECT name
FROM sqlite_master
WHERE type = 'table'
"""
#query = """
# SELECT *
# FROM customer
#"""
table = pd.read_sql_query( query, conn )
table

Unnamed: 0,name
0,customer
1,order_items
2,order_payments
3,order_reviews
4,orders
5,products
6,sellers
7,product_category_name
8,geolocation


# 3. Exploração dos Dados

## 4. Quais são os últimos 10 pedidos com os menores valores?


-- selecionando os ultimos pedidos

select

    order_id,
    order_purchase_timestamp as ultimos_pedidos

from 

    orders 

limit(10)

-- selecionando os menores valores

select 

    order_id,
	payment_value	

from 
    
    order_payments op 

group by payment_value 

order by payment_value ASC 

## 5. Qual a média do valor de pagamento por tipo de pagamento?




-- tipos de pagamento

select 

    payment_type,
    AVG( payment_value)

from

    order_pAyments op 

group by payment_type

## 6. Quais os top 5 clientes com os maiores valores de pagamento no boleto?

select 

    o.order_id,
    payment_type,
    payment_value as maiores_valores,
    c.customer_id


from 

    orders o inner join customer c on (o.customer_id = c.customer_id)
			  inner join order_payments op on (o.order_id = op.order_id)

where payment_type = 'boleto'

group by payment_value

order by payment_value DESC 

## 7.Quais os top 5 clientes com os maiores valores de pagamento no cartão de crédito?

select 

    o.order_id,
    payment_type,
    payment_value as maiores_valores,
    c.customer_id


from 

    orders o inner join customer c on (o.customer_id = c.customer_id)
			  inner join order_payments op on (o.order_id = op.order_id)

where payment_type = 'credit_card'

group by payment_value

order by payment_value DESC 
limit(5)

## 8. Quais os 10 produtos mais caros?

select

    product_id,
	price
		
from 
    
    order_items oi 

group by price

order by price DESC

limit(10)

## 9.Quais os 10 produtos mais baratos?

select

    product_id,
	price
		
from 

    order_items oi 

group by price

order by price ASC 

limit(10)

## 10.Quais as 10 categorias mais compradas?

select 

		product_category_name,
		oi.product_id,
		count(product_category_name) as QTD_vendida


from 

    order_items oi inner join products p on (oi.product_id = p.product_id)

group by product_category_name

order BY QTD_vendida DESC 

limit(10)

## 11.Quais os 5 produtos com maior número de reviews?

select 

    oi.order_id,
	product_id,
	review_id,
	review_score,
	review_comment_title,
	review_comment_message,
	count(product_id) as contagem_produtos 

from 

    order_items oi left join order_reviews or2 on (oi.order_id = or2.order_id)

where review_comment_message IS NOT NULL

group by product_id 

order by contagem_produtos DESC 

## 12.Quais os top 10 produtos sem nenhum review?

select 

    oi.order_id,
	product_id,
	review_id,
	review_score,
	review_comment_title,
	review_comment_message,
	count(product_id) as contagem_produtos 

from 

    order_items oi left join order_reviews or2 on (oi.order_id = or2.order_id)

where review_comment_message IS NULL

group by product_id 

order by contagem_produtos DESC 

limit(10

## 13.Quais os 10 clientes com maior quantidade de pedidos?

select  

    order_id,
	customer_unique_id,
	count(order_id)  as qtd_pedidos
		

FROM 

    orders o left join customer c on (o.customer_id = c.customer_id)

group by customer_unique_id

order by qtd_pedidos DESC

## 14.Quais os 10 clientes com a menor quantidade de pedidos? 

select 

    order_id,
	customer_unique_id,
	count(order_id)  as qtd_pedidos
		

FROM 

    orders o left join customer c on (o.customer_id = c.customer_id)

group by customer_unique_id

order by qtd_pedidos ASC 

## 15.Quais vendedores existem na base? 

select   

		count(DISTINCT (seller_zip_code_prefix)) 
				
from 
    
    sellers s