# Setup Geral

Se estiver executando este exercício no Google Colab, execute as próximas duas células. 

Caso esteja executando localmente, não é necessário executar mas certifique-se de que o **pyspark** está instalado e configurado em sua máquina.

In [None]:
%%bash

# Instal Java
apt-get update && apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Install PySpark
pip install -q pyspark

In [None]:
import os
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-8-openjdk-amd64'

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").getOrCreate()

# SQL

**Setup**


In [81]:
# Setup Spark Session
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("AtividadeSQL").getOrCreate()

In [83]:
def cria_tabela(path, nome_tabela):
    df = spark.read.csv(path, inferSchema=True, header=True)
    df.createOrReplaceTempView(nome_tabela)
    return df

usuarios = cria_tabela("bases_teste/usuarios.csv", "usuarios")
produtos = cria_tabela("bases_teste/produtos.csv", "produtos")
vendas = cria_tabela("bases_teste/vendas.csv", "vendas")

**Função para execução de queries**

In [38]:
def q(query, n=30):
    return spark.sql(query).show(n=n, truncate=False)

Para executar alguma consulta, basta colocar seu código sql dentro da função q como no exemplo abaixo:

```python
q("""
    SELECT *
    FROM usuarios
""")
```

e o resultado será exibido na tela.

---

Nesta parte da atividade, você vai trabalhar com três tabelas:

- produtos
- usuarios
- vendas

Use-as para responder às perguntas a seguir.

1) Qual foi a quantidade de vendas nos estados de Minas Gerais e São Paulo para cada ano e mês?

In [84]:
q("""
SELECT
 u.estado
,YEAR(data_compra) AS ano_compra
,MONTH(data_compra) AS mes_compra
,COUNT(*) AS qtd_venda
FROM
vendas AS v
INNER JOIN usuarios AS u ON u.cod_usuario = v.cod_usuario
WHERE
u.estado IN ("Minas Gerais", "São Paulo")
GROUP BY
 u.estado
,YEAR(data_compra)
,MONTH(data_compra)
ORDER BY
 u.estado
,YEAR(data_compra)
,MONTH(data_compra)
""",n = 100)

+------------+----------+----------+---------+
|estado      |ano_compra|mes_compra|qtd_venda|
+------------+----------+----------+---------+
|Minas Gerais|2018      |6         |1        |
|Minas Gerais|2018      |8         |1        |
|Minas Gerais|2018      |10        |1        |
|Minas Gerais|2018      |11        |1        |
|Minas Gerais|2018      |12        |2        |
|Minas Gerais|2019      |1         |2        |
|Minas Gerais|2019      |2         |1        |
|Minas Gerais|2019      |4         |2        |
|Minas Gerais|2019      |5         |1        |
|Minas Gerais|2019      |6         |1        |
|Minas Gerais|2019      |7         |2        |
|Minas Gerais|2019      |8         |1        |
|Minas Gerais|2019      |9         |2        |
|Minas Gerais|2019      |10        |1        |
|Minas Gerais|2019      |11        |1        |
|Minas Gerais|2019      |12        |3        |
|Minas Gerais|2020      |1         |1        |
|Minas Gerais|2020      |2         |1        |
|Minas Gerais

2) Quais são os usuários por Estado que mais compraram em todo o período analisado e qual foi o número de compras realizadas, a quantidade total de itens comprados e valor total pago por usuário?

In [59]:
q("""
SELECT 
 cod_usuario
,estado
,qtd_total_compras
,qtd_total_itens
,valor_total_pago
FROM (
    SELECT
     u.cod_usuario
    ,u.estado
    ,COUNT(*) AS qtd_total_compras
    ,ROUND(SUM(v.quantidade),2) AS qtd_total_itens
    ,ROUND(SUM(v.valor),2) AS valor_total_pago
    ,RANK() OVER(PARTITION BY u.estado ORDER BY COUNT(*) desc) as ranking_por_compra_cliente
    FROM
    vendas AS v
    INNER JOIN usuarios AS u ON u.cod_usuario = v.cod_usuario
    GROUP BY
     u.cod_usuario
    ,u.estado
) WHERE ranking_por_compra_cliente = 1
ORDER BY
 estado
,valor_total_pago DESC

""")

+-----------+-------------------+-----------------+---------------+----------------+
|cod_usuario|estado             |qtd_total_compras|qtd_total_itens|valor_total_pago|
+-----------+-------------------+-----------------+---------------+----------------+
|2186       |Amapá              |7                |61             |51359.34        |
|2981       |Bahia              |9                |70             |126282.4        |
|1787       |Ceará              |8                |79             |121494.67       |
|700        |Goiás              |9                |74             |142389.09       |
|2811       |Maranhão           |13               |117            |184101.89       |
|2340       |Mato Grosso        |9                |112            |165197.3        |
|679        |Mato Grosso do Sul |6                |102            |152271.96       |
|3090       |Minas Gerais       |9                |93             |95697.3         |
|2843       |Paraná             |10               |114           

3) Quais são os usuários que não fizeram nenhuma compra?

In [68]:
q("""
SELECT
 u.*
FROM
usuarios AS u  
LEFT JOIN vendas AS v ON u.cod_usuario = v.cod_usuario
WHERE 
u.cod_usuario IS NOT NULL /*Removendo linhas vazias que estão na tabela*/
AND v.cod_usuario IS NULL
ORDER BY
 u.cod_usuario
""")

+-----------+-------------------+------------------+-----------------------+-------------------+
|cod_usuario|data_cadastro      |faixa_etaria      |cidade                 |estado             |
+-----------+-------------------+------------------+-----------------------+-------------------+
|3499       |2019-12-17 00:00:00|Entre 10 a 15 anos|Jacuí                  |Minas Gerais       |
|3504       |2021-06-23 00:00:00|Entre 16 a 21 anos|Bom Jesus do Galho     |Minas Gerais       |
|3516       |2019-10-13 00:00:00|Entre 10 a 15 anos|Rio Verde              |Goiás              |
|3556       |2020-08-04 00:00:00|Entre 62 a 70 anos|Confresa               |Mato Grosso        |
|3560       |2018-09-04 00:00:00|Entre 16 a 21 anos|Maracaí                |São Paulo          |
|3564       |2018-07-02 00:00:00|Entre 62 a 70 anos|Betim                  |Minas Gerais       |
|3692       |2018-08-28 00:00:00|Mais de 70 anos   |Nipoã                  |São Paulo          |
|3754       |2021-05-16 00:00:

4) Qual é o ticket médio (média de valor gasto) e o número total de usuários que fizeram pelo menos uma compra por faixa etária?

In [78]:
q("""
SELECT
 u.faixa_etaria
,ROUND(AVG(v.valor),2) AS ticket_medio
,COUNT(DISTINCT u.cod_usuario) AS qtd_usuario
FROM
vendas AS v  
INNER JOIN usuarios AS u ON u.cod_usuario = v.cod_usuario
GROUP BY
 u.faixa_etaria
ORDER BY
 u.faixa_etaria
""")

+------------------+------------+-----------+
|faixa_etaria      |ticket_medio|qtd_usuario|
+------------------+------------+-----------+
|Entre 10 a 15 anos|8890.13     |7          |
|Entre 16 a 21 anos|12725.95    |11         |
|Entre 22 a 27 anos|12203.02    |10         |
|Entre 28 a 36 anos|8233.04     |9          |
|Entre 37 a 49 anos|16727.19    |6          |
|Entre 50 a 61 anos|10849.48    |12         |
|Entre 62 a 70 anos|10012.63    |7          |
|Mais de 70 anos   |11303.1     |4          |
+------------------+------------+-----------+



In [85]:
spark.stop()