# Teste

O teste a ser realizado é composto de 2 partes:

- alguns exercícios de programação em SQL
- alguns exercícios de programação com PySpark

Você pode escolher qual das partes do exercício vai fazer primeiro.

# Setup Geral
Aqui sera configurado o ambiente para possibilitar a execução do Spark

### Installing packages
- Run `!mamba list "package_name"` command to check the package installation status. 
- Run the `!mamba install "package_name"` to install a packagege

In [None]:
#Configuração do Abiente
%%bash
mkdir bases_teste
mkdir dev
mamba install pyspark -qq > dev/output_pyspark.txt
mamba install openjdk -qq > dev/output_openjdk.txt

In [None]:
#Download das Bases utilizadas no teste
%%bash
curl https://raw.githubusercontent.com/jselieldo/teste_tecnico_data_enginner/master/bases_teste/produtos.csv -o bases_teste/produtos.csv
curl https://raw.githubusercontent.com/jselieldo/teste_tecnico_data_enginner/master/bases_teste/vendas.csv -o bases_teste/vendas.csv
curl https://raw.githubusercontent.com/jselieldo/teste_tecnico_data_enginner/master/bases_teste/usuarios.csv -o bases_teste/usuarios.csv

# SQL

**Setup**

In [None]:
# Setup Spark Session
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("AtividadeSQL").getOrCreate()

In [None]:
#Criando as tabelas

def cria_tabela(path, nome_tabela):
    df = spark.read.csv(path, inferSchema=True, header=True)
    df.createOrReplaceTempView(nome_tabela)
    return df

usuarios = cria_tabela("bases_teste/usuarios.csv", "usuarios")
produtos = cria_tabela("bases_teste/produtos.csv", "produtos")
vendas = cria_tabela("bases_teste/vendas.csv", "vendas")

**Função para execução de queries**

In [None]:
def q(query, n=30):
    return spark.sql(query).show(n=n, truncate=False)


Para executar alguma consulta, basta colocar seu código sql dentro da função q como no exemplo abaixo:

```python
q("""
    SELECT *
    FROM usuarios
""")
```

e o resultado será exibido na tela.

---

Nesta parte da atividade, você vai trabalhar com três tabelas:

- **produtos** (cod_produto: integer, nome_produto: string, categoria_produto: string, valor_produto: double)
- **usuarios** (cod_usuario: integer, data_cadastro: date, faixa_etaria: string, cidade: string, estado: string)
- **vendas** (cod_usuario: integer, cod_produto: integer, data_compra: date, quantidade: integer, valor: double)

1) Qual foi a quantidade de vendas por estado para cada ano e mês?

2) Quais são os usuários por Estado que mais compraram em todo o período analisado e qual foi o número de compras realizadas, a quantidade total de itens comprados e valor total pago por usuário?

3) Quais são os usuários que não fizeram nenhuma compra?

In [None]:
spark.stop()

# PySpark

In [None]:
# Setup Spark Session
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("AtividadePySpark").getOrCreate()

In [None]:
def cria_tabela(path, nome_tabela):
    df = spark.read.csv(path, inferSchema=True, header=True)
    df.createOrReplaceTempView(nome_tabela)
    return df

usuarios = cria_tabela("bases_teste/usuarios.csv", "usuarios")
produtos = cria_tabela("bases_teste/produtos.csv", "produtos")
vendas = cria_tabela("bases_teste/vendas.csv", "vendas")

Responda às perguntas a seguir utilizando **Spark DATAFRAMES**.

1) Qual foi o total de compras realizadas, o total de itens comprados e a receita total obtida em todo o período analisado?

2) Quais são os 3 produtos mais comprados dos estados da região Sul e Sudeste, a quantidade de itens comprados, o valor total pago e a média de preço paga?

3) Cire dataframe enriquecendo a tabela vendas, com as informações de produtos (nome_produto, categoria_produto, valor_produto) e usuarios (cidade, estado). Grave essa dataframe em formato parquet, paricionando por ano_venda, mes_venda e dia_venda

In [None]:
spark.stop()