# Defini√ß√£o de bibliotecas e fun√ß√µes √∫teis

In [0]:
from pyspark.sql import functions as F
from pyspark.sql.types import StructType, StructField, StringType, DateType, FloatType, IntegerType, DoubleType
from datetime import datetime

# Prova Equipe de Dados

Somos a CantuStore: Plataforma de tecnologia e log√≠stica que viabiliza solu√ß√µes completas em pneus, 
guiando quem compra e apoiando quem vende. Se o assunto √© pneu, voc√™ resolve aqui. Produtos e 
servi√ßos em uma experi√™ncia 360¬∞ para abrir caminhos e ver pessoas e neg√≥cios evoluindo junto com 
a gente. Afinal, ficar parado n√£o √© op√ß√£o, pelos menos pra n√≥s. 

## Parte 1 - SQL

---
# üèÜ Estrutura do Campeonato

A seguir, temos a modelagem e os dados de um campeonato entre equipes:

---

## üìÑ Tabela `times`

```sql
CREATE TABLE times (
    time_id INTEGER NOT NULL,
    time_nome VARCHAR NOT NULL,
    UNIQUE(time_id)
);
````

### üìå Dados da Tabela `times`

| Time\_id | Time\_nome |
| -------- | ---------- |
| 10       | Financeiro |
| 20       | Marketing  |
| 30       | Log√≠stica  |
| 40       | TI         |
| 50       | Dados      |

---

## üìÑ Tabela `jogos`

```sql
CREATE TABLE jogos (
    jogo_id INTEGER NOT NULL,
    mandante_time INTEGER NOT NULL,
    visitante_time INTEGER NOT NULL,
    mandante_gols INTEGER NOT NULL,
    visitante_gols INTEGER NOT NULL,
    UNIQUE(jogo_id)
);
```

### üìå Dados da Tabela `jogos`

| Jogo\_id | Time\_mandante | Time\_visitante | Gols\_mandante | Gols\_visitante |
| -------- | -------------- | --------------- | -------------- | --------------- |
| 1        | 30             | 20              | 1              | 0               |
| 2        | 10             | 20              | 1              | 2               |
| 3        | 20             | 50              | 2              | 2               |
| 4        | 10             | 30              | 1              | 1               |
| 5        | 30             | 50              | 0              | 1               |

---

## ‚öôÔ∏è Regras para Pontua√ß√£o

* ‚úÖ Vit√≥ria: 3 pontos (mais gols que o advers√°rio)
* ‚öñÔ∏è Empate: 1 ponto (mesmo n√∫mero de gols)
* ‚ùå Derrota: 0 pontos (menos gols que o advers√°rio)

---

## üéØ Objetivo

Escrever uma consulta que calcule o total de pontos de cada equipe (`time_id`) com base nas regras acima.

### Requisitos da consulta:

* Retornar o nome do time e o total de pontos (`num_pontos`);
* Agrupar por time;
* Ordenar por `num_pontos` em ordem decrescente;
* Em caso de empate, ordenar por `time_id` em ordem crescente.

---





#### 1.1.1 Cria tabelas no Databricks - com Unity Catalog

In [0]:
%sql
USE datacraft_catalog.cantu;
CREATE TABLE IF NOT EXISTS cantu.times (
  time_id LONG NOT NULL, 
  time_nome STRING NOT NULL,
  PRIMARY KEY(time_id)
);

In [0]:
%sql
USE datacraft_catalog.cantu;
CREATE TABLE IF NOT EXISTS cantu.jogos (
  jogo_id LONG NOT NULL, 
  mandante_time LONG NOT NULL,
  visitante_time LONG NOT NULL,
  mandante_gols LONG NOT NULL,
  visitante_gols LONG NOT NULL,
  PRIMARY KEY(jogo_id),
  CONSTRAINT fk_mandante_time FOREIGN KEY (mandante_time) REFERENCES times(time_id),
  CONSTRAINT fk_visitante_time FOREIGN KEY (visitante_time) REFERENCES times(time_id)
);

#### 1.1.2 Insere os dados nas tabelas no Databricks - com Unity Catalog

In [0]:
# üìÑ DataFrame de times
df_times = spark.createDataFrame([
    (10, "Financeiro"),
    (20, "Marketing"),
    (30, "Log√≠stica"),
    (40, "TI"),
    (50, "Dados"),
], ["time_id", "time_nome"])

# üìÑ DataFrame de jogos
df_jogos = spark.createDataFrame([
    (1, 30, 20, 1, 0),
    (2, 10, 20, 1, 2),
    (3, 20, 50, 2, 2),
    (4, 10, 30, 1, 0),
    (5, 30, 50, 0, 1),
], ["jogo_id", "mandante_time", "visitante_time", "mandante_gols", "visitante_gols"])

# Cria view tempor√°ria
df_times.createOrReplaceTempView('temp_times')
df_jogos.createOrReplaceTempView('temp_jogos')


In [0]:
%sql
INSERT INTO datacraft_catalog.cantu.times (
    time_id, time_nome
  )
SELECT
  time_id,
  time_nome
FROM temp_times

num_affected_rows,num_inserted_rows
5,5


In [0]:
# %sql
# TRUNCATE TABLE datacraft_catalog.cantu.times

In [0]:
%sql
INSERT INTO datacraft_catalog.cantu.jogos (
    jogo_id, mandante_time, visitante_time, mandante_gols, visitante_gols
  )
  SELECT
    jogo_id,
    mandante_time,
    visitante_time,
    mandante_gols,
    visitante_gols
  FROM
    temp_jogos

num_affected_rows,num_inserted_rows
5,5


In [0]:
# %sql
# TRUNCATE TABLE datacraft_catalog.cantu.jogos

In [0]:
%sql
WITH resultados_mandante AS (
    SELECT 
        mandante_time AS time_id,
        CASE 
            WHEN mandante_gols > visitante_gols THEN 3
            WHEN mandante_gols = visitante_gols THEN 1
            ELSE 0
        END AS pontos
    FROM datacraft_catalog.cantu.jogos
),
resultados_visitante AS (
    SELECT 
        visitante_time AS time_id,
        CASE 
            WHEN visitante_gols > mandante_gols THEN 3
            WHEN visitante_gols = mandante_gols THEN 1
            ELSE 0
        END AS pontos
    FROM datacraft_catalog.cantu.jogos
),
todos_resultados AS (
    SELECT * FROM resultados_mandante
    UNION ALL
    SELECT * FROM resultados_visitante
),
pontuacao_por_time AS (
    SELECT 
        time_id,
        SUM(pontos) AS num_pontos
    FROM todos_resultados
    GROUP BY time_id
)

SELECT 
    t.time_nome,
    COALESCE(p.num_pontos, 0) AS num_pontos
FROM datacraft_catalog.cantu.times t
LEFT JOIN pontuacao_por_time p ON t.time_id = p.time_id
ORDER BY num_pontos DESC, t.time_id ASC;

time_nome,num_pontos
Marketing,4
Dados,4
Financeiro,3
Log√≠stica,3
TI,0


### 1.2 Comiss√µes

A tabela `comissoes` tem a seguinte estrutura:

```sql
CREATE TABLE comissoes (
    comprador VARCHAR NOT NULL,
    vendedor VARCHAR NOT NULL,
    dataPgto DATE NOT NULL,
    valor FLOAT NOT NULL
);
````

---

## üìå Regras da Consulta

Escreva uma query SQL que retorne a **lista de vendedores** que:

* Receberam **pelo menos R\$ 1.024,00** em comiss√µes;
* Considerando **no m√°ximo 3 transfer√™ncias** por vendedor;
* Ou seja, s√≥ deve aparecer na lista quem tiver at√© 3 registros e a soma total dos valores seja maior ou igual a R\$ 1.024,00;
* Vendedores com mais de 3 comiss√µes **n√£o devem aparecer**, mesmo que tenham recebido mais de R\$ 1.024,00;
* O resultado deve ser ordenado **em ordem alfab√©tica** pelo nome do vendedor.

---

## üß™ Exemplo de Dados

| Comprador | Vendedor | Data       | Valor    |
| --------- | -------- | ---------- | -------- |
| Leonardo  | Bruno    | 01/01/2000 | 200,00   |
| Leonardo  | Matheus  | 27/09/2003 | 1.024,00 |
| Leonardo  | Lucas    | 26/06/2006 | 512,00   |
| Marcos    | Lucas    | 17/12/2020 | 100,00   |
| Marcos    | Lucas    | 22/03/2002 | 10,00    |
| Cinthia   | Lucas    | 20/03/2021 | 500,00   |
| Mateus    | Bruno    | 02/06/2007 | 400,00   |
| Mateus    | Bruno    | 26/06/2006 | 400,00   |
| Mateus    | Bruno    | 26/06/2015 | 200,00   |

---

## ‚úÖ Resultado Esperado

| Vendedor |
| -------- |
| Lucas    |
| Matheus  |

---

### ‚ÑπÔ∏è Explica√ß√£o

* **Lucas** tem 3 comiss√µes: 512 + 100 + 500 = 1.112 ‚â• 1.024 ‚Üí OK ‚úÖ
* **Matheus** tem 1 comiss√£o de 1.024 ‚Üí OK ‚úÖ
* **Bruno** tem 4 comiss√µes (mesmo somando 1.200, excede 3 transfer√™ncias) ‚Üí ‚ùå

---


#### 1.2.1 Cria tabelas no Databricks - com Unity Catalog

In [0]:
%sql
USE datacraft_catalog.cantu;
CREATE TABLE IF NOT EXISTS cantu.comissoes (
  comissao_id LONG NOT NULL GENERATED ALWAYS AS IDENTITY(START WITH 1 INCREMENT BY 1),
  comprador STRING NOT NULL,
  vendedor STRING NOT NULL,
  dataPgto DATE NOT NULL,
  valor DOUBLE NOT NULL,
  PRIMARY KEY(comissao_id)
);

#### 1.2.2 Insere os dados na tabela no Databricks - com Unity Catalog

In [0]:
# Define o schema
schema = StructType([
    StructField("comprador", StringType(), False),
    StructField("vendedor", StringType(), False),
    StructField("dataPgto", DateType(), False),
    StructField("valor", FloatType(), False)
])

# Dados da tabela comissoes
dados_comissoes = [
    ("Leonardo", "Bruno",   datetime(2000, 1, 1),   200.00),
    ("Leonardo", "Matheus",datetime(2003, 9, 27), 1024.00),
    ("Leonardo", "Lucas",  datetime(2006, 6, 26),  512.00),
    ("Marcos",   "Lucas",  datetime(2020, 12, 17), 100.00),
    ("Marcos",   "Lucas",  datetime(2002, 3, 22),   10.00),
    ("Cinthia",  "Lucas",  datetime(2021, 3, 20),  500.00),
    ("Mateus",   "Bruno",  datetime(2007, 6, 2),   400.00),
    ("Mateus",   "Bruno",  datetime(2006, 6, 26),  400.00),
    ("Mateus",   "Bruno",  datetime(2015, 6, 26),  200.00),
]

# Cria o DataFrame
df_comissoes = spark.createDataFrame(dados_comissoes, schema)

# Cria view tempor√°ria
df_comissoes.createOrReplaceTempView('temp_comissoes')


In [0]:
%sql
INSERT INTO datacraft_catalog.cantu.comissoes (
    comprador, vendedor, dataPgto, valor
  )
SELECT
  comprador,
  vendedor,
  dataPgto,
  valor
FROM temp_comissoes

num_affected_rows,num_inserted_rows
9,9


In [0]:
%sql
WITH ranked_comissoes AS (
    SELECT
        vendedor,
        valor,
        ROW_NUMBER() OVER (PARTITION BY vendedor ORDER BY valor DESC) AS rn
    FROM datacraft_catalog.cantu.comissoes
),
top3_comissoes AS (
    SELECT
        vendedor,
        valor
    FROM ranked_comissoes
    WHERE rn <= 3
),
vendedores_qualificados AS (
    SELECT
        vendedor,
        COUNT(*) AS qtd_transferencias,
        SUM(valor) AS total_recebido
    FROM top3_comissoes
    GROUP BY vendedor
    HAVING qtd_transferencias <= 3 AND total_recebido >= 1024
)
SELECT vendedor
FROM vendedores_qualificados
ORDER BY vendedor ASC

vendedor
Lucas
Matheus


### 1.3 Organiza√ß√£o Empresarial
---
## üìã Estrutura da Tabela

```sql
CREATE TABLE colaboradores (
    id INTEGER NOT NULL,
    nome VARCHAR NOT NULL,
    salario INTEGER NOT NULL,
    lider_id INTEGER,
    UNIQUE(id)
);
````

> *A coluna `lider` foi ajustada para receber dados nulos, por conta dos requisitos da quest√£o.*

---

## üß† Desafio

Para cada funcion√°rio, retornar:

* `id` do funcion√°rio;
* `id` do **chefe indireto** que:

  * Ganha pelo menos o **dobro do sal√°rio** do funcion√°rio;
  * √â um **chefe indireto** (ou seja, chefe do chefe, ou superior a isso);
* Se **nenhum chefe indireto** atender a condi√ß√£o, o valor deve ser `NULL`.

### üß© Defini√ß√µes

* Um funcion√°rio A √© **chefe indireto** de B se:

  * A √© o chefe do chefe de B, ou do chefe do chefe do chefe... e assim por diante;
* N√£o existem ciclos na hierarquia (garantido pelo enunciado);
* O resultado deve ser ordenado por `id` do funcion√°rio de forma crescente.

---

## üí° Exemplo de Funcion√°rios

- Diagrama Hier√°rquico:

```planText
Marcos (20) - $ 10.000
‚îî‚îÄ‚îÄ Leonardo (10) - $ 4.500
    ‚îú‚îÄ‚îÄ Bruno (50) - $ 3.000 
    ‚îÇ   ‚îú‚îÄ‚îÄ Helen  (40) - $ 1.500
    ‚îÇ   ‚îî‚îÄ‚îÄ Wilian (30) - $ 1.501
    ‚îî‚îÄ‚îÄ Mateus (70) - $ 1.500
        ‚îî‚îÄ‚îÄ Cinthia (60) $ 2.000
```

| Id | Nome     | Sal√°rio | Lider\_Id |
| -- | -------- | ------- | --------- |
| 40 | Helen    | 1500    | 50        |
| 50 | Bruno    | 3000    | 10        |
| 10 | Leonardo | 4500    | 20        |
| 20 | Marcos   | 10000   | NULL      |
| 70 | Mateus   | 1500    | 10        |
| 60 | Cinthia  | 2000    | 70        |
| 30 | Wilian   | 1501    | 50        |

---



#### 1.3.1 Cria tabelas no Databricks - com Unity Catalog

In [0]:
%sql
USE datacraft_catalog.cantu;
CREATE TABLE IF NOT EXISTS cantu.colaboradores (
  id LONG NOT NULL, 
  nome STRING NOT NULL,
  salario DOUBLE NOT NULL,
  lider_id LONG,
  PRIMARY KEY(id)
);

In [0]:
# %sql
# DROP TABLE cantu.colaboradores

#### 1.1.2 Insere os dados nas tabelas no Databricks - com Unity Catalog

In [0]:
# Define o schema
schema = StructType([
    StructField("id", IntegerType(), False),
    StructField("nome", StringType(), False),
    StructField("salario", DoubleType(), False),
    StructField("lider_id", IntegerType(), True)
])

# Dados conforme a tabela da imagem
dados_colaboradores = [
    (40, "Helen",    1500, 50),
    (50, "Bruno",    3000, 10),
    (10, "Leonardo", 4500, 20),
    (20, "Marcos",  10000, None),
    (70, "Mateus",   1500, 10),
    (60, "Cinthia",  2000, 70),
    (30, "Wilian",   1501, 50),
]

# Cria o DataFrame
df_colaboradores = spark.createDataFrame(dados_colaboradores, schema)

# Exibe o conte√∫do
df_colaboradores.createOrReplaceTempView('temp_colaboradores')


In [0]:
%sql
INSERT INTO datacraft_catalog.cantu.colaboradores (
    id, nome, salario, lider_id
  )
SELECT
  id,
  nome,
  salario,
  lider_id
FROM temp_colaboradores

num_affected_rows,num_inserted_rows
7,7


In [0]:
%sql
WITH chefe_direto AS (
  -- Retorna o chefe direto de cada funcion√°rio
  SELECT
    id,
    nome,
    salario,
    lider_id as id_chefe_direto
  FROM datacraft_catalog.cantu.colaboradores
), chefe_indireto AS (
  -- Retorna o chefe indireto de cada funcion√°rio
  SELECT
    chefe_direto.*,
    chefe.nome as nome_chefe_direto,
    chefe.salario as salario_chefe_direto,
    chefe.lider_id as id_chefe_indireto
  FROM chefe_direto
  LEFT JOIN datacraft_catalog.cantu.colaboradores AS chefe ON chefe.id = chefe_direto.id_chefe_direto
)
-- retorna o id_funcionario e o id_do_chefe_indireto
SELECT
  id as id_funcionario,
  id_chefe_indireto
FROM chefe_indireto
ORDER BY 1

id_funcionario,id_chefe_indireto
10,
20,
30,10.0
40,10.0
50,20.0
60,10.0
70,20.0
