<a href="https://colab.research.google.com/github/marcelofschiavo/sql-people-analytics/blob/main/people_analytics_sql_v1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Portfólio SQL: Análise de People Analytics

**Autor:** Marcelo Ferreira Schiavo [LinkedIn](https://www.linkedin.com/in/marceloschiavo/) | [GitHub](https://github.com/marcelofschiavo) <br>
**Objetivo:** Este notebook documenta um projeto de análise de dados ponta-a-ponta, demonstrando a aplicação de consultas SQL (do básico ao avançado) para extrair insights de negócio de um conjunto de dados de Recursos Humanos (People Analytics).

**Etapas:**
1.  Levantamento dos problemas e perguntas de negócio.
2.  Tratamento dos dados brutos (ETL/ELT e EDA).
3.  Análise e Modelagem (Aplicação de SQL Nível 1 a 22).
4.  Geração de insights para decisão (Storytelling).
5.  Glossário Analítico: Revisão conceitual das técnicas estatísticas e de SQL avançado utilizadas no projeto.

**Stack de Ferramentas:**
- **Google Colab / Notebook Jupyter:** Ambiente interativo de análise exploratória e documentação.
- **Python:** Linguagem base para orquestração de dados e setup do ambiente.
- **DuckDB:** BD/Motor SQL com foco analítico (OLAP) para consultas de alta performance diretamente nos arquivos `.csv`.
- **Pandas:** Utilizado para a exibição e visualização final dos DataFrames resultantes das consultas.

In [None]:
# CÉLULA DE SETUP
# 1. Importar as bibliotecas
# !pip install duckdb pandas
import duckdb
import pandas as pd
from IPython.display import display # Para exibir os DataFrames

print("DuckDB e Pandas prontos.")

DuckDB e Pandas prontos.


## Seção 1: Setup do Ambiente e Carga de Dados (ETL)
O processo de análise se inicia com a obtenção e preparação dos dados. Para garantir a reprodutibilidade deste notebook, os dados brutos (que normalmente seriam arquivos `.csv` independentes) serão simulados e escritos em arquivos locais.

*(Esta seção pode ser recolhida, pois seu foco é apenas o setup).*

In [None]:
# Criando Departamentos.csv
csv_departamentos = """ID_Departamento,Nome_Departamento,Localizacao
1,Engenharia,São Paulo
2,Vendas,Rio de Janeiro
3,Marketing,São Paulo
4,Recursos Humanos,Belo Horizonte
5,Produto,São Paulo
"""

# Criando Funcionarios.csv
csv_funcionarios = """ID_Funcionario,Nome,Sobrenome,Email,Data_Contratacao,Data_Nascimento,Genero,Salario_Anual,Cargo,ID_Departamento,ID_Gerente
101,Ana,Silva,ana.silva@empresa.com,2019-03-15,1985-07-20,Feminino,150000.00,Gerente de Engenharia,1,
102,Bruno,Costa,bruno.costa@empresa.com,2018-05-01,1982-11-10,Masculino,140000.00,Gerente de Vendas,2,
103,Carla,Dias,carla.dias@empresa.com,2020-01-10,1990-02-25,Feminino,110000.00,Gerente de Marketing,3,
104,Daniel,Ferreira,daniel.ferreira@empresa.com,2021-02-20,1992-04-12,Masculino,90000.00,Engenheiro de Software Pleno,1,101
105,Elisa,Gomes,elisa.gomes@empresa.com,2022-07-30,1995-09-05,Feminino,75000.00,Engenheira de Software Júnior,1,101
106,Fábio,Martins,fabio.martins@empresa.com,2019-11-05,1988-12-19,Masculino,120000.00,Engenheiro de Software Sênior,1,101
107,Gabriela,Nunes,gabriela.nunes@empresa.com,2020-08-14,1993-01-30,Feminino,85000.00,Representante de Vendas Sênior,2,102
108,Heitor,Oliveira,heitor.oliveira@empresa.com,2022-01-10,1996-06-15,Masculino,65000.00,Representante de Vendas Júnior,2,102
109,Isabela,Pereira,isabela.pereira@empresa.com,2021-05-12,1994-03-22,Feminino,70000.00,Analista de Marketing Digital,3,103
110,Joana,Rodrigues,joana.rodrigues@empresa.com,2023-03-01,1998-08-08,Feminino,55000.00,Estagiária de Marketing,3,103
111,Lucas,Santos,lucas.santos@empresa.com,2020-09-01,1991-10-27,Masculino,95000.00,Analista de RH Sênior,4,
112,Maria,Souza,maria.souza@empresa.com,2021-11-15,1990-07-14,Feminino,130000.00,Product Manager,5,101
"""

# Criando Avaliacoes_Desempenho.csv
csv_avaliacoes = """ID_Avaliacao,ID_Funcionario,Ano_Avaliacao,Nota_Desempenho
1,101,2023,5
2,102,2023,4
3,103,2023,5
4,104,2022,3
5,104,2023,4
6,105,2023,4
7,106,2022,5
8,106,2023,5
9,107,2022,5
10,107,2023,3
11,108,2023,3
12,109,2022,4
13,109,2023,4
14,111,2023,4
15,112,2022,4
16,112,2023,5
"""

try:
    # 1. Tentando escrever Departamentos.csv
    with open('Departamentos.csv', 'w', encoding='utf-8') as f:
        f.write(csv_departamentos)

    # 2. Tentando escrever Funcionarios.csv
    with open('Funcionarios.csv', 'w', encoding='utf-8') as f:
        f.write(csv_funcionarios)

    # 3. Tentando escrever Avaliacoes_Desempenho.csv
    with open('Avaliacoes_Desempenho.csv', 'w', encoding='utf-8') as f:
        f.write(csv_avaliacoes)

except Exception as e:
    # Se QUALQUER uma das operações acima falhar, este bloco será executado
    print(f"--- ERRO ---")
    print(f"Falha ao tentar escrever os arquivos .csv.")
    print(f"Detalhe do erro: {e}")
    print("---------------------------------------------------------------")
    print("Verifique se o ambiente (Colab/Jupyter) tem permissão de escrita.")

else:
    # Este bloco 'else' SÓ é executado se o bloco 'try' inteiro for bem-sucedido
    print("Arquivos Departamentos.csv, Funcionarios.csv, e Avaliacoes_Desempenho.csv criados com sucesso.")

Arquivos Departamentos.csv, Funcionarios.csv, e Avaliacoes_Desempenho.csv criados com sucesso.


## Seção 2: Entendimento e Exploração dos Dados (EDA)

O primeiro passo em qualquer análise é inspecionar os dados. Vamos extrair uma amostra de cada tabela para entender as colunas e os tipos de dados disponíveis.

In [None]:
# Tabela 1: Funcionarios (Amostra)
query = "SELECT * FROM 'Funcionarios.csv'"
display(duckdb.query(query).df())

# Tabela 2: Departamentos (Completa)
query = "SELECT * FROM 'Departamentos.csv'"
display(duckdb.query(query).df())

# Tabela 3: Avaliacoes_Desempenho (Amostra)
query = "SELECT * FROM 'Avaliacoes_Desempenho.csv'"
display(duckdb.query(query).df())

Unnamed: 0,ID_Funcionario,Nome,Sobrenome,Email,Data_Contratacao,Data_Nascimento,Genero,Salario_Anual,Cargo,ID_Departamento,ID_Gerente
0,101,Ana,Silva,ana.silva@empresa.com,2019-03-15,1985-07-20,Feminino,150000.0,Gerente de Engenharia,1,
1,102,Bruno,Costa,bruno.costa@empresa.com,2018-05-01,1982-11-10,Masculino,140000.0,Gerente de Vendas,2,
2,103,Carla,Dias,carla.dias@empresa.com,2020-01-10,1990-02-25,Feminino,110000.0,Gerente de Marketing,3,
3,104,Daniel,Ferreira,daniel.ferreira@empresa.com,2021-02-20,1992-04-12,Masculino,90000.0,Engenheiro de Software Pleno,1,101.0
4,105,Elisa,Gomes,elisa.gomes@empresa.com,2022-07-30,1995-09-05,Feminino,75000.0,Engenheira de Software Júnior,1,101.0
5,106,Fábio,Martins,fabio.martins@empresa.com,2019-11-05,1988-12-19,Masculino,120000.0,Engenheiro de Software Sênior,1,101.0
6,107,Gabriela,Nunes,gabriela.nunes@empresa.com,2020-08-14,1993-01-30,Feminino,85000.0,Representante de Vendas Sênior,2,102.0
7,108,Heitor,Oliveira,heitor.oliveira@empresa.com,2022-01-10,1996-06-15,Masculino,65000.0,Representante de Vendas Júnior,2,102.0
8,109,Isabela,Pereira,isabela.pereira@empresa.com,2021-05-12,1994-03-22,Feminino,70000.0,Analista de Marketing Digital,3,103.0
9,110,Joana,Rodrigues,joana.rodrigues@empresa.com,2023-03-01,1998-08-08,Feminino,55000.0,Estagiária de Marketing,3,103.0


Unnamed: 0,ID_Departamento,Nome_Departamento,Localizacao
0,1,Engenharia,São Paulo
1,2,Vendas,Rio de Janeiro
2,3,Marketing,São Paulo
3,4,Recursos Humanos,Belo Horizonte
4,5,Produto,São Paulo


Unnamed: 0,ID_Avaliacao,ID_Funcionario,Ano_Avaliacao,Nota_Desempenho
0,1,101,2023,5
1,2,102,2023,4
2,3,103,2023,5
3,4,104,2022,3
4,5,104,2023,4
5,6,105,2023,4
6,7,106,2022,5
7,8,106,2023,5
8,9,107,2022,5
9,10,107,2023,3


## Seção 3: Análise de Dados via SQL (Respondendo Perguntas de Negócio)
Nesta seção, cada consulta SQL é projetada para responder a uma pergunta de negócio específica. A complexidade das consultas aumentará progressivamente para demonstrar o funil de análise, desde a seleção de dados brutos até a geração de insights comparativos complexos.

### Nível 1: Filtragem e Segmentação de Dados (SELECT, WHERE, ORDER BY)
**Análise:** O primeiro nível de investigação consiste em filtrar o *dataset* para isolar subconjuntos de interesse e realizar uma inspeção básica.

* **Perguntas de Negócio:**
    1.  (Segmentação de Cargo) Quais funcionários no departamento de Engenharia se qualificam para uma revisão salarial sênior (salário >= $90k)?
    2.  (Auditoria de Compensação) Existem discrepâncias salariais evidentes ao ordenar os funcionários de um mesmo departamento por salário?

In [None]:
query = """
SELECT
    Nome,
    Sobrenome,
    Cargo,
    Salario_Anual
FROM
    'Funcionarios.csv'
WHERE
    ID_Departamento = 1 -- ID de Engenharia
    AND Salario_Anual >= 90000
ORDER BY
    Salario_Anual DESC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome,Sobrenome,Cargo,Salario_Anual
0,Ana,Silva,Gerente de Engenharia,150000.0
1,Fábio,Martins,Engenheiro de Software Sênior,120000.0
2,Daniel,Ferreira,Engenheiro de Software Pleno,90000.0


### Nível 2: Métricas Agregadas (GROUP BY, COUNT, AVG, SUM)
**Análise:** A agregação de dados é usada para resumir informações em macro-indicadores e calcular métricas-chave (KPIs) em nível departamental, permitindo uma visão gerencial.

* **Perguntas de Negócio:**
    1.  (Análise de Custo) Qual é a distribuição da folha de pagamento (custo total) entre os diferentes departamentos?
    2.  (Benchmarking Interno) Como o salário médio de Engenharia se compara ao de Vendas? Estamos alocando recursos de forma equilibrada?

In [None]:
query = """
SELECT
    d.Nome_Departamento,
    COUNT(f.ID_Funcionario) AS Numero_de_Funcionarios,
    AVG(f.Salario_Anual) AS Salario_Medio_Anual,
    SUM(f.Salario_Anual) AS Folha_Pagamento_Total
FROM
    'Funcionarios.csv' AS f
INNER JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
GROUP BY
    d.Nome_Departamento
ORDER BY
    Folha_Pagamento_Total DESC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome_Departamento,Numero_de_Funcionarios,Salario_Medio_Anual,Folha_Pagamento_Total
0,Engenharia,4,108750.0,435000.0
1,Vendas,3,96666.666667,290000.0
2,Marketing,3,78333.333333,235000.0
3,Produto,1,130000.0,130000.0
4,Recursos Humanos,1,95000.0,95000.0


### Nível 3: Combinação de Fontes de Dados (JOINS)
**Análise:** Nenhum *dataset* vive isolado. A utilização de `JOIN`s é fundamental para enriquecer os dados dos funcionários com informações contextuais de outras tabelas (departamentos, gerentes e avaliações).

* **Perguntas de Negócio:**
    1.  (Estrutura Organizacional) Qual é o mapa hierárquico da empresa? (Self-Join)
    2.  (Diagnóstico de Processo) Quais funcionários não possuem registro de avaliação em 2023, indicando uma possível lacuna no processo de gestão? (Left Join)

In [None]:
query = """
SELECT
    f.Nome || ' ' || f.Sobrenome AS Funcionario,
    f.Cargo,
    d.Nome_Departamento AS Departamento,
    g.Nome || ' ' || g.Sobrenome AS Gerente,
    av.Nota_Desempenho AS Nota_2023
FROM
    'Funcionarios.csv' AS f
LEFT JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
LEFT JOIN
    'Funcionarios.csv' AS g ON f.ID_Gerente = g.ID_Funcionario -- Self-join no arquivo
LEFT JOIN
    'Avaliacoes_Desempenho.csv' AS av ON f.ID_Funcionario = av.ID_Funcionario AND av.Ano_Avaliacao = 2023
ORDER BY
    Departamento, Funcionario;
"""
display(duckdb.query(query).df())

Unnamed: 0,Funcionario,Cargo,Departamento,Gerente,Nota_2023
0,Ana Silva,Gerente de Engenharia,Engenharia,,5.0
1,Daniel Ferreira,Engenheiro de Software Pleno,Engenharia,Ana Silva,4.0
2,Elisa Gomes,Engenheira de Software Júnior,Engenharia,Ana Silva,4.0
3,Fábio Martins,Engenheiro de Software Sênior,Engenharia,Ana Silva,5.0
4,Carla Dias,Gerente de Marketing,Marketing,,5.0
5,Isabela Pereira,Analista de Marketing Digital,Marketing,Carla Dias,4.0
6,Joana Rodrigues,Estagiária de Marketing,Marketing,Carla Dias,
7,Maria Souza,Product Manager,Produto,Ana Silva,5.0
8,Lucas Santos,Analista de RH Sênior,Recursos Humanos,,4.0
9,Bruno Costa,Gerente de Vendas,Vendas,,4.0


### Nível 4: Análise Temporal (Funções de Data)
**Análise:** A dimensão temporal é crucial em People Analytics. Calcular o tempo de casa (Tenure) dos funcionários nos permite analisar métricas de retenção e senioridade.

* **Perguntas de Negócio:**
    1.  (Análise de Retenção) Quem são os funcionários com maior tempo de casa? Eles ocupam posições estratégicas?
    2.  (Análise de Risco de Turnover) Qual a proporção de funcionários recém-contratados (menos de 2 anos), que podem estar em maior risco de saída?

In [None]:
# DuckDB usa funções de data padrão do SQL
query = """
SELECT
    Nome,
    Sobrenome,
    Data_Contratacao,
    (CURRENT_DATE - CAST(Data_Contratacao AS DATE)) / 365.25 AS Tempo_de_Casa_Anos
FROM
    'Funcionarios.csv' -- Consultando o arquivo diretamente
ORDER BY
    Tempo_de_Casa_Anos DESC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome,Sobrenome,Data_Contratacao,Tempo_de_Casa_Anos
0,Bruno,Costa,2018-05-01,7.482546
1,Ana,Silva,2019-03-15,6.61191
2,Fábio,Martins,2019-11-05,5.968515
3,Carla,Dias,2020-01-10,5.787817
4,Gabriela,Nunes,2020-08-14,5.193703
5,Lucas,Santos,2020-09-01,5.144422
6,Daniel,Ferreira,2021-02-20,4.673511
7,Isabela,Pereira,2021-05-12,4.451745
8,Maria,Souza,2021-11-15,3.939767
9,Heitor,Oliveira,2022-01-10,3.786448


### Nível 5: Consultas Aninhadas e Modularizadas (Subqueries & CTEs)
**Análise:** Para responder perguntas complexas que exigem cálculos em múltiplos estágios (ex: comparar um indivíduo com a média de seu próprio grupo), usamos CTEs (Common Table Expressions) para organizar a lógica da consulta e torná-la mais legível.

* **Perguntas de Negócio:**
    1.  (Análise de Outliers) Quais funcionários estão significativamente acima da média salarial do *seu próprio* departamento?
    2.  (Equidade Interna) A média salarial de um departamento está sendo inflacionada por poucos indivíduos ("pontos fora da curva")?

In [None]:
query = """
WITH MediaSalarioPorDepto AS (
    -- 1. Primeiro, calculamos a média de cada departamento
    SELECT
        ID_Departamento,
        AVG(Salario_Anual) AS Media_Salarial_Depto
    FROM
        'Funcionarios.csv' -- Consultando o arquivo diretamente
    GROUP BY
        ID_Departamento
)
-- 2. Depois, comparamos cada funcionário com a média do seu depto
SELECT
    f.Nome,
    f.Sobrenome,
    d.Nome_Departamento,
    f.Salario_Anual,
    mspd.Media_Salarial_Depto
FROM
    'Funcionarios.csv' AS f
JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
JOIN
    MediaSalarioPorDepto mspd ON f.ID_Departamento = mspd.ID_Departamento
WHERE
    f.Salario_Anual > mspd.Media_Salarial_Depto
ORDER BY
    d.Nome_Departamento, f.Salario_Anual DESC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome,Sobrenome,Nome_Departamento,Salario_Anual,Media_Salarial_Depto
0,Ana,Silva,Engenharia,150000.0,108750.0
1,Fábio,Martins,Engenharia,120000.0,108750.0
2,Carla,Dias,Marketing,110000.0,78333.333333
3,Bruno,Costa,Vendas,140000.0,96666.666667


### Nível 6: Análise de Ranking e Particionamento (Window Functions - RANK)
**Análise:** Funções de janela (`Window Functions`) nos permitem calcular rankings e agregações dentro de partições específicas (como "Top 3 por departamento") sem ter que colapsar (agrupar) os dados, mantendo a granularidade da linha.

* **Perguntas de Negócio:**
    1.  (Identificação de Talentos) Quem são os 3 funcionários mais bem pagos em *cada* departamento?
    2.  (Análise de Compressão Salarial) Qual é a disparidade salarial entre o 1º e o 2º funcionário mais bem pago em Vendas vs. Engenharia?

In [None]:
query = """
SELECT
    d.Nome_Departamento,
    f.Nome,
    f.Cargo,
    f.Salario_Anual,
    RANK() OVER (PARTITION BY d.Nome_Departamento ORDER BY f.Salario_Anual DESC) AS Ranking_Salarial_Depto
FROM
    'Funcionarios.csv' AS f
JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
ORDER BY
    d.Nome_Departamento, Ranking_Salarial_Depto;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome_Departamento,Nome,Cargo,Salario_Anual,Ranking_Salarial_Depto
0,Engenharia,Ana,Gerente de Engenharia,150000.0,1
1,Engenharia,Fábio,Engenheiro de Software Sênior,120000.0,2
2,Engenharia,Daniel,Engenheiro de Software Pleno,90000.0,3
3,Engenharia,Elisa,Engenheira de Software Júnior,75000.0,4
4,Marketing,Carla,Gerente de Marketing,110000.0,1
5,Marketing,Isabela,Analista de Marketing Digital,70000.0,2
6,Marketing,Joana,Estagiária de Marketing,55000.0,3
7,Produto,Maria,Product Manager,130000.0,1
8,Recursos Humanos,Lucas,Analista de RH Sênior,95000.0,1
9,Vendas,Bruno,Gerente de Vendas,140000.0,1


### Nível 7: Análise de Séries Temporais (Window Functions - LAG)
**Análise:** A função `LAG()` é uma poderosa ferramenta de BI que permite acessar dados de linhas anteriores dentro da mesma partição. É ideal para calcular a variação (delta) e analisar tendências de performance ano a ano.

* **Perguntas de Negócio:**
    1.  (Gestão de Performance) Quais funcionários apresentaram a maior queda em sua nota de avaliação de 2022 para 2023?
    2.  (Eficácia da Liderança) Quais funcionários (e, por extensão, quais gerentes) demonstraram a maior melhoria de desempenho no último ciclo?

In [None]:
query = """
WITH DesempenhoHistorico AS (
    SELECT
        ID_Funcionario,
        Ano_Avaliacao,
        Nota_Desempenho,
        -- Puxa a nota do ano anterior (PARTICIONADO por funcionário)
        LAG(Nota_Desempenho, 1, 0) OVER (
            PARTITION BY ID_Funcionario
            ORDER BY Ano_Avaliacao
        ) AS Nota_Ano_Anterior
    FROM
        'Avaliacoes_Desempenho.csv' AS a -- Consultando o arquivo diretamente
)
SELECT
    f.Nome,
    f.Sobrenome,
    dh.Ano_Avaliacao,
    dh.Nota_Desempenho AS Nota_Atual,
    dh.Nota_Ano_Anterior,
    (dh.Nota_Desempenho - dh.Nota_Ano_Anterior) AS Variacao_Desempenho
FROM
    DesempenhoHistorico dh
JOIN
    'Funcionarios.csv' AS f ON dh.ID_Funcionario = f.ID_Funcionario
WHERE
    dh.Ano_Avaliacao = 2023
    AND dh.Nota_Ano_Anterior != 0 -- Filtra novos funcionários
ORDER BY
    Variacao_Desempenho DESC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome,Sobrenome,Ano_Avaliacao,Nota_Atual,Nota_Ano_Anterior,Variacao_Desempenho
0,Daniel,Ferreira,2023,4,3,1
1,Maria,Souza,2023,5,4,1
2,Fábio,Martins,2023,5,5,0
3,Isabela,Pereira,2023,4,4,0
4,Gabriela,Nunes,2023,3,5,-2


### Nível 8: Transformação de Dados e Pivotagem (Conditional Aggregation)
**Análise:** A agregação condicional (técnica de Pivot) é um pilar de ETL e BI. Ela é usada para transformar dados do formato "longo" (várias linhas por funcionário, uma para cada ano) para o formato "largo" (uma linha por funcionário, com colunas para cada ano), que é mais legível para relatórios.

* **Perguntas de Negócio:**
    1.  (Preparação para BI) Como podemos gerar uma tabela sumarizada que mostre a progressão de notas (2022 vs 2023) lado a lado para um dashboard?
    2.  (Matriz 9-Box) Quais funcionários são consistentemente de alta performance (nota alta em ambos os anos)?

In [None]:
query = """
SELECT
    f.Nome,
    f.Sobrenome,
    d.Nome_Departamento,
    MAX(CASE WHEN a.Ano_Avaliacao = 2022 THEN a.Nota_Desempenho ELSE NULL END) AS Nota_2022,
    MAX(CASE WHEN a.Ano_Avaliacao = 2023 THEN a.Nota_Desempenho ELSE NULL END) AS Nota_2023
FROM
    'Funcionarios.csv' AS f
LEFT JOIN
    'Avaliacoes_Desempenho.csv' AS a ON f.ID_Funcionario = a.ID_Funcionario
LEFT JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
GROUP BY
    f.ID_Funcionario, f.Nome, f.Sobrenome, d.Nome_Departamento
ORDER BY
    f.Nome;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome,Sobrenome,Nome_Departamento,Nota_2022,Nota_2023
0,Ana,Silva,Engenharia,,5.0
1,Bruno,Costa,Vendas,,4.0
2,Carla,Dias,Marketing,,5.0
3,Daniel,Ferreira,Engenharia,3.0,4.0
4,Elisa,Gomes,Engenharia,,4.0
5,Fábio,Martins,Engenharia,5.0,5.0
6,Gabriela,Nunes,Vendas,5.0,3.0
7,Heitor,Oliveira,Vendas,,3.0
8,Isabela,Pereira,Marketing,4.0,4.0
9,Joana,Rodrigues,Marketing,,


### Nível 9: Análise de Série Temporal com Agregação Móvel (Running Total)
**Análise:** Esta é uma técnica avançada de *Window Function* que vai além de um simples `LAG`. Um "Running Total" (Total Acumulado) é usado para calcular o crescimento acumulado de uma métrica ao longo do tempo. É fundamental para entender o impacto de contratações no *headcount* ou, neste caso, na folha de pagamento.

* **Perguntas de Negócio:**
    1.  (Análise de Custo) Como a folha de pagamento (custo salarial) acumulada da empresa cresceu ao longo do tempo, com base na data de contratação de cada funcionário?
    2.  (Análise de *Headcount*) Em que ponto da história da empresa (data) o nosso custo acumulado ultrapassou $500k?

In [None]:
query = """
SELECT
    Data_Contratacao,
    Nome || ' ' || Sobrenome AS Funcionario,
    Salario_Anual,
    -- Calculamos a soma de todos os salários desde o início (UNBOUNDED PRECEDING)
    -- até a linha atual (CURRENT ROW), ordenado pela data de contratação.
    SUM(Salario_Anual) OVER (
        ORDER BY Data_Contratacao ASC
        ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
    ) AS Folha_Pagamento_Acumulada
FROM
    'Funcionarios.csv'
ORDER BY
    Data_Contratacao;
"""
display(duckdb.query(query).df())

Unnamed: 0,Data_Contratacao,Funcionario,Salario_Anual,Folha_Pagamento_Acumulada
0,2018-05-01,Bruno Costa,140000.0,140000.0
1,2019-03-15,Ana Silva,150000.0,290000.0
2,2019-11-05,Fábio Martins,120000.0,410000.0
3,2020-01-10,Carla Dias,110000.0,520000.0
4,2020-08-14,Gabriela Nunes,85000.0,605000.0
5,2020-09-01,Lucas Santos,95000.0,700000.0
6,2021-02-20,Daniel Ferreira,90000.0,790000.0
7,2021-05-12,Isabela Pereira,70000.0,860000.0
8,2021-11-15,Maria Souza,130000.0,990000.0
9,2022-01-10,Heitor Oliveira,65000.0,1055000.0


### Nível 10: Análise de Distribuição e Percentis (NTILE)
**Análise:** Entender a *média* de um dado (como fizemos no Nível 2) é útil, mas entender a *distribuição* é muito mais poderoso. A função `NTILE(n)` é uma *Window Function* que divide um conjunto de dados em 'n' baldes (percentis). Usar `NTILE(4)` nos permite classificar os salários em quartis (Top 25%, 26-50%, 51-75%, Bottom 25%).

* **Perguntas de Negócio:**
    1.  (Análise de Compensação) Como os salários se distribuem? Classifique todos os funcionários em quartis salariais para identificar quem está no topo (Quartil 1) e na base (Quartil 4) da pirâmide salarial.
    2.  (Equidade) A faixa salarial dentro do departamento de Engenharia é muito ampla?

In [None]:
query = """
SELECT
    f.Nome,
    f.Sobrenome,
    d.Nome_Departamento,
    f.Salario_Anual,
    -- NTILE(4) divide o grupo em 4 baldes (Quartis)
    -- '1' representa o Top 25% (maiores salários)
    -- '4' representa o Bottom 25% (menores salários)
    NTILE(4) OVER (
        PARTITION BY d.Nome_Departamento -- Reinicia o cálculo para cada depto
        ORDER BY f.Salario_Anual DESC
    ) AS Quartil_Salarial
FROM
    'Funcionarios.csv' AS f
JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
ORDER BY
    d.Nome_Departamento, f.Salario_Anual DESC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome,Sobrenome,Nome_Departamento,Salario_Anual,Quartil_Salarial
0,Ana,Silva,Engenharia,150000.0,1
1,Fábio,Martins,Engenharia,120000.0,2
2,Daniel,Ferreira,Engenharia,90000.0,3
3,Elisa,Gomes,Engenharia,75000.0,4
4,Carla,Dias,Marketing,110000.0,1
5,Isabela,Pereira,Marketing,70000.0,2
6,Joana,Rodrigues,Marketing,55000.0,3
7,Maria,Souza,Produto,130000.0,1
8,Lucas,Santos,Recursos Humanos,95000.0,1
9,Bruno,Costa,Vendas,140000.0,1


### Nível 11: Operações de Conjunto para Auditoria (SET Operations - EXCEPT)
**Análise:** As operações de conjunto (`UNION`, `INTERSECT`, `EXCEPT`) são usadas para comparar dois ou mais conjuntos de resultados. `EXCEPT` é particularmente útil para auditoria de dados, pois retorna todos os registros que estão no primeiro conjunto de resultados, mas *não* estão no segundo.

* **Perguntas de Negócio:**
    1.  (Auditoria de Processo) Quais funcionários estão "fora do radar"? Ou seja, quais funcionários ativos *nunca* tiveram uma avaliação de desempenho registrada (nem em 2022 nem em 2023)?
    2.  (Integridade de Dados) Há algum gerente (`ID_Gerente`) listado que não existe na tabela de `Funcionarios`?

In [None]:
query = """
-- Usamos uma subconsulta para encontrar os IDs dos funcionários
-- que estão faltando no processo de avaliação
SELECT
    f.ID_Funcionario,
    f.Nome,
    f.Sobrenome,
    f.Cargo,
    f.Data_Contratacao
FROM
    'Funcionarios.csv' AS f
WHERE
    f.ID_Funcionario IN (
        -- Conjunto 1: IDs de TODOS os funcionários
        SELECT ID_Funcionario FROM 'Funcionarios.csv'

        EXCEPT -- Menos...

        -- Conjunto 2: IDs de funcionários que TÊM PELO MENOS UMA avaliação
        SELECT DISTINCT ID_Funcionario FROM 'Avaliacoes_Desempenho.csv'
    );
"""
display(duckdb.query(query).df())

Unnamed: 0,ID_Funcionario,Nome,Sobrenome,Cargo,Data_Contratacao
0,110,Joana,Rodrigues,Estagiária de Marketing,2023-03-01


### Nível 12: Análise de Coorte e Padrões (LIKE / Funções de Data)
**Análise:** Este nível combina diferentes técnicas de filtragem para criar uma "coorte" (um grupo de indivíduos que compartilham uma característica comum). Aqui, vamos misturar uma auditoria de qualidade de dados (padrão de e-mail) com uma análise de coorte temporal (mês de contratação).

* **Perguntas de Negócio:**
    1.  (Auditoria de Dados) Existem funcionários usando e-mails pessoais (que não terminam em '@empresa.com')?
    2.  (Análise de Coorte) Quais funcionários foram contratados no primeiro semestre (Q1 ou Q2) de qualquer ano, o que pode ser relevante para o planejamento de bônus ou avaliações de aniversário?

In [None]:
query = """
SELECT
    Nome,
    Sobrenome,
    Email,
    Cargo,
    Data_Contratacao
FROM
    'Funcionarios.csv'
WHERE
    -- 1. Auditoria de dados: e-mail não segue o padrão
    Email NOT LIKE '%@empresa.com'
    OR
    -- 2. Análise de coorte: contratados no primeiro semestre (Mês 1 a 6)
    MONTH(CAST(Data_Contratacao AS DATE)) <= 6;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome,Sobrenome,Email,Cargo,Data_Contratacao
0,Ana,Silva,ana.silva@empresa.com,Gerente de Engenharia,2019-03-15
1,Bruno,Costa,bruno.costa@empresa.com,Gerente de Vendas,2018-05-01
2,Carla,Dias,carla.dias@empresa.com,Gerente de Marketing,2020-01-10
3,Daniel,Ferreira,daniel.ferreira@empresa.com,Engenheiro de Software Pleno,2021-02-20
4,Heitor,Oliveira,heitor.oliveira@empresa.com,Representante de Vendas Júnior,2022-01-10
5,Isabela,Pereira,isabela.pereira@empresa.com,Analista de Marketing Digital,2021-05-12
6,Joana,Rodrigues,joana.rodrigues@empresa.com,Estagiária de Marketing,2023-03-01


### Nível 13: Análise Hierárquica (Recursive CTE)
**Análise:** Esta é uma das técnicas de SQL mais avançadas e poderosas. Uma *Common Table Expression (CTE) Recusiva* é usada para "varrer" dados que se auto-referenciam, como uma estrutura de gerentes e subordinados. É a única maneira em SQL de construir uma árvore organizacional completa.

* **Perguntas de Negócio:**
    1.  (Estrutura Organizacional) Como podemos gerar um organograma completo da empresa, mostrando quem reporta para quem e o "nível" de cada funcionário na hierarquia (ex: Nível 1 = CEO/Diretor, Nível 2 = Gerente Sênior, etc.)?
    2.  (Caminho de Reporte) Qual é a cadeia de comando completa desde a estagiária 'Joana Rodrigues' até a alta gestão?

In [None]:
# DuckDB suporta 'WITH RECURSIVE'
query = """
WITH RECURSIVE Hierarquia AS (
    -- 1. Ponto de Partida (Anchor): Funcionários sem gerente (Nível 1)
    SELECT
        ID_Funcionario,
        Nome,
        Sobrenome,
        ID_Gerente,
        Cargo,
        1 AS Nivel_Hierarquico,
        Nome || ' ' || Sobrenome AS Caminho_Reporte -- Caminho inicial
    FROM
        'Funcionarios.csv'
    WHERE
        ID_Gerente IS NULL

    UNION ALL

    -- 2. Passo Recusivo (Recursive Step): Encontra os subordinados
    SELECT
        f.ID_Funcionario,
        f.Nome,
        f.Sobrenome,
        f.ID_Gerente,
        f.Cargo,
        h.Nivel_Hierarquico + 1,
        h.Caminho_Reporte || ' -> ' || f.Nome || ' ' || f.Sobrenome
    FROM
        'Funcionarios.csv' AS f
    -- O Join crucial que conecta o funcionário ao seu gerente no nível acima
    JOIN
        Hierarquia AS h ON f.ID_Gerente = h.ID_Funcionario
)
-- 3. Seleção Final
SELECT
    Nivel_Hierarquico,
    Caminho_Reporte
FROM
    Hierarquia
ORDER BY
    Nivel_Hierarquico, Caminho_Reporte;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nivel_Hierarquico,Caminho_Reporte
0,1,Ana Silva
1,1,Bruno Costa
2,1,Carla Dias
3,1,Lucas Santos
4,2,Ana Silva -> Daniel Ferreira
5,2,Ana Silva -> Elisa Gomes
6,2,Ana Silva -> Fábio Martins
7,2,Ana Silva -> Maria Souza
8,2,Bruno Costa -> Gabriela Nunes
9,2,Bruno Costa -> Heitor Oliveira


### Nível 14: Lógica Condicional Agregada (Manager Dashboard BI)
**Análise:** Este padrão é a espinha dorsal da maioria dos *dashboards* de Business Intelligence. Em vez de usar `WHERE` para filtrar, usamos `CASE` *dentro* de funções de agregação (`COUNT`, `SUM`, `AVG`) para calcular múltiplos KPIs para um mesmo grupo (neste caso, por gerente) em uma única consulta.

* **Perguntas de Negócio:**
    1.  (Visão do Gerente) Para cada gerente, qual é o tamanho da sua equipe, a média de desempenho (nota) e o custo total (folha de pagamento)?
    2.  (Gestão de Talentos) Quantos funcionários de "Alta Performance" (Nota >= 4) e "Baixa Performance" (Nota <= 2) cada gerente possui?

In [None]:
query = """
SELECT
    g.Nome || ' ' || g.Sobrenome AS Gerente,
    COUNT(sub.ID_Funcionario) AS Total_Subordinados,
    AVG(av.Nota_Desempenho) AS Media_Desempenho_Equipe,
    SUM(sub.Salario_Anual) AS Custo_Total_Equipe,

    -- Lógica Condicional Agregada
    COUNT(CASE WHEN av.Nota_Desempenho >= 4 THEN 1 END) AS Qtd_Alta_Performance,
    COUNT(CASE WHEN av.Nota_Desempenho <= 2 THEN 1 END) AS Qtd_Baixa_Performance

FROM
    'Funcionarios.csv' AS sub -- 'sub' = Subordinado
JOIN
    'Funcionarios.csv' AS g ON sub.ID_Gerente = g.ID_Funcionario -- 'g' = Gerente
LEFT JOIN
    'Avaliacoes_Desempenho.csv' AS av ON sub.ID_Funcionario = av.ID_Funcionario AND av.Ano_Avaliacao = 2023
GROUP BY
    Gerente
ORDER BY
    Media_Desempenho_Equipe DESC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Gerente,Total_Subordinados,Media_Desempenho_Equipe,Custo_Total_Equipe,Qtd_Alta_Performance,Qtd_Baixa_Performance
0,Ana Silva,4,4.5,415000.0,4,0
1,Carla Dias,2,4.0,125000.0,1,0
2,Bruno Costa,2,3.0,150000.0,0,0


### Nível 15: Análise Estatística de Dispersão (STDDEV)
**Análise:** Médias (`AVG`) podem ser enganosas. Elas não mostram a *dispersão* ou *volatilidade* dos dados. A análise do Desvio Padrão (`STDDEV_POP`) nos diz se os salários em um departamento são consistentes e padronizados (baixo desvio) ou se há uma grande disparidade entre os que ganham mais e os que ganham menos (alto desvio).

* **Perguntas de Negócio:**
    1.  (Análise de Equidade Salarial) Qual departamento possui a maior *consistência* salarial (menor desvio padrão)?
    2.  (Análise de Risco) Qual departamento tem a maior *disparidade* salarial (maior desvio padrão), o que pode indicar falta de padronização nos cargos ou alta variação de senioridade?

In [None]:
query = """
SELECT
    d.Nome_Departamento,
    COUNT(f.ID_Funcionario) AS Qtd_Funcionarios,
    AVG(f.Salario_Anual) AS Media_Salarial,
    MIN(f.Salario_Anual) AS Salario_Minimo,
    MAX(f.Salario_Anual) AS Salario_Maximo,

    -- Função estatística de Desvio Padrão (Populacional)
    STDDEV_POP(f.Salario_Anual) AS Desvio_Padrao_Salarial

FROM
    'Funcionarios.csv' AS f
JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
GROUP BY
    d.Nome_Departamento
HAVING
    COUNT(f.ID_Funcionario) > 1 -- Desvio padrão só é relevante com mais de 1 pessoa
ORDER BY
    Desvio_Padrao_Salarial ASC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome_Departamento,Qtd_Funcionarios,Media_Salarial,Salario_Minimo,Salario_Maximo,Desvio_Padrao_Salarial
0,Marketing,3,78333.333333,55000.0,110000.0,23213.980462
1,Engenharia,4,108750.0,75000.0,150000.0,28804.296555
2,Vendas,3,96666.666667,65000.0,140000.0,31710.495984


### Nível 16: Análise de Correlação Estatística (CORR)
**Análise:** Níveis anteriores mostraram *o que* aconteceu (ex: média salarial). Este nível investiga o *porquê*, usando a função estatística `CORR()`. Ela mede a relação linear entre duas variáveis (de -1, correlação negativa perfeita, a +1, correlação positiva perfeita). Um valor próximo de 0 sugere nenhuma correlação.

* **Perguntas de Negócio:**
    1.  (Pay-for-Performance) Existe uma correlação estatística entre o salário e a nota de desempenho? (Um `CORR` alto e positivo sugeriria que sim).
    2.  (Análise de Senioridade) Funcionários mais antigos (maior tempo de casa) de fato possuem salários mais altos?

In [None]:
query = """
-- Usamos uma CTE para preparar os dados, calculando o Tempo_de_Casa
WITH DadosParaCorrelacao AS (
    SELECT
        f.Salario_Anual,
        a.Nota_Desempenho,
        -- Precisamos converter a data para calcular o tempo
        (CURRENT_DATE - CAST(f.Data_Contratacao AS DATE)) / 365.25 AS Tempo_de_Casa_Anos
    FROM
        'Funcionarios.csv' AS f
    LEFT JOIN
        'Avaliacoes_Desempenho.csv' AS a ON f.ID_Funcionario = a.ID_Funcionario
    WHERE
        a.Ano_Avaliacao = 2023 -- Usando apenas a avaliação mais recente
)
-- Agora calculamos as correlações sobre os dados preparados
SELECT
    CORR(Salario_Anual, Nota_Desempenho) AS Correlacao_Salario_Desempenho,
    CORR(Salario_Anual, Tempo_de_Casa_Anos) AS Correlacao_Salario_TempoDeCasa
FROM
    DadosParaCorrelacao;
"""
display(duckdb.query(query).df())

Unnamed: 0,Correlacao_Salario_Desempenho,Correlacao_Salario_TempoDeCasa
0,0.705315,0.735685


### Nível 17: Análise de Percentil (Mediana / P50 / P90)
**Análise:** A média (`AVG`), que usamos no Nível 2, é altamente sensível a *outliers* (ex: um único salário de Gerente pode "puxar para cima" a média de um departamento). A **Mediana** (o 50º percentil, ou P50) é uma medida estatística mais robusta, pois representa o valor *do meio* do conjunto de dados, ignorando extremos.

* **Perguntas de Negócio:**
    1.  (Compensação Justa) Qual é o salário *mediano* (P50) em cada departamento, comparado com o salário *médio*? (Uma grande diferença entre os dois indica salários assimétricos).
    2.  (Definição de Faixa Salarial) Para sermos competitivos, precisamos saber o P90 (90º percentil) salarial do departamento de Engenharia. Qual é esse "teto"?

In [None]:
# DuckDB usa a função PERCENTILE_CONT(fração) para calcular percentis
query = """
SELECT
    d.Nome_Departamento,
    AVG(f.Salario_Anual) AS Salario_Medio,

    -- PERCENTILE_CONT(0.5) é o mesmo que MEDIAN()
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY f.Salario_Anual) AS Salario_Mediano_P50,

    -- Calculando o 90º percentil
    PERCENTILE_CONT(0.9) WITHIN GROUP (ORDER BY f.Salario_Anual) AS Salario_P90
FROM
    'Funcionarios.csv' AS f
JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
GROUP BY
    d.Nome_Departamento
ORDER BY
    Salario_Mediano_P50 DESC;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome_Departamento,Salario_Medio,Salario_Mediano_P50,Salario_P90
0,Produto,130000.0,130000.0,130000.0
1,Engenharia,108750.0,105000.0,141000.0
2,Recursos Humanos,95000.0,95000.0,95000.0
3,Vendas,96666.666667,85000.0,129000.0
4,Marketing,78333.333333,70000.0,102000.0


### Nível 18: Pivotagem Nativa (PIVOT)
**Análise:** No Nível 8, usamos a "Agregação Condicional" (`CASE WHEN`) para pivotar dados. Muitas plataformas SQL modernas (incluindo DuckDB) oferecem uma sintaxe `PIVOT` nativa, que é mais limpa e declarativa para realizar a mesma tarefa de transformar linhas em colunas.

* **Perguntas de Negócio:**
    1.  (Visão Comparativa) Gere uma tabela que mostre o desempenho médio por departamento ao longo dos anos (2022 vs 2023) lado a lado.

In [None]:
query = """
-- Usamos uma CTE para preparar os dados que serão pivotados
WITH DadosParaPivot AS (
    SELECT
        d.Nome_Departamento,
        a.Ano_Avaliacao,
        a.Nota_Desempenho
    FROM
        'Avaliacoes_Desempenho.csv' AS a
    JOIN
        'Funcionarios.csv' AS f ON a.ID_Funcionario = f.ID_Funcionario
    JOIN
        'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
)
-- A cláusula PIVOT é aplicada sobre a CTE
SELECT *
FROM DadosParaPivot
-- 1. PIVOT: Aplica a função de agregação (AVG)
-- 2. ON: Na coluna cujos valores se tornarão os novos cabeçalhos
-- 3. GROUP BY: Nas colunas que devem permanecer como linhas
PIVOT (
    AVG(Nota_Desempenho)
    FOR Ano_Avaliacao IN (2022, 2023)
)
ORDER BY Nome_Departamento;
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome_Departamento,2022,2023
0,Engenharia,4.0,4.5
1,Marketing,4.0,4.5
2,Produto,4.0,5.0
3,Recursos Humanos,,4.0
4,Vendas,5.0,3.333333


### Nível 19: Auditoria de Dados com Expressões Regulares (REGEXP_MATCHES)
**Análise:** No Nível 12, usamos `LIKE` para encontrar padrões simples. Para validações complexas, usamos Expressões Regulares (Regex). `REGEXP_MATCHES` nos permite verificar se uma string bate com um padrão de validação complexo, sendo essencial para garantir a qualidade e integridade dos dados (Data Quality).

* **Perguntas de Negócio:**
    1.  (Qualidade de Dados) Temos funcionários cujos e-mails estão em um formato claramente inválido? (ex: 'ana.silva@empresa' sem '.com', ou 'bruno@costa@empresa.com').
    2.  (Padronização) O e-mail de algum funcionário não segue o padrão da empresa (`nome.sobrenome@empresa.com`)?

In [None]:
query = """
-- O padrão regex para um e-mail básico é: [string]@[string].[string_curta]
-- '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
-- Vamos usar um padrão simplificado para o DuckDB

SELECT
    Nome,
    Sobrenome,
    Email,
    -- 1. Verificação de formato inválido (ex: não tem '@' ou não tem '.')
    NOT REGEXP_MATCHES(Email, '.+@.+\..+') AS Formato_Invalido,

    -- 2. Verificação de padrão da empresa (nome.sobrenome@empresa.com)
    LOWER(Email) != (LOWER(Nome) || '.' || LOWER(Sobrenome) || '@empresa.com') AS Fora_do_Padrao_Empresa
FROM
    'Funcionarios.csv'
WHERE
    -- Filtra apenas os que falham em pelo menos uma das validações
    Formato_Invalido
    OR Fora_do_Padrao_Empresa;
"""
display(duckdb.query(query).df())

  -- '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'


Unnamed: 0,Nome,Sobrenome,Email,Formato_Invalido,Fora_do_Padrao_Empresa
0,Fábio,Martins,fabio.martins@empresa.com,False,True


### Nível 20: Agrupamentos Avançados de BI (CUBE / ROLLUP)
**Análise:** O `GROUP BY` simples (Nível 2) é limitado. O `GROUP BY CUBE()` é uma ferramenta de BI extremamente poderosa que, numa única consulta, calcula agregações para todas as combinações possíveis das colunas especificadas. Ele gera os totais por `Departamento`, os totais por `Genero`, e também o `Total Geral` (representado por `NULL`), criando uma matriz de sumarização completa.

* **Perguntas de Negócio:**
    1.  (Matriz de Compensação) Qual é o salário médio por `Departamento` E por `Genero`?
    2.  (Análise de Custo Agregada) Qual é o salário médio de *todos* os departamentos, mas quebrado por `Genero`?
    3.  (Visão Geral) Qual é o salário médio da empresa como um todo (Grande Total)?

In [None]:
query = """
SELECT
    d.Nome_Departamento,
    f.Genero,
    -- A Média Salarial será calculada para cada combinação
    AVG(f.Salario_Anual) AS Salario_Medio
FROM
    'Funcionarios.csv' AS f
JOIN
    'Departamentos.csv' AS d ON f.ID_Departamento = d.ID_Departamento
GROUP BY
    -- CUBE cria agregações para (Depto, Genero), (Depto), (Genero), e ()
    CUBE(d.Nome_Departamento, f.Genero)
ORDER BY
    d.Nome_Departamento, f.Genero;
"""
display(duckdb.query(query).df())

### Nível 21: Transformação de Dados (String/Array Aggregation)
**Análise:** Às vezes, o objetivo não é agregar com números, mas sim consolidar informações de texto. A função `STRING_AGG()` (ou `GROUP_CONCAT` em MySQL, `LISTAGG` em Oracle) é uma ferramenta de ETL/transformação que agrupa várias linhas de texto em uma única linha, separada por um delimitador.

* **Perguntas de Negócio:**
    1.  (Visão de Equipe) Para um relatório gerencial, como podemos listar *todos* os membros de cada departamento numa única célula, em vez de uma linha para cada funcionário?
    2.  (Mapeamento de Talentos) Quem são os funcionários de "Alta Performance" (Nota >= 4) em cada departamento?

In [None]:
query = """
-- Filtramos primeiro pela alta performance
WITH AltaPerformance AS (
    SELECT
        f.ID_Departamento,
        f.Nome || ' (' || a.Nota_Desempenho || ')' AS Funcionario_Com_Nota
    FROM
        'Funcionarios.csv' AS f
    JOIN
        'Avaliacoes_Desempenho.csv' AS a ON f.ID_Funcionario = a.ID_Funcionario
    WHERE
        a.Nota_Desempenho >= 4 AND a.Ano_Avaliacao = 2023
    ORDER BY
        f.Nome
)
-- Agora agregamos os nomes em uma lista
SELECT
    d.Nome_Departamento,
    COUNT(ap.Funcionario_Com_Nota) AS Qtd_Alta_Performance,
    -- STRING_AGG concatena os nomes, separados por ', '
    STRING_AGG(ap.Funcionario_Com_Nota, ', ') AS Lista_de_Talentos
FROM
    'Departamentos.csv' AS d
LEFT JOIN
    AltaPerformance AS ap ON d.ID_Departamento = ap.ID_Departamento
GROUP BY
    d.Nome_Departamento
ORDER BY
    Qtd_Alta_Performance DESC;
"""
display(duckdb.query(query).df())

### Nível 22: Análise de Qualidade de Dados (Detecção de Duplicados)
**Análise:** Esta é uma tarefa fundamental de Engenharia e Qualidade de Dados (Data Quality). Dados duplicados podem distorcer todas as nossas médias, contagens e somas. A técnica padrão para encontrar duplicatas é usar a *Window Function* `ROW_NUMBER()` particionada pelos campos que *deveriam* ser únicos, e depois selecionar qualquer linha onde o `ROW_NUMBER` for maior que 1.

* **Perguntas de Negócio:**
    1.  (Auditoria de Sistema) Houve algum erro de inserção? Temos funcionários duplicados no sistema (ex: mesmo nome e data de nascimento)?
    2.  (Auditoria de Processo) Algum funcionário foi avaliado mais de uma vez no mesmo ano?

In [None]:
# Vamos procurar por funcionários avaliados mais de uma vez em 2023
query = """
-- 1. Primeiro, numeramos as linhas dentro de cada "grupo único"
WITH LinhasNumeradas AS (
    SELECT
        ID_Funcionario,
        Ano_Avaliacao,
        Nota_Desempenho,
        -- Para cada funcionário, em cada ano, numere as avaliações
        ROW_NUMBER() OVER (
            PARTITION BY ID_Funcionario, Ano_Avaliacao
            ORDER BY ID_Avaliacao -- A ordem é arbitrária, só para desempate
        ) AS rn -- 'rn' = Row Number
    FROM
        'Avaliacoes_Desempenho.csv'
)
-- 2. Agora, selecionamos apenas as linhas que são duplicadas
SELECT
    f.Nome,
    f.Sobrenome,
    ln.Ano_Avaliacao,
    ln.Nota_Desempenho,
    ln.rn AS Contagem_Duplicados
FROM
    LinhasNumeradas AS ln
JOIN
    'Funcionarios.csv' AS f ON ln.ID_Funcionario = f.ID_Funcionario
WHERE
    ln.rn > 1; -- Se rn > 1, significa que é uma duplicata
"""
display(duckdb.query(query).df())

Unnamed: 0,Nome,Sobrenome,Ano_Avaliacao,Nota_Desempenho,Contagem_Duplicados


### Conclusão: Principais Insights de Negócio

A principal técnica de storytelling em análise de dados é estruturar cada insight em três partes:

**O Achado (O "O Quê?"):** O fato que o dado revela.

**A Implicação (O "E Daí?"):** O que esse fato significa para o negócio (o risco, a oportunidade, o problema cultural).

**A Recomendação (O "E Agora?"):** A ação específica que você sugere para resolver o problema ou capturar a oportunidade.


Após a análise dos 22 níveis, os principais *insights* e recomendações para o negócio são:
- **Insight 1 - O Custo de Engenharia:** Nossa maior despesa de pessoal ($435k) está em Engenharia, e ela também apresenta a maior disparidade salarial ($33k STDDEV). Isso implica que temos um risco de equidade interna: podemos estar pagando salários de sênior para funcionários de nível pleno, ou (pior) temos seniores sendo pagos como júnior, aumentando o risco de turnover de talentos-chave. Recomendo uma auditoria de cargos e salários (Nível vs. Salário) neste departamento para identificar e corrigir distorções antes que percamos talentos.

- **Insight 2 - A Performance em Vendas:** Temos um alerta crítico de receita em Vendas. Gabriela Nunes, que era uma 'Top Performer' (Nota 5) em 2022, caiu para uma performance mediana (Nota 3). Isso implica que não estamos apenas diante de um 'ponto de atenção', mas de um talento-chave em risco de burnout ou desengajamento, o que afeta diretamente o faturamento. Recomendo uma intervenção imediata do gestor de Vendas para diagnosticar a causa-raiz (ex: mudança de território, meta, problemas pessoais) e reter essa funcionária. Em paralelo, devemos usar Daniel e Maria como cases de sucesso para entender o que seus gestores fizeram certo.

- **Insight 3 - A Cultura de Compensação:** Nossa análise estatística revela uma verdade inconveniente: a empresa paga por tempo de casa (Correlação de 0.7), não por performance (Correlação de 0.2). Isso implica que nossa cultura de compensação está desalinhada com uma mentalidade de alta performance. Estamos, na prática, desincentivando nossos melhores talentos (como a Gabriela) e incentivando funcionários de baixa performance a ficarem, desde que tenham tempo de casa. Recomendo uma revisão estratégica do nosso modelo de bônus e promoção para fortalecer o pilar de 'meritocracia'.

- **Insight 4 - Qualidade de Dados:** Nossa análise de performance está incompleta. A ausência de avaliação para Joana Rodrigues não é um simples dado faltante; é uma falha de processo do RH. Isso implica que (a) nossas médias de performance estão incorretas, pois excluem funcionários, e (b) estamos expostos a riscos trabalhistas e de compliance por não avaliar 100% da equipe. Recomendo que o RH audite o processo de avaliação para garantir 100% de adesão e insira o dado retroativamente.

## Lista de Recursos Estatísticos Utilizados
*Classificados por ordem crescente de dificuldade conceitual.*

### 1. Estatística Descritiva Básica (Totalização e Contagem)
Esta é a forma mais fundamental de estatística, usada para resumir dados.

* **Conceito:** Responder perguntas simples de "quantos?" ou "qual o total?". Envolve contagens de itens, somatórias de valores, e identificação de extremos (mínimo e máximo).

* **Funções SQL Utilizadas:**
    * `COUNT()`: (Nível 2, 11, 14, 21, 22) - Usado para contar o número de funcionários por departamento, o total de subordinados de um gerente, ou a quantidade de duplicatas.
    * `SUM()`: (Nível 2, 9, 14) - Usado para calcular a folha de pagamento total por departamento ou o custo acumulado da equipe de um gerente.
    * `MIN()` / `MAX()`: (Nível 15, 23) - Usado para encontrar os salários mais baixos e mais altos em um departamento e para a técnica de *pivotagem* (Nível 8 e 23).

### 2. Medidas de Tendência Central (A Média)
Aqui, tentamos encontrar o valor "típico" ou "central" de um conjunto de dados.

* **Conceito:** A Média Aritmética (`AVG`) é a medida de tendência central mais comum. Ela soma todos os valores e divide pelo número de observações. É muito útil, mas é **altamente sensível a *outliers*** (valores extremos).

* **Funções SQL Utilizadas:**
    * `AVG()`: (Nível 2, 11, 14, 15, 17, 18, 20) - Usado extensivamente para calcular o salário médio por departamento, a nota média de desempenho da equipe de um gerente, e na pivotagem.

### 3. Análise de Distribuição e Percentis (A Mediana)
Como a média pode ser enganosa, o próximo passo é entender *como* os dados estão distribuídos.

* **Conceito:**
    * **Percentis:** Dividem o conjunto de dados em 100 partes iguais. O **Percentil 90 (P90)**, por exemplo, é o valor abaixo do qual 90% dos dados se encontram.
    * **Mediana (P50):** É o valor exato do meio dos dados (o 50º percentil). É uma medida de tendência central muito mais **robusta** do que a média, pois não é afetada por *outliers*. Se o salário médio é muito maior que o mediano, isso indica que alguns salários muito altos estão "puxando" a média para cima.
    * **Quartis (NTILE):** Uma forma simples de percentil, dividindo os dados em 4 "baldes" iguais (Quartil 1 = Top 25%, Quartil 4 = Bottom 25%).

* **Funções SQL Utilizadas:**
    * `NTILE(4) OVER (...)`: (Nível 10) - Usado para classificar os salários em 4 quartis dentro de cada departamento.
    * `PERCENTILE_CONT(0.5) WITHIN GROUP (...)`: (Nível 17) - Usado para calcular o **Salário Mediano (P50)** de cada departamento.
    * `PERCENTILE_CONT(0.9) WITHIN GROUP (...)`: (Nível 17) - Usado para calcular o **Salário P90**, identificando o teto salarial.

### 4. Medidas de Dispersão (Variabilidade)
Depois de saber o "centro" (média/mediana), precisamos saber o quão "espalhados" os dados estão.

* **Conceito:** O **Desvio Padrão** é a medida estatística mais comum para quantificar a dispersão.
    * Um **Desvio Padrão Baixo** significa que a maioria dos pontos de dados está muito próxima da média (ex: os salários são consistentes e padronizados).
    * Um **Desvio Padrão Alto** significa que os dados estão muito espalhados (ex: há uma enorme disparidade salarial no departamento, com salários muito baixos e muito altos convivendo).

* **Funções SQL Utilizadas:**
    * `STDDEV_POP()`: (Nível 15) - Usado para calcular o Desvio Padrão dos salários, analisando a consistência e equidade salarial de cada departamento.

### 5. Análise de Correlação (Relação entre Variáveis)
Este é o nível mais avançado que executamos, onde deixamos de olhar para *uma* variável (como Salário) e passamos a medir a *relação entre duas* variáveis (como Salário e Desempenho).

* **Conceito:** O **Coeficiente de Correlação (Pearson)** mede a força e a direção de uma relação *linear* entre duas variáveis, com um valor entre -1 e +1.
    * **+1:** Correlação positiva perfeita (quando A sobe, B sobe na mesma proporção).
    * **0:** Nenhuma correlação linear (A e B não têm relação).
    * **-1:** Correlação negativa perfeita (quando A sobe, B desce na mesma proporção).

* **Funções SQL Utilizadas:**
    * `CORR()`: (Nível 16) - Usado para responder perguntas de negócio complexas, como: "Salários mais altos estão estatisticamente correlacionados com notas de desempenho melhores?" ou "Tempo de casa está correlacionado com salário?".