# üöÄ Projeto MVP: An√°lise de Rotatividade de Funcion√°rios (HR Attrition) - Spring Engenharia de Dados

**Nome:** Vitor Teixeira Moraes

**Matr√≠cula:** 4052025000694

**--- OBSERVA√á√ïES IMPORTANTES ---**

**Distin√ß√£o entre os Sprints**

Para contextualizar este trabalho, √© importante diferenciar os objetivos de cada sprint, principalmente as que j√° foram realizadas anteriormente:

- **MVP Primeira Sprint** (An√°lise de Dados & Boas Pr√°ticas): O foco foi realizar uma An√°lise Explorat√≥ria de Dados (EDA) completa sobre o dataset de attrition da IBM. Naquele projeto, investigamos a fundo a estrutura dos dados, as correla√ß√µes entre as vari√°veis, o perfil dos funcion√°rios e geramos visualiza√ß√µes para extrair os primeiros insights sobre os poss√≠veis fatores que influenciam a rotatividade. O trabalho anterior pode ser acessado neste [reposit√≥rio do GitHub.](https://github.com/vitortmoraes/vitormoraes_mvp_2025-1)

- **MVP Segunda Sprint** (Machine Learning & Analytics): Partindo dos insights gerados pela an√°lise explorat√≥ria, o objetivo foi de construir, treinar e avaliar modelos preditivos. Aplicamos t√©cnicas de Machine Learning para criar um sistema capaz de prever quais funcion√°rios t√™m maior probabilidade de deixar a empresa, focando na implementa√ß√£o de um fluxo de trabalho robusto e na compara√ß√£o de diferentes algoritmos para encontrar a solu√ß√£o mais eficaz. [reposit√≥rio do GitHub.](https://github.com/vitortmoraes/vitormoraes_mvp_2025-2)

### 1. Objetivo e Defini√ß√£o do Problema

Este MVP foi desenvolvido para fornecer intelig√™ncia de neg√≥cio (BI) √† √°rea de Recursos Humanos (RH), focando no problema da **Rotatividade de Funcion√°rios (Attrition)**. O trabalho representa uma evolu√ß√£o dos projetos anteriores, reutilizando o contexto de neg√≥cio.

**Links de Projetos Anteriores (Contexto da P√≥s-Gradua√ß√£o):**
* Projeto MVP 2025-1: [https://github.com/vitortmoraes/vitortmoraes_mvp_2025-1](https://github.com/vitortmoraes/vitormoraes_mvp_2025-1.git)
* Projeto MVP 2025-2: [https://github.com/vitortmoraes/vitortmoraes_mvp_2025-2](https://github.com/vitortmoraes/vitormoraes_mvp_2025-2.git)

O objetivo √© realizar an√°lises de diagn√≥stico para identificar as vari√°veis (demogr√°ficas, de cargo e financeiras) que mais influenciam a decis√£o do funcion√°rio de deixar a empresa.

**Justificativa de MVP:**
Este projeto migra da an√°lise pontual (OLTP) para uma **arquitetura anal√≠tica (OLAP)**. O MVP √© a **vers√£o m√≠nima vi√°vel** para criar uma **base hist√≥rica e integrada** de dados em um ambiente de Big Data (Spark/Databricks), suportando as decis√µes gerenciais.

**Perguntas de Neg√≥cio a serem Respondidas (An√°lise OLAP):**
1. Qual departamento possui a maior taxa de rotatividade (*Attrition Rate*)? (Foco: Vendas vs. P&D)
2. Qual √© o perfil comportamental (Satisfa√ß√£o e Envolvimento) predominante entre os funcion√°rios que pediram demiss√£o?
3. Qual √© a renda mensal m√©dia dos funcion√°rios que saem versus a dos que permanecem?

---

## 2. Busca e Coleta de Dados (Data Sourcing)

O conjunto de dados utilizado, "IBM HR Analytics Employee Attrition & Performance" (`WA_Fn-UseC_HR_Employee_Attrition.csv`), √© proveniente do reposit√≥rio Kaggle (Dados Abertos) que foi inserido no Pipeline do Databricks.

### Tecnologia e Conformidade (GGD)

* **Plataforma Utilizada:** Databricks Community Edition (Ambiente Cloud-Native/Hadoop-Spark).
* **Conceito de Governan√ßa (GGD):** O Databricks atua como o ambiente de **Metadados** central, onde a tabela √© gerenciada (Cat√°logo Unity/Metastore). Essa centraliza√ß√£o das defini√ß√µes do dado (como tipo, dom√≠nio e acesso) √© fundamental para a **Gest√£o e Governan√ßa de Dados** (DMBOK).
* **Conformidade:** O *dataset* √© considerado de **Dados Abertos**, e o processo de coleta e ingest√£o demonstra o uso √©tico dos dados, respeitando as licen√ßas de uso.

---

## 3. Modelagem de Dados: Esquema Estrela

O conjunto de dados original √© um *flat file* (tabela √∫nica). Para otimizar as consultas anal√≠ticas (OLAP) e garantir a efici√™ncia no Databricks, a modelagem l√≥gica escolhida √© o **Esquema Estrela** (Star Schema), que √© ideal para Data Warehouses.

A Modelagem Dimensional envolve a desnormaliza√ß√£o do *flat file* em uma Tabela Fato central e m√∫ltiplas Dimens√µes.

### 3.1. Cat√°logo de Dados e Dom√≠nios (DMBOK)

Conforme a exig√™ncia de Modelagem, o Cat√°logo de Dados (Metadados) define a estrutura e o dom√≠nio de valores. A **Linhagem do Dado** aqui √© o pr√≥prio processo ETL que mapeia as colunas de origem para o Esquema Estrela.

| Atributo (Coluna) | Tabela (Destino) | Tipo (Spark) | Dom√≠nio/Regra de Qualidade (Sem√¢ntica) | Fun√ß√£o de Chave |
| :--- | :--- | :--- | :--- | :--- |
| **Employee\_SK** | DIM\_EMPLOYEE, FACT\_HR\_MOVEMENT | BIGINT | Num√©rico e Sequencial. | **SK / PK (DIM) / FK (FACT)** |
| **Job\_SK** | DIM\_JOB\_INFO, FACT\_HR\_MOVEMENT | BIGINT | Num√©rico e Sequencial. | **SK / PK (DIM) / FK (FACT)** |
| **Attrition\_Flag** | FACT\_HR\_MOVEMENT | INT | Apenas **1** (Saiu) ou **0** (Ficou). | M√©trica de Fato |
| **Age** | DIM\_EMPLOYEE | BIGINT | Faixa de Validade: **18 <= Idade <= 60**. | Atributo de Dimens√£o |
| **Department** | DIM\_JOB\_INFO | STRING | Categ√≥rico. Dom√≠nio: Sales, R&D, HR. | Atributo de Dimens√£o |
| **MonthlyIncome** | DIM\_JOB\_INFO | DOUBLE | Validade: Valores **positivos** e **n√£o nulos**. | Atributo de Dimens√£o |
| **EmployeeNumber** | DIM\_EMPLOYEE, DIM\_JOB\_INFO | BIGINT | Chave de Neg√≥cio. N√£o nulo. | Chave de Neg√≥cio |

> **Nota de Linhagem:** As Chaves Substitutas (SKs) e o `Attrition_Flag` s√£o **atributos derivados** criados na etapa de Transforma√ß√£o (ETL) para otimizar o processamento anal√≠tico.

In [0]:
# 1. Definindo o nome completo da sua tabela persistida
TABELA_ORIGINAL = "`workspace`.`mvp-2025-3`.`wa_fn_use_c_hr_employee_attrition`"

# 2. Criando uma view tempor√°ria diretamente da tabela
# Isso permite que os comandos SQL subsequentes acessem a tabela facilmente.
spark.sql(f"CREATE OR REPLACE TEMPORARY VIEW raw_attrition AS SELECT * FROM {TABELA_ORIGINAL}")

print(f"View tempor√°ria 'raw_attrition' criada a partir da tabela: {TABELA_ORIGINAL}")

## 4. Carga de Dados e Pipeline ETL (Extra√ß√£o, Transforma√ß√£o e Carga)

A fase de ETL transforma o dado bruto (`raw_attrition`) no **Esquema Estrela**. As transforma√ß√µes incluem a desnormaliza√ß√£o e a cria√ß√£o de **Chaves Substitutas (SKs)**, ligando as Dimens√µes √† Fato, e o **Pr√©-processamento** da m√©trica principal.

**Conceito de Linhagem:** O c√≥digo abaixo atua como a **Linhagem do Dado**, documentando o fluxo de transforma√ß√£o do *flat file* (Origem) para as tabelas anal√≠ticas (Destino) no formato Delta Lake.

### 4.1. CRIA√á√ÉO DA DIMENS√ÉO DO FUNCION√ÅRIO (DIM_EMPLOYEE)

Cria√ß√£o de Chave Substituta (SK) e sele√ß√£o dos atributos de perfil.

In [0]:
%sql
-- Cria a tabela DIM_EMPLOYEE no Cat√°logo Databricks
CREATE OR REPLACE TABLE DIM_EMPLOYEE USING DELTA AS
SELECT
    -- Gerando a Chave Substituta (SK) para a Dimens√£o, o Databricks/Spark garante a unicidade.
    row_number() OVER (ORDER BY EmployeeNumber) AS Employee_SK,
    
    -- Chave de Neg√≥cio: identificador que liga a esta e outras dimens√µes
    EmployeeNumber,
    
    -- Atributos de Perfil
    Age,
    Gender,
    MaritalStatus,
    Education,
    EducationField,
    
    -- Outros atributos do funcion√°rio
    DistanceFromHome,
    TotalWorkingYears,
    YearsAtCompany,
    YearsInCurrentRole,
    YearsSinceLastPromotion,
    YearsWithCurrManager
FROM raw_attrition;

-- Consulta r√°pida para checar a cria√ß√£o
SELECT * FROM DIM_EMPLOYEE LIMIT 5;

### 4.2. CRIA√á√ÉO DA DIMENS√ÉO DA INFORMA√á√ÉO DO CARGO (DIM_JOB_INFO)

Cria√ß√£o de Chave Substituta (SK) e sele√ß√£o dos atributos de cargo e finan√ßas, esta dimens√£o foca nas caracter√≠sticas do trabalho e remunera√ß√£o.

In [0]:
%sql
-- Cria a tabela DIM_JOB_INFO no Cat√°logo Databricks
CREATE OR REPLACE TABLE DIM_JOB_INFO USING DELTA AS
SELECT
    -- Gerando a Chave Substituta (SK)
    row_number() OVER (ORDER BY EmployeeNumber) AS Job_SK,
    
    -- Chave de Neg√≥cio (para jun√ß√£o posterior)
    EmployeeNumber,
    
    -- Atributos de Cargo/Departamento
    Department,
    JobRole,
    JobLevel,
    JobInvolvement,
    JobSatisfaction,
    
    -- Atributos Financeiros
    DailyRate,
    HourlyRate,
    MonthlyRate,
    PercentSalaryHike
FROM raw_attrition;

-- Consulta r√°pida para checar a cria√ß√£o
SELECT * FROM DIM_JOB_INFO LIMIT 5;

### 4.3. CRIA√á√ÉO DA TABELA FATO (FACT_HR_MOVEMENT)

Esta √© a tabela central. Ela armazena a m√©trica principal (Attrition_Flag) e as Chaves Estrangeiras (FKs) que se ligar√£o √†s dimens√µes.

√â a Convers√£o da m√©trica Attrition ('Yes'/'No') para 0/1, e uni√£o das SKs.

In [0]:
%sql
-- Cria a tabela FACT_HR_MOVEMENT no Cat√°logo Databricks
CREATE OR REPLACE TABLE FACT_HR_MOVEMENT USING DELTA AS
SELECT
    -- Chave de Neg√≥cio do evento (o pr√≥prio EmployeeNumber)
    T1.EmployeeNumber,
    
    -- Chaves Estrangeiras (FKs)
    T2.Employee_SK,
    T3.Job_SK,
    
    -- M√©trica: Transforma√ß√£o e pr√©-processamento (0/1) - Crit√©rio de ETL
    CASE
        WHEN T1.Attrition = 'Yes' THEN 1
        ELSE 0
    END AS Attrition_Flag,
    
    -- Outras m√©tricas de interesse que voc√™ possa querer somar/medir
    T1.StandardHours,
    T1.MonthlyIncome,
    T1.PerformanceRating
FROM raw_attrition T1
-- Jun√ß√£o com as Dimens√µes (criadas nos passos anteriores) para obter as SKs
INNER JOIN DIM_EMPLOYEE T2 ON T1.EmployeeNumber = T2.EmployeeNumber
INNER JOIN DIM_JOB_INFO T3 ON T1.EmployeeNumber = T3.EmployeeNumber;

-- Consulta r√°pida para checar a cria√ß√£o
SELECT * FROM FACT_HR_MOVEMENT LIMIT 5;

## 5. An√°lise de Qualidade de Dados

Esta √© a fase de Medir (do ciclo MVP) e exige a aplica√ß√£o dos conceitos de Qualidade de Dados e Dom√≠nio/Integridade (DMBOK) . Vamos testar as regras que definimos no Cat√°logo de Dados.

Vamos focar em duas dimens√µes cr√≠ticas: Completude (Nulos) e Validade (Dom√≠nio/Sem√¢ntica).

### 5a.1. Teste de Completude (Verifica√ß√£o de Valores Nulos)

A completude √© crucial, pois um valor nulo pode distorcer m√©tricas de m√©dia e contagem.

A√ß√£o: Usar SQL para contar a propor√ß√£o de nulos nas colunas mais relevantes (geralmente aquelas que definem perfis ou m√©tricas).

In [0]:
%sql
-- Teste 1: Contagem de valores nulos nas colunas principais da DIM_EMPLOYEE
SELECT 
    'Age' AS Coluna, SUM(CASE WHEN Age IS NULL THEN 1 ELSE 0 END) AS Nulos, COUNT(*) AS Total, 
    (SUM(CASE WHEN Age IS NULL THEN 1 ELSE 0 END) / COUNT(*)) * 100 AS Percentual_Nulo
FROM DIM_EMPLOYEE
UNION ALL
SELECT 
    'TotalWorkingYears', SUM(CASE WHEN TotalWorkingYears IS NULL THEN 1 ELSE 0 END), COUNT(*), 
    (SUM(CASE WHEN TotalWorkingYears IS NULL THEN 1 ELSE 0 END) / COUNT(*)) * 100
FROM DIM_EMPLOYEE
UNION ALL
-- Teste 2: Contagem de nulos nas m√©tricas da FACT_HR_MOVEMENT
SELECT 
    'MonthlyIncome', SUM(CASE WHEN MonthlyIncome IS NULL THEN 1 ELSE 0 END), COUNT(*), 
    (SUM(CASE WHEN MonthlyIncome IS NULL THEN 1 ELSE 0 END) / COUNT(*)) * 100
FROM FACT_HR_MOVEMENT;

-- Se todas as porcentagens forem 0, voc√™ pode documentar que o conjunto de dados √© altamente 'curado' (tratado).

### 5a.2. Teste de Validade Sem√¢ntica (Verifica√ß√£o de Dom√≠nio)

A validade verifica se os dados est√£o na faixa esperada, conforme a regra de neg√≥cio do RH.

A√ß√£o: Usar SQL para identificar registros que violam as regras de dom√≠nio (ex. Idade irreal ou m√©tricas financeiras negativas).

In [0]:
%sql
-- Teste 3: Idade fora do dom√≠nio aceit√°vel (regra de neg√≥cio: 18 <= Idade <= 60)
SELECT 
    'Age_Out_of_Range' AS Violacao, COUNT(*) AS Qtd_Violacoes
FROM DIM_EMPLOYEE
WHERE Age < 18 OR Age > 60
UNION ALL
-- Teste 4: Checando Consist√™ncia Categ√≥rica (Dom√≠nio) - A coluna Attrition_Flag S√ì DEVE ter 0 ou 1
SELECT 
    'Attrition_Flag_Invalida', COUNT(*)
FROM FACT_HR_MOVEMENT
WHERE Attrition_Flag NOT IN (0, 1)
UNION ALL
-- Teste 5: Valores Negativos em M√©tricas Financeiras (Regra Sem√¢ntica)
SELECT 
    'DailyRate_Negativo', COUNT(*)
FROM DIM_JOB_INFO
WHERE DailyRate <= 0;

### 5a.3. Documenta√ß√£o da Qualidade

#### M√©trica de Completude (Nulos):
* **Resultado:** Retornou 0 em todas as colunas cr√≠ticas (Age, TotalWorkingYears, MonthlyIncome).
* **Conclus√£o:** O conjunto de dados apresenta 100% de **Completude**. Isso garante que as an√°lises estat√≠sticas n√£o ser√£o afetadas por vi√©s causado por *missing values*.

#### Testes de Validade Sem√¢ntica (Dom√≠nio/Integridade):
* **Resultado:** Retornou 0 em todos os testes (Age_Out_of_Range, Attrition_Flag_Invalida, DailyRate_Negativo).
* **Conclus√£o de Integridade:** A aus√™ncia de viola√ß√µes confirma a **Validade Sem√¢ntica** dos dados em rela√ß√£o √†s regras de neg√≥cio. O sucesso do teste da coluna `Attrition_Flag` valida a **fase de Transforma√ß√£o (T)** do pipeline ETL, onde o dado categ√≥rico foi corretamente mapeado para a m√©trica bin√°ria (0/1).

**Resumo:** O conjunto de dados √© altamente √≠ntegro e 'curado', demonstrando alta **Qualidade de Dados** e **Conformidade de Dom√≠nio**. Nenhuma a√ß√£o corretiva √© necess√°ria antes da fase de an√°lise.

### 5b - Solu√ß√£o do Problema de Neg√≥cio

Agora, o foco √© aplicar o poder do Esquema Estrela e do Spark-SQL para resolver o problema de neg√≥cio original: Analisar a Rotatividade (Attrition).

Vamos estruturar a an√°lise em torno das tr√™s perguntas de neg√≥cio mais importantes para o RH, utilizando consultas que demonstrem:

1 - Uso de JOINs (para ligar Fato e Dimens√µes).

2 - Uso de GROUP BY e Fun√ß√µes Agregadas.

3 - Obten√ß√£o de insights de neg√≥cio.

### 5b.1. An√°lise Principal: Taxa de Rotatividade por Departamento

Esta an√°lise usa FACT_HR_MOVEMENT e DIM_JOB_INFO e √© a m√©trica mais crucial.

Pergunta de Neg√≥cio: Qual departamento possui a maior taxa de rotatividade (Attrition Rate)?

In [0]:
%sql
-- Analisando Rotatividade por Departamento (JOIN, SUM, COUNT, GROUP BY)
SELECT 
    CASE 
        WHEN T2.Department = 'Sales' THEN 'Vendas'
        WHEN T2.Department = 'Human Resources' THEN 'Recursos Humanos'
        WHEN T2.Department = 'Research & Development' THEN 'Pesquisa e Desenvolvimento'
        ELSE T2.Department
    END AS Departamento,
    SUM(T1.Attrition_Flag) AS Total_Saidas,
    COUNT(T1.EmployeeNumber) AS Total_Funcionarios,
    
    -- NOVA COLUNA: Apenas o valor num√©rico (double)
    ROUND((SUM(T1.Attrition_Flag) / COUNT(T1.EmployeeNumber)) * 100, 2) AS Taxa_Rotatividade_Valor
FROM 
    FACT_HR_MOVEMENT T1
INNER JOIN 
    DIM_JOB_INFO T2 
ON 
    T1.Job_SK = T2.Job_SK
GROUP BY 
    Departamento
ORDER BY 
    Taxa_Rotatividade_Valor DESC;

Databricks visualization. Run in Databricks to view.

**Percentual de Taxa de Rotatividade por Departamento**
- Vendas - 20.63%
- Recursos Humanos e Departamento - 19.05%
- Pesquisa e Desenvolvimento - 13.84%

### An√°lise para o Neg√≥cio (RH)

* **Insight de Neg√≥cio:** O Departamento de Vendas (`Vendas`) apresenta a maior taxa de rotatividade, com **20.63%**. Este valor √© significativamente mais alto que o de P&D (13.84%), indicando que o problema est√° concentrado e deve ser a **prioridade de interven√ß√£o** do RH.

#### Documenta√ß√£o para o MVP (Discuss√£o):
> "A taxa de Rotatividade por Departamento revelou uma discrep√¢ncia cr√≠tica no setor de Vendas. Esta **agrega√ß√£o OLAP**, facilitada pelo **Esquema Estrela**, demonstrou que o problema √© **localizado e operacional**, exigindo uma interven√ß√£o imediata e espec√≠fica no Departamento de Vendas para mitigar o problema."

### 5b.2. An√°lise Comportamental: Rotatividade por Satisfa√ß√£o e Envolvimento

Esta an√°lise correlaciona a rotatividade com as dimens√µes de envolvimento/satisfa√ß√£o, buscando a causa raiz do problema.

Pergunta de Neg√≥cio: Qual √© o n√≠vel de Satisfa√ß√£o no Trabalho (JobSatisfaction) e Envolvimento (JobInvolvement) predominante entre os funcion√°rios que pediram demiss√£o?

In [0]:
%sql
-- Analisando o perfil de satisfa√ß√£o dos que sa√≠ram (JOIN, WHERE, AVG)
SELECT
    T2.JobSatisfaction,
    T2.JobInvolvement,
    COUNT(T1.EmployeeNumber) AS Qtd_Saidas_Por_Nivel
FROM
    FACT_HR_MOVEMENT T1
INNER JOIN 
    DIM_JOB_INFO T2 
ON 
    T1.Job_SK = T2.Job_SK
WHERE
    -- Filtra apenas funcion√°rios que sa√≠ram (Attrition_Flag = 1)
    T1.Attrition_Flag = 1
GROUP BY
    T2.JobSatisfaction,
    T2.JobInvolvement
ORDER BY
    Qtd_Saidas_Por_Nivel DESC
LIMIT 5;

Databricks visualization. Run in Databricks to view.

### An√°lise para o Neg√≥cio (RH)

* **Insight de Neg√≥cio (Revisado):** A maior concentra√ß√£o de sa√≠das (41 funcion√°rios) est√° no perfil de **Satisfa√ß√£o N√≠vel 3 (M√©dia)** e **Envolvimento N√≠vel 1 (Baixo)**. Este √© um indicador de que a empresa perde funcion√°rios que j√° demonstravam baixo envolvimento, mas que ainda mantinham uma satisfa√ß√£o m√©dia.
* **Discuss√£o:** A prioridade do RH deve ser **intervir nas causas da Baixa Satisfa√ß√£o no Trabalho** (N√≠vel 1) e tentar elevar o Envolvimento (N√≠vel 3) nos funcion√°rios que ficam, focando em reter o perfil de *m√©dia* satisfa√ß√£o antes que ele caia para o risco de sa√≠da.

> **Documenta√ß√£o para o MVP (Discuss√£o):** O Gr√°fico de Colunas Empilhadas demonstrou visualmente a distribui√ß√£o do volume de sa√≠das por perfil comportamental, comprovando que o problema n√£o √© aleat√≥rio, mas sim um fator combinado de **Satisfa√ß√£o e Envolvimento**.

### 5b.3. An√°lise Financeira: Impacto do Sal√°rio (Renda Mensal) na Rotatividade

Esta an√°lise usa a m√©trica financeira MonthlyIncome da Fato e a agrupa pela bandeira de rotatividade.

Pergunta de Neg√≥cio: Qual √© a renda mensal m√©dia dos funcion√°rios que saem versus a dos que permanecem?

In [0]:
%sql
-- Calculando o sal√°rio m√©dio (MonthlyIncome) para quem saiu e quem ficou (AVG)
SELECT 
    CASE WHEN T1.Attrition_Flag = 1 THEN 'Saiu (Risco)' ELSE 'Ficou (Reten√ß√£o)' END AS Status_Funcionario,
    
    -- Ajuste: Usa ROUND para limitar a duas casas decimais, ideal para dinheiro.
    ROUND(AVG(T1.MonthlyIncome), 2) AS Renda_Mensal_Media
FROM 
    FACT_HR_MOVEMENT T1
GROUP BY 
    Status_Funcionario
ORDER BY
    Renda_Mensal_Media ASC

Databricks visualization. Run in Databricks to view.

**An√°lise para o Neg√≥cio (RH)**

* **Insight de Neg√≥cio:** A Renda Mensal M√©dia dos que sa√≠ram (R$ 4.787) √© significativamente menor do que a dos que permaneceram (R$ 6.832). Este *insight* **prescritivo** sugere que a pol√≠tica de remunera√ß√£o nas faixas salariais mais baixas √© um fator de reten√ß√£o cr√≠tico. A √°rea de RH deve reavaliar os planos de aumento para este grupo para mitigar o risco.

**Documenta√ß√£o para o MVP (Discuss√£o):**
> "A an√°lise financeira utilizando a fun√ß√£o agregada **AVG()** no Spark-SQL confirma que a Renda Mensal √© um fator decisivo. A discrep√¢ncia salarial indica um risco de **Rotatividade Volunt√°ria** concentrada nas faixas de menor remunera√ß√£o, demandando uma a√ß√£o imediata na pol√≠tica salarial."

### 5b.4. M√©trica de Refer√™ncia: Taxa de Rotatividade Geral (Contexto BI)

Esta an√°lise calcula a taxa de rotatividade total da empresa. Este valor √© crucial para estabelecer um **benchmark** (ponto de compara√ß√£o) no Dashboard, permitindo que a √°rea de RH avalie se os 20.63% de Vendas est√£o significativamente acima da m√©dia geral.

In [0]:
%sql
SELECT 
    COUNT(*) AS Total_Registros, 
    COUNT(CASE WHEN T1.Attrition_Flag = 1 THEN 1 END) AS Total_Saidas,
    -- Calcula a taxa geral de rotatividade da empresa
    ROUND((COUNT(CASE WHEN T1.Attrition_Flag = 1 THEN 1 END) / COUNT(*)) * 100, 2) AS Taxa_Total_Geral_Pct
FROM 
    FACT_HR_MOVEMENT T1;

Databricks visualization. Run in Databricks to view.

Esta an√°lise calcula a taxa de rotatividade total da empresa. Este valor √© crucial para estabelecer um **benchmark** (ponto de compara√ß√£o) no Dashboard, permitindo que a √°rea de RH avalie se os **20.63% de Vendas** est√£o significativamente acima da m√©dia geral de **16.12%**.

#### Documenta√ß√£o para o MVP (Discuss√£o):
> "A inclus√£o da **Taxa Total Geral (16.12%)** no Dashboard de BI fornece o contexto necess√°rio para que os *stakeholders* avaliem o n√≠vel de gravidade das taxas departamentais (como os 20.63% de Vendas). A taxa geral atua como a **linha de base** para todas as an√°lises de risco."

## 6. Entrega e Autoavalia√ß√£o

### 6.1. Estrutura de Entrega e Evid√™ncias

Este MVP foi estruturado como um pipeline de dados em Nuvem (Databricks), usando o Esquema Estrela para an√°lise. O trabalho demonstrou o ciclo de vida completo: ingest√£o, modelagem, ETL, an√°lise de qualidade e gera√ß√£o de insights, atendendo ao requisito de **Qualidade Geral** do MVP.

#### Componentes e Evid√™ncias (Comprova√ß√£o da Implementa√ß√£o)

* **Reposit√≥rio e C√≥digo:** Todo o c√≥digo-fonte (Notebook Databricks) est√° dispon√≠vel em um Reposit√≥rio P√∫blico no GitHub. O Notebook demonstra o uso de **PySpark/SQL** e o formato **Delta Lake**, comprovando a implementa√ß√£o do pipeline de dados em Nuvem.
* **Modelagem e Cat√°logo:** A desnormaliza√ß√£o para o **Esquema Estrela** (FACT\_HR\_MOVEMENT + Dimens√µes) foi executada. O **Cat√°logo de Dados** (incluindo dom√≠nios e regras de qualidade) foi documentado na Etapa 3.
* **Comprova√ß√£o da Carga e Qualidade:** Screenshots comprovam a execu√ß√£o bem-sucedida do pipeline de **ETL** e os resultados dos **Testes de Qualidade** (retorno zero viola√ß√µes para Completude e Validade Sem√¢ntica).

### Resultados da An√°lise de Neg√≥cio (Etapa 5b)

| An√°lise | M√©trica Principal | Insights Chave |
| :--- | :--- | :--- |
| Rotatividade por Departamento | **Vendas: 20.63%** Attrition Rate | O departamento de Vendas √© o ponto de maior risco, **cerca de 7 pontos percentuais** acima de P&D (13.84%). |
| Perfil Comportamental | **41 sa√≠das: M√©dia Satisfa√ß√£o (3) + Baixo Envolvimento (1)** | A empresa perde talentos que j√° demonstravam baixo envolvimento, indicando que a insatisfa√ß√£o √© o fator determinante para a sa√≠da. |
| Impacto da Renda | Renda M√©dia (Saiu): R$ **4.787,09** vs. Renda M√©dia (Ficou): R$ **6.832,74** | A Renda Mensal √© um fator de reten√ß√£o significativo; o grupo de menor sal√°rio tem maior propens√£o a sair. |

### 6.2. Autoavalia√ß√£o e Reflex√£o

#### Atingimento dos Objetivos
O objetivo de estruturar e analisar a Rotatividade foi plenamente alcan√ßado. O MVP foi capaz de responder de forma eficiente √†s perguntas de neg√≥cio, o que valida a modelagem como um **Esquema Estrela** dentro do ecossistema Databricks, provando sua adequa√ß√£o para consultas OLAP.

#### Dificuldades Encontradas e Aprendizado
A principal dificuldade inicial residiu na migra√ß√£o da arquitetura para a nuvem, especificamente a restri√ß√£o de acesso ao diret√≥rio `/FileStore` do DBFS. Esse desafio t√©cnico aprofundou o aprendizado sobre:
1.  **Arquitetura Data Lake:** A diferen√ßa entre Dados em Arquivo Bruto (CSV) e **Tabela Persistida em Cat√°logo** (Delta Lake), como exigido pela arquitetura moderna.
2.  **Governan√ßa:** A necessidade de usar o **Cat√°logo de Dados** como ponto de acesso, garantindo a governan√ßa do dado.

#### Trabalhos Futuros (Pr√≥ximos MVPs)
Para aprimorar o portf√≥lio de Data Science, os pr√≥ximos passos seriam:
1.  **An√°lise Preditiva (MLOps):** O pr√≥ximo MVP ser√° aplicar modelos de Machine Learning (como Regress√£o Log√≠stica ou Random Forest) no Databricks para **prever quais funcion√°rios t√™m alto risco de rotatividade**, usando as dimens√µes criadas (DIM\_EMPLOYEE, DIM\_JOB\_INFO) como *features*.
2.  **Operacionaliza√ß√£o (DataOps):** Automatizar o pipeline de ETL/An√°lise em um **Job Recorrente** no Databricks, transformando o projeto pontual em um **Processo** cont√≠nuo de monitoramento de RH, alinhado aos conceitos de **DataOps** e **Gest√£o de Processos**.

## 7. Relat√≥rio Executivo e Recomenda√ß√µes Finais

###Vis√£o Geral do Problema (Diagn√≥stico)

A an√°lise no ambiente Databricks (Esquema Estrela) confirmou que a rotatividade √© um **risco localizado e financeiro**.

| Setor de Risco | M√©trica Principal | Insight Comportamental e Financeiro |
| :--- | :--- | :--- |
| **Vendas (Sales)** | **20.63%** (Maior risco) | A Rotatividade √© alta em um grupo com **M√©dia Satisfa√ß√£o (3)** e **Baixo Envolvimento (1)**, indicando problemas operacionais e de gest√£o de clima. |
| **Renda M√©dia** | R$ **4.787,09** (para quem saiu) | H√° um fator de reten√ß√£o cr√≠tico ligado √† faixa salarial mais baixa. |

### Recomenda√ß√µes (A√ß√µes Prescritivas)

Com base nas an√°lises, as a√ß√µes priorit√°rias para o RH s√£o:
1.  **A√ß√£o Imediata (Financeira):** Reavaliar a pol√≠tica de remunera√ß√£o para faixas salariais abaixo de R$ 5.000, pois √© o grupo de maior propens√£o √† sa√≠da volunt√°ria.
2.  **A√ß√£o Operacional (Gest√£o):** Conduzir uma investiga√ß√£o de clima e gest√£o de desempenho especificamente no Departamento de **Vendas**, que apresenta taxas insustent√°veis.