# MVP Pipeline de Dados – Recursos Humanos  
## Análise de Retenção e Eficiência Organizacional  

**Vanessa Araújo**  

PUC-RJ – MBA em Ciência de Dados e Analytics  
Disciplina de Engenharia de Dados  

---

##Script para criação da base de dados GOLD

###Imports
Imports das bibliotecas necessárias para o funcionamento do script.

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StringType, IntegerType, DoubleType


###Criação da base de dados GOLD

A camada Gold contém dados altamente refinados, agregados e organizados para consumo final.
Nesta camada são armazenadas métricas de negócio, consolidações e indicadores estratégicos utilizados em análises gerenciais, relatórios executivos e apoio à tomada de decisão na área de Recursos Humanos

In [0]:
%sql
CREATE DATABASE IF NOT EXISTS gold;

###Criação das tabelas da camada GOLD

In [0]:
print("Iniciando criação da camada gold...")
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CreateHRGoldTables").getOrCreate()

# Criar a tabela de Métricas Organizacionais Gerais
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.hr_overview_metrics (
    metric_year INTEGER COMMENT 'Ano de referência',
    total_employees INTEGER COMMENT 'Total de funcionários',
    active_employees INTEGER COMMENT 'Funcionários ativos',
    terminated_employees INTEGER COMMENT 'Funcionários desligados',
    turnover_rate DOUBLE COMMENT 'Taxa de rotatividade (%)',
    total_payroll DOUBLE COMMENT 'Massa salarial total'
)
USING DELTA
""")

print("Tabela gold.hr_overview_metrics criada com sucesso.")

# Criar a tabela de Métricas de Absenteísmo por Departamento
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.absence_department_metrics (
    department_id STRING COMMENT 'ID do departamento',
    department_name STRING COMMENT 'Nome do departamento',
    total_absences INTEGER COMMENT 'Total de ausências',
    avg_absences DOUBLE COMMENT 'Média de ausências por funcionário',
    avg_days_late DOUBLE COMMENT 'Média de atrasos nos últimos 30 dias'
)
USING DELTA
""")

print("Tabela gold.absence_department_metrics criada com sucesso.")

# Criar a tabela de Métricas de Desempenho e Engajamento
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.performance_engagement_metrics (
    department_name STRING COMMENT 'Departamento',
    performance_score STRING COMMENT 'Avaliação de desempenho',
    avg_engagement DOUBLE COMMENT 'Média de engajamento',
    avg_satisfaction DOUBLE COMMENT 'Média de satisfação',
    employee_count INTEGER COMMENT 'Quantidade de funcionários'
)
USING DELTA
""")

print("Tabela gold.performance_engagement_metrics criada com sucesso.")

# Criar a tabela de Métricas de Diversidade
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.diversity_metrics (
    department_name STRING COMMENT 'Departamento',
    race STRING COMMENT 'Raça declarada',
    gender STRING COMMENT 'Gênero',
    employee_count INTEGER COMMENT 'Quantidade de funcionários'
)
USING DELTA
""")

print("Tabela gold.diversity_metrics criada com sucesso.")

# Criar a tabela de Métricas de Ruínas de Contratação
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.bad_hiring_metrics (
    recruitment_source STRING COMMENT 'Fonte de recrutamento',
    performance_score STRING COMMENT 'Avaliação de desempenho',
    avg_engagement DOUBLE COMMENT 'Engajamento médio',
    avg_satisfaction DOUBLE COMMENT 'Satisfação média',
    terminated_count INTEGER COMMENT 'Quantidade de desligamentos'
)
USING DELTA
""")

print("Tabela gold.bad_hiring_metrics criada com sucesso.")

print("Camada GOLD criada com sucesso!")

Iniciando criação da camada gold...
Tabela gold.hr_overview_metrics criada com sucesso.
Tabela gold.absence_department_metrics criada com sucesso.
Tabela gold.performance_engagement_metrics criada com sucesso.
Tabela gold.diversity_metrics criada com sucesso.
Tabela gold.bad_hiring_metrics criada com sucesso.
Camada GOLD criada com sucesso!


###Teste de Criação das Tabelas

Teste de acesso às tabelas recém-criadas para validação da estrutura.

In [0]:
spark.sql("DESCRIBE TABLE gold.hr_overview_metrics").show()
spark.sql("DESCRIBE TABLE gold.absence_department_metrics").show()
spark.sql("DESCRIBE TABLE gold.performance_engagement_metrics").show()
spark.sql("DESCRIBE TABLE gold.diversity_metrics").show()
spark.sql("DESCRIBE TABLE gold.bad_hiring_metrics").show()

+--------------------+---------+--------------------+
|            col_name|data_type|             comment|
+--------------------+---------+--------------------+
|         metric_year|      int|   Ano de referência|
|     total_employees|      int|Total de funcioná...|
|    active_employees|      int| Funcionários ativos|
|terminated_employees|      int|Funcionários desl...|
|       turnover_rate|   double|Taxa de rotativid...|
|       total_payroll|   double|Massa salarial total|
+--------------------+---------+--------------------+

+---------------+---------+--------------------+
|       col_name|data_type|             comment|
+---------------+---------+--------------------+
|  department_id|   string|  ID do departamento|
|department_name|   string|Nome do departamento|
| total_absences|      int|  Total de ausências|
|   avg_absences|   double|Média de ausência...|
|  avg_days_late|   double|Média de atrasos ...|
+---------------+---------+--------------------+

+----------------