# MVP Pipeline de Dados – Recursos Humanos  
## Análise de Retenção e Eficiência Organizacional  

**Vanessa Araújo**  

PUC-RJ – MBA em Ciência de Dados e Analytics  
Disciplina de Engenharia de Dados  

---


## Script para criação da base de dados BRONZE

Nesta etapa é realizada a criação da camada **Bronze** do pipeline de dados, responsável por armazenar os dados brutos da base de **Recursos Humanos (RH)**, conforme obtidos da fonte original, sem aplicação de tratamentos ou transformações.

### Imports
Nesta seção são realizadas as importações das bibliotecas necessárias para a execução do script e criação das estruturas de dados no ambiente Databricks.

In [0]:
from pyspark.sql import SparkSession

###Criando base de dados Bronze

In [0]:
%sql
CREATE DATABASE IF NOT EXISTS bronze;


### Criação da tabela de dados brutos

Criação da tabela utilizando Spark na camada **bronze**, responsável pelo armazenamento dos dados em seu estado bruto.  
A estrutura da tabela reflete fielmente a base de dados original de **Recursos Humanos (RH)**, disponibilizada na plataforma **Kaggle**, garantindo a integridade e rastreabilidade das informações para as etapas posteriores do pipeline de dados.


In [0]:
print("Iniciando criação da camada bronze...")
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CreateBronzeHR").getOrCreate()

spark.sql("""
CREATE TABLE IF NOT EXISTS bronze.rh_employees (
    employee_name STRING COMMENT 'Nome do funcionario',
    emp_id STRING COMMENT 'ID do funcionario',
    married_id STRING COMMENT 'Indica se e casado (1 = sim, 0 = nao)',
    marital_status_id STRING COMMENT 'Codigo do estado civil',
    emp_status_id STRING COMMENT 'Codigo do status do funcionario',
    dept_id STRING COMMENT 'ID do departamento',
    from_diversity_job_fair_id STRING COMMENT 'Recrutamento por diversidade (1 ou 0)',
    salary STRING COMMENT 'Salario anual em dolares',
    termd STRING COMMENT 'Indica desligamento (1 = sim, 0 = nao)',
    position_id STRING COMMENT 'ID do cargo',
    position STRING COMMENT 'Cargo do funcionario',
    state STRING COMMENT 'Estado de residencia',
    zip STRING COMMENT 'Codigo postal',
    dob STRING COMMENT 'Data de nascimento',
    sex STRING COMMENT 'Genero do funcionario',
    marital_desc STRING COMMENT 'Estado civil',
    citizen_desc STRING COMMENT 'Cidadania',
    hispanic_latino STRING COMMENT 'Indica se e hispanico/latino',
    race_desc STRING COMMENT 'Raca',
    date_of_hire STRING COMMENT 'Data de contratacao',
    date_of_termination STRING COMMENT 'Data de desligamento',
    term_reason STRING COMMENT 'Motivo do desligamento',
    employment_status STRING COMMENT 'Status de emprego',
    department STRING COMMENT 'Departamento',
    manager_name STRING COMMENT 'Nome do gestor',
    manager_id STRING COMMENT 'ID do gestor',
    recruitment_source STRING COMMENT 'Fonte de recrutamento',
    performance_score STRING COMMENT 'Avaliacao de desempenho',
    engagement_survey STRING COMMENT 'Pesquisa de engajamento',
    emp_satisfaction STRING COMMENT 'Nivel de satisfacao',
    special_projects_count STRING COMMENT 'Qtd projetos especiais',
    last_performance_review STRING COMMENT 'Data ultima avaliacao',
    days_late_last_30 STRING COMMENT 'Atrasos ultimos 30 dias',
    absences STRING COMMENT 'Ausencias'
)
USING DELTA;
""")

print("Tabela 'rh_employees' criada com sucesso na camada bronze.")
print("Camada bronze criada com sucesso.")

Iniciando criação da camada bronze...
Tabela 'rh_employees' criada com sucesso na camada bronze.
Camada bronze criada com sucesso.


### Teste de Criação da Tabela

Teste de acesso à tabela recém criada, para garantir o sucesso da operação.

In [0]:
spark.sql("DESCRIBE TABLE bronze.rh_employees").show()

+--------------------+---------+--------------------+
|            col_name|data_type|             comment|
+--------------------+---------+--------------------+
|       employee_name|   string| Nome do funcionario|
|              emp_id|   string|   ID do funcionario|
|          married_id|   string|Indica se e casad...|
|   marital_status_id|   string|Codigo do estado ...|
|       emp_status_id|   string|Codigo do status ...|
|             dept_id|   string|  ID do departamento|
|diversity_job_fai...|   string|Recrutamento por ...|
|              salary|   string|Salario anual em ...|
|          terminated|   string|Indica desligamen...|
|         position_id|   string|         ID do cargo|
|            position|   string|Cargo do funcionario|
|               state|   string|Estado de residencia|
|            zip_code|   string|       Codigo postal|
|       date_of_birth|   string|  Data de nascimento|
|              gender|   string|Genero do funcion...|
|      marital_status|   str