<a href="https://colab.research.google.com/github/pela-andrea/people-analytics-case/blob/feat%2Fdivisao-tabelas/scripts/02_divisao_tabelas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Estudo de Base de Dados RH – Case Técnico

#Introdução

Neste notebook, daremos continuidade ao processo de preparação dos dados para análise, realizando a classificação e segmentação da base original em múltiplas tabelas organizadas segundo critérios específicos. O objetivo é estruturar os dados de forma mais eficiente para análises futuras e uso no Power BI, aplicando conceitos de modelagem como fato e dimensão, quando pertinente.

As principais etapas deste notebook incluem:

- Aplicar classificações relevantes para separar as informações em grupos lógicos;
- Dividir a base de dados original em diversas tabelas e nomear os arquivos gerados seguindo o padrão **tabela_nome.csv**, garantindo organizaçãoo;
- Salvar as tabelas finais para utilização no PowerBI.


#**Preparação Inicial**

##Declaração das LIBS

In [1]:
# Principais
import pandas as pd
import numpy as np

# Para visualização
import matplotlib.pyplot as plt
import seaborn as sns

# Para tratamento de datas e warnings
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

#Para salvar os arquivos gerados, localmente
from google.colab import files

##Configuração do pandas

In [2]:
# Exibir todas as colunas do dataframe
pd.set_option('display.max_columns', None)

##Importação e Extração dos dados

In [3]:
#Importando a base original diretamente do repositório GitHub
url = 'https://raw.githubusercontent.com/pela-andrea/people-analytics-case/main/data/base_corrigida.csv'

df = pd.read_csv(url, sep=';', decimal=',', encoding='utf-8')

In [4]:
df.head()

Unnamed: 0,ID do Colaborador,Cargo,Departamento,Localização,Salário,Data de Admissão,Data de Demissão,Está Ativo,Dias de Falta,Dias de Licença Médica,Dias de Férias Usufruídos,Banco de Horas,Horas Extras,Quantidade de Atrasos,Gênero,Estado Civil,Número de Dependentes,Nível de Escolaridade,Avaliação de Desempenho,Percentual de Bônus,Turno,Tipo de Contrato,Centro de Custo,Status de Conformidade,Plano de Saúde,Email,Tempo de Empresa (anos),Período de Experiência Concluído,ID do Gestor,Data da Última Promoção,Data do Último Treinamento,Flag: Promoção após Demissão,Flag: Demissão antes de Admissão,Flag: Treinamento Antes da Admissão
0,EMP_00001,Gerente de RH,Financeiro,Salvador,6993.43,2022-02-26,,Sim,3,2,13,52,20,6,Outro,Viúvo(a),4,Graduação,5,7.58,Manhã,Permanente,CC013,Em conformidade,Padrão,emp_00001@company.com,3.34,Sim,EMP_00495,,2024-07-04,Não,Não,Não
1,EMP_00002,Engenheiro de Dados,Marketing,Belo Horizonte,5723.47,2023-03-04,,Sim,1,1,14,-80,86,6,Masculino,Casado(a),1,Graduação,5,8.72,Manhã,Temporário,CC026,Em conformidade,Básico,emp_00002@company.com,2.33,Sim,EMP_00345,2024-07-21,2024-02-01,Não,Não,Não
2,EMP_00003,Desenvolvedor Python,Operações,Salvador,7295.38,2010-09-01,,Sim,3,5,25,149,23,1,Feminino,Divorciado(a),1,Mestrado,4,7.93,Manhã,Permanente,CC010,Em conformidade,Básico,emp_00003@company.com,14.84,Sim,EMP_00306,2014-10-18,2024-01-11,Não,Não,Não
3,EMP_00004,Analista Financeiro,Operações,Porto Alegre,9046.06,2020-02-26,,Sim,2,1,21,-92,22,5,Masculino,Casado(a),0,Graduação,3,5.27,Manhã,Permanente,CC008,Em conformidade,Padrão,emp_00004@company.com,5.35,Sim,EMP_00971,,2025-01-05,Não,Não,Não
4,EMP_00005,Engenheiro de Dados,Recursos Humanos,Curitiba,5531.69,2011-06-22,,Sim,1,2,15,93,72,3,Masculino,Solteiro(a),0,Graduação,2,10.95,Tarde,Permanente,CC013,Em conformidade,Premium,emp_00005@company.com,14.03,Sim,EMP_00024,,2025-01-19,Não,Não,Não


In [5]:
colunas = df.columns.tolist()
print(colunas)

['ID do Colaborador', 'Cargo', 'Departamento', 'Localização', 'Salário', 'Data de Admissão', 'Data de Demissão', 'Está Ativo', 'Dias de Falta', 'Dias de Licença Médica', 'Dias de Férias Usufruídos', 'Banco de Horas', 'Horas Extras', 'Quantidade de Atrasos', 'Gênero', 'Estado Civil', 'Número de Dependentes', 'Nível de Escolaridade', 'Avaliação de Desempenho', 'Percentual de Bônus', 'Turno', 'Tipo de Contrato', 'Centro de Custo', 'Status de Conformidade', 'Plano de Saúde', 'Email', 'Tempo de Empresa (anos)', 'Período de Experiência Concluído', 'ID do Gestor', 'Data da Última Promoção', 'Data do Último Treinamento', 'Flag: Promoção após Demissão', 'Flag: Demissão antes de Admissão', 'Flag: Treinamento Antes da Admissão']


Serão necessárias algumas alterações e tratamentos na tabela original

Garantindo que o campo Percentual Bonus seja em percentual


In [6]:
df['Percentual de Bônus'] = df['Percentual de Bônus'].apply(
    lambda x: x / 100 if pd.notnull(x) else x
)

In [7]:
df.head()

Unnamed: 0,ID do Colaborador,Cargo,Departamento,Localização,Salário,Data de Admissão,Data de Demissão,Está Ativo,Dias de Falta,Dias de Licença Médica,Dias de Férias Usufruídos,Banco de Horas,Horas Extras,Quantidade de Atrasos,Gênero,Estado Civil,Número de Dependentes,Nível de Escolaridade,Avaliação de Desempenho,Percentual de Bônus,Turno,Tipo de Contrato,Centro de Custo,Status de Conformidade,Plano de Saúde,Email,Tempo de Empresa (anos),Período de Experiência Concluído,ID do Gestor,Data da Última Promoção,Data do Último Treinamento,Flag: Promoção após Demissão,Flag: Demissão antes de Admissão,Flag: Treinamento Antes da Admissão
0,EMP_00001,Gerente de RH,Financeiro,Salvador,6993.43,2022-02-26,,Sim,3,2,13,52,20,6,Outro,Viúvo(a),4,Graduação,5,0.0758,Manhã,Permanente,CC013,Em conformidade,Padrão,emp_00001@company.com,3.34,Sim,EMP_00495,,2024-07-04,Não,Não,Não
1,EMP_00002,Engenheiro de Dados,Marketing,Belo Horizonte,5723.47,2023-03-04,,Sim,1,1,14,-80,86,6,Masculino,Casado(a),1,Graduação,5,0.0872,Manhã,Temporário,CC026,Em conformidade,Básico,emp_00002@company.com,2.33,Sim,EMP_00345,2024-07-21,2024-02-01,Não,Não,Não
2,EMP_00003,Desenvolvedor Python,Operações,Salvador,7295.38,2010-09-01,,Sim,3,5,25,149,23,1,Feminino,Divorciado(a),1,Mestrado,4,0.0793,Manhã,Permanente,CC010,Em conformidade,Básico,emp_00003@company.com,14.84,Sim,EMP_00306,2014-10-18,2024-01-11,Não,Não,Não
3,EMP_00004,Analista Financeiro,Operações,Porto Alegre,9046.06,2020-02-26,,Sim,2,1,21,-92,22,5,Masculino,Casado(a),0,Graduação,3,0.0527,Manhã,Permanente,CC008,Em conformidade,Padrão,emp_00004@company.com,5.35,Sim,EMP_00971,,2025-01-05,Não,Não,Não
4,EMP_00005,Engenheiro de Dados,Recursos Humanos,Curitiba,5531.69,2011-06-22,,Sim,1,2,15,93,72,3,Masculino,Solteiro(a),0,Graduação,2,0.1095,Tarde,Permanente,CC013,Em conformidade,Premium,emp_00005@company.com,14.03,Sim,EMP_00024,,2025-01-19,Não,Não,Não


Trocar o termo "Recursos Humanos" para "RH" na coluna Cargo

In [12]:
df['Departamento'] = df['Departamento'].str.replace('Recursos Humanos', 'RH', regex=False)

In [13]:
df.head()

Unnamed: 0,ID do Colaborador,Cargo,Departamento,Localização,Salário,Data de Admissão,Data de Demissão,Está Ativo,Dias de Falta,Dias de Licença Médica,Dias de Férias Usufruídos,Banco de Horas,Horas Extras,Quantidade de Atrasos,Gênero,Estado Civil,Número de Dependentes,Nível de Escolaridade,Avaliação de Desempenho,Percentual de Bônus,Turno,Tipo de Contrato,Centro de Custo,Status de Conformidade,Plano de Saúde,Email,Tempo de Empresa (anos),Período de Experiência Concluído,ID do Gestor,Data da Última Promoção,Data do Último Treinamento,Flag: Promoção após Demissão,Flag: Demissão antes de Admissão,Flag: Treinamento Antes da Admissão
0,EMP_00001,Gerente de RH,Financeiro,Salvador,6993.43,2022-02-26,,Sim,3,2,13,52,20,6,Outro,Viúvo(a),4,Graduação,5,0.0758,Manhã,Permanente,CC013,Em conformidade,Padrão,emp_00001@company.com,3.34,Sim,EMP_00495,,2024-07-04,Não,Não,Não
1,EMP_00002,Engenheiro de Dados,Marketing,Belo Horizonte,5723.47,2023-03-04,,Sim,1,1,14,-80,86,6,Masculino,Casado(a),1,Graduação,5,0.0872,Manhã,Temporário,CC026,Em conformidade,Básico,emp_00002@company.com,2.33,Sim,EMP_00345,2024-07-21,2024-02-01,Não,Não,Não
2,EMP_00003,Desenvolvedor Python,Operações,Salvador,7295.38,2010-09-01,,Sim,3,5,25,149,23,1,Feminino,Divorciado(a),1,Mestrado,4,0.0793,Manhã,Permanente,CC010,Em conformidade,Básico,emp_00003@company.com,14.84,Sim,EMP_00306,2014-10-18,2024-01-11,Não,Não,Não
3,EMP_00004,Analista Financeiro,Operações,Porto Alegre,9046.06,2020-02-26,,Sim,2,1,21,-92,22,5,Masculino,Casado(a),0,Graduação,3,0.0527,Manhã,Permanente,CC008,Em conformidade,Padrão,emp_00004@company.com,5.35,Sim,EMP_00971,,2025-01-05,Não,Não,Não
4,EMP_00005,Engenheiro de Dados,RH,Curitiba,5531.69,2011-06-22,,Sim,1,2,15,93,72,3,Masculino,Solteiro(a),0,Graduação,2,0.1095,Tarde,Permanente,CC013,Em conformidade,Premium,emp_00005@company.com,14.03,Sim,EMP_00024,,2025-01-19,Não,Não,Não


#Divisão da tabela em fato/dimensão
##Por que usar fato/dimensão aqui?
A base simula um sistema de RH, com métricas e atributos de colaboradores. E contém:

- Várias colunas descritivas;
- Medidas numéricas e de tempo (ótimas para a tabela fato).

Podemos concluir que
- A divisão desta forma facilita filtros e relacionamentos no Power BI.
- Documentação clara: cada dimensão representa uma "visão lógica" de um aspecto do colaborador.
- Performance: reduz duplicação de dados e melhora desempenho nos visuais.
-

#Organização das tabelas

A escolha para divisão das tabelas foi baseada no conteúdo de cada uma e como a modelagem poderia ser organizada da melhor forma pensando em performance principalmente.




##Tabela dColaborador

**Identificação e dados pessoais do colaborador.**

- ID do Colaborador
- Localização
- Data de Admissão
- Data de Demissão
- Está Ativo
- Gênero
- Estado Civil
- Número de Dependentes
- Nível de Escolaridade
- Email
- Flag: Promoção após Demissão
- Flag: Demissão antes de Admissão

In [14]:
tabela_dColaborador = df[[
    "ID do Colaborador", "Localização", "Data de Admissão",
    "Data de Demissão", "Está Ativo", "Gênero", "Estado Civil", "Número de Dependentes",
    "Nível de Escolaridade", "Email",  "Flag: Promoção após Demissão",
    "Flag: Demissão antes de Admissão"
]]


##Tabela dEstrutura
**Informações organizacionais.**

Colunas:

- Id Colaborador
- Cargo
- Departamento
- Salário
- Data de Admissão
- Data de Demissão
- Turno
- Centro de Custo
- Tipo de Contrato
- Plano de Saúde
- ID do Gestor

In [15]:
tabela_dEstrutura = df[[
    "ID do Colaborador", "Cargo", "Departamento", "Salário", "Data de Admissão",
    "Data de Demissão", "Turno", "Tipo de Contrato", "Centro de Custo", "Plano de Saúde", "ID do Gestor"
]]


##Tabela dDesempenho
**Remuneração, benefícios e avaliação de performance.**

- Id Colaborador
- Cargo
- Salário
- Avaliação de Desempenho
- Percentual de Bônus
- Tempo de Empresa (anos)
- Data da Ultima Promoção
- Data do Último Treinamento
- Flag: Treinamento antes da Admissão

In [16]:
tabela_dDesempenho = df[[
    "ID do Colaborador", "Cargo", "Salário", "Avaliação de Desempenho", "Percentual de Bônus",
    "Tempo de Empresa (anos)", "Data da Última Promoção", "Data do Último Treinamento", "Flag: Treinamento Antes da Admissão"
]]


##Tabela fJornada_trabalho
**Eventos temporais da jornada de trabalho.**

- ID do Colaborador
- Dias de Falta
- Dias de Licença Médica
- Dias de Férias Usufruídos
- Banco de Horas
- Horas Extras
- Quantidade de Atrasos

In [17]:
tabela_fJornada_trabalho = df[[
    "ID do Colaborador", "Dias de Falta", "Dias de Licença Médica",
    "Dias de Férias Usufruídos", "Banco de Horas", "Horas Extras", "Quantidade de Atrasos"
]]


##Finalização das tabelas, transformando em arquivos csv.

In [18]:
tabela_dColaborador.to_csv("tabela_dColaborador.csv", sep=';', decimal=',', index=False, encoding='utf-8')
tabela_dDesempenho.to_csv("tabela_dDesempenho.csv", sep=';', decimal=',', index=False, encoding='utf-8')
tabela_dEstrutura.to_csv("tabela_dEstrutura.csv", sep=';', decimal=',', index=False, encoding='utf-8')
tabela_fJornada_trabalho.to_csv("tabela_fJornada_trabalho.csv", sep=';', decimal=',', index=False, encoding='utf-8')


In [19]:
#Baixar os arquivo
files.download('tabela_dColaborador.csv')
files.download('tabela_dDesempenho.csv')
files.download('tabela_dEstrutura.csv')
files.download('tabela_fJornada_trabalho.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>