<a href="https://colab.research.google.com/github/pela-andrea/people-analytics-case/blob/develop/01_exploracao_glossario.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Estudo de Base de Dados RH – Case Técnico


Este notebook tem como objetivo documentar o processo de **exploração, limpeza e transformação de dados** a partir de uma base fictícia de Recursos Humanos. O material faz parte da entrega de um case técnico, solicitado com foco nas seguintes competências:

-  **Documentação clara e detalhada**
-  **Versionamento de código**
- **Análise de dados e extração de insights**
-  **Storytelling e visualização com Power BI**

---

##Estrutura do projeto

Este notebook é o primeiro de uma sequência que compõe o repositório **rh-data-case-andrea-pela**, disponível no [GitHub](https://github.com/seu_usuario/seu_repositorio). A estrutura geral do projeto está organizada em pastas com arquivos de dados, scripts de tratamento, dashboard e documentação técnica.

---

##Objetivo deste notebook

Neste notebook, você encontrará:

- Leitura da base original;
- Entendimento e descrição das colunas;
- Identificação e tratamento de dados inconsistentes ou faltantes;
- Inferência e conversão de tipos de dados;
- Criação do glossário com:
    - Nome da coluna original;
    - Nome amigável;
    - Tipo de dado;
    - Observações relevantes;
- Salvamento do glossário como `.md` ou `.csv`.

---

##Observações

- A base utilizada **não contém dados reais**.
- Todos os arquivos utilizados e gerados estão disponíveis no repositório.
- O projeto será documentado e versionado via GitHub para avaliação.

---

*Autora: Andrea Pela*  
*GitHub: [@pela-andrea](https://github.com/pela-andrea)*  
*Data: Julho/2025*


#Etapa 01 - Exploração dos dados

##Declaração das LIBS

In [4]:
# Principais
import pandas as pd
import numpy as np

# Para visualização
import matplotlib.pyplot as plt
import seaborn as sns

# Para tratamento de datas e warnings
import datetime as dt
import warnings
warnings.filterwarnings('ignore')

##Configuração do pandas

In [5]:
# Exibir todas as colunas do dataframe
pd.set_option('display.max_columns', None)

##Importação e Extração dos dados

In [11]:
#Importando a base original diretamente do repositório GitHub
url = 'https://raw.githubusercontent.com/pela-andrea/people-analytics-case/main/data/base_headcount.csv'


df = pd.read_csv(url)

##Identificação dos dados

In [12]:
#Análise descritiva dos dados
df.describe()

Unnamed: 0,salary,absence_days,sick_days,vacation_days_taken,bank_hours,overtime_hours,tardiness_count,number_of_dependents,performance_rating,bonus_percentage,tenure_years
count,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0
mean,6008.196118,2.0042,3.0057,14.99726,50.31564,49.9403,5.009,1.00176,3.00622,10.031756,7.96676
std,1976.890182,1.416539,1.729152,3.861434,86.698049,29.195358,2.242744,1.002026,1.412325,4.884612,4.334095
min,1500.0,0.0,0.0,3.0,-100.0,0.0,0.0,0.0,1.0,0.0,0.5
25%,4642.75,1.0,2.0,12.0,-24.0,24.0,3.0,0.0,2.0,6.63,4.22
50%,6003.48,2.0,3.0,15.0,50.0,50.0,5.0,1.0,3.0,9.97,7.93
75%,7354.12,3.0,4.0,18.0,125.0,75.0,6.0,2.0,4.0,13.31,11.72
max,14958.17,11.0,13.0,32.0,200.0,100.0,15.0,8.0,5.0,32.44,15.5


In [13]:
#Volume do DataSet
df.shape

(50000, 31)

In [10]:
#Identificação das primeiras linhas
df.head()

Unnamed: 0,employee_id,job_title,department,location,salary,hire_date,termination_date,is_active,absence_days,sick_days,vacation_days_taken,bank_hours,overtime_hours,tardiness_count,gender,marital_status,number_of_dependents,education_level,performance_rating,bonus_percentage,shift,contract_type,cost_center,compliance_status,health_plan,email,tenure_years,probation_completed,manager_id,last_promotion_date,last_training_date
0,EMP_00001,Gerente de RH,Financeiro,Salvador,6993.43,2022-02-26,,True,3,2,13,52,20,6,Other,Widowed,4,Bachelors,5,7.58,Morning,Permanent,CC013,Compliant,Standard,emp_00001@company.com,3.34,True,EMP_00495,,2024-07-04
1,EMP_00002,Engenheiro de Dados,Marketing,Belo Horizonte,5723.47,2023-03-04,,True,1,1,14,-80,86,6,Male,Married,1,Bachelors,5,8.72,Morning,Temporary,CC026,Compliant,Basic,emp_00002@company.com,2.33,True,EMP_00345,2024-07-21,2024-02-01
2,EMP_00003,Desenvolvedor Python,Operações,Salvador,7295.38,2010-09-01,,True,3,5,25,149,23,1,Female,Divorced,1,Masters,4,7.93,Morning,Permanent,CC010,Compliant,Basic,emp_00003@company.com,14.84,True,EMP_00306,2014-10-18,2024-01-11
3,EMP_00004,Analista Financeiro,Operações,Porto Alegre,9046.06,2020-02-26,,True,2,1,21,-92,22,5,Male,Married,0,Bachelors,3,5.27,Morning,Permanent,CC008,Compliant,Standard,emp_00004@company.com,5.35,True,EMP_00971,,2025-01-05
4,EMP_00005,Engenheiro de Dados,Recursos Humanos,Curitiba,5531.69,2011-06-22,,True,1,2,15,93,72,3,Male,Single,0,Bachelors,2,10.95,Afternoon,Permanent,CC013,Compliant,Premium,emp_00005@company.com,14.03,True,EMP_00024,,2025-01-19


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 31 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   employee_id           50000 non-null  object 
 1   job_title             50000 non-null  object 
 2   department            50000 non-null  object 
 3   location              50000 non-null  object 
 4   salary                50000 non-null  float64
 5   hire_date             50000 non-null  object 
 6   termination_date      10026 non-null  object 
 7   is_active             50000 non-null  bool   
 8   absence_days          50000 non-null  int64  
 9   sick_days             50000 non-null  int64  
 10  vacation_days_taken   50000 non-null  int64  
 11  bank_hours            50000 non-null  int64  
 12  overtime_hours        50000 non-null  int64  
 13  tardiness_count       50000 non-null  int64  
 14  gender                50000 non-null  object 
 15  marital_status     

In [15]:
#Verificando a quantidade de linhas duplicadas
duplicatas = df[df.duplicated()]

soma_duplicatas = duplicatas.groupby(duplicatas.columns.tolist()).sum()

print(soma_duplicatas)

Empty DataFrame
Columns: []
Index: []


In [16]:
##Porcentagem de valores nulos em todas as variáveis
porcentagem_nulos = (df.isnull().sum() / len(df)) * 100

with pd.option_context('display.max_rows', None):
 print(porcentagem_nulos)

employee_id              0.000
job_title                0.000
department               0.000
location                 0.000
salary                   0.000
hire_date                0.000
termination_date        79.948
is_active                0.000
absence_days             0.000
sick_days                0.000
vacation_days_taken      0.000
bank_hours               0.000
overtime_hours           0.000
tardiness_count          0.000
gender                   0.000
marital_status           0.000
number_of_dependents     0.000
education_level          0.000
performance_rating       0.000
bonus_percentage         0.000
shift                    0.000
contract_type            0.000
cost_center              0.000
compliance_status        0.000
health_plan              0.000
email                    0.000
tenure_years             0.000
probation_completed      0.000
manager_id               0.000
last_promotion_date     51.664
last_training_date      29.780
dtype: float64


In [17]:
##Verificando as colunas do df em lista
df.columns.tolist()

['employee_id',
 'job_title',
 'department',
 'location',
 'salary',
 'hire_date',
 'termination_date',
 'is_active',
 'absence_days',
 'sick_days',
 'vacation_days_taken',
 'bank_hours',
 'overtime_hours',
 'tardiness_count',
 'gender',
 'marital_status',
 'number_of_dependents',
 'education_level',
 'performance_rating',
 'bonus_percentage',
 'shift',
 'contract_type',
 'cost_center',
 'compliance_status',
 'health_plan',
 'email',
 'tenure_years',
 'probation_completed',
 'manager_id',
 'last_promotion_date',
 'last_training_date']

#Análise Exploratória e Tratamento dos dados
O principal objetivo da EDA é detectar quaisquer erros ou discrepâncias, bem como entender diferentes padrões nos dados. Ele permite que os analistas entendam melhor os dados antes de fazer qualquer suposição e descubram relacionamentos entre variáveis. Os resultados da EDA ajudam as empresas a conhecer seus clientes, expandir seus negócios e tomar melhores decisões.

#Separando o Dataframe para melhor visualização e análise

In [18]:
##Transformando as variáveis em uma array
df.columns.values

array(['employee_id', 'job_title', 'department', 'location', 'salary',
       'hire_date', 'termination_date', 'is_active', 'absence_days',
       'sick_days', 'vacation_days_taken', 'bank_hours', 'overtime_hours',
       'tardiness_count', 'gender', 'marital_status',
       'number_of_dependents', 'education_level', 'performance_rating',
       'bonus_percentage', 'shift', 'contract_type', 'cost_center',
       'compliance_status', 'health_plan', 'email', 'tenure_years',
       'probation_completed', 'manager_id', 'last_promotion_date',
       'last_training_date'], dtype=object)