<a href="https://colab.research.google.com/github/marianamartins228/ProjetoBootcampRestart2025/blob/main/Projeto_Bootcamp_Restart_Data_Girls_2025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Leitura & Exploração Inicial + Limpeza & Preparação dos Dados

Neste projeto, vamos analisar o conjunto de dados “IBM HR Analytics Attrition & Performance” para entender a rotatividade de colaboradores e seus motivos. O objetivo é descobrir padrões e fatores que influenciam a rotatividade, ajudando a empresa fictícia Data Girls S.A a tomar decisões mais estratégicas na área de Recursos Humanos. Ao final, será criado um dashboard interativo com os principais resultados. A primeira tecnologia utilizada foi o Python através do Google Colab com o objetivo de fazer a examinação e tratamento inicial dos dados:

In [34]:
# importação das bibliotecas que poderão ser utilizadas
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [35]:
# leitura do dataset e impressão das primeiras linhas
df = pd.read_csv('/RH-DATASET.csv')
pd.set_option('display.max_columns', None)  # Exibe todas as colunas
df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,Gender,HourlyRate,JobInvolvement,JobLevel,JobRole,JobSatisfaction,MaritalStatus,MonthlyIncome,MonthlyRate,NumCompaniesWorked,Over18,OverTime,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,2,Female,94,3,2,Sales Executive,4,Single,5993,19479,8,Y,Yes,11,3,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,3,Male,61,2,2,Research Scientist,2,Married,5130,24907,1,Y,No,23,4,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,4,Male,92,2,1,Laboratory Technician,3,Single,2090,2396,6,Y,Yes,15,3,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,4,Female,56,3,1,Research Scientist,3,Married,2909,23159,1,Y,Yes,11,3,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,1,Male,40,3,1,Laboratory Technician,2,Married,3468,16632,9,Y,No,12,3,4,80,1,6,3,3,2,2,2,2


In [36]:
# lista de colunas
df.columns

Index(['Age', 'Attrition', 'BusinessTravel', 'DailyRate', 'Department',
       'DistanceFromHome', 'Education', 'EducationField', 'EmployeeCount',
       'EmployeeNumber', 'EnvironmentSatisfaction', 'Gender', 'HourlyRate',
       'JobInvolvement', 'JobLevel', 'JobRole', 'JobSatisfaction',
       'MaritalStatus', 'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked',
       'Over18', 'OverTime', 'PercentSalaryHike', 'PerformanceRating',
       'RelationshipSatisfaction', 'StandardHours', 'StockOptionLevel',
       'TotalWorkingYears', 'TrainingTimesLastYear', 'WorkLifeBalance',
       'YearsAtCompany', 'YearsInCurrentRole', 'YearsSinceLastPromotion',
       'YearsWithCurrManager'],
      dtype='object')

A checagem de valores nulos abaixo revelou que eles não existem, sendo assim não é necessário efetuar nenhum tratamento.

In [37]:
df.isnull().sum()

Unnamed: 0,0
Age,0
Attrition,0
BusinessTravel,0
DailyRate,0
Department,0
DistanceFromHome,0
Education,0
EducationField,0
EmployeeCount,0
EmployeeNumber,0


Por precaução também verifiquei se existe algum código de funcionário duplicado, mas não há.

In [39]:
df['EmployeeNumber'].duplicated().sum()

np.int64(0)

Inicialmente os dados revelam que é uma base de dados de funcionários e ex funcionários, em que são disponibilizadas informações importantes, tais como: idade, com que frequência viajam a trabalho, a distância do trajeto para a empresa, salário, satisfação com o emprego, se o funcionário faz hora extra, satisfação no relacionamento com colegas de trabalho, quantidade de anos desde a última promoção, etc. Através da leitura inicial das primeiras linhas da base já é possível perceber que algumas das variáveis categóricas do dataset foram previamente transformadas em valores numéricos por se tratarem de hierarquias.

Em seguida farei uma examinação mais minuciosa das colunas. Para facilitar a análise, primeiramente irei traduzir os nomes das colunas:

In [40]:
df.rename(columns={
    'Age': 'idade',
    'Attrition': 'deixou_a_empresa',
    'BusinessTravel': 'viagem_trabalho',
    'DailyRate': 'salario_diario',
    'Department': 'departamento',
    'DistanceFromHome': 'distancia_casa',
    'Education': 'nivel_educacional',
    'EducationField': 'area_formacao',
    'EmployeeCount': 'contagem_funcionario',
    'EmployeeNumber': 'numero_funcionario',
    'EnvironmentSatisfaction': 'satisfacao_ambiente',
    'Gender': 'genero',
    'HourlyRate': 'salario_hora',
    'JobInvolvement': 'envolvimento_trabalho',
    'JobLevel': 'nivel_cargo',
    'JobRole': 'cargo',
    'JobSatisfaction': 'satisfacao_trabalho',
    'MaritalStatus': 'estado_civil',
    'MonthlyIncome': 'salario_mensal',
    'MonthlyRate': 'taxa_mensal',
    'NumCompaniesWorked': 'num_empresas_anteriores',
    'Over18': 'maior_18_anos',
    'OverTime': 'faz_hora_extra',
    'PercentSalaryHike': 'aumento_salarial_pct',
    'PerformanceRating': 'avaliacao_desempenho',
    'RelationshipSatisfaction': 'satisfacao_relacionamentos',
    'StandardHours': 'horas_padrao',
    'StockOptionLevel': 'nivel_acoes',
    'TotalWorkingYears': 'anos_experiencia_total',
    'TrainingTimesLastYear': 'treinamentos_ultimo_ano',
    'WorkLifeBalance': 'equilibrio_vida_trabalho',
    'YearsAtCompany': 'anos_empresa',
    'YearsInCurrentRole': 'anos_cargo_atual',
    'YearsSinceLastPromotion': 'anos_desde_ultima_promocao',
    'YearsWithCurrManager': 'anos_com_gerente_atual'
}, inplace=True)
pd.set_option('display.max_columns', None)  # Exibe todas as colunas
df.head()

Unnamed: 0,idade,deixou_a_empresa,viagem_trabalho,salario_diario,departamento,distancia_casa,nivel_educacional,area_formacao,contagem_funcionario,numero_funcionario,satisfacao_ambiente,genero,salario_hora,envolvimento_trabalho,nivel_cargo,cargo,satisfacao_trabalho,estado_civil,salario_mensal,taxa_mensal,num_empresas_anteriores,maior_18_anos,faz_hora_extra,aumento_salarial_pct,avaliacao_desempenho,satisfacao_relacionamentos,horas_padrao,nivel_acoes,anos_experiencia_total,treinamentos_ultimo_ano,equilibrio_vida_trabalho,anos_empresa,anos_cargo_atual,anos_desde_ultima_promocao,anos_com_gerente_atual
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,2,Female,94,3,2,Sales Executive,4,Single,5993,19479,8,Y,Yes,11,3,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,3,Male,61,2,2,Research Scientist,2,Married,5130,24907,1,Y,No,23,4,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,4,Male,92,2,1,Laboratory Technician,3,Single,2090,2396,6,Y,Yes,15,3,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,4,Female,56,3,1,Research Scientist,3,Married,2909,23159,1,Y,Yes,11,3,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,1,Male,40,3,1,Laboratory Technician,2,Married,3468,16632,9,Y,No,12,3,4,80,1,6,3,3,2,2,2,2


O código abaixo irá criar uma lista de quais variáveis são categóricas e quais são numéricas, selecionando (select_dtypes(include=['']).Seleciono apenas os nomes dessas colunas (.columns) e transformo em uma lista (.tolist()).

In [41]:
# variáveis categóricas
variaveis_categoricas = df.select_dtypes(include=['object']).columns.tolist()
# variáveis numéricas
variaveis_numericas = df.select_dtypes(include=['int64', 'float64']).columns.tolist()

print(variaveis_categoricas)
print(variaveis_numericas)

['deixou_a_empresa', 'viagem_trabalho', 'departamento', 'area_formacao', 'genero', 'cargo', 'estado_civil', 'maior_18_anos', 'faz_hora_extra']
['idade', 'salario_diario', 'distancia_casa', 'nivel_educacional', 'contagem_funcionario', 'numero_funcionario', 'satisfacao_ambiente', 'salario_hora', 'envolvimento_trabalho', 'nivel_cargo', 'satisfacao_trabalho', 'salario_mensal', 'taxa_mensal', 'num_empresas_anteriores', 'aumento_salarial_pct', 'avaliacao_desempenho', 'satisfacao_relacionamentos', 'horas_padrao', 'nivel_acoes', 'anos_experiencia_total', 'treinamentos_ultimo_ano', 'equilibrio_vida_trabalho', 'anos_empresa', 'anos_cargo_atual', 'anos_desde_ultima_promocao', 'anos_com_gerente_atual']


## VARIÁVEIS CATEGÓRICAS

Agora irei printar todos os itens de cada variável categórica para também efetuar a correta tradução. O código irá inicialmente criar uma lista das variáveis categóricas (var_categ), em seguida irá iniciar uma estrutura de loop que irá executar o código para todas as variáveis da lista. Nesse loop serão extraídos os textos distintos existentes em cada variável categórica.

In [42]:
var_categ = ['deixou_a_empresa', 'viagem_trabalho', 'departamento', 'area_formacao', 'genero', 'cargo', 'estado_civil', 'maior_18_anos', 'faz_hora_extra']

for var in var_categ:
    print(f"Valores únicos da variável '{var}':")
    print(df[var].unique())
    print('-' * 40)

Valores únicos da variável 'deixou_a_empresa':
['Yes' 'No']
----------------------------------------
Valores únicos da variável 'viagem_trabalho':
['Travel_Rarely' 'Travel_Frequently' 'Non-Travel']
----------------------------------------
Valores únicos da variável 'departamento':
['Sales' 'Research & Development' 'Human Resources']
----------------------------------------
Valores únicos da variável 'area_formacao':
['Life Sciences' 'Other' 'Medical' 'Marketing' 'Technical Degree'
 'Human Resources']
----------------------------------------
Valores únicos da variável 'genero':
['Female' 'Male']
----------------------------------------
Valores únicos da variável 'cargo':
['Sales Executive' 'Research Scientist' 'Laboratory Technician'
 'Manufacturing Director' 'Healthcare Representative' 'Manager'
 'Sales Representative' 'Research Director' 'Human Resources']
----------------------------------------
Valores únicos da variável 'estado_civil':
['Single' 'Married' 'Divorced']
--------------

A variável 'maior_18_anos' tem apenas um resultado possível, então não oferece possibilidade de análise relevante, sendo indicado excluir esta coluna do dataset.

In [44]:
# neste caso já está excluindo a coluna direto no dataset. a utilização do 'axis=1' serve para indicar que é a exclusão de uma coluna
# e não uma linha
# df = df.drop('maior_18_anos', axis=1)

Agora sim irei substituir todos os valores das variáveis categóricas pela sua tradução:

In [48]:
df['deixou_a_empresa'] = df['deixou_a_empresa'].replace({
    'Yes': 'Sim',
    'No': 'Não'
})

df['viagem_trabalho'] = df['viagem_trabalho'].replace({
    'Travel_Rarely': 'Viaja Raramente',
    'Travel_Frequently': 'Viaja Frequentemente',
    'Non-Travel': 'Não Viaja'
})

df['departamento'] = df['departamento'].replace({
    'Sales': 'Vendas',
    'Research & Development': 'Pesquisa e Desenvolvimento',
    'Human Resources': 'Recursos Humanos'
})

df['area_formacao'] = df['area_formacao'].replace({
    'Life Sciences': 'Ciências Biológicas',
    'Other': 'Outro',
    'Medical': 'Medicina',
    'Marketing': 'Marketing',
    'Technical Degree': 'Técnico',
    'Human Resources': 'Recursos Humanos'
})

df['genero'] = df['genero'].replace({
    'Female': 'Feminino',
    'Male': 'Masculino'
})

df['cargo'] = df['cargo'].replace({
    'Sales Executive': 'Executivo de Vendas',
    'Research Scientist': 'Cientista Pesquisador',
    'Laboratory Technician': 'Técnico de Laboratório',
    'Manufacturing Director': 'Diretor de Produção',
    'Healthcare Representative': 'Representante de Saúde',
    'Manager': 'Gerente',
    'Sales Representative': 'Representante de Vendas',
    'Research Director': 'Diretor de Pesquisa',
    'Human Resources': 'Recursos Humanos'
})

df['estado_civil'] = df['estado_civil'].replace({
    'Single': 'Solteiro(a)',
    'Married': 'Casado(a)',
    'Divorced': 'Divorciado(a)'
})

df['faz_hora_extra'] = df['faz_hora_extra'].replace({
    'Yes': 'Sim',
    'No': 'Não'
})

display(df[['deixou_a_empresa', 'viagem_trabalho', 'departamento', 'area_formacao', 'genero', 'cargo', 'estado_civil', 'faz_hora_extra']].head())

Unnamed: 0,deixou_a_empresa,viagem_trabalho,departamento,area_formacao,genero,cargo,estado_civil,faz_hora_extra
0,Sim,Viaja Raramente,Vendas,Ciências Biológicas,Feminino,Executivo de Vendas,Solteiro(a),Sim
1,Não,Viaja Frequentemente,Pesquisa e Desenvolvimento,Ciências Biológicas,Masculino,Cientista Pesquisador,Casado(a),Não
2,Sim,Viaja Raramente,Pesquisa e Desenvolvimento,Outro,Masculino,Técnico de Laboratório,Solteiro(a),Sim
3,Não,Viaja Frequentemente,Pesquisa e Desenvolvimento,Ciências Biológicas,Feminino,Cientista Pesquisador,Casado(a),Sim
4,Não,Viaja Raramente,Pesquisa e Desenvolvimento,Medicina,Masculino,Técnico de Laboratório,Casado(a),Não


## VARIÁVEIS NUMÉRICAS

In [49]:
display(df[['idade',
            'salario_diario',
            'distancia_casa',
            'nivel_educacional',
            'contagem_funcionario',
            'numero_funcionario',
            'satisfacao_ambiente',
            'salario_hora',
            'envolvimento_trabalho',
            'nivel_cargo',
            'satisfacao_trabalho',
            'salario_mensal',
            'taxa_mensal',
            'num_empresas_anteriores',
            'aumento_salarial_pct',
            'avaliacao_desempenho',
            'satisfacao_relacionamentos',
            'horas_padrao',
            'nivel_acoes',
            'anos_experiencia_total',
            'treinamentos_ultimo_ano',
            'equilibrio_vida_trabalho',
            'anos_empresa',
            'anos_cargo_atual',
            'anos_desde_ultima_promocao', 'anos_com_gerente_atual']].head())


Unnamed: 0,idade,salario_diario,distancia_casa,nivel_educacional,contagem_funcionario,numero_funcionario,satisfacao_ambiente,salario_hora,envolvimento_trabalho,nivel_cargo,satisfacao_trabalho,salario_mensal,taxa_mensal,num_empresas_anteriores,aumento_salarial_pct,avaliacao_desempenho,satisfacao_relacionamentos,horas_padrao,nivel_acoes,anos_experiencia_total,treinamentos_ultimo_ano,equilibrio_vida_trabalho,anos_empresa,anos_cargo_atual,anos_desde_ultima_promocao,anos_com_gerente_atual
0,41,1102,1,2,1,1,2,94,3,2,4,5993,19479,8,11,3,1,80,0,8,0,1,6,4,0,5
1,49,279,8,1,1,2,3,61,2,2,2,5130,24907,1,23,4,4,80,1,10,3,3,10,7,1,7
2,37,1373,2,2,1,4,4,92,2,1,3,2090,2396,6,15,3,2,80,0,7,3,3,0,0,0,0
3,33,1392,3,4,1,5,4,56,3,1,3,2909,23159,1,11,3,3,80,0,8,3,3,8,7,3,0
4,27,591,2,1,1,7,1,40,3,1,2,3468,16632,9,12,3,4,80,1,6,3,3,2,2,2,2


In [50]:
valores_distintos = df.select_dtypes(include='number').nunique().sort_values()
print(valores_distintos)

contagem_funcionario             1
horas_padrao                     1
avaliacao_desempenho             2
envolvimento_trabalho            4
satisfacao_trabalho              4
nivel_acoes                      4
satisfacao_relacionamentos       4
satisfacao_ambiente              4
equilibrio_vida_trabalho         4
nivel_cargo                      5
nivel_educacional                5
treinamentos_ultimo_ano          7
num_empresas_anteriores         10
aumento_salarial_pct            15
anos_desde_ultima_promocao      16
anos_com_gerente_atual          18
anos_cargo_atual                19
distancia_casa                  29
anos_empresa                    37
anos_experiencia_total          40
idade                           43
salario_hora                    71
salario_diario                 886
salario_mensal                1349
taxa_mensal                   1427
numero_funcionario            1470
dtype: int64


Em primeiro lugar, identifiquei outras duas variáveis redundantes, que não servirão como objeto de análise, então serão removidas do dataset. Fiz essa análise contando a quantidade de entrada únicas em cada coluna numérica. Se existe apenas uma entrada única, significa uma coluna redundante.

In [54]:
df = df.drop(['contagem_funcionario', 'horas_padrao'], axis=1)
# colocar aqui o print da tela pra mostrar q nao tem mais essas variaveis

Uma análise me permitiu identificar que algumas das variáveis númericas na realidade são variáveis categóricas que foram convertidas em número para obebedecer hierarquias. Desta forma, com a ajuda da documentação do dataset disponível no kaggle irei descrever quais variáveis são essas:
nivel_educacional