# Análise de Recursos Humanos - People Analytics

Este projeto utiliza dados disponibilizados no [Kaggle](https://www.kaggle.com/datasets/2e87aca9cfb969c5d6e89dbba2aba6d7b5a3cb769e43608a247859512197917d) sobre "People Analytics aplicados a RH e CRM". O objetivo é analisar informações de funcionários, avaliações sobre o ambiente de trabalho e outros dados relevantes para identificar perfis de colaboradores propensos a deixar a empresa.

Será empregada a metodologia CRISP-DM, e um modelo preditivo será desenvolvido para identificar os grupos mais propensos ao desligamento, oferecendo insights e sugerindo soluções para os problemas identificados. O foco é reduzir a saída de colaboradores e aprimorar a retenção de talentos.

## Contexto do problema

A _RetaiX_, com uma equipe de aproximadamente **4000 funcionários**, enfrenta uma alta **rotatividade anual de cerca de 15%**. Essa taxa de saída, seja por vontade própria ou demissão, é considerada prejudicial pela gestão, devido a:

- Impacto negativo nos prazos, afetando a reputação da empresa perante consumidores e parceiros;
- Necessidade de manter um departamento significativo para recrutamento;
- Requerimento de treinamento e período de adaptação para os novos funcionários.

## Demanda do negócio

- Analisar os dados para identificar padrões de comportamento dos funcionários (obter personas);
- Identificar as variáveis que mais influenciam na alta rotatividade dos funcionários;
- Calcular a probabilidade de um funcionário deixar a empresa e identificar as variáveis que mais contribuem para esse aumento;
- Elaborar um relatório com as conclusões para que o gestor de RH possa tomar medidas para reduzir a rotatividade.

## Compreensão dos dados

Os dados disponíveis incluem quatro arquivos em formato _CSV_ e um arquivo _Excel_ com o dicionário de dados. Para o projeto de análise de recursos humanos (People Analytics), serão utilizados três arquivos que refletem os dados dos funcionários, suas percepções sobre o trabalho e seu impacto em suas vidas, além da avaliação de gestores. Esses dados foram extraídos do dataset publicado no [Kaggle](https://www.kaggle.com/datasets/2e87aca9cfb969c5d6e89dbba2aba6d7b5a3cb769e43608a247859512197917d) sob o título "People Analytics aplicados a RH e CRM".

## Dicionário de dados

| Variáveis | Descrição | Domínios |
|------------------------------|------------------------------|------------------------------|
| Idade                        | Idade do funcionário | |
| Rotatividade                 | Se o funcionário deixou a empresa no ano anterior ou não | |
| ViagensDeNegocio             | Com que frequência os funcionários viajaram a negócios no último ano | |
| Departamento                 | Departamento na empresa | |
| DistanciaDeCasa              | Distância de casa em quilômetros | |
| Educacao                     | Nível de Educação | 1 'Abaixo do Ensino Superior'<br>2 'Ensino Superior Incompleto'<br>3 'Bacharel'<br>4 'Mestre'<br>5 'Doutor' |
| CampoDeEducacao              | Campo de educação | |
| ContagemDeEmpregados         | Contagem de funcionários | |
| IDDoEmpregado                | Número/ID do funcionário | |
| SatisfacaoComAmbiente        | Nível de Satisfação com o Ambiente de Trabalho | 1 'Baixo'<br>2 'Médio'<br>3 'Alto'<br>4 'Muito Alto' |
| Genero                       | Gênero do funcionário | |
| EnvolvimentoNoTrabalho       | Nível de Envolvimento no Trabalho | 1 'Baixo'<br>2 'Médio'<br>3 'Alto'<br>4 'Muito Alto' |
|                   | Nível do cargo na empresa em uma escala de 1 a 5 | |
|                   | Nome da função na empresa | |
| SatisfacaoNoTrabalho         | Nível de Satisfação no Trabalho | 1 'Baixo'<br>2 'Médio'<br>3 'Alto'<br>4 'Muito Alto' |
| EstadoCivil                  | Estado civil do funcionário | |
| RendaMensal                  | Renda mensal em rúpias por mês | |
| NumeroDeEmpresas             | Número total de empresas pelas quais o funcionário passou | |
| MaiorDe18                    | Se o funcionário é maior de 18 anos ou não | |
| AumentoPercentualSalario     | Percentual de aumento salarial no último ano | |
| AvaliacaoDeDesempenho        | Avaliação de desempenho do último ano | 1 'Baixo'<br>2 'Bom'<br>3 'Excelente'<br>4 'Excepcional' |
| HorasPadrao                  | Horas padrão de trabalho para o funcionário | |
| NivelDeOpcaoDeCompraDeAcoes  | Nível de opção de ações do funcionário | |
| TotalDeAnosTrabalhados       | Número total de anos que o funcionário trabalhou até agora | |
| TreinamentosNoUltimoAno      | Número de vezes que treinamentos foram realizados para este funcionário no último ano | |
| EquilibrioTrabalhoVida       | Nível de equilíbrio entre trabalho e vida pessoal   | 1 'Ruim'<br>2 'Bom'<br>3 'Melhor'<br>4 'Ótimo' |
| AnosNaEmpresa                | Número total de anos que o funcionário passou na empresa | |
| AnosDesdeUltimaPromocao      | Número de anos desde a última promoção | |
| AnosComAtualGestor           | Número de anos sob o gerente atual | |

<br>

---

<br>

## 1. Importação de bibliotecas

In [1]:
# Importação de pacotes e definição de parâmetros globais

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import gc # Garbage Collector para gerenciamento de memória
import funcoes as fn # Módulo contendo funções customizadas

# Configurações para exibição de dados no Jupyter Notebook

# Configurar opção para exibir todas as linhas do Dataframe
pd.set_option('display.max_rows', None)

# Configurar para exibir o conteúdo completo das colunas
pd.set_option('display.max_colwidth', None)

# Configurar a supressão de mensagens de aviso durante a execução
warnings.filterwarnings('ignore')

# Configurar estilo dos gráficos do seaborn
sns.set_style('whitegrid')

# Definição da paleta de cores a ser usada nos gráficos
palette = sns.color_palette(['#66c2a5', '#fc8d62', '#8da0cb', '#e78ac3', '#a6d854',
                            '#ffd92f', '#64B5F6', '#E57373', '#e5c494', '#b3b3b3', '#06B6D4', '#8D6E63'])

## 2. Carregamento das bases

In [2]:
# Efetuando a limpeza da memória antes do carregamento dos dados
print(f'\nQuantidade de objetos removidos da memória: {gc.collect()}')


Quantidade de objetos removidos da memória: 0


In [3]:
# Criando um dataframe a partir do arquivo tb_funcionarios.csv
df_funcionarios = pd.read_csv('dados/tb_funcionarios.csv', sep=',')
print('\nDATAFRAME: df_funcionarios')
df_funcionarios.head()


DATAFRAME: df_funcionarios


Unnamed: 0,Idade,Rotatividade,ViagensDeNegocio,Departamento,DistanciaDeCasa,Educacao,CampoDeEducacao,ContagemDeEmpregados,IDDoEmpregado,Genero,...,NumeroDeEmpresas,MaiorDe18,AumentoPercentualSalario,HorasPadrao,NivelDeOpcaoDeCompraDeAcoes,TotalDeAnosTrabalhados,TreinamentosNoUltimoAno,AnosNaEmpresa,AnosDesdeUltimaPromocao,AnosComAtualGestor
0,51,Nao,Viagens_Raras,Vendas,6,2,Ciências da Vida,1,1,Feminino,...,1.0,Y,11,8,0,1.0,6,1,0,0
1,31,Sim,Viagens_Frequentes,Pesquisa_e_Desenvolvimento,10,1,Ciências da Vida,1,2,Feminino,...,0.0,Y,23,8,1,6.0,3,5,1,4
2,32,Nao,Viagens_Frequentes,Pesquisa_e_Desenvolvimento,17,4,Outro,1,3,Masculino,...,1.0,Y,15,8,3,5.0,2,5,0,3
3,38,Nao,Nao_Viaja,Pesquisa_e_Desenvolvimento,2,5,Ciências da Vida,1,4,Masculino,...,3.0,Y,11,8,3,13.0,5,8,7,5
4,32,Nao,Viagens_Raras,Pesquisa_e_Desenvolvimento,10,1,Médica,1,5,Masculino,...,4.0,Y,12,8,2,9.0,2,6,0,4


In [4]:
# Criando um dataframe a partir do arquivo tb_pesquisa_funcionarios.csv
df_pesquisa_funcionarios = pd.read_csv('dados/tb_pesquisa_funcionarios.csv', sep=',')
print('\nDATAFRAME: df_pesquisa_funcionarios')
df_pesquisa_funcionarios.head()


DATAFRAME: df_pesquisa_funcionarios


Unnamed: 0,IDDoEmpregado,SatisfacaoComAmbiente,SatisfacaoNoTrabalho,EquilibrioTrabalhoVida
0,1,3.0,4.0,2.0
1,2,3.0,2.0,4.0
2,3,2.0,2.0,1.0
3,4,4.0,4.0,3.0
4,5,4.0,1.0,3.0


In [5]:
# Criando um dataframe a partir do arquivo tb_pesquisa_gestores.csv
df_pesquisa_gestores = pd.read_csv('dados/tb_pesquisa_gestores.csv', sep=',')
print('\nDATAFRAME: df_pesquisa_gestores')
df_pesquisa_gestores.head()


DATAFRAME: df_pesquisa_gestores


Unnamed: 0,IDDoEmpregado,EnvolvimentoNoTrabalho,AvaliacaoDeDesempenho
0,1,3,3
1,2,2,4
2,3,3,3
3,4,2,3
4,5,3,3


## 3. Análise dos dataframes

In [6]:
# Exibindo a quantidade de linhas e colunas dos dataframes

# Criação de um dicionário com os dataframes e seus respectivos nomes
dfs = {
    'df_funcionarios': df_funcionarios,
    'df_pesquisa_funcionarios': df_pesquisa_funcionarios,
    'df_pesquisa_gestores': df_pesquisa_gestores
}

print(f'\nVOLUMETRIA')

# Iteração sobre o dicionário para exibir o nome e as dimensões dos dataframes
for nome, df in dfs.items():
    print(f'\n{nome}')
    print(f'-'*45)
    print(f'Quantidade de linhas (registros):  {df.shape[0]}')
    print(f'Quantidade de colunas (variáveis): {df.shape[1]}')


VOLUMETRIA

df_funcionarios
---------------------------------------------
Quantidade de linhas (registros):  4410
Quantidade de colunas (variáveis): 24

df_pesquisa_funcionarios
---------------------------------------------
Quantidade de linhas (registros):  4410
Quantidade de colunas (variáveis): 4

df_pesquisa_gestores
---------------------------------------------
Quantidade de linhas (registros):  4410
Quantidade de colunas (variáveis): 3


In [7]:
# Unindo df_funcionarios com df_pesquisa_funcionarios
df_merged = pd.merge(df_funcionarios, df_pesquisa_funcionarios, on='IDDoEmpregado', how='left')

# Unindo o resultado com df_pesquisa_gestores
df = pd.merge(df_merged, df_pesquisa_gestores, on='IDDoEmpregado', how='left')

# Exibindo o dataframe final resultante da junção
df.head()

Unnamed: 0,Idade,Rotatividade,ViagensDeNegocio,Departamento,DistanciaDeCasa,Educacao,CampoDeEducacao,ContagemDeEmpregados,IDDoEmpregado,Genero,...,TotalDeAnosTrabalhados,TreinamentosNoUltimoAno,AnosNaEmpresa,AnosDesdeUltimaPromocao,AnosComAtualGestor,SatisfacaoComAmbiente,SatisfacaoNoTrabalho,EquilibrioTrabalhoVida,EnvolvimentoNoTrabalho,AvaliacaoDeDesempenho
0,51,Nao,Viagens_Raras,Vendas,6,2,Ciências da Vida,1,1,Feminino,...,1.0,6,1,0,0,3.0,4.0,2.0,3,3
1,31,Sim,Viagens_Frequentes,Pesquisa_e_Desenvolvimento,10,1,Ciências da Vida,1,2,Feminino,...,6.0,3,5,1,4,3.0,2.0,4.0,2,4
2,32,Nao,Viagens_Frequentes,Pesquisa_e_Desenvolvimento,17,4,Outro,1,3,Masculino,...,5.0,2,5,0,3,2.0,2.0,1.0,3,3
3,38,Nao,Nao_Viaja,Pesquisa_e_Desenvolvimento,2,5,Ciências da Vida,1,4,Masculino,...,13.0,5,8,7,5,4.0,4.0,3.0,2,3
4,32,Nao,Viagens_Raras,Pesquisa_e_Desenvolvimento,10,1,Médica,1,5,Masculino,...,9.0,2,6,0,4,4.0,1.0,3.0,3,3


In [9]:
# Exibindo os metadados do dataframe unificado

fn.gerar_metadados(df)

Unnamed: 0,Variável,Tipo,Qtde de nulos,% de nulos,Cardinalidade
0,EquilibrioTrabalhoVida,float64,38,0.86,4
1,SatisfacaoComAmbiente,float64,25,0.57,4
2,SatisfacaoNoTrabalho,float64,20,0.45,4
3,NumeroDeEmpresas,float64,19,0.43,10
4,TotalDeAnosTrabalhados,float64,9,0.2,40
5,MaiorDe18,object,0,0.0,1
6,EnvolvimentoNoTrabalho,int64,0,0.0,4
7,AnosComAtualGestor,int64,0,0.0,18
8,AnosDesdeUltimaPromocao,int64,0,0.0,16
9,AnosNaEmpresa,int64,0,0.0,37


In [10]:
# Exibindo a quantidade de linhas e colunas do dataframe

print(f'\nVOLUMETRIA')
print(f'\nQuantidade de linhas (registros):  {df.shape[0]}')
print(f'Quantidade de colunas (variáveis): {df.shape[1]}')


VOLUMETRIA

Quantidade de linhas (registros):  4410
Quantidade de colunas (variáveis): 29


In [12]:
df.head()

Unnamed: 0,Idade,Rotatividade,ViagensDeNegocio,Departamento,DistanciaDeCasa,Educacao,CampoDeEducacao,ContagemDeEmpregados,IDDoEmpregado,Genero,...,TotalDeAnosTrabalhados,TreinamentosNoUltimoAno,AnosNaEmpresa,AnosDesdeUltimaPromocao,AnosComAtualGestor,SatisfacaoComAmbiente,SatisfacaoNoTrabalho,EquilibrioTrabalhoVida,EnvolvimentoNoTrabalho,AvaliacaoDeDesempenho
0,51,Nao,Viagens_Raras,Vendas,6,2,Ciências da Vida,1,1,Feminino,...,1.0,6,1,0,0,3.0,4.0,2.0,3,3
1,31,Sim,Viagens_Frequentes,Pesquisa_e_Desenvolvimento,10,1,Ciências da Vida,1,2,Feminino,...,6.0,3,5,1,4,3.0,2.0,4.0,2,4
2,32,Nao,Viagens_Frequentes,Pesquisa_e_Desenvolvimento,17,4,Outro,1,3,Masculino,...,5.0,2,5,0,3,2.0,2.0,1.0,3,3
3,38,Nao,Nao_Viaja,Pesquisa_e_Desenvolvimento,2,5,Ciências da Vida,1,4,Masculino,...,13.0,5,8,7,5,4.0,4.0,3.0,2,3
4,32,Nao,Viagens_Raras,Pesquisa_e_Desenvolvimento,10,1,Médica,1,5,Masculino,...,9.0,2,6,0,4,4.0,1.0,3.0,3,3


Os dataframes `df_funcionarios`, `df_pesquisa_funcionarios` e `df_pesquisa_gestores` contêm 4410 registros cada, com um número variável de colunas. Observou-se que os dataframes **df_pesquisa_funcionarios** e **df_pesquisa_gestores** complementam o dataframe **df_funcionarios**. Para a análise dos dados e a criação de um modelo preditivo de clusterização, foi realizado um 'join' entre os três dataframes, resultando em um único **dataframe** com **4410 linhas** e **29 colunas** (variáveis).

## 4. Análise dos dados

### 4.1. Análise de registros duplicados