# Análise de Recursos Humanos - People Analytics

Este projeto utiliza dados disponibilizados no [Kaggle](https://www.kaggle.com/datasets/2e87aca9cfb969c5d6e89dbba2aba6d7b5a3cb769e43608a247859512197917d) sobre "People Analytics aplicados a RH e CRM". O objetivo é analisar informações de funcionários, avaliações sobre o ambiente de trabalho e outros dados relevantes para identificar perfis de colaboradores propensos a deixar a empresa.

Será empregada a metodologia CRISP-DM, e um modelo preditivo será desenvolvido para identificar os grupos mais propensos ao desligamento, oferecendo insights e sugerindo soluções para os problemas identificados. O foco é reduzir a saída de colaboradores e aprimorar a retenção de talentos.

## Contexto do problema

A _RetaiX_, com uma equipe de aproximadamente **4000 funcionários**, enfrenta uma alta **rotatividade anual de cerca de 15%**. Essa taxa de saída, seja por vontade própria ou demissão, é considerada prejudicial pela gestão, devido a:

- Impacto negativo nos prazos, afetando a reputação da empresa perante consumidores e parceiros;
- Necessidade de manter um departamento significativo para recrutamento;
- Requerimento de treinamento e período de adaptação para os novos funcionários.

## Demanda do negócio

- Analisar os dados para identificar padrões de comportamento dos funcionários (obter personas);
- Identificar as variáveis que mais influenciam na alta rotatividade dos funcionários;
- Calcular a probabilidade de um funcionário deixar a empresa e identificar as variáveis que mais contribuem para esse aumento;
- Elaborar um relatório com as conclusões para que o gestor de RH possa tomar medidas para reduzir a rotatividade.

## Compreensão dos dados

Os dados disponíveis incluem quatro arquivos em formato _CSV_ e um arquivo _Excel_ com o dicionário de dados. Para o projeto de análise de recursos humanos (People Analytics), serão utilizados três arquivos que refletem os dados dos funcionários, suas percepções sobre o trabalho e seu impacto em suas vidas, além da avaliação de gestores. Esses dados foram extraídos do dataset publicado no [Kaggle](https://www.kaggle.com/datasets/2e87aca9cfb969c5d6e89dbba2aba6d7b5a3cb769e43608a247859512197917d) sob o título "People Analytics aplicados a RH e CRM".

## Dicionário de dados

| Variáveis | Descrição | Domínios |
|------------------------------|------------------------------|------------------------------|
| Idade                        | Idade do funcionário | |
| Rotatividade                 | Se o funcionário deixou a empresa no ano anterior ou não | |
| ViagensDeNegocio             | Com que frequência os funcionários viajaram a negócios no último ano | |
| Departamento                 | Departamento na empresa | |
| DistanciaDeCasa              | Distância de casa em quilômetros | |
| Educacao                     | Nível de Educação | 1 'Abaixo do Ensino Superior'<br>2 'Ensino Superior Incompleto'<br>3 'Bacharel'<br>4 'Mestre'<br>5 'Doutor' |
| CampoDeEducacao              | Campo de educação | |
| ContagemDeEmpregados         | Contagem de funcionários | |
| IDDoEmpregado                | Número/ID do funcionário | |
| SatisfacaoComAmbiente        | Nível de Satisfação com o Ambiente de Trabalho | 1 'Baixo'<br>2 'Médio'<br>3 'Alto'<br>4 'Muito Alto' |
| Genero                       | Gênero do funcionário | |
| EnvolvimentoNoTrabalho       | Nível de Envolvimento no Trabalho | 1 'Baixo'<br>2 'Médio'<br>3 'Alto'<br>4 'Muito Alto' |
|                   | Nível do cargo na empresa em uma escala de 1 a 5 | |
|                   | Nome da função na empresa | |
| SatisfacaoNoTrabalho         | Nível de Satisfação no Trabalho | 1 'Baixo'<br>2 'Médio'<br>3 'Alto'<br>4 'Muito Alto' |
| EstadoCivil                  | Estado civil do funcionário | |
| RendaMensal                  | Renda mensal em rúpias por mês | |
| NumeroDeEmpresas             | Número total de empresas pelas quais o funcionário passou | |
| MaiorDe18                    | Se o funcionário é maior de 18 anos ou não | |
| AumentoPercentualSalario     | Percentual de aumento salarial no último ano | |
| AvaliacaoDeDesempenho        | Avaliação de desempenho do último ano | 1 'Baixo'<br>2 'Bom'<br>3 'Excelente'<br>4 'Excepcional' |
| HorasPadrao                  | Horas padrão de trabalho para o funcionário | |
| NivelDeOpcaoDeCompraDeAcoes  | Nível de opção de ações do funcionário | |
| TotalDeAnosTrabalhados       | Número total de anos que o funcionário trabalhou até agora | |
| TreinamentosNoUltimoAno      | Número de vezes que treinamentos foram realizados para este funcionário no último ano | |
| EquilibrioTrabalhoVida       | Nível de equilíbrio entre trabalho e vida pessoal   | 1 'Ruim'<br>2 'Bom'<br>3 'Melhor'<br>4 'Ótimo' |
| AnosNaEmpresa                | Número total de anos que o funcionário passou na empresa | |
| AnosDesdeUltimaPromocao      | Número de anos desde a última promoção | |
| AnosComAtualGestor           | Número de anos sob o gerente atual | |

## Sumário

1. **Importação de bibliotecas**
2. **Carregamento das bases**
3. **Análise dos dataframes**
4. **Análise dos dados**
   - 4.1. Limpeza e pré-processamento dos dados
     - 4.1.1. Análise de registros duplicados
     - 4.1.2. Análise de valores nulos
   - 4.2. Análise das medidas estatísticas dos dados
   - 4.3. Análise exploratória dos dados
     - 4.3.1. Taxa de rotatividade
     - 4.3.2. Distribuição de idade e taxa de rotatividade por faixa etária
     - 4.3.3. Percentual de funcionários por gênero e taxa de rotatividade
     - 4.3.4. Quantidade de funcionários por função e taxa de rotatividade
     - 4.3.5. Distribuição de renda mensal e taxa de rotatividade
     - 4.3.6. Distância de casa (Km) e taxa de rotatividade
     - 4.3.7. Taxa de rotatividade e anos de empresa
     - 4.3.8. Avaliação de equilíbrio trabalho/vida e taxa de rotatividade
     - 4.3.9. Nível de envolvimento no trabalho e taxa de rotatividade
     - 4.3.10. Taxa de rotatividade e satisfação no trabalho
5. **Preparação dos dados**
   - 5.1. Enconding (codificação das variáveis)
   - 5.2. Redução de dimensionalidade
6. **Modelagem do modelo**
   - 6.1. Clusterização
     - 6.1.1. Método para escolha do número de clusters - Silhueta
     - 6.1.2. Método para escolha do número de clusters - Cotovelo
     - 6.1.3. Método para escolha do número de clusters - Mistura Gaussiana
   - 6.2. Treinamento dos modelos de clusterização
   - 6.3. Visualização e definição de clusters a serem usados
7. **Análise dos clusters gerados x variáveis**
   - 7.1. Taxa de rotatividade por CLUSTER
   - 7.2. Percentual de rotatividade das variáveis por cluster

<br>

---

<br>

## 1. Importação de bibliotecas

In [None]:
# Importação de pacotes e definição de parâmetros globais

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import gc # Garbage Collector para gerenciamento de memória
import funcoes as fn # Módulo contendo funções customizadas

from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import RobustScaler, OneHotEncoder
from sklearn.decomposition import PCA

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.mixture import GaussianMixture

# Configurações para exibição de dados no Jupyter Notebook

# Configurar opção para exibir todas as linhas do Dataframe
pd.set_option('display.max_rows', None)

# Configurar para exibir o conteúdo completo das colunas
pd.set_option('display.max_colwidth', None)

# Configurar a supressão de mensagens de aviso durante a execução
warnings.filterwarnings('ignore')

# Configurar estilo dos gráficos do seaborn
sns.set_style('whitegrid')

# Definição da paleta de cores a ser usada nos gráficos
palette = sns.color_palette(['#66c2a5', '#fc8d62', '#8da0cb', '#e78ac3', '#a6d854',
                            '#ffd92f', '#64B5F6', '#E57373', '#e5c494', '#b3b3b3', '#06B6D4', '#8D6E63'])

## 2. Carregamento das bases

In [None]:
# Efetuando a limpeza da memória antes do carregamento dos dados
print(f'\nQuantidade de objetos removidos da memória: {gc.collect()}')

In [None]:
# Criando um dataframe a partir do arquivo tb_funcionarios.csv
df_funcionarios = pd.read_csv('dados/tb_funcionarios.csv', sep=',')
print('\nDATAFRAME: df_funcionarios')
df_funcionarios.head()

In [None]:
# Criando um dataframe a partir do arquivo tb_pesquisa_funcionarios.csv
df_pesquisa_funcionarios = pd.read_csv('dados/tb_pesquisa_funcionarios.csv', sep=',')
print('\nDATAFRAME: df_pesquisa_funcionarios')
df_pesquisa_funcionarios.head()

In [None]:
# Criando um dataframe a partir do arquivo tb_pesquisa_gestores.csv
df_pesquisa_gestores = pd.read_csv('dados/tb_pesquisa_gestores.csv', sep=',')
print('\nDATAFRAME: df_pesquisa_gestores')
df_pesquisa_gestores.head()

## 3. Análise dos dataframes

In [None]:
# Exibindo a quantidade de linhas e colunas dos dataframes

# Criação de um dicionário com os dataframes e seus respectivos nomes
dfs = {
    'df_funcionarios': df_funcionarios,
    'df_pesquisa_funcionarios': df_pesquisa_funcionarios,
    'df_pesquisa_gestores': df_pesquisa_gestores
}

print(f'\nVOLUMETRIA')

# Iteração sobre o dicionário para exibir o nome e as dimensões dos dataframes
for nome, df in dfs.items():
    print(f'\n{nome}')
    print(f'-'*45)
    print(f'Quantidade de linhas (registros):  {df.shape[0]}')
    print(f'Quantidade de colunas (variáveis): {df.shape[1]}')

In [None]:
# Unindo df_funcionarios com df_pesquisa_funcionarios
df_merged = pd.merge(df_funcionarios, df_pesquisa_funcionarios, on='IDDoEmpregado', how='left')

# Unindo o resultado com df_pesquisa_gestores
df = pd.merge(df_merged, df_pesquisa_gestores, on='IDDoEmpregado', how='left')

# Exibindo o dataframe final resultante da junção
df.head()

In [None]:
# Exibindo os metadados do dataframe unificado

fn.gerar_metadados(df)

In [None]:
# Exibindo a quantidade de linhas e colunas do dataframe

print(f'\nVOLUMETRIA')
print(f'\nQuantidade de linhas  (registros): {df.shape[0]}')
print(f'Quantidade de colunas (variáveis): {df.shape[1]}')

In [None]:
df.head()

Os dataframes `df_funcionarios`, `df_pesquisa_funcionarios` e `df_pesquisa_gestores` contêm 4410 registros cada, com um número variável de colunas. Observou-se que os dataframes **df_pesquisa_funcionarios** e **df_pesquisa_gestores** complementam o dataframe **df_funcionarios**. Para a análise dos dados e a criação de um modelo preditivo de clusterização, foi realizado um 'join' entre os três dataframes, resultando em um único **dataframe** com **4410 linhas** e **29 colunas** (variáveis).

## 4. Análise dos dados

### 4.1. Limpeza e pré-processamento dos dados

In [None]:
# Gerando uma cópia dos dados para execução da análise

df_analise = df.copy()

#### 4.1.1. Análise de registros duplicados

In [None]:
# Exibindo a quantidade de registros duplicados

df_analise.duplicated(keep='first').value_counts(
).to_frame().rename(columns={'contagem': 'Quantidade'})

Nenhum registro duplicado foi identificado na análise. É possível que a maneira como os dados foram coletados tenha prevenido essa situação ou que os dados já tenham sido tratados anteriormente

#### 4.1.2. Análise de valores nulos

In [None]:
# Exibindo gráfico de valores nulos

fn.grafico_bar_valores_nulos(df_analise)

In [None]:
# Lista das variáveis com valores nulos
lista = [col for col in df_analise.columns if df_analise[col].isnull().any()]

# Preenchendo com a 'moda' as variáveis com valores nulos
for col in lista:
    print(f'Variável: {col}')
    moda = df_analise[col].mode()[0]
    df_analise.loc[df_analise[col].isnull(), col] = moda

Foram identificadas cinco variáveis categóricas numéricas com registros nulos, que foram preenchidos com os valores da **moda**.

In [None]:
fn.gerar_metadados(df_analise)

### 4.2. Análise das medidas estatísticas dos dados

In [None]:
# Estatística descritiva das variáveis numéricas

# Obtém as colunas do dataframe que são numéricas
cols = df_analise.select_dtypes(include='number').columns

# Gera a estatística descritiva e transpõe o resultado
df_analise[cols].describe().T

In [None]:
# Estatística descritiva das variáveis categóricas

# Obtém as colunas do dataframe que são categóricas
cols = df_analise.select_dtypes(include=['object', 'category']).columns

# Gera a estatística descritiva e transpõe o resultado
df_analise[cols].describe().T

### 4.3. Análise exploratória dos dados

#### 4.3.1. Taxa de rotatividade

In [None]:
# Calcular as estatísticas no DataFrame para a variável 'Rotatividade'
df_00 = df_analise['Rotatividade'].value_counts()
df_00_perc = df_00 / df_00.sum() * 100
rotatividade = pd.DataFrame({'Qtde': df_00, '%': df_00_perc})

# Criar gráfico de pizza
fig, ax = plt.subplots(figsize=(6, 6))
colors = ['dodgerblue', 'indianred']

# Capturar os textos do gráfico de pizza
wedges, texts, autotexts = ax.pie(
    rotatividade['%'], labels=None, autopct='%0.2f%%', colors=colors, textprops={'fontsize': 15})

# Alterar a cor da fonte dos rótulos de autopreenchimento para branco
for autotext in autotexts:
    autotext.set_color('white')

# Adicionar legendas
legendas = ['NÃO', 'SIM']
ax.legend(legendas, loc='right', labelspacing=1.5,
          bbox_to_anchor=(1.0, 0.1, 0.6, 0.9))

# Adicionar tabela
cell_text = rotatividade.apply(
    lambda x: [f'{int(x["Qtde"]):.0f}', f'{x["%"]:.2f}'], axis=1).tolist()
tabela = plt.table(cellText=cell_text, colLabels=[
                   'Quantidade', '%'], loc='bottom right', bbox=(1.1, 0.05, 0.5, 0.3))
tabela.auto_set_font_size(False)
tabela.set_fontsize(11)

# Alterar a cor da grade da tabela
for key, cell in tabela.get_celld().items():
    cell.set_edgecolor('lightgrey')

# Ajustar layout
plt.axis('equal')

# Adicionar título
plt.title('Rotatividade dos funcionários', fontsize=15)

# Exibindo o gráfico
plt.show()

Observa-se que, dos 4410 funcionários, **711** (aproximadamente **16,12%**) não fazem mais parte do quadro de colaboradores, seja por pedido de demissão ou por desligamento.

#### 4.3.2. Distribuição de idade e taxa de rotatividade por faixa etária

In [None]:
# Criar o gráfico histograma
plt.subplots(figsize=(10, 6))
plot = sns.histplot(data=df_analise, x='Idade', bins=10,
                    kde=False, color='dodgerblue')

# Adicionando frequência sobre as barras
for p in plot.patches:
    plot.annotate(f'{int(p.get_height())}', (
        p.get_x() + p.get_width() / 2., p.get_height()
    ), ha='center', va='bottom', fontsize=10)

# Adicionando linha vertical para a média
idade_media = df_analise['Idade'].mean()
plt.axvline(x=idade_media, color='blue', linestyle='--',
            label=f'Média: {idade_media:.2f} anos')

# Adicionando e formatando rótulos e título
plot.set_title('Distribuição da idade\n', fontsize=15)
plot.set(xlabel='\nIdade', ylabel='Frequência\n')
plot.tick_params(axis='both', labelsize=10)

# Ajustando os rótulos do eixo x de 5 em 5 anos
plt.xticks(range(20, 65, 5))

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

- A maior concentração de funcionários está na faixa etária de aproximadamente 30 a 43 anos;
- A média de idade é de cerca de **37 anos** _(36,92)_;
- A menor concentração de funcionários está na faixa etária de aproximadamente 55 a 60 anos.

In [None]:
# Converter valores de 'Rotatividade' para binário
df_analise['RotatividadeBin'] = df_analise['Rotatividade'].map(
    {'Sim': 1, 'Nao': 0})

# Definir faixas etárias
faixas_etarias = pd.cut(df_analise['Idade'],
                        bins=range(18, 64, 5), right=False)

# Calcular a taxa de rotatividade por faixa etária
rotatividade_por_faixa = df_analise.groupby(
    faixas_etarias)['RotatividadeBin'].mean()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_por_faixa.index,
                   y=rotatividade_por_faixa.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade por faixa etária\n', fontsize=15)
plot.set(xlabel='\nFaixa Etária', ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionando linha horizontal para a média
rotatividade_media = df_analise['RotatividadeBin'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Renomear rótulos do eixo x
faixa_etaria_labels = ['18 - 22', '23 - 27', '28 - 32', '33 - 37',
                       '38 - 42', '43 - 47', '48 - 52', '53 - 57', '58 - 60']
plot.set_xticklabels(faixa_etaria_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

- A _taxa média_ de rotatividade é de **16,12%** dos funcionários;
- A faixa etária de **18 a 22 anos** apresenta a maior rotatividade, com aproximadamente **47.37%**;
- A menor rotatividade, de aproximadamente **8,64%**, ocorre na faixa etária de **38 a 42 anos**;
- Considerando a _taxa média_, as faixas etárias de **18 a 32** anos e **58 a 60** anos possuem as maiores taxas de rotatividade;
- A faixa etária de **38 a 42 anos** apresenta a menor rotatividade, considerando a _taxa média_.


#### 4.3.3. Percentual de funcionários por gênero e taxa de rotatividade

In [None]:
# Calcular as estatísticas no DataFrame para a variável 'Genero'
df_01 = df_analise['Genero'].value_counts()
df_01_perc = df_01 / df_01.sum() * 100
funcionarios_por_genero = pd.DataFrame({'Qtde': df_01, '%': df_01_perc})

# Criar gráfico de pizza
fig, ax = plt.subplots(figsize=(6, 6))
colors = ['dodgerblue', 'indianred']

# Capturar os textos do gráfico de pizza
wedges, texts, autotexts = ax.pie(
    funcionarios_por_genero['%'], labels=None, autopct='%0.2f%%', colors=colors, textprops={'fontsize': 15}, startangle=90)

# Alterar a cor da fonte dos rótulos de autopreenchimento para branco
for autotext in autotexts:
    autotext.set_color('white')

# Adicionar legendas
legendas = ['Masculino', 'Feminino']
ax.legend(legendas, loc='right', labelspacing=1.5,
          bbox_to_anchor=(1.0, 0.1, 0.6, 0.9))

# Adicionar tabela
cell_text = funcionarios_por_genero.apply(
    lambda x: [f'{int(x["Qtde"]):.0f}', f'{x["%"]:.2f}'], axis=1).tolist()
tabela = plt.table(cellText=cell_text, colLabels=[
                   'Quantidade', '%'], loc='bottom right', bbox=(1.1, 0.05, 0.5, 0.3))
tabela.auto_set_font_size(False)
tabela.set_fontsize(11)

# Alterar a cor da grade da tabela
for key, cell in tabela.get_celld().items():
    cell.set_edgecolor('lightgrey')

# Ajustar layout
plt.axis('equal')

# Adicionar título
plt.title('Percentual de funcionários por gênero', fontsize=15)

# Exibindo o gráfico
plt.show()

Observa-se uma predominância de funcionários do _gênero masculino_, representando exatamente **60%**, enquanto as funcionárias do _gênero feminino_ correspondem a **40%**.

In [None]:
# Calcular a taxa de rotatividade por gênero
rotatividade_por_genero = df_analise.groupby(
    'Genero')['RotatividadeBin'].mean()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_por_genero.index,
                   y=rotatividade_por_genero.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade por gênero\n', fontsize=15)
plot.set(xlabel='\nGênero', ylabel='')
plot.tick_params(axis='both', labelsize=10)

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Exibindo o gráfico
plt.show()

Apesar de a quantidade de funcionários do gênero masculino ser significativamente maior do que a de funcionárias do gênero feminino, essa diferença não se reflete na taxa de rotatividade por gênero. A taxa de rotatividade é ligeiramente diferente entre os gêneros, com **16,67%** dos colaboradores do _gênero masculino_ e **15,31%** dos colaboradores do _gênero feminino_ não fazendo mais parte da empresa.

#### 4.3.4. Quantidade de funcionários por função e taxa de rotatividade

In [None]:
# Calcular a quantidade de funcionários por função
funcionarios_por_funcao = df_analise['Funcao'].value_counts()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=funcionarios_por_funcao.index,
                   y=funcionarios_por_funcao.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Quantidade de funcionários por função\n', fontsize=15)
plot.set(xlabel='\nFunção', ylabel='Quantidade de funcionários\n')
plot.tick_params(axis='both', labelsize=10)

# Rotacionando os valores do eixo x
plt.xticks(rotation=45, ha='right')

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.0f}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Exibindo o gráfico
plt.show()

As funções de **Executivo de Vendas**, **Cientista de Pesquisa** e **Técnico de Laboratório** concentram mais da metade do total de funcionários, aproximadamente 60% do quadro de colaboradores.

In [None]:
# Calcular a taxa de rotatividade por funcao
rotatividade_por_funcao = df_analise.groupby(
    'Funcao')['RotatividadeBin'].mean()
rotatividade_por_funcao = rotatividade_por_funcao.sort_values(ascending=False)

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_por_funcao.index,
                   y=rotatividade_por_funcao.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade por função\n', fontsize=15)
plot.set(xlabel='\nFunção', ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionando linha horizontal para a média
rotatividade_media = df_analise['RotatividadeBin'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Rotacionando os valores do eixo x
plt.xticks(rotation=45, ha='right')

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

Considerando a média de rotatividade de _16,12%_, o cargo com a maior rotatividade é o de **Diretor de Pesquisa**, enquanto o de menor rotatividade é o de **Diretor de Manufatura**. Outras funções que excedem a média incluem **Cientista de Pesquisa**, **Executivo de Vendas** e **Técnico de Laboratório**, sendo este último muito próximo da média.

#### 4.3.5. Distribuição de renda mensal e taxa de rotatividade

In [None]:
# Criar o gráfico histograma
plt.subplots(figsize=(10, 6))
plot = sns.histplot(data=df_analise, x='RendaMensal',
                    bins=10, kde=False, color='dodgerblue')

# Adicionando frequência sobre as barras
for p in plot.patches:
    plot.annotate(f'{int(p.get_height())}', (
        p.get_x() + p.get_width() / 2., p.get_height()
    ), ha='center', va='bottom', fontsize=10)

# Adicionando linha vertical para a média
renda_media = df_analise['RendaMensal'].mean()
plt.axvline(x=renda_media, color='blue', linestyle='--',
            label=f'Média: ₹ {renda_media:.2f}')

# Adicionando e formatando rótulos e título
plot.set_title('Distribuição da renda mensal (₹)\n', fontsize=15)
plot.set(xlabel='\nRenda Mensal', ylabel='Quantidade de funcionários\n')
plot.tick_params(axis='both', labelsize=10)

# Ajustando os rótulos do eixo x de 3798 em 3798 rúpias
plt.xticks(range(2018, 39999, 3798))

# Rotacionando os valores do eixo x
plt.xticks(rotation=90, ha='center')

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

Com base na média salarial de **₹ 13.005,86**, aproximadamente **3012 colaboradores** têm uma renda mensal entre **₹ 2.000** e **₹ 13.000**. Isso corresponde a cerca de **68%** do total de funcionários.

In [None]:
# Definir faixas de renda
renda_mensal = pd.cut(df_analise['RendaMensal'],
                      bins=10, right=False)

# Calcular a taxa de rotatividade por faixa de renda
rotatividade_por_renda = df_analise.groupby(
    renda_mensal)['RotatividadeBin'].mean()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_por_renda.index,
                   y=rotatividade_por_renda.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade por faixa de renda mensal\n', fontsize=15)
plot.set(xlabel='\nRenda Mensal', ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionando linha horizontal para a média
rotatividade_media = df_analise['RotatividadeBin'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Rotacionando os valores do eixo x
plt.xticks(rotation=90, ha='center')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Renomear rótulos do eixo x
faixa_renda_labels = ['2018 - 5815', '5816 - 9613', '9614 - 13411', '13412 - 17209', '17210 - 21007',
                      '21008 - 24805', '24806 - 28603', '28604 - 32401', '32402 - 36199', '36200 - 39998']
plot.set_xticklabels(faixa_renda_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

A rotatividade ocorre acima da _média de 16,12%_ em diferentes faixas de renda. Destaca-se a faixa de renda de **₹ 28.604** a **₹ 32.401**, com a maior _taxa de rotatividade de **27,78%**_. Curiosamente, aproximadamente 54 funcionários estão nessa faixa. Outro destaque vai para a faixa de **₹ 21.008** a **₹ 28.603**, com a menor _taxa de rotatividade de **10,71%**_.

#### 4.3.6. Distância de casa (Km) e taxa de rotatividade

In [None]:
# Criar o gráfico histograma
plt.subplots(figsize=(10, 6))
plot = sns.histplot(data=df_analise, x='DistanciaDeCasa',
                    bins=10, kde=False, color='dodgerblue')

# Adicionando frequência sobre as barras
for p in plot.patches:
    plot.annotate(f'{int(p.get_height())}', (
        p.get_x() + p.get_width() / 2., p.get_height()
    ), ha='center', va='bottom', fontsize=10)

# Adicionando linha vertical para a média
distancia_media = df_analise['DistanciaDeCasa'].mean()
plt.axvline(x=distancia_media, color='blue', linestyle='--',
            label=f'Média: {renda_media:.2f} km')

# Adicionando e formatando rótulos e título
plot.set_title(
    'Distribuição de funcionários por distância de casa (Km)\n', fontsize=15)
plot.set(xlabel='\nDistância de casa (Km)', ylabel='Quantidade de funcionários\n')
plot.tick_params(axis='both', labelsize=10)

# Ajustando os rótulos do eixo x de 2 em 2 km
plt.xticks(range(0, 31, 2))

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

- Aproximadamente **2820 funcionários** residem a até **7 km** de distância da empresa, o que representa cerca de **64%** do total de funcionários. A distância média é de 7,01 km.
- Apenas **186 funcionários**, aproximadamente **4,22%** do total, moram a mais de **26 km** da empresa.

In [None]:
# Definir faixas de distância
distancia_de_casa = pd.cut(df_analise['DistanciaDeCasa'],
                           bins=range(1, 32, 3), right=False)

# Calcular a taxa de rotatividade por faixa de distância
rotatividade_por_distancia = df_analise.groupby(
    distancia_de_casa)['RotatividadeBin'].mean()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_por_distancia.index,
                   y=rotatividade_por_distancia.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade x distância de casa (Km)\n', fontsize=15)
plot.set(xlabel='\nDistância de casa (Km)', ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionando linha horizontal para a média
rotatividade_media = df_analise['RotatividadeBin'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Adicionando valores dentro das barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height() / 2),
                  ha='center', va='center', fontsize=10, color='white', )

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Renomear rótulos do eixo x
faixa_renda_labels = ['1 - 3', '4 - 6', '7 - 9', '10 - 12', '13 - 15',
                      '16 - 18', '19 - 21', '22 - 24', '25 - 27', '28 - 29']
plot.set_xticklabels(faixa_renda_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

- Funcionários que residem entre **25 a 27 km** do trabalho apresentam a menor taxa de rotatividade, com **9,68%**;
- Funcionários que residem entre **10 a 12 km** do trabalho apresentam a maior taxa de rotatividade, com **20,74%**;
- Funcionários que residem entre **10 a 21 km** do trabalho apresentam taxas de rotatividade superiores à média de _16,12%_.

#### 4.3.7. Taxa de rotatividade e anos de empresa

In [None]:
# Criar o gráfico histograma
plt.subplots(figsize=(10, 6))
plot = sns.histplot(data=df_analise, x='AnosNaEmpresa',
                    bins=10, kde=False, color='dodgerblue')

# Adicionando frequência sobre as barras
for p in plot.patches:
    plot.annotate(f'{int(p.get_height())}', (
        p.get_x() + p.get_width() / 2., p.get_height()
    ), ha='center', va='bottom', fontsize=10)

# Adicionando linha vertical para a média
renda_media = df_analise['AnosNaEmpresa'].mean()
plt.axvline(x=renda_media, color='blue', linestyle='--',
            label=f'Média: {renda_media:.2f}')

# Adicionando e formatando rótulos e título
plot.set_title(
    'Distribuição de funcionários por anos na empresa\n', fontsize=15)
plot.set(xlabel='\nAnos na empresa', ylabel='Frequência\n')
plot.tick_params(axis='both', labelsize=10)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

Aproximadamente **2826 funcionários** possuem um tempo de empresa inferior à média de _7 anos_, representando cerca de **64%** do total de colaboradores.

In [None]:
# Definir faixas de anos
anos_de_empresa = pd.cut(df_analise['AnosNaEmpresa'],
                         bins=range(0, 50, 5), right=False)

# Calcular a taxa de rotatividade por faixa de renda
rotatividade_por_anos = df_analise.groupby(
    anos_de_empresa)['RotatividadeBin'].mean()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_por_anos.index,
                   y=rotatividade_por_anos.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade por anos de empresa\n', fontsize=15)
plot.set(xlabel='\nAnos de empresa', ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionando linha horizontal para a média
rotatividade_media = df_analise['RotatividadeBin'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Renomear rótulos do eixo x
faixa_anos_labels = ['0 - 4', '5 - 9', '10 - 14', '15 - 19', '20 - 24',
                     '25 - 29', '30 - 34', '35 - 39', '40 - 45']
plot.set_xticklabels(faixa_anos_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

Observa-se que todos os colaboradores que atingiram o tempo máximo de empresa de 40 anos não fazem mais parte da organização. Além disso, as faixas de tempo de empresa de até 4 anos e de 30 a 34 anos apresentam taxas de rotatividade superiores à média.

#### 4.3.8. Avaliação de equilíbrio trabalho/vida e taxa de rotatividade

In [None]:
# Criar o gráfico histograma
plt.subplots(figsize=(10, 6))
plot = sns.histplot(data=df_analise, x='EquilibrioTrabalhoVida',
                    bins=4, kde=False, color='dodgerblue')

# Adicionando frequência sobre as barras
for p in plot.patches:
    plot.annotate(f'{int(p.get_height())}', (
        p.get_x() + p.get_width() / 2., p.get_height()
    ), ha='center', va='bottom', fontsize=10)

# Adicionando linha vertical para a média
trabalho_vida_media = df_analise['EquilibrioTrabalhoVida'].mean()
plt.axvline(x=trabalho_vida_media, color='blue', linestyle='--',
            label=f'Média: {trabalho_vida_media:.2f}')

# Adicionando e formatando rótulos e título
plot.set_title(
    'Distribuição da avaliação de equilíbrio trabalho/vida\n', fontsize=15)
plot.set(xlabel='\nAvaliação', ylabel='Quantidade de funcionários\n')
plot.tick_params(axis='both', labelsize=10)

# Ajustando os rótulos do eixo x de 5 em 5 pontos
plt.xticks(range(1, 5, 1))

# Renomear rótulos do eixo x
avaliacao_labels = ['Ruim', 'Bom', 'Melhor', 'Ótimo']
plot.set_xticklabels(avaliacao_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

A avaliação de equilíbrio entre trabalho e vida pessoal é considerada _"melhor"_ por **2698 funcionários**, representando **61,18%** do total. Em contraste, apenas **239 funcionários**, ou **5,42%**, consideram o equilíbrio _"ruim"_.

In [None]:
# Calcular a taxa de rotatividade por avaliação de equilíbrio trabalho/vida
rotatividade_x_trabalho_vida = df_analise.groupby(
    'EquilibrioTrabalhoVida')['RotatividadeBin'].mean()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_x_trabalho_vida.index,
                   y=rotatividade_x_trabalho_vida.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title(
    'Taxa de rotatividade x avaliação de equilíbrio trabalho/vida\n', fontsize=15)
plot.set(xlabel='\nAvaliação de equilíbrio trabalho/vida',
         ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionando linha horizontal para a média
rotatividade_media = df_analise['RotatividadeBin'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Renomear rótulos do eixo x
avaliacao_labels = ['Ruim', 'Bom', 'Melhor', 'Ótimo']
plot.set_xticklabels(avaliacao_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

- **31,38%** dos funcionários que avaliaram o equilíbrio entre trabalho e vida como **"ruim"** deixaram a empresa;
- **16,78%** dos funcionários que avaliaram como **"bom"** e **17,84%** dos que avaliaram como **"ótimo"** deixaram a empresa;
- **14,23%** dos funcionários que avaliaram o equilíbrio como **"melhor"** deixaram a empresa, abaixo da média de _16,12%_.

#### 4.3.9. Nível de envolvimento no trabalho e taxa de rotatividade

In [None]:
# Criar o gráfico histograma
plt.subplots(figsize=(10, 6))
plot = sns.histplot(data=df_analise, x='EnvolvimentoNoTrabalho',
                    bins=4, kde=False, color='dodgerblue')

# Adicionando frequência sobre as barras
for p in plot.patches:
    plot.annotate(f'{int(p.get_height())}', (
        p.get_x() + p.get_width() / 2., p.get_height()
    ), ha='center', va='bottom', fontsize=10)

# Adicionando linha vertical para a média
envolvimento_media = df_analise['EnvolvimentoNoTrabalho'].mean()
plt.axvline(x=envolvimento_media, color='blue', linestyle='--',
            label=f'Média: {envolvimento_media:.2f}')

# Adicionando e formatando rótulos e título
plot.set_title(
    'Distribuição do nível de envolvimento no trabalho\n', fontsize=15)
plot.set(xlabel='\nNível', ylabel='Quantidade de funcionários\n')
plot.tick_params(axis='both', labelsize=10)

# Ajustando os rótulos do eixo x de 5 em 5 pontos
plt.xticks(range(1, 5, 1))

# Renomear rótulos do eixo x
nivel_labels = ['Baixo', 'Médio', 'Alto', 'Muito alto']
plot.set_xticklabels(nivel_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

O nível de envolvimento no trabalho é considerado _"alto"_ por **2604 funcionários**, representando **59,05%** do total. Em contraste, apenas **249 funcionários**, ou **5,65%**, apresentaram nível de envolvimento _"ruim"_.

In [None]:
# Calcular a taxa de rotatividade por nível de envolvimento no trabalho
rotatividade_x_trabalho_vida = df_analise.groupby(
    'EnvolvimentoNoTrabalho')['RotatividadeBin'].mean()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_x_trabalho_vida.index,
                   y=rotatividade_x_trabalho_vida.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade x nível de envolvimento no trabalho\n', fontsize=15)
plot.set(xlabel='\nNível de envolvimento no trabalho', ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionando linha horizontal para a média
rotatividade_media = df_analise['RotatividadeBin'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Renomear rótulos do eixo x
nivel_labels = ['Baixo', 'Médio', 'Alto', 'Muito alto']
plot.set_xticklabels(nivel_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

- **21,69%** dos funcionários com nível **"baixo"** de envolvimento no trabalho deixaram a empresa;
- **16,00%** dos funcionários com nível **"médio"** e **18,06%** com nível **"muito alto"** deixaram a empresa;
- **14,23%** dos funcionários com nível **"alto"** de envolvimento deixaram a empresa, abaixo da média de _16,12%_.

#### 4.3.10. Taxa de rotatividade e satisfação no Trabalho

In [None]:
# Criar o gráfico histograma
plt.subplots(figsize=(10, 6))
plot = sns.histplot(data=df_analise, x='SatisfacaoNoTrabalho',
                    bins=4, kde=False, color='dodgerblue')

# Adicionando frequência sobre as barras
for p in plot.patches:
    plot.annotate(f'{int(p.get_height())}', (
        p.get_x() + p.get_width() / 2., p.get_height()
    ), ha='center', va='bottom', fontsize=10)

# Adicionando linha vertical para a média
satisfacao_media = df_analise['SatisfacaoNoTrabalho'].mean()
plt.axvline(x=satisfacao_media, color='blue', linestyle='--',
            label=f'Média: {satisfacao_media:.2f}')

# Adicionando e formatando rótulos e título
plot.set_title(
    'Distribuição do nível de satisfação no trabalho\n', fontsize=15)
plot.set(xlabel='\nNível', ylabel='Quantidade de funcionários\n')
plot.tick_params(axis='both', labelsize=10)

# Ajustando os rótulos do eixo x de 5 em 5 pontos
plt.xticks(range(1, 5, 1))

# Renomear rótulos do eixo x
nivel_labels = ['Baixo', 'Médio', 'Alto', 'Muito alto']
plot.set_xticklabels(nivel_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

Os níveis de satisfação **"Alto"** e **"Muito Alto"** somados representam **2710 funcionários**, ou **61,45%** do total. Em contraste, **19,50%** dos funcionários, equivalentes a **860 pessoas**, estão com o nível de satisfação **"Baixo"**.

In [None]:
# Calcular a taxa de rotatividade por nível de envolvimento no trabalho
rotatividade_x_trabalho_vida = df_analise.groupby(
    'SatisfacaoNoTrabalho')['RotatividadeBin'].mean()

# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(x=rotatividade_x_trabalho_vida.index,
                   y=rotatividade_x_trabalho_vida.values, palette=['dodgerblue'])

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade x nível de satisfação no trabalho\n', fontsize=15)
plot.set(xlabel='\nNível de satisfação no trabalho', ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionando linha horizontal para a média
rotatividade_media = df_analise['RotatividadeBin'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Renomear rótulos do eixo x
nivel_labels = ['Baixo', 'Médio', 'Alto', 'Muito alto']
plot.set_xticklabels(nivel_labels)

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

- **22,91%** dos funcionários com nível de satisfação **"Baixo"** não fazem mais parte do quadro de colaboradores;
- Funcionários com nível de satisfação **"Médio"** (16,43%) e **"Alto"** (16,55%) deixaram a empresa, com percentuais muito próximos da média de _16,12%_;
- Apenas **11,23%** dos funcionários com nível de satisfação **"Muito Alto"** saíram da empresa.

## 5. Preparação dos dados

### 5.1. Enconding (codificação das variáveis)

In [None]:
X = df.drop(columns='IDDoEmpregado')

# Cria um conjunto de variáveis categóricas e numéricas
vars_categoricas = X.select_dtypes(include='object')
vars_numericas = X.select_dtypes(exclude='object')

# Pipeline de transformação das variáveis categóricas
pipeline_cat = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(drop='first'))
])

# Pipeline de transformação das variáveis numéricas
pipeline_num = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', RobustScaler())
])

# Criando um transformador para aplicar pipelines diferentes nas colunas
transformador = ColumnTransformer([
    ('cat', pipeline_cat, vars_categoricas.columns),
    ('num', pipeline_num, vars_numericas.columns)
])

# Criando um pipeline o transformador de pré-processamento criado anteriormente
pipeline = Pipeline(steps=[('transformador', transformador)])

# Aplica o pipeline à base de dados
X_processado = pipeline.fit_transform(X)

# Obtendo os nomes das colunas após o one-hot enconding
encoded_cat_cols = pipeline.named_steps['transformador']\
    .named_transformers_['cat']\
    .named_steps['onehot']\
    .get_feature_names_out(input_features=vars_categoricas.columns)
    
# Combinando os nomes das colunas categóricas codificadas e as colunas numéricas
all_cols = list(encoded_cat_cols) + list(vars_numericas.columns)

# Criando um  dataframe com as colunas pré-processadas e seus nomes
df_X_processado = pd.DataFrame(X_processado, columns=all_cols)

In [None]:
df_X_processado.head()

### 5.2. Redução de dimensionalidade

In [None]:
# Exibindo a quantidade de linhas e colunas do dataframe

print(f'\nVOLUMETRIA')
print(f'\nQuantidade de linhas  (registros): {df_X_processado.shape[0]}')
print(f'Quantidade de colunas (variáveis): {df_X_processado.shape[1]}')

In [None]:
# Análise de componentes principais para redução da dimensionalidade

# Seleção de componentes que mantenham 80% da variância dos dados
pca = PCA(n_components=0.8)
pca.fit(df_X_processado)
df_componentes = pca.transform(df_X_processado)

# Exibindo a quantidade de linhas e componentes gerados

print(f'\nVOLUMETRIA')
print(f'\nQuantidade de linhas:      {df_componentes.shape[0]}')
print(f'Quantidade de componentes: {df_componentes.shape[1]}')

## 6. Modelagem do modelo

### 6.1. Clusterização

#### 6.1.1. Método para escolha do número de clusters - Silhueta

In [None]:
# Lista para armazenar as pontuações para diferentes números de clusters
silhouette_scores = []

# Loop para testar diferentes números de clusters (de 2 a 9)
for n_clusters in range(2, 10):
    # Inicialização do modelo KMeans com o número de clusters atual
    kmeans = KMeans(n_clusters=n_clusters, random_state=0, n_init='auto')
    kmeans.fit_predict(df_componentes)
    # Calcula a pontuação de silhueta para os dados e os rótulos de cluster
    score = silhouette_score(df_componentes, kmeans.labels_)
    silhouette_scores.append(score)

# Encontra a pontuação de silhueta máxima
max_score = max(silhouette_scores)
# Encontra o número de clusters correspondente à pontuação de silhueta máxima
best_n_clusters = range(2, 10)[silhouette_scores.index(max_score)]

# Criar o gráfico de linhas
plt.figure(figsize=(10,6))
plt.plot(range(2, 10), silhouette_scores, marker='o', linestyle='--', color='dodgerblue')

# Adiciona uma linha vertical na posição do melhor número de clusters
plt.axvline(x=best_n_clusters, color='indianred', linestyle='-', label=f'Máximo em n = {best_n_clusters}')

# Adiciona título e rótulos aos eixos do gráfico
plt.title('Método da Silhueta\n', fontsize=15)
plt.xlabel('\nNúmero de Clusters', fontsize=10)
plt.ylabel('Pontuação\n', fontsize=10)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

print(f'Melhor número de cluster pelo método da silhueta: {best_n_clusters}')
print(f'\nPontuação máxima obtida entre valores de -1 a 1:  {max_score:.3f}')


#### 6.1.2. Método para escolha do número de clusters - Cotovelo

In [None]:
# Lista para armazenar os valores para diferentes números de clusters
# WCSS (Within-Cluster Sum of Squares - Soma de quadrados dentro do cluster) 
wcss = []

# Loop para testar diferentes números de clusters (de 2 a 9)
for n_clusters in range(2, 10):
    # Inicialização do modelo KMeans com o número de clusters atual
    kmeans = KMeans(n_clusters=n_clusters, random_state=0, n_init='auto')
    kmeans.fit_predict(df_componentes)
    # Adiciona a 'soma das distâncias ao quadrado dentro dos clusters' à lista de WCSS
    wcss.append(kmeans.inertia_)

# Coordenadas dos pontos extremos da linha de referência
x1, x2 = 2, 9
y1, y2 = wcss[0], wcss[-1]

# Distâncias dos pontos à linha reta
distances = []
for i in range(len(wcss)):
    x0 = i + 2
    y0 = wcss[i]
    numerator = abs((y2 - y1) * x0 - (x2 - x1) * y0 + x2 * y1 - y2 * x1)
    denominator = np.sqrt((y2 - y1)**2 + (x2 - x1)**2)
    distances.append(numerator/denominator)
# Encontra o número de clusters de maior distância da reta de referência (perpendicular)
best_n_clusters = distances.index(max(distances)) + 2

# Criar o gráfico de linhas
plt.figure(figsize=(10, 6))
plt.plot(range(2, 10), wcss, marker='o', linestyle='--', color='dodgerblue')

# Plota a linha de referência (perpendicular)
plt.plot([x1, x2], [y1, y2], linestyle=':', color='grey')

# Adiciona uma linha vertical na posição do melhor número de clusters
plt.axvline(x=best_n_clusters, color='indianred', linestyle='-', label=f'Máximo em n = {best_n_clusters}')

# Adiciona título e rótulos aos eixos do gráfico
plt.title('Método do Cotovelo\n', fontsize=15)
plt.xlabel('\nNúmero de Clusters', fontsize=10)
plt.ylabel('Pontuação\n', fontsize=10)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

print(f'Melhor número de cluster pelo método do cotovelo: {best_n_clusters}')


#### 6.1.3. Método para escolha do número de clusters - Mistura Gaussiana

In [None]:
# Listas para armazenar os valores de AIC e BIC
aic_scores = []
bic_scores = []

# Número de cluster a serem testados
n_cluster = range(2, 10)

# Loop para testar diferentes números de clusters (de 2 a 9)
for n in n_cluster:
    # Inicialização do modelo GMM com o número de clusters atual
    gmm = GaussianMixture(n_components=n, random_state=0, covariance_type='full')
    gmm.fit(df_componentes)
    # Adiciona os valores de AIC e BIC às listas correspondentes
    aic_scores.append(gmm.aic(df_componentes))
    bic_scores.append(gmm.bic(df_componentes))  

# Encontrar o número de clusters com o menor AIC e BIC
best_n_aic = n_cluster[aic_scores.index(min(aic_scores))]
best_n_bic = n_cluster[bic_scores.index(min(bic_scores))]

# Criar o gráfico de linhas
plt.figure(figsize=(10, 6))
plt.plot(n_cluster, aic_scores, marker='o', linestyle='--', color='indianred', label='AIC')
plt.plot(n_cluster, bic_scores, marker='o', linestyle='--', color='dodgerblue', label='BIC')

# Adicionar linhas verticais nos melhores números de clusters para AIC e BIC
plt.axvline(x=best_n_aic, color='indianred', linestyle='-', label=f'Melhor AIC: {best_n_aic}')
plt.axvline(x=best_n_bic, color='dodgerblue', linestyle='-', label=f'Melhor BIC: {best_n_bic}')

# Adiciona título e rótulos aos eixos do gráfico
plt.title('Critério de Informação Akaike (AIC) e Bayesiana (BIC)\n', fontsize=15)
plt.xlabel('\nNúmero de Clusters', fontsize=10)
plt.ylabel('Pontuação\n', fontsize=10)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

print(f'Melhor número de cluster pelo AIC: {best_n_aic}')
print(f'Pontuação mínima obtida: {min(aic_scores):.0f}')
print(f'\nMelhor número de cluster pelo BIC: {best_n_bic}')
print(f'Pontuação mínima obtida: {min(bic_scores):.0f}')

### 6.2. Treinamento dos modelos de clusterização

In [None]:
# Listas para armazenar os modelos KMeans
kmeans_models=[]

# Loop para treinar KMeans com 3 e 4 clusters
for n in range(3, 5):
    # Inicializa e treina o modelo KMeans
    kmeans = KMeans(n_clusters=n, n_init='auto', random_state=0)
    kmeans.fit(df_componentes)
    
    # Armazena o modelo treinado
    kmeans_models.append(kmeans)
    # Obter os centróides dos clusters
    #centroids = kmeans.cluster_centers_
    # Obter os rótulos dos clusters
    labels = kmeans.labels_
    # Aplicação dos rótulos ao DataFrame original
    df[f'Cluster_{n}'] = labels

    print(f'Rótulos dos clusters para {n} clusters: {np.unique(labels)}')

In [None]:
# Listas para armazenar os modelos de Mistura Gaussiana (GMM)
gmm_models=[]

# Loop para treinar GMM com 7 e 9 clusters
for n in range(7, 10):
    if n==7 or n==9:
        # Inicializa e treina o modelo GMM
        gmm = GaussianMixture(n_components=n, random_state=0, covariance_type='full')
        gmm.fit(df_componentes)
        
        # Armazena o modelo treinado
        gmm_models.append(kmeans)
        # Obter os rótulos dos clusters
        labels = gmm.predict(df_componentes)
        # Aplicação dos rótulos ao DataFrame original
        df[f'Cluster_{n}'] = labels

        print(f'Rótulos dos clusters para {n} clusters: {np.unique(labels)}')

In [None]:
df.head()

### 6.3. Visualização e definição de clusters a serem usados

In [None]:
# Lista com os números de clusters
n_labels = [3, 4, 7, 9] 
# Lista com os nomes dos eixos para os subplots
n_axes = ['ax1', 'ax2', 'ax3', 'ax4']  

# Criando uma coluna 'TARGET' que indica 1 se 'Rotatividade' for 'Sim', caso contrário 0
df['TARGET'] = (df['Rotatividade'] == 'Sim').astype(int)

# Criando os subplots
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(12, 10))

# Loop de iteração dos eixos e números de clusters
for m, n in zip(n_axes, n_labels):
    # Cria um gráfico de contagem para cada número de clusters
    ax = sns.countplot(data=df, x=f'Cluster_{n}', hue='TARGET', ax=eval(m), palette=['dodgerblue', 'indianred'])
    
    # Adiciona rótulos de contagem nas barras do gráfico
    for i in range(len(ax.containers)):
        ax.bar_label(ax.containers[i], fontsize=10)
    
    # Adiciona legenda com rótulos 'Não' e 'Sim' para o 'TARGET'
    ax.legend(labels=['Não', 'Sim'], ncol=2)
    
    # Adiciona o título do gráfico
    ax.set_title(f'Rotatividade no grupo de Cluster {n}\n')
    
    # Removendo os rótulos dos eixos x e y
    ax.set(xlabel='', ylabel='')
    
    # Desativando a grade do gráfico
    ax.grid(False)

# Ajustando os espaçamentos dos subplots para evitar sobreposição
plt.tight_layout()

# Exibindo o gráfico
plt.show()


Após a análise detalhada dos métodos de escolha do número de clusters, avaliação das métricas geradas, considerando o volume de dados disponível e as particularidades do negócio e do problema apresentado, foi selecionada a opção por utilizar 7 clusters para a segmentação de grupos na análise de rotatividade. 

## 7. Análise dos clusters gerados x variáveis

### 7.1. Taxa de rotatividade por CLUSTER

In [None]:
# Criar o gráfico de barras
plt.figure(figsize=(10, 6))
plot = sns.barplot(data=df, x='Cluster_7', y='TARGET',
                   palette=['dodgerblue'], errorbar=None)

# Adicionar rótulos e título
plot.set_title('Taxa de rotatividade por CLUSTER\n', fontsize=15)
plot.set(xlabel='\nClusters', ylabel='Taxa de Rotatividade\n')
plot.tick_params(axis='both', labelsize=10)

# Adicionar valores sobre as barras
for p in plot.patches:
    plot.annotate(f'{p.get_height():.2%}', (p.get_x() + p.get_width() / 2., p.get_height()),
                  ha='center', va='bottom', fontsize=10, color='black')

# Adicionando linha horizontal para a média
rotatividade_media = df['TARGET'].mean()
plt.axhline(rotatividade_media, color='blue', linestyle='--',
            label=f'Média: {rotatividade_media:.2%}')

# Removendo os valores do eixo y
plot.set_yticklabels([])

# Formatando grade do gráfico
plt.grid(True, which='both', linestyle='--', linewidth=0.7)

# Adicionando a legenda
plt.legend()

# Exibindo o gráfico
plt.show()

Considerando a **média de 16,12%** para análise dos clusters:

- Os clusters 0 e 1, apresentaram baixa rotatividade, os perfis nesses dois grupos pode apresentar características de menor propensão desligamento dos funcionários;
- Os clusters 2, 4 e 6, apresentam taxas muito próximas à média, ou seja, suas características impactam na retenção de funcionários, sendo necessária atenção a esses grupos;
- Os clusters 3 e 5, apresentam alta rotatividade, muito superior à média, indicando que há problemas específicos que afetam a retenção de colaboradores, sendo necessário ações prioritárias para redução de rotatividade.

### 7.2. Percentual de rotatividade das variáveis por cluster

In [None]:
def graf_countplot_a(dataframe, feature, rotation=0):
    '''
    Função para gerar um gráfico countplot.

    :param data: DataFrame
        DataFrame contendo os dados.
    :param feature: str
        Nome da variavel a ser plotada.
    :param rotation: int, opcional
        Grau de rotação dos valores das barras do eixo x.       
    '''
    # Normalizando os dados para cada feature e Cluster_7
    df_normalizado = dataframe.groupby(
        ['Cluster_7', feature]).size().reset_index(name='contagem')
    df_normalizado['%'] = df_normalizado.groupby(
        'Cluster_7')['contagem'].apply(lambda x: x / float(x.sum()) * 100).values

    # Criar o gráfico de barras
    plt.figure(figsize=(15, 6))
    plot = sns.barplot(data=df_normalizado, x='Cluster_7',
                       y='%', hue=feature, palette='pastel')

    # Adicionar rótulos e título
    plot.set_title(
        f'Percentual de rotatividade da variável \'{feature}\' por CLUSTER\n', fontsize=15)
    plot.set(xlabel='\nClusters', ylabel='Percentual de rotatividade (%)')
    plot.tick_params(axis='both', labelsize=10)

    # Adicionar valores sobre as barras
    for p in plot.patches:
        plot.annotate(f'{p.get_height():.2f}%', (p.get_x() + p.get_width() / 2., p.get_height()),
                      ha='center', va='bottom', fontsize=8, color='black', rotation=rotation)

    # Removendo os valores do eixo y
    plot.set_yticklabels([])

    # Formatando grade do gráfico
    plt.grid(True, which='both', linestyle='--', linewidth=0.7)

    # Adicionando a legenda
    plt.legend(loc='best', bbox_to_anchor=(1, 0.5), fontsize='x-small')

    # Ajusta o layout para evitar sobreposição
    plt.tight_layout()

    # Exibindo o gráfico
    plt.show()

In [None]:
graf_countplot_a(df, 'EstadoCivil')

In [None]:
graf_countplot_a(df, 'Funcao', rotation=90)

In [None]:
graf_countplot_a(df, 'Genero')

In [None]:
graf_countplot_a(df, 'Departamento')

In [None]:
graf_countplot_a(df, 'ViagensDeNegocio')

In [None]:
def graf_countplot_b(dataframe, feature, legend_mapping, rotation=0):
    '''
    Função para gerar um gráfico countplot.

    :param data: DataFrame
        DataFrame contendo os dados.
    :param feature: str
        Nome da variavel a ser plotada.
    :param legend_mapping: dic
        Dicionário com dados da legenda.
    :param rotation: int, opcional
        Grau de rotação dos valores das barras do eixo x.       
    '''
    # Normalizando os dados para cada feature e Cluster_7
    df_normalizado = dataframe.groupby(
        ['Cluster_7', feature]).size().reset_index(name='contagem')
    df_normalizado['%'] = df_normalizado.groupby(
        'Cluster_7')['contagem'].apply(lambda x: x / float(x.sum()) * 100).values

    # Aplicar o mapeamento de legendas
    df_normalizado[feature] = df_normalizado[feature].replace(
        legend_mapping.get(feature, {}))

    # Criar o gráfico de barras
    plt.figure(figsize=(15, 6))
    plot = sns.barplot(data=df_normalizado, x='Cluster_7',
                       y='%', hue=feature, palette='pastel')

    # Adicionar rótulos e título
    plot.set_title(
        f'Percentual de rotatividade de \'{feature}\' por CLUSTER\n', fontsize=15)
    plot.set(xlabel='\nClusters', ylabel='Percentual de rotatividade (%)')
    plot.tick_params(axis='both', labelsize=10)

    # Adicionar valores sobre as barras
    for p in plot.patches:
        plot.annotate(f'{p.get_height():.2f}%', (p.get_x() + p.get_width() / 2., p.get_height()),
                      ha='center', va='bottom', fontsize=9, color='black', rotation=rotation)

    # Removendo os valores do eixo y
    plot.set_yticklabels([])

    # Formatando grade do gráfico
    plt.grid(True, which='both', linestyle='--', linewidth=0.7)

    # Adicionando a legenda
    plt.legend(loc='best', bbox_to_anchor=(1, 0.5), fontsize='small')

    # Ajusta o layout para evitar sobreposição
    plt.tight_layout()

    # Exibindo o gráfico
    plt.show()

In [None]:
legendas = {'EnvolvimentoNoTrabalho': {
    1: 'baixo', 2: 'médio', 3: 'alto', 4: 'muito alto'}}
graf_countplot_b(df, 'EnvolvimentoNoTrabalho', legendas)

In [None]:
legendas = {'EquilibrioTrabalhoVida': {
    1: 'ruim', 2: 'bom', 3: 'melhor', 4: 'ótimo'}}
graf_countplot_b(df, 'EquilibrioTrabalhoVida', legendas)

In [None]:
legendas = {'SatisfacaoNoTrabalho': {
    1: 'baixo', 2: 'médio', 3: 'alto', 4: 'muito alto'}}
graf_countplot_b(df, 'SatisfacaoNoTrabalho', legendas)

In [None]:
legendas = {'SatisfacaoComAmbiente': {
    1: 'baixo', 2: 'médio', 3: 'alto', 4: 'muito alto'}}
graf_countplot_b(df, 'SatisfacaoComAmbiente', legendas)

In [None]:
legendas = {'Educacao': {1: 'abaixo do ensino superior',
                         2: 'ensino superior incompleto', 3: 'bacharel', 4: 'mestre', 5: 'doutor'}}
graf_countplot_b(df, 'Educacao', legendas)

In [None]:
legendas = {'AvaliacaoDeDesempenho': {1: 'baixo', 2: 'bom', 3: 'excelente', 4: 'excepcional'}}
graf_countplot_b(df, 'AvaliacaoDeDesempenho', legendas)

In [None]:
def faixa_para_str(intervalo):
    '''
    Função para converter intervalos de faixas de valores para strings

    :param intervalo: [n, n)
        Notação de elementos [n, n).     
    '''
    return f'{intervalo.left} - {intervalo.right - 1}'


# Criar um DataFrame base contendo apenas as colunas 'Cluster_7' e 'TARGET'
df_base = df[['Cluster_7', 'TARGET']].copy()


def graf_countplot_c(dataframe, range_name, range, rotation=90):
    '''
    Função para gerar um gráfico countplot.

    :param data: DataFrame
        DataFrame contendo os dados.
    :param range_name: str
        Nome do intervalo de dados ser plotado.
    :param range: str
        Dicionário com dados da legenda.
    :param rotation: int, opcional
        Grau de rotação dos valores das barras do eixo x.       
    '''
    # Adicionar a série categorizada ao DataFrame base para o gráfico
    dataframe[range_name] = range.values

    # Calcular os percentuais dentro de cada cluster
    df_normalizado = df_base.groupby(
        ['Cluster_7', range_name]).size().reset_index(name='contagem')
    total_por_cluster = df_normalizado.groupby(
        'Cluster_7')['contagem'].sum().reset_index(name='total')
    df_mesclado = pd.merge(df_normalizado, total_por_cluster, on='Cluster_7')
    df_mesclado['%'] = df_mesclado['contagem'] / df_mesclado['total'] * 100

    # Criar o gráfico de barras categórico
    g = sns.catplot(
        data=df_mesclado,
        x='Cluster_7',
        y='%',
        hue=range_name,
        kind='bar',
        height=6,
        aspect=1.5,
        palette='pastel',
        legend=False,
        errorbar=None,
    )

    # Definir o tamanho da figura
    g.fig.set_size_inches(15, 6)

    # Adicionar título e rótulos
    g.fig.suptitle(
        f'Percentual de rotatividade de \'{range_name}\' por CLUSTER\n', fontsize=15)
    g.set_axis_labels('\nCluster', 'Percentual de rotatividade (%)')

    # Adicionar valores sobre as barras
    for ax in g.axes.flat:
        for p in ax.patches:
            ax.annotate(f'{p.get_height():.2f}%',
                        (p.get_x() + p.get_width() / 2., p.get_height()),
                        ha='center', va='bottom', fontsize=9, color='black', rotation=rotation)

    # Remover a série categorizada após plotar o gráfico para não manter colunas desnecessárias
    df_base.drop(columns=[range_name], inplace=True)

    # Remover os valores do eixo y
    for ax in g.axes.flat:
        ax.set_yticklabels([])

    # Formatando grade do gráfico
    for ax in g.axes.flat:
        ax.grid(True, which='both', linestyle='--', linewidth=0.7)

    # Ajustar o layout para evitar sobreposição
    plt.tight_layout()

    # Exibir a legenda separadamente e ajustar sua posição
    g.add_legend(title=range_name)
    g.legend.set_bbox_to_anchor((1, 0.5))

    # Exibindo o gráfico
    plt.show()

In [None]:
faixa_etaria = pd.cut(df['Idade'], bins=range(
    18, 64, 5), right=False).map(faixa_para_str)
graf_countplot_c(df_base, 'Faixa Etária', faixa_etaria)

In [None]:
anos_de_empresa = pd.cut(df['AnosNaEmpresa'], bins=range(
    0, 50, 5), right=False).map(faixa_para_str)
graf_countplot_c(df_base, 'Anos de Empresa', anos_de_empresa)

In [None]:
aumento_percentual_salario = pd.cut(df['AumentoPercentualSalario'], bins=range(
    11, 28, 4), right=False).map(faixa_para_str)
graf_countplot_c(df_base, 'Aumento Percentual de Salário',
                 aumento_percentual_salario)

In [None]:
numero_empresas = pd.cut(df['NumeroDeEmpresas'], bins=range(
    0, 14, 4), right=False).map(faixa_para_str)
graf_countplot_c(df_base, 'Número de Empresas', numero_empresas)

In [None]:
renda_mensal = pd.cut(df['RendaMensal'], bins=10,
                      right=False).map(faixa_para_str)
graf_countplot_c(df_base, 'Renda Mensal', renda_mensal)

In [None]:
distancia_de_casa = pd.cut(df['DistanciaDeCasa'], bins=range(
    1, 32, 3), right=False).map(faixa_para_str)
graf_countplot_c(df_base, 'Distância de Casa', distancia_de_casa)

In [None]:
def faixa_para_str(intervalo):
    '''
    Função para converter intervalos de faixas de valores para strings

    :param intervalo: [n, n)
        Notação de elementos [n, n).     
    '''
    return f'{intervalo.left} - {intervalo.right - 1}'

# Definindo as faixas de valores
faixas_etarias = pd.cut(df['Idade'], bins=range(18, 64, 5), right=False).map(faixa_para_str)
#anos_atual_gestor = pd.cut(df['AnosComAtualGestor'], bins=range(0, 20, 6), right=False).map(faixa_para_str)
#anos_ultima_promocao = pd.cut(df['AnosDesdeUltimaPromocao'], bins=range(0, 18, 4), right=False).map(faixa_para_str)
anos_de_empresa = pd.cut(df['AnosNaEmpresa'], bins=range(0, 50, 5), right=False).map(faixa_para_str)
#total_anos_trabalhados = pd.cut(df['TotalDeAnosTrabalhados'], bins=range(0, 50, 5), right=False).map(faixa_para_str)
aumento_percentual_salario = pd.cut(df['AumentoPercentualSalario'], bins=range(11, 28, 4), right=False).map(faixa_para_str)
numero_empresas = pd.cut(df['NumeroDeEmpresas'], bins=range(0, 14, 4), right=False).map(faixa_para_str)
renda_mensal = pd.cut(df['RendaMensal'], bins=10, right=False).map(faixa_para_str)
distancia_de_casa = pd.cut(df['DistanciaDeCasa'], bins=range(1, 32, 3), right=False).map(faixa_para_str)

# Lista de variáveis e nomes (títulos)
faixas = [
    ('Faixa Etária', faixas_etarias),
    #('Anos com Atual Gestor', anos_atual_gestor),
    #('Anos desde Última Promoção', anos_ultima_promocao),
    ('Anos de Empresa', anos_de_empresa),
    #('Total de Anos Trabalhados', total_anos_trabalhados),
    ('Aumento Percentual de Salário', aumento_percentual_salario),
    ('Número de Empresas', numero_empresas),
    ('Renda Mensal', renda_mensal),
    ('Distância de Casa', distancia_de_casa)
]

# Criar um DataFrame base contendo apenas as colunas 'Cluster_7' e 'TARGET'
df_base = df[['Cluster_7', 'TARGET']].copy()

for nome_faixa, faixa in faixas:
    # Adicionar a série categorizada ao DataFrame base para o gráfico
    df_base[nome_faixa] = faixa.values
    
    # Calcular os percentuais dentro de cada cluster
    df_normalizado = df_base.groupby(['Cluster_7', nome_faixa]).size().reset_index(name='contagem')
    total_por_cluster = df_normalizado.groupby('Cluster_7')['contagem'].sum().reset_index(name='total')
    df_mesclado = pd.merge(df_normalizado, total_por_cluster, on='Cluster_7')
    df_mesclado['%'] = df_mesclado['contagem'] / df_mesclado['total'] * 100

    # Criar o gráfico de barras categórico
    g = sns.catplot(
        data=df_mesclado, 
        x='Cluster_7', 
        y='%', 
        hue=nome_faixa, 
        kind='bar', 
        height=6, 
        aspect=1.5,
        palette='pastel',
        legend=False,
        errorbar=None,
    )
    
    # Definir o tamanho da figura
    g.fig.set_size_inches(15, 6)    
    
    # Adicionar título e rótulos
    g.fig.suptitle(f'Percentual de rotatividade de \'{nome_faixa}\' por CLUSTER\n', fontsize=15)
    g.set_axis_labels('\nCluster', 'Percentual de rotatividade (%)')
    
    # Adicionar valores sobre as barras
    for ax in g.axes.flat:
        for p in ax.patches:
            ax.annotate(f'{p.get_height():.2f}%', 
                        (p.get_x() + p.get_width() / 2., p.get_height()),
                        ha='center', va='bottom', fontsize=9, color='black', rotation=90)
    
    # Remover a série categorizada após plotar o gráfico para não manter colunas desnecessárias
    df_base.drop(columns=[nome_faixa], inplace=True)
    
    # Remover os valores do eixo y
    for ax in g.axes.flat:
        ax.set_yticklabels([])
    
    # Formatando grade do gráfico
    for ax in g.axes.flat:
        ax.grid(True, which='both', linestyle='--', linewidth=0.7)
    
    # Ajustar o layout para evitar sobreposição
    plt.tight_layout()
    
    # Exibir a legenda separadamente e ajustar sua posição
    g.add_legend(title=nome_faixa)
    g.legend.set_bbox_to_anchor((1, 0.5))

    # Exibindo o gráfico
    plt.show()


<div style="text-align: right">
<h1>つづく...</h1>
<h2>continua...</h2>
</div>