<a href="https://colab.research.google.com/github/polydiaguiar/turnover-prediction-final-project/blob/main/turnover_prediction_final_project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## | 🎯 Perguntas Norteadoras de Negócio
* Quais características mais influenciam na rotatividade de funcionários?
* Qual perfil de colaborador tem maior propensão a sair da empresa?
* Um modelo de machine learning pode prever com boa precisão a saída de um
funcionário?
* Que ações a empresa pode tomar com base nessas previsões?


## | 🔍 DATASET OVERVIEW

### 📂 Variáveis

* **Age:** Idade do funcionário (em anos).  
* **Attrition:** Indica se o funcionário deixou a empresa (Yes/No).  
* **BusinessTravel:** Frequência de viagens a trabalho (ex: "Travel_Rarely", "Travel_Frequently", "Non-Travel").  
* **DailyRate:** Taxa diária de remuneração (valor numérico).  
* **Department:** Departamento do funcionário (ex: "Sales", "Research & Development", "Human Resources").  
* **DistanceFromHome:** Distância entre casa e trabalho (em km).  
* **Education:** Nível educacional (1-5, onde 1="Below College", 5="Doctor").  
* **EducationField:** Área de formação (ex: "Life Sciences", "Medical", "Technical Degree").  
* **EmployeeCount:** Contagem de funcionários (normalmente 1 para registros individuais).  
* **EmployeeNumber:** ID único do funcionário.  
* **EnvironmentSatisfaction:** Satisfação com o ambiente de trabalho (escala numérica, normalmente 1-4).  
* **Gender:** Gênero ("Male" ou "Female").  
* **HourlyRate:** Remuneração por hora.  
* **JobInvolvement:** Engajamento no trabalho (escala numérica, ex: 1-4).  
* **JobLevel:** Nível hierárquico (1=júnior, 5=sênior).  
* **JobRole:** Cargo ocupado (ex: "Sales Executive", "Research Scientist").  
* **JobSatisfaction:** Satisfação com o trabalho (escala numérica, ex: 1-4).  
* **MaritalStatus:** Estado civil ("Single", "Married", "Divorced").  
* **MonthlyIncome:** Salário mensal.  
* **MonthlyRate:** Taxa de remuneração mensal.  
* **NumCompaniesWorked:** Número de empresas onde já trabalhou.  
* **Over18:** Se é maior de 18 anos (normalmente "Yes" para todos).  
* **OverTime:** Faz horas extras ("Yes" ou "No").  
* **PercentSalaryHike:** Percentual do último aumento salarial.  
* **PerformanceRating:** Avaliação de desempenho (ex: 1-5).  
* **RelationshipSatisfaction:** Satisfação com relacionamentos no trabalho (escala numérica).  
* **StandardHours:** Carga horária padrão (ex: 80 horas/mês).  
* **StockOptionLevel:** Nível de opções de ações (ex: 0-3).  
* **TotalWorkingYears:** Total de anos de experiência profissional.  
* **TrainingTimesLastYear:** Número de treinamentos no último ano.  
* **WorkLifeBalance:** Equilíbrio vida-trabalho (escala numérica).  
* **YearsAtCompany:** Tempo na empresa atual (em anos).  
* **YearsInCurrentRole:** Tempo no cargo atual (em anos).  
* **YearsSinceLastPromotion:** Tempo desde a última promoção (em anos).  
* **YearsWithCurrManager:** Tempo com o mesmo gerente (em anos).




### 📂 Referência

**Title**: IBM HR Analytics Employee Attrition & Performance  
**Source**: [Kaggle](https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset/data)  
**Author**: pavansubhash  
**License**: Database Contents License (DbCL) v1.0





## | 📚 IMPORT DE BIBLIOTECA

In [1]:
import pandas as pd
import numpy as np
import seaborn as sn
import matplotlib.pyplot as plt
from google.colab import drive

## | 📂 LEITURA DE DADOS

In [2]:
# Cria drive no colab
drive.mount('/content/drive', force_remount=True)

# Especifica caminho do arquivo a ser lido
caminho = '/content/drive/MyDrive/bancos/RH-DATASET.csv'

Mounted at /content/drive


In [3]:
# Instancia variável atribuindo arquivo
df = pd.read_csv(caminho)

## | ☑️ TRATAMENTO DOS DADOS | LIMPEZA E  PRÉ-PROCESSAMENTO

In [5]:
# Visualizar 5 primeiras linhas
df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


In [6]:
# Visualiza as colunas do datset
df.columns

Index(['Age', 'Attrition', 'BusinessTravel', 'DailyRate', 'Department',
       'DistanceFromHome', 'Education', 'EducationField', 'EmployeeCount',
       'EmployeeNumber', 'EnvironmentSatisfaction', 'Gender', 'HourlyRate',
       'JobInvolvement', 'JobLevel', 'JobRole', 'JobSatisfaction',
       'MaritalStatus', 'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked',
       'Over18', 'OverTime', 'PercentSalaryHike', 'PerformanceRating',
       'RelationshipSatisfaction', 'StandardHours', 'StockOptionLevel',
       'TotalWorkingYears', 'TrainingTimesLastYear', 'WorkLifeBalance',
       'YearsAtCompany', 'YearsInCurrentRole', 'YearsSinceLastPromotion',
       'YearsWithCurrManager'],
      dtype='object')

In [7]:
# Visualiza informações
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Age                       1470 non-null   int64 
 1   Attrition                 1470 non-null   object
 2   BusinessTravel            1470 non-null   object
 3   DailyRate                 1470 non-null   int64 
 4   Department                1470 non-null   object
 5   DistanceFromHome          1470 non-null   int64 
 6   Education                 1470 non-null   int64 
 7   EducationField            1470 non-null   object
 8   EmployeeCount             1470 non-null   int64 
 9   EmployeeNumber            1470 non-null   int64 
 10  EnvironmentSatisfaction   1470 non-null   int64 
 11  Gender                    1470 non-null   object
 12  HourlyRate                1470 non-null   int64 
 13  JobInvolvement            1470 non-null   int64 
 14  JobLevel                

In [16]:
# Checa se há ids repetidos
df['EmployeeNumber'].duplicated().value_counts()

Unnamed: 0_level_0,count
EmployeeNumber,Unnamed: 1_level_1
False,1470


In [18]:
# Dicionário para entender a cardinalidade, verificar se os tipos estão corretos e entender os valores de baixa cardinalidade
dic = pd.DataFrame({
    'Tipo': df.dtypes,
    'Total Valores únicos': df.nunique(),
    'Valores mais frequentes': df.mode().iloc[0],
    'Valores únicos': df.apply(lambda x: list(x.unique()) if x.nunique()<=15 else "N/A")
})

print('🗃️ Resumo de informações:')
dic

🗃️ Resumo de informações:


Unnamed: 0,Tipo,Total Valores únicos,Valores mais frequentes,Valores únicos
Age,int64,43,35.0,
Attrition,object,2,No,"[Yes, No]"
BusinessTravel,object,3,Travel_Rarely,"[Travel_Rarely, Travel_Frequently, Non-Travel]"
DailyRate,int64,886,691.0,
Department,object,3,Research & Development,"[Sales, Research & Development, Human Resources]"
DistanceFromHome,int64,29,2.0,
Education,int64,5,3.0,"[2, 1, 4, 3, 5]"
EducationField,object,6,Life Sciences,"[Life Sciences, Other, Medical, Marketing, Tec..."
EmployeeCount,int64,1,1.0,[1]
EmployeeNumber,int64,1470,1,


###Resumo executivo

* 35 colunas e 1470 linhas
* Não há 'missing values'
* Não há ids ('EmployeeNumber') repetidos


#### 🟩 Classificação das variáveis

* **Variáveis categóricas nominal:** 'Attrition' (Variável target), 'Department', 'EducationField', 'EmployeeNumber', 'Gender', 'JobRole', 'MaritalStatus', 'Over18', 'OverTime',
* **Variáveis categóricas ordinal:** 'BusinessTravel', 'Education', 'EnvironmentSatisfaction', 'JobInvolvement', 'JobLevel', 'PerformanceRating', 'RelationshipSatisfaction', 'WorkLifeBalance', 'StockOptionLevel'.
* **Variáveis numéricas contínuas:** 'DistanceFromHome', 'MonthlyIncome', 'MonthlyRate',
* **Variáveis numéricas discretas:** 'Age', 'DailyRate', 'EmployeeCount', 'HourlyRate', 'NumCompaniesWorked', 'PercentSalaryHike', 'StandardHours', 'TotalWorkingYears', 'TrainingTimesLastYear', 'YearsAtCompany' 'YearsInCurrentRole', 'YearsSinceLastPromotion', 'YearsWithCurrManager'.

#### 🟩 Tratamentos aplicados

* 'StockOptionLevel' o nível disponível para escolha é definido pela empresa, que usualmente defini os requisitos baseados em senioridade e até performance, por isto classifiquei como categórica ordinal
* As colunas 'EmployeeCount', 'Over18', 'StandardHours' apresentam valores constantes, sendo desinteressantes para a análise, por isto serão removidas
*  'EmployeeNumber' é o id de identificação, também será removido
* Transformação dos dtypes de todas as variáves categóricas para 'category"

In [40]:
# Faz cópia do df original
df_tratado= df.copy()

# Dropa colunas desnecessárias
df_tratado = df_tratado.drop(columns=['EmployeeCount', 'Over18', 'StandardHours','EmployeeNumber'], axis=1)

In [41]:
# Transforma dtype das variáveis categóricas nominais

# Lista de colunas nominais
colunas_nominais = [
    'Attrition', 'Department', 'EducationField', 'Gender',
    'JobRole', 'MaritalStatus', 'OverTime', 'BusinessTravel'
]

df_tratado[colunas_nominais] = df_tratado[colunas_nominais].astype('category')

In [43]:
# Transforma dtype das variáveis categóricas ordinais

# Lista de colunas ordinais
# Todas as colunas ordinais são numéricas
colunas_ordinais = [
    'Education', 'EnvironmentSatisfaction', 'JobInvolvement', 'JobLevel',
    'PerformanceRating', 'RelationshipSatisfaction', 'WorkLifeBalance', 'StockOptionLevel'
]

# Transforma Dtypes preservando a hierarquia dentro de cada feature ordinal
for column in colunas_ordinais:
  df_tratado[column] = pd.Categorical(df_tratado[column], categories = sorted(df[column].unique()), ordered= True)


In [45]:
# Checa transformações nos tipos de variáveis
df_tratado.dtypes

Unnamed: 0,0
Age,int64
Attrition,category
BusinessTravel,category
DailyRate,int64
Department,category
DistanceFromHome,int64
Education,category
EducationField,category
EnvironmentSatisfaction,category
Gender,category


## | 📊 ANÁLISE EXPLORATÓRIA


In [10]:
# Investigar jobsatsfaction X 'EnvironmentSatisfaction' X 'RelationshipSatisfaction'

#'HourlyRate': TALVEZ CALCULAR O % DE HORAS TRABAHADAS DO TOTAL DE 80h

- Análise exploratória univariada

- Análise exploratória multivariada

## | 💻 MODELAGEM PREDITIVA

## | 📋 AVALIAÇÃO DOS MODELOS

## | 📍 CONCLUSÃO