# **1. Introdução**

Trabalho realizado por: Ana Cristina Jesus, nº 20211383

L-IG, Data Mining e Web Analytics

Realizadom no âmbito do projeto Intra-disciplinar:
**O fenómeno da rotatividade sob a ótica dos Recursos Humanos**

Em 2022, foi conduzido um estudo abrangente sobre a gestão de Recursos Humanos em Portugal, revelando uma estabilidade notável na taxa de rotatividade, mantendo-se em 55% ao longo de 2021. Embora esta estatística englobe saídas voluntárias, aposentadorias e outras razões diversas, seu patamar elevado aponta para implicações significativas nas empresas participantes.
	A rotatividade, também conhecida como atrito, representa a redução gradual no número de colaboradores ao longo do tempo, seja por motivos pessoais ou aposentadoria. Em um contexto empresarial, uma taxa de atrito baixa é altamente desejável, indicando a satisfação contínua dos colaboradores e resultando em redução de custos associados a recrutamento e treinamento.
	Os impactos de uma taxa de atrito elevada são multifacetados, afetando adversamente o desempenho global dos colaboradores. A gestão de tarefas torna-se mais desafiadora, os custos relacionados ao recrutamento e treinamento aumentam substancialmente, e a empresa enfrenta a perda de talento crucial e experiência em seus departamentos. Além disso, a imagem da empresa pode ser prejudicada, exacerbando as dificuldades no atraente mercado de talentos.
	O projeto em questão tem como propósito primordial identificar os fatores que desencadeiam a saída de colaboradores da empresa, excluindo casos de aposentadoria. Esse enfoque visa otimizar as estratégias de retenção de recursos humanos, concentrando-se não apenas nas operações diárias, mas também nas camadas administrativas cruciais, incluindo os departamentos de Recursos Humanos, CEO, CFO, entre outros.
	A contribuição deste estudo é particularmente valiosa para as empresas, pois oferece insights específicos sobre como manter talentos estratégicos que não apenas geram lucros, mas também contribuem para a estabilidade e a cultura positiva no ambiente de trabalho. A análise é fundamentada em uma base de dados cuidadosamente construída pelos cientistas de dados da IBM, composta por aproximadamente 1500 entradas. Apesar do tamanho aparentemente modesto da amostra, a taxa de atrito, mesmo sendo de 16%, permite uma investigação aprofundada sobre os fatores que promovem a retenção eficaz, proporcionando insights valiosos que podem ser extrapolados para beneficiar outras empresas em diferentes contextos e setores.


# **2. Metodologia**


Os dados utilizados nesta análise foram obtidos do Kaggle, originados de um estudo elaborado pela IBM. Vale ressaltar que os dados são fictícios e têm como propósito simular o atrito nas empresas, proporcionando insights para possíveis melhorias.

Na fase inicial, concentramo-nos no tratamento e pré-processamento dos dados. Identificamos e removemos colunas com baixa variabilidade, visando otimizar a qualidade das informações. Dado que a base de dados não estava totalmente compatível com os modelos que planejávamos utilizar, foi crucial realizar a categorização dos dados. Esse processo foi conduzido com o objetivo de posteriormente transformá-los em variáveis binárias (0 e 1).

Posteriormente, organizamos os dados em diferentes conjuntos, simplificando sua análise futura com informações semelhantes. Essas tabelas foram agrupadas com base em critérios como demografia, experiência, satisfação e desempenho. Com a conclusão dessa etapa, avançamos para a fase de análise.

Para a Análise Descritiva, optamos por explorar as regras de associação, buscando compreender quais fatores predominam em um indivíduo que o levam a sair da empresa (Atrito-Sim). Já para a Análise Preditiva, escolhemos implementar o modelo de Random Forest ou Floresta Aleatória. Esta escolha foi motivada pela sua capacidade de proporcionar uma análise mais aprofundada e resultados mais precisos.

Fonte:
PAVANSUBHASH. (Updated 7 years ago). IBM HR Analytics Attrition Dataset. Kaggle. https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset/data

# **3. Preparação e Pré-processamento de Dados**

## **Carregamento de Dados e *Imports***

In [97]:
import pandas as pd

from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, normalize
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
import warnings
warnings.filterwarnings("ignore")

data = pd.read_csv('/content/HR-Employee-Attrition.csv')
data.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


## **Tratamento de Dados**

In [98]:
data.describe()

Unnamed: 0,Age,DailyRate,DistanceFromHome,Education,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,HourlyRate,JobInvolvement,JobLevel,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,...,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,36.92381,802.485714,9.192517,2.912925,1.0,1024.865306,2.721769,65.891156,2.729932,2.063946,...,2.712245,80.0,0.793878,11.279592,2.79932,2.761224,7.008163,4.229252,2.187755,4.123129
std,9.135373,403.5091,8.106864,1.024165,0.0,602.024335,1.093082,20.329428,0.711561,1.10694,...,1.081209,0.0,0.852077,7.780782,1.289271,0.706476,6.126525,3.623137,3.22243,3.568136
min,18.0,102.0,1.0,1.0,1.0,1.0,1.0,30.0,1.0,1.0,...,1.0,80.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,30.0,465.0,2.0,2.0,1.0,491.25,2.0,48.0,2.0,1.0,...,2.0,80.0,0.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,36.0,802.0,7.0,3.0,1.0,1020.5,3.0,66.0,3.0,2.0,...,3.0,80.0,1.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,43.0,1157.0,14.0,4.0,1.0,1555.75,4.0,83.75,3.0,3.0,...,4.0,80.0,1.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0
max,60.0,1499.0,29.0,5.0,1.0,2068.0,4.0,100.0,4.0,5.0,...,4.0,80.0,3.0,40.0,6.0,4.0,40.0,18.0,15.0,17.0


In [99]:
data = data.drop(['StandardHours', 'Over18', 'EmployeeCount', 'EmployeeNumber','PerformanceRating'], axis=1)

In [100]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 30 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Age                       1470 non-null   int64 
 1   Attrition                 1470 non-null   object
 2   BusinessTravel            1470 non-null   object
 3   DailyRate                 1470 non-null   int64 
 4   Department                1470 non-null   object
 5   DistanceFromHome          1470 non-null   int64 
 6   Education                 1470 non-null   int64 
 7   EducationField            1470 non-null   object
 8   EnvironmentSatisfaction   1470 non-null   int64 
 9   Gender                    1470 non-null   object
 10  HourlyRate                1470 non-null   int64 
 11  JobInvolvement            1470 non-null   int64 
 12  JobLevel                  1470 non-null   int64 
 13  JobRole                   1470 non-null   object
 14  JobSatisfaction         

## **Feature Engineering**

In [101]:
rating_map = {
    1: 'Low',
    2: 'Medium',
    3: 'Good',
    4: 'Very_Good'
}

education_map = {
    1: 'Below College',
    2: 'College',
    3: 'Bachelor',
    4: 'Master',
    5: 'Doctor'
}

education_map = {
    1: 'Below College',
    2: 'College',
    3: 'Bachelor',
    4: 'Master',
    5: 'Doctor'
}

job_map = {
     1 : 'Associate',
     2 : 'Advisor',
     3 : 'Middle Managment',
     4 : 'Executive',
     5 : 'Senior Executive'
}

stock_map = {
     0 : 'Level 0',
     1 : 'Level 1',
     2 : 'Level 2',
     3 : 'Level 3'
}

columns_to_map_rate = ['EnvironmentSatisfaction', 'RelationshipSatisfaction', 'WorkLifeBalance', 'JobInvolvement', 'JobSatisfaction']
for column in columns_to_map_rate:
    data[column] = data[column].map(rating_map)

data['Education'] = data['Education'].apply(lambda x: education_map[x] if x in education_map else x)
data['JobLevel'] = data['JobLevel'].apply(lambda x: job_map[x] if x in job_map else x)
data['StockOptionLevel'] = data['StockOptionLevel'].apply(lambda x: stock_map[x] if x in stock_map else x)
data.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,...,PercentSalaryHike,RelationshipSatisfaction,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,College,Life Sciences,Medium,Female,...,11,Low,Level 0,8,0,Low,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,Below College,Life Sciences,Good,Male,...,23,Very_Good,Level 1,10,3,Good,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,College,Other,Very_Good,Male,...,15,Medium,Level 0,7,3,Good,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,Master,Life Sciences,Very_Good,Female,...,11,Good,Level 0,8,3,Good,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,Below College,Medical,Low,Male,...,12,Very_Good,Level 1,6,3,Good,2,2,2,2


In [102]:
age_map = {
    (18, 25): 'Young Adults',
    (26, 45): 'Middle Age',
    (46, 60): 'Old Age'
}

distance_map = {
    (0,10) : 'Close',
    (11,20) : 'Medium',
    (21,30) : 'Far'
}

drate_map = {
    (100,800): 'Low Rate',
    (801,1000): 'Medium Rate',
    (1001,1500): 'High Rate'
}

hrate_map = {
    (30,50): 'Low Rate',
    (51,80): 'Medium Rate',
    (81,100): 'High Rate'
}

mrate_map = {
    (2000,9000): 'Low Rate',
    (9001,23000): 'Medium Rate',
    (23000,30000): 'High Rate'
}

micome_map = {
    (1000,5000): 'Low Income',
    (5010,10000): 'Medium Income',
    (10010,20000): 'High Income'
}

salaryHike_map = {
    (10,15): 'Low',
    (16,20): 'Medim',
    (21,30): 'High'
}

time_map = {
    (0,10): '<10_years',
    (11,20): '10to20_years',
    (21,30): '20to30_years',
    (31,40): 'upto40_years'
}

data['Age'] = data['Age'].apply(lambda age: age_map.get(next((interval for interval in age_map if interval[0] <= age <= interval[1]), None), age))
data['DistanceFromHome'] = data['DistanceFromHome'].apply(lambda distance: distance_map.get(next((interval for interval in distance_map if interval[0] <= distance <= interval[1]), None), distance))
data['DailyRate'] = data['DailyRate'].apply(lambda day: drate_map.get(next((interval for interval in drate_map if interval[0] <= day <= interval[1]), None), day))
data['HourlyRate'] = data['HourlyRate'].apply(lambda hour: hrate_map.get(next((interval for interval in hrate_map if interval[0] <= hour <= interval[1]), None), hour))
data['MonthlyRate'] = data['MonthlyRate'].apply(lambda monthR: mrate_map.get(next((interval for interval in mrate_map if interval[0] <= monthR <= interval[1]), None), monthR))
data['MonthlyIncome'] = data['MonthlyIncome'].apply(lambda monthI: micome_map.get(next((interval for interval in micome_map if interval[0] <= monthI <= interval[1]), None), monthI))
data['PercentSalaryHike'] = data['PercentSalaryHike'].apply(lambda salaryh: salaryHike_map.get(next((interval for interval in salaryHike_map if interval[0] <= salaryh <= interval[1]), None), salaryh))

columns=['NumCompaniesWorked','TotalWorkingYears','TrainingTimesLastYear','YearsAtCompany','YearsInCurrentRole','YearsSinceLastPromotion','YearsWithCurrManager']
for column in columns:
    data[column] = data[column].apply(lambda years: time_map.get(next((interval for interval in time_map if interval[0] <= years <= interval[1]), None), years))

data.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,...,PercentSalaryHike,RelationshipSatisfaction,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,Middle Age,Yes,Travel_Rarely,High Rate,Sales,Close,College,Life Sciences,Medium,Female,...,Low,Low,Level 0,<10_years,<10_years,Low,<10_years,<10_years,<10_years,<10_years
1,Old Age,No,Travel_Frequently,Low Rate,Research & Development,Close,Below College,Life Sciences,Good,Male,...,High,Very_Good,Level 1,<10_years,<10_years,Good,<10_years,<10_years,<10_years,<10_years
2,Middle Age,Yes,Travel_Rarely,High Rate,Research & Development,Close,College,Other,Very_Good,Male,...,Low,Medium,Level 0,<10_years,<10_years,Good,<10_years,<10_years,<10_years,<10_years
3,Middle Age,No,Travel_Frequently,High Rate,Research & Development,Close,Master,Life Sciences,Very_Good,Female,...,Low,Good,Level 0,<10_years,<10_years,Good,<10_years,<10_years,<10_years,<10_years
4,Middle Age,No,Travel_Rarely,Low Rate,Research & Development,Close,Below College,Medical,Low,Male,...,Low,Very_Good,Level 1,<10_years,<10_years,Good,<10_years,<10_years,<10_years,<10_years


In [103]:
#Criação de datasets mais pequenos e fáceis de analisar
demografia = ['Attrition','Age','DistanceFromHome','Education','Gender','MaritalStatus']
performance = ['Attrition','DailyRate','HourlyRate','JobLevel','MonthlyIncome','MonthlyRate','OverTime','PercentSalaryHike','StockOptionLevel']
satisfação = ['Attrition','EnvironmentSatisfaction','JobInvolvement','JobSatisfaction','RelationshipSatisfaction']
experiência = ['Attrition','BusinessTravel','Department','JobRole','NumCompaniesWorked','TotalWorkingYears','TrainingTimesLastYear','WorkLifeBalance','YearsAtCompany','YearsInCurrentRole','YearsSinceLastPromotion','YearsWithCurrManager']

#Datasets com tipo objetc
demo_data = data[demografia]
perf_data = data[performance]
sat_data = data[satisfação]
exp_data = data[experiência]

#Dataset Dummies com dados binários
demo_data_dummy = pd.get_dummies(demo_data)
perf_data_dummy = pd.get_dummies(perf_data)
sat_data_dummy = pd.get_dummies(sat_data)
exp_data_dummy = pd.get_dummies(exp_data)

# **4. Análise Descritiva**

### **Demografia - Atrito(Sim)**

In [104]:
frequent_itemsets = apriori(demo_data_dummy, min_support=0.05, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
attrition_yes_rules = rules[rules['consequents'].apply(lambda x: any(item in x for item in ['Attrition_Yes']))]

print("Demografia - Regras de Associação onde o Atrito positivo é consequência:")
print(attrition_yes_rules)

Demografia - Regras de Associação onde o Atrito positivo é consequência:
                                        antecedents  \
16                             (Education_Bachelor)   
18                                    (Gender_Male)   
21                           (MaritalStatus_Single)   
281                                   (Gender_Male)   
283          (Age_Middle Age, MaritalStatus_Single)   
285                          (MaritalStatus_Single)   
287                                   (Gender_Male)   
288  (MaritalStatus_Single, DistanceFromHome_Close)   
290                          (MaritalStatus_Single)   

                                 consequents  antecedent support  \
16                           (Attrition_Yes)            0.389116   
18                           (Attrition_Yes)            0.600000   
21                           (Attrition_Yes)            0.319728   
281          (Attrition_Yes, Age_Middle Age)            0.600000   
283                          (Attrit

Para analizarmos o que influencia em termos demograficos, escolhemos um limite mínimo no lift de 1, podendi reconhecer as relações positivas entre os antecendente e Atrito positivo.

Notou-se que:

**Education_Bachelor -> Attrition_Yes**

*   Confiança: 17.31%
*   Lift: 1.07
> Funcionários com bacharelado têm uma probabilidade ligeiramente superior de atrito em comparação com a média.

**Gender_Male -> Attrition_Yes**

*   Confiança: 17.01%
*   Lift: 1.05
> Homens têm uma probabilidade ligeiramente superior de atrito em comparação com a média.

**MaritalStatus_Single -> Attrition_Yes**
  * Confiança: 25.53%
  * Lift: 1.58
> Interpretação: Funcionários solteiros têm uma probabilidade significativamente maior de atrito em comparação com a média.


**Gender_Male, Age_Middle Age -> Attrition_Yes**
  * Confiança: 11.34%
  * Lift: 1.05
> Homens de meia-idade têm uma probabilidade ligeiramente maior de atrito em comparação com a média.


**MaritalStatus_Single, Age_Middle Age -> Attrition_Yes**
  * Confiança: 22.99%
  * Lift: 1.43
> Funcionários solteiros de meia-idade têm uma probabilidade significativamente maior de atrito em comparação com a média.

**MaritalStatus_Single, DistanceFromHome_Close -> Attrition_Yes**
  * Confiança: 23.17%
  * Lift: 1.44
> Funcionários solteiros que moram perto têm uma probabilidade significativamente maior de atrito em comparação com a média.

**Gender_Male, DistanceFromHome_Close -> Attrition_Yes**
  * Confiança: 10.77%
  * Lift: 1.10
> Homens que moram perto têm uma probabilidade ligeiramente maior de atrito em comparação com a média.

**MaritalStatus_Single, DistanceFromHome_Close -> Attrition_Yes**
  * Confiança: 23.17%
  * Lift: 1.44
> Funcionários solteiros que moram perto têm uma probabilidade significativamente maior de atrito em comparação com a média.

Conlusões: Embora o resultado da confiança nãoo seja elevado, podemos concluir que, em termos demográficos um homem solteiro, de meia idade, que vive perto do local onde trabalha e com uma licenciatura, seja mais provável de sair de uma empresa.

### **Perfomance - Atrito(Sim)**

In [105]:
frequent_itemsets = apriori(perf_data_dummy, min_support=0.05, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
attrition_yes_rules = rules[rules['consequents'].apply(lambda x: any(item in x for item in ['Attrition_Yes']))]

print("Performance - Regras de Associação onde o Atrito positivo é consequência:")
print(attrition_yes_rules)

Performance - Regras de Associação onde o Atrito positivo é consequência:
                                            antecedents  \
28                                 (DailyRate_Low Rate)   
31                             (HourlyRate_Medium Rate)   
32                                 (JobLevel_Associate)   
34                           (MonthlyIncome_Low Income)   
37                            (MonthlyRate_Medium Rate)   
...                                                 ...   
4336     (JobLevel_Associate, StockOptionLevel_Level 0)   
4338  (MonthlyIncome_Low Income, StockOptionLevel_Le...   
4340                               (JobLevel_Associate)   
4341                         (MonthlyIncome_Low Income)   
4343                         (StockOptionLevel_Level 0)   

                                            consequents  antecedent support  \
28                                      (Attrition_Yes)            0.498639   
31                                      (Attrition_Yes)    

Analisando as regras de associação no contexto de desempenho, onde o atrito positivo é uma consequência, podemos extrair insights valiosos. Abaixo estão algumas das relações identificadas:

**DailyRate_Low Rate -> Attrition_Yes**
  - Confiança: 17.17%
  - Lift: 1.07
> Funcionários com uma taxa diária baixa têm uma probabilidade ligeiramente superior de atrito em comparação com a média.

**HourlyRate_Medium Rate -> Attrition_Yes**
  - Confiança: 16.61%
  - Lift: 1.03
> Funcionários com uma taxa horária média têm uma probabilidade ligeiramente superior de atrito em comparação com a média.

**JobLevel_Associate -> Attrition_Yes**
  - Confiança: 26.34%
  - Lift: 1.63
> Funcionários com nível associado têm uma probabilidade significativamente maior de atrito em comparação com a média.

**MonthlyIncome_Low Income -> Attrition_Yes**
  - Confiança: 21.77%
  - Lift: 1.35
> Funcionários com renda mensal baixa têm uma probabilidade maior de atrito em comparação com a média.

**MonthlyRate_Medium Rate -> Attrition_Yes**
  - Confiança: 16.85%
  - Lift: 1.04
> Funcionários com uma taxa mensal média têm uma probabilidade ligeiramente superior de atrito em comparação com a média.

**DailyRate_Low Rate, JobLevel_Associate -> Attrition_Yes**
  - Confiança: 18.14%
  - Lift: 1.12
> Funcionários com uma taxa diária baixa e nível associado têm uma probabilidade ainda maior de atrito.

**MonthlyIncome_Low Income, JobLevel_Associate -> Attrition_Yes**
  - Confiança: 17.50%
  - Lift: 1.08
> Funcionários com renda mensal baixa e nível associado têm uma probabilidade significativamente maior de atrito.

Essas conclusões indicam que, no contexto de desempenho, funcionários com salários mais baixos, taxas diárias baixas, níveis associados e certas combinações desses fatores têm uma probabilidade maior de atrito. Essas informações podem orientar estratégias de retenção e gestão de recursos humanos, ajudando a empresa a abordar especificamente os grupos de funcionários mais propensos ao atrito.

### **Satisfação - Atrito(Sim)**

In [106]:
frequent_itemsets = apriori(sat_data_dummy, min_support=0.05, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.1)
attrition_yes_rules = rules[rules['consequents'].apply(lambda x: any(item in x for item in ['Attrition_Yes']))]

print("Satisfação - Regras de Associação onde o Atrito positivo é consequência:")
print(attrition_yes_rules)

Satisfação - Regras de Associação onde o Atrito positivo é consequência:
              antecedents      consequents  antecedent support  \
30  (JobInvolvement_Good)  (Attrition_Yes)            0.590476   

    consequent support   support  confidence      lift  leverage  conviction  \
30            0.161224  0.085034    0.144009  0.893222 -0.010165    0.979888   

    zhangs_metric  
30       -0.22595  


No casoda satisfação, a medida *lift* não trouxe resultados, por isso optou-se por analisar a confiança:

**JobInvolvement_Good -> Attrition_Yes**
- Confiança: 14.40%
- Lift: 0.89
> Funcionários com bom envolvimento no trabalho têm uma probabilidade ligeiramente menor de atrito em comparação com a média.

Esta descoberta sugere que funcionários com um alto nível de satisfação em relação ao envolvimento no trabalho têm uma probabilidade menor de deixar a empresa, indicando uma possível correlação positiva entre a satisfação no trabalho e a retenção de funcionários. Essa informação pode ser valiosa para a empresa ao implementar estratégias para melhorar a satisfação dos funcionários, especialmente em termos de envolvimento no trabalho. Promover um ambiente de trabalho positivo pode contribuir para a redução do atrito entre os colaboradores.

### **Experiência - Atrito(Sim)**

In [107]:
frequent_itemsets = apriori(exp_data_dummy, min_support=0.05, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
attrition_yes_rules = rules[rules['consequents'].apply(lambda x: any(item in x for item in ['Attrition_Yes']))]

print("Experiência - Regras de Associação onde o Atrito positivo é consequência:")
print(attrition_yes_rules.head(15))

Experiência - Regras de Associação onde o Atrito positivo é consequência:
                                           antecedents  \
29                                  (Department_Sales)   
31                      (NumCompaniesWorked_<10_years)   
33                       (TotalWorkingYears_<10_years)   
34                   (TrainingTimesLastYear_<10_years)   
37                          (YearsAtCompany_<10_years)   
39                      (YearsInCurrentRole_<10_years)   
40                 (YearsSinceLastPromotion_<10_years)   
43                    (YearsWithCurrManager_<10_years)   
899                     (NumCompaniesWorked_<10_years)   
901  (BusinessTravel_Travel_Rarely, TotalWorkingYea...   
903                      (TotalWorkingYears_<10_years)   
905                  (TrainingTimesLastYear_<10_years)   
907  (YearsAtCompany_<10_years, BusinessTravel_Trav...   
909                         (YearsAtCompany_<10_years)   
911                     (YearsInCurrentRole_<10_years)  

Analisando as regras de associação no contexto de experiência, onde o atrito positivo é uma consequência, podemos extrair insights relevantes. Aqui está a interpretação da regra:

**Department_Sales -> Attrition_Yes**
- Confiança: 20.63%
- Lift: 1.28
> Funcionários no departamento de vendas têm uma probabilidade significativamente maior de atrito em comparação com a média.

**NumCompaniesWorked_<10_years -> Attrition_Yes**
- Confiança: 16.12%
- Lift: 1.00
> Funcionários que trabalharam em menos de 10 empresas têm uma probabilidade média de atrito.

**TotalWorkingYears_<10_years -> Attrition_Yes**
- Confiança: 19.72%
- Lift: 1.22
> Funcionários com menos de 10 anos de experiência total têm uma probabilidade maior de atrito.

**TrainingTimesLastYear_<10_years -> Attrition_Yes**
- Confiança: 16.12%
- Lift: 1.00
> Funcionários que receberam treinamento menos de 10 vezes no último ano têm uma probabilidade média de atrito.

**YearsAtCompany_<10_years -> Attrition_Yes**
- Confiança: 17.73%
- Lift: 1.10
> Funcionários com menos de 10 anos na empresa têm uma probabilidade ligeiramente maior de atrito.

**YearsInCurrentRole_<10_years -> Attrition_Yes**
- Confiança: 16.67%
- Lift: 1.03
> Funcionários com menos de 10 anos na função atual têm uma probabilidade média de atrito.

**YearsSinceLastPromotion_<10_years -> Attrition_Yes**
- Confiança: 16.31%
- Lift: 1.01
> Funcionários com menos de 10 anos desde a última promoção têm uma probabilidade média de atrito.

**YearsWithCurrManager_<10_years -> Attrition_Yes**
- Confiança: 16.75%
- Lift: 1.04
> Funcionários com menos de 10 anos com o atual gerente têm uma probabilidade média de atrito.

Essas descobertas indicam que, em termos de experiência, funcionários em certos cenários, como aqueles no departamento de vendas, com menos de 10 anos de experiência total, ou com menos de 10 anos na empresa, têm uma probabilidade maior de atrito.

# **5. Análise Preditiva**

### **Demografia - Atrito(Sim)**

In [115]:
#Separando variável resposta e variáveis features
X = demo_data_dummy.drop(['Attrition_Yes','Attrition_No'] , axis = 1)
y = demo_data_dummy['Attrition_Yes']

# Escalonando os dados
sc = StandardScaler()
X = sc.fit_transform(X)

#Dividindo Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

# Normalizando os dados
X_train = normalize(X_train, norm='l2', axis=1, copy=True, return_norm=False)
X_test = normalize(X_test, norm='l2', axis=1, copy=True, return_norm=False)

rfc = RandomForestClassifier(n_estimators=200)
rfc.fit(X_train, y_train)
pred_rfc = rfc.predict(X_test)
#print(rfc.score(X_test, y_test))
print('Dados relevantes na Demografia:')
for i in range (len(demo_data_dummy.columns[2:])):
  if rfc.feature_importances_[i]>0.05:
    print(demo_data_dummy.columns[2:][i])
    print(rfc.feature_importances_[i])
print()
# Cria a matriz de confusão
cm = confusion_matrix(y_test, pred_rfc)

# Adiciona labels à matriz de confusão
classes = ['Yes', 'No']
cm_df = pd.DataFrame(cm, index=classes, columns=classes)

# Exibe a matriz de confusão
print('Matriz de confusão')
print(cm_df)
print()
print('Relatório de Classificação')
print(classification_report(y_test, pred_rfc))
print()
print("Random Forest - Demografia:",rfc.score(X_test, y_test) )

Dados relevantes na Demografia:
Age_Young Adults
0.11139172162832453
DistanceFromHome_Close
0.07026505364447408
DistanceFromHome_Far
0.06635989150538409
DistanceFromHome_Medium
0.058607184935252014
Education_Bachelor
0.05228017462634862
Education_Doctor
0.05180154639983214
Gender_Female
0.05233729771720808
Gender_Male
0.05575865875511455
MaritalStatus_Divorced
0.058972639417819474
MaritalStatus_Married
0.06555398283690374
MaritalStatus_Single
0.12628023171178504

Matriz de confusão
     Yes  No
Yes  233  11
No    44   6

Relatório de Classificação
              precision    recall  f1-score   support

           0       0.84      0.95      0.89       244
           1       0.35      0.12      0.18        50

    accuracy                           0.81       294
   macro avg       0.60      0.54      0.54       294
weighted avg       0.76      0.81      0.77       294


Random Forest - Demografia: 0.8129251700680272


**Dados Relevantes na Demografia:**
1. Age_Young Adults: 0.111
2. DistanceFromHome_Close: 0.070
3. DistanceFromHome_Far: 0.066
4. DistanceFromHome_Medium: 0.059
5. Education_Bachelor: 0.052
6. Education_Doctor: 0.052
7. Gender_Female: 0.052
8. Gender_Male: 0.056
9. MaritalStatus_Divorced: 0.059
10. MaritalStatus_Married: 0.066
11. MaritalStatus_Single: 0.126

Essas são as características demográficas mais relevantes, ordenadas pela importância atribuída pelo modelo de Random Forest com o novo tamanho do conjunto de teste.

**Matriz de Confusão:**
```
     Yes  No
Yes  233  11
No    44   6
```

- **True Positives (TP):** 233
- **False Positives (FP):** 11
- **True Negatives (TN):** 6
- **False Negatives (FN):** 44

**Relatório de Classificação:**
```
              precision    recall  f1-score   support

           0       0.84      0.95      0.89       244
           1       0.35      0.12      0.18        50

    accuracy                           0.81       294
   macro avg       0.60      0.54      0.54       294
weighted avg       0.76      0.81      0.77       294
```

- **Precisão (Precision):** A precisão para a classe "0" (Não atrito) é de 84%, enquanto para a classe "1" (Atrito) é de 35%.
- **Revocação (Recall):** A revocação para a classe "0" é de 95%, indicando que o modelo identifica corretamente a maioria dos casos "Não atrito". No entanto, a revocação para a classe "1" é baixa, indicando que o modelo tem dificuldade em identificar casos de atrito.
- **F1-Score:** O F1-Score, que combina precisão e revocação, é de 0.89 para a classe "0" e 0.18 para a classe "1".
- **Acurácia:** A acurácia geral do modelo é de 81%.

Esses resultados reforçam a capacidade do modelo de prever casos de "Não atrito" com precisão, mas também destacam a necessidade de melhorar a identificação de casos de "Atrito", especialmente em cenários com tamanhos diferentes de conjuntos de teste.

### **Performance - Atrito(Sim)**

In [109]:
#Separando variável resposta e variáveis features
X = perf_data_dummy.drop(['Attrition_Yes','Attrition_No'] , axis = 1)
y = perf_data_dummy['Attrition_Yes']

# Escalonando os dados
sc = StandardScaler()
X = sc.fit_transform(X)

#Dividindo Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4)

# Normalizando os dados
X_train = normalize(X_train, norm='l2', axis=1, copy=True, return_norm=False)
X_test = normalize(X_test, norm='l2', axis=1, copy=True, return_norm=False)

rfc = RandomForestClassifier(n_estimators=200)
rfc.fit(X_train, y_train)
pred_rfc = rfc.predict(X_test)
#print(rfc.score(X_test, y_test))
print('Dados relevantes na Performance:')
for i in range (len(perf_data_dummy.columns[2:])):
  if rfc.feature_importances_[i]>0.05:
    print(perf_data_dummy.columns[2:][i])
    print(rfc.feature_importances_[i])
print()
# Cria a matriz de confusão
cm = confusion_matrix(y_test, pred_rfc)

# Adiciona labels à matriz de confusão
classes = ['Yes', 'No']
cm_df = pd.DataFrame(cm, index=classes, columns=classes)

# Exibe a matriz de confusão
print('Matriz de confusão')
print(cm_df)
print()
print('Relatório de Classificação')
print(classification_report(y_test, pred_rfc))
print()
print("Random Forest - Performance:",rfc.score(X_test, y_test) )

Dados relevantes na Performance:
JobLevel_Associate
0.055181273800919764
OverTime_No
0.08254504734827758
OverTime_Yes
0.078375729477411
StockOptionLevel_Level 0
0.05211257547153616

Matriz de confusão
     Yes  No
Yes  468  32
No    69  19

Relatório de Classificação
              precision    recall  f1-score   support

           0       0.87      0.94      0.90       500
           1       0.37      0.22      0.27        88

    accuracy                           0.83       588
   macro avg       0.62      0.58      0.59       588
weighted avg       0.80      0.83      0.81       588


Random Forest - Performance: 0.8282312925170068


Analisando os resultados do modelo de Random Forest no contexto de performance, identificamos as características mais relevantes e examinamos a matriz de confusão e o relatório de classificação.

**Dados Relevantes na Performance:**
1. JobLevel_Associate: 0.055
2. OverTime_No: 0.083
3. OverTime_Yes: 0.078
4. StockOptionLevel_Level 0: 0.052

Essas são as características de performance mais relevantes, ordenadas pela importância atribuída pelo modelo de Random Forest.

**Matriz de Confusão:**
```
     Yes  No
Yes  468  32
No    69  19
```

- **True Positives (TP):** 468
- **False Positives (FP):** 32
- **True Negatives (TN):** 19
- **False Negatives (FN):** 69

**Relatório de Classificação:**
```
              precision    recall  f1-score   support

           0       0.87      0.94      0.90       500
           1       0.37      0.22      0.27        88

    accuracy                           0.83       588
   macro avg       0.62      0.58      0.59       588
weighted avg       0.80      0.83      0.81       588
```

- **Precisão (Precision):** A precisão para a classe "0" (Desempenho Adequado) é de 87%, enquanto para a classe "1" (Desempenho Insatisfatório) é de 37%.
- **Revocação (Recall):** A revocação para a classe "0" é de 94%, indicando que o modelo identifica corretamente a maioria dos casos de desempenho adequado. No entanto, a revocação para a classe "1" é mais baixa, indicando que o modelo tem dificuldade em identificar casos de desempenho insatisfatório.
- **F1-Score:** O F1-Score, que combina precisão e revocação, é de 0.90 para a classe "0" e 0.27 para a classe "1".
- **Acurácia:** A acurácia geral do modelo é de 83%.

Esses resultados destacam a eficácia do modelo em identificar casos de desempenho adequado, mas também ressaltam a necessidade de melhorias na identificação de casos de desempenho insatisfatório para aprimorar ainda mais a capacidade preditiva do modelo.

### **Satisfação - Atrito(Sim)**

In [110]:
#Separando variável resposta e variáveis features
X = sat_data_dummy.drop(['Attrition_Yes','Attrition_No'] , axis = 1)
y = sat_data_dummy['Attrition_Yes']

# Escalonando os dados
sc = StandardScaler()
X = sc.fit_transform(X)

#Dividindo Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

# Normalizando os dados
X_train = normalize(X_train, norm='l2', axis=1, copy=True, return_norm=False)
X_test = normalize(X_test, norm='l2', axis=1, copy=True, return_norm=False)

rfc = RandomForestClassifier(n_estimators=200)
rfc.fit(X_train, y_train)
pred_rfc = rfc.predict(X_test)
#print(rfc.score(X_test, y_test))
print('Dados relevantes na Satisfação:')
for i in range (len(sat_data_dummy.columns[2:])):
  if rfc.feature_importances_[i]>0.05:
    print(sat_data_dummy.columns[2:][i])
    print(rfc.feature_importances_[i])
print()
# Cria a matriz de confusão
cm = confusion_matrix(y_test, pred_rfc)

# Adiciona labels à matriz de confusão
classes = ['Yes', 'No']
cm_df = pd.DataFrame(cm, index=classes, columns=classes)

# Exibe a matriz de confusão
print('Matriz de confusão')
print(cm_df)
print()
print('Relatório de Classificação')
print(classification_report(y_test, pred_rfc))
print()
print("Random Forest - Satisfação:",rfc.score(X_test, y_test) )

Dados relevantes na Satisfação:
EnvironmentSatisfaction_Good
0.06169894976046497
EnvironmentSatisfaction_Low
0.09089950722508122
EnvironmentSatisfaction_Medium
0.05868190242817767
EnvironmentSatisfaction_Very_Good
0.05443677830246387
JobInvolvement_Low
0.05510262732150986
JobInvolvement_Medium
0.05731109368356423
JobInvolvement_Very_Good
0.061808456923299504
JobSatisfaction_Good
0.05610235844830968
JobSatisfaction_Low
0.10088756063116296
JobSatisfaction_Medium
0.05079806816222412
JobSatisfaction_Very_Good
0.07001416135049557
RelationshipSatisfaction_Low
0.06258209331044128
RelationshipSatisfaction_Medium
0.05843762215270979
RelationshipSatisfaction_Very_Good
0.06328383783451537

Matriz de confusão
     Yes  No
Yes  251   0
No    40   3

Relatório de Classificação
              precision    recall  f1-score   support

           0       0.86      1.00      0.93       251
           1       1.00      0.07      0.13        43

    accuracy                           0.86       294
   macro

Analisando os resultados do modelo de Random Forest no contexto de satisfação, destacamos as características mais relevantes e examinamos a matriz de confusão e o relatório de classificação.

**Dados Relevantes na Satisfação:**
1. EnvironmentSatisfaction_Good: 0.062
2. EnvironmentSatisfaction_Low: 0.091
3. EnvironmentSatisfaction_Medium: 0.059
4. EnvironmentSatisfaction_Very_Good: 0.054
5. JobInvolvement_Low: 0.055
6. JobInvolvement_Medium: 0.057
7. JobInvolvement_Very_Good: 0.062
8. JobSatisfaction_Good: 0.056
9. JobSatisfaction_Low: 0.101
10. JobSatisfaction_Medium: 0.051
11. JobSatisfaction_Very_Good: 0.070
12. RelationshipSatisfaction_Low: 0.063
13. RelationshipSatisfaction_Medium: 0.058
14. RelationshipSatisfaction_Very_Good: 0.063

Essas são as características de satisfação mais relevantes, ordenadas pela importância atribuída pelo modelo de Random Forest.

**Matriz de Confusão:**
```
     Yes  No
Yes  251   0
No    40   3
```

- **True Positives (TP):** 251
- **False Positives (FP):** 0
- **True Negatives (TN):** 3
- **False Negatives (FN):** 40

**Relatório de Classificação:**
```
              precision    recall  f1-score   support

           0       0.86      1.00      0.93       251
           1       1.00      0.07      0.13        43

    accuracy                           0.86       294
   macro avg       0.93      0.53      0.53       294
weighted avg       0.88      0.86      0.81       294
```

- **Precisão (Precision):** A precisão para a classe "0" (Satisfação Adequada) é de 86%, enquanto para a classe "1" (Insatisfação) é de 100%.
- **Revocação (Recall):** A revocação para a classe "0" é de 100%, indicando que o modelo identifica corretamente todos os casos de satisfação adequada. No entanto, a revocação para a classe "1" é baixa, indicando que o modelo tem dificuldade em identificar casos de insatisfação.
- **F1-Score:** O F1-Score, que combina precisão e revocação, é de 0.93 para a classe "0" e 0.13 para a classe "1".
- **Acurácia:** A acurácia geral do modelo é de 86%.

Esses resultados apontam para a eficácia do modelo em identificar casos de satisfação adequada, mas também indicam a necessidade de melhorar a identificação de casos de insatisfação para aprimorar ainda mais a capacidade preditiva do modelo no contexto de satisfação.

### **Experiência - Atrito(Sim)**

In [111]:
#Separando variável resposta e variáveis features
X = exp_data_dummy.drop(['Attrition_Yes','Attrition_No'] , axis = 1)
y = exp_data_dummy['Attrition_Yes']

# Escalonando os dados
sc = StandardScaler()
X = sc.fit_transform(X)

#Dividindo Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

# Normalizando os dados
X_train = normalize(X_train, norm='l2', axis=1, copy=True, return_norm=False)
X_test = normalize(X_test, norm='l2', axis=1, copy=True, return_norm=False)

rfc = RandomForestClassifier(n_estimators=200)
rfc.fit(X_train, y_train)
pred_rfc = rfc.predict(X_test)
#print(rfc.score(X_test, y_test))
print('Dados relevantes na Experiência:')
for i in range (len(exp_data_dummy.columns[2:])):
  if rfc.feature_importances_[i]>0.05:
    print(exp_data_dummy.columns[2:][i])
    print(rfc.feature_importances_[i])
print()
# Cria a matriz de confusão
cm = confusion_matrix(y_test, pred_rfc)

# Adiciona labels à matriz de confusão
classes = ['Yes', 'No']
cm_df = pd.DataFrame(cm, index=classes, columns=classes)

# Exibe a matriz de confusão
print('Matriz de confusão')
print(cm_df)
print()
print('Relatório de Classificação')
print(classification_report(y_test, pred_rfc))
print()
print("Random Forest - Experiência:",rfc.score(X_test, y_test) )

Dados relevantes na Experiência:
BusinessTravel_Travel_Frequently
0.055066100290565176
JobRole_Sales Representative
0.05891975827975197
WorkLifeBalance_Low
0.061547937822833784

Matriz de confusão
     Yes  No
Yes  371   6
No    59   5

Relatório de Classificação
              precision    recall  f1-score   support

           0       0.86      0.98      0.92       377
           1       0.45      0.08      0.13        64

    accuracy                           0.85       441
   macro avg       0.66      0.53      0.53       441
weighted avg       0.80      0.85      0.81       441


Random Forest - Experiência: 0.8526077097505669


Analisando os resultados do modelo de Random Forest no contexto de experiência, destacamos as características mais relevantes e examinamos a matriz de confusão e o relatório de classificação.

**Dados Relevantes na Experiência:**
1. BusinessTravel_Travel_Frequently: 0.055
2. JobRole_Sales Representative: 0.059
3. WorkLifeBalance_Low: 0.062

Essas são as características de experiência mais relevantes, ordenadas pela importância atribuída pelo modelo de Random Forest.

**Matriz de Confusão:**
```
     Yes  No
Yes  371   6
No    59   5
```

- **True Positives (TP):** 371
- **False Positives (FP):** 6
- **True Negatives (TN):** 5
- **False Negatives (FN):** 59

**Relatório de Classificação:**
```
              precision    recall  f1-score   support

           0       0.86      0.98      0.92       377
           1       0.45      0.08      0.13        64

    accuracy                           0.85       441
   macro avg       0.66      0.53      0.53       441
weighted avg       0.80      0.85      0.81       441
```

- **Precisão (Precision):** A precisão para a classe "0" (Experiência Adequada) é de 86%, enquanto para a classe "1" (Experiência Insatisfatória) é de 45%.
- **Revocação (Recall):** A revocação para a classe "0" é de 98%, indicando que o modelo identifica corretamente a maioria dos casos de experiência adequada. No entanto, a revocação para a classe "1" é baixa, indicando que o modelo tem dificuldade em identificar casos de experiência insatisfatória.
- **F1-Score:** O F1-Score, que combina precisão e revocação, é de 0.92 para a classe "0" e 0.13 para a classe "1".
- **Acurácia:** A acurácia geral do modelo é de 85%.

Esses resultados indicam a eficácia do modelo em identificar casos de experiência adequada, mas ressaltam a necessidade de melhorias na identificação de casos de experiência insatisfatória para aprimorar ainda mais a capacidade preditiva do modelo no contexto de experiência.

# **6. Conclusão**

Ao comparar os resultados obtidos através das regras de associação e do modelo de Random Forest para analisar o atrito positivo na empresa, observamos que ambos os métodos proporcionam insights valiosos, embora com abordagens distintas.

**Regras de Associação:**
- Destaca relações específicas entre variáveis demográficas, financeiras, de satisfação e de experiência e sua influência no atrito positivo.
- Fornece uma visão direta das associações e das probabilidades envolvidas.
- Traz à tona características específicas, como estado civil, gênero, salários, satisfação no trabalho e experiência, que podem estar associadas ao atrito.

**Random Forest:**
- Utiliza um modelo preditivo abrangente que considera múltiplas características simultaneamente, atribuindo importâncias relativas a cada uma delas.
- Oferece métricas de desempenho, como precisão, recall e F1-score, proporcionando uma avaliação mais quantitativa da eficácia do modelo.
- Indica a relevância de características específicas em diferentes contextos, como demografia, desempenho, satisfação e experiência.

**Conclusão Final:**
Ambos os métodos convergem em pontos essenciais, destacando a importância de fatores como estado civil, salários, satisfação no trabalho e experiência na influência do atrito positivo. Enquanto as regras de associação oferecem interpretações mais diretas e probabilísticas, o Random Forest fornece uma abordagem mais abrangente, com métricas de avaliação de desempenho.

Para a empresa, a combinação dessas abordagens pode ser poderosa. As regras de associação oferecem insights detalhados sobre relações específicas, enquanto o Random Forest fornece uma visão global e métricas que orientam na avaliação da eficácia preditiva do modelo.

Em resumo, ao integrar os resultados dessas abordagens, a empresa pode criar estratégias de retenção mais robustas, abordando de maneira eficaz os fatores que contribuem para o atrito positivo em diferentes aspectos do ambiente de trabalho.