# **Statistical Analysis of Employee Turnover**


## **1. Descrição geral do problema** ##

---

![IBM](https://w7.pngwing.com/pngs/180/10/png-transparent-ibm-logo-management-business-innovation-ibm-blue-angle-company-thumbnail.png)


Nos últimos anos, pesquisas indicam que a [taxa de pedidos de demissão voluntária aumentou consideravelmente](https://www.infomoney.com.br/minhas-financas/pedidos-de-demissao-crescem-14-e-chegam-a-42-milhoes-no-primeiro-semestre/). Para que as empresas possam reduzir esses índices, é essencial primeiro compreender os motivos subjacentes a esse fenômeno.

Prevenir demissões voluntárias é crucial. A implementação de sistemas de análise de dados pode ajudar a prever possíveis insatisfações entre os funcionários. Isso não apenas minimiza custos associados a processos de seleção extensos, mas também reduz o tempo necessário para a adaptação de novos colaboradores às diretrizes da empresa.

O aumento nos pedidos de demissão pode acarretar diversas consequências negativas para as organizações, incluindo:

* Interrupção das Operações: A frequência nas demissões pode levar a interrupções nos fluxos de trabalho e em projetos em andamento, afetando a produtividade e a eficiência.
* Aumento da Carga de Trabalho: Funcionários que permanecem podem ser sobrecarregados com responsabilidades adicionais, o que pode resultar em aumento da carga de trabalho e potencialmente em burnout.
* Despesas com Indenizações e Benefícios: Em algumas situações, a saída de funcionários pode gerar custos adicionais com indenizações e benefícios, especialmente se a demissão não for voluntária.
* Para a realização deste projeto, utilizaremos um conjunto de dados obtido a partir de um relatório sobre funcionários que está disponível ao público há vários anos. Este conjunto de dados oferece informações valiosas que podem impactar diretamente a satisfação no trabalho e as possíveis motivações para pedidos de demissão.

Os dados são fornecidos gratuitamente pelo [Kaggle](https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset/data), sendo um conjunto fictício criado por cientistas de dados da IBM.

**Objetivo**: Este projeto visa entender a variável **Attrition** por meio de uma análise estatística, com o intuito de identificar as principais motivações por trás dos pedidos de demissão contidos neste banco de dados.

## **2. Carregando Dados** ##

### **2.1 Importando Bibliotecas Necessárias** ###

Aqui vamos começar importando as bibliotecas utilizadas durante toda a análise estatística desse projeto.

In [None]:
# Importando bibliotecas

import pandas as pd # Para manipulação de dados
import numpy as np # Para manipulações matemáticas
import sklearn # Para Machile Learning e testes estatísticos
import matplotlib.pyplot as plt # Para plotagem de gráficos
import seaborn as sns # Para plotagem de gráficos
from scipy.stats import shapiro # Para análise estatística
from scipy.stats import mannwhitneyu # Para análise estatística
from sklearn.impute import KNNImputer # Para análise estatística
from sklearn.preprocessing import StandardScaler # Para padronização dos dados
from sklearn.ensemble import RandomForestClassifier # Para gerar algorítmo de Florestas Aleatórias

### **2.2 Carregando os dados** ###


In [9]:
# Carregando o dataset na memórica
dataset = pd.read_csv('/Users/ericalmeidamarqsicloud.com/Estudo/Portfólio/Statistical-Analysis-of-Employee-Turnover/datasets/ibm_analytics.csv')

In [12]:
# Verificando o tamanho do dataset
dataset.shape

(23058, 30)

In [10]:
# Visualizando as 5 primeiras linhas do dataset 
dataset.head(5)

Unnamed: 0,Age,Attrition,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,JobInvolvement,...,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager,Employee Source,AgeStartedWorking
0,41,Voluntary Resignation,Travel_Rarely,Sales,1,2,Life Sciences,2,Female,3,...,0,8,0,1,6,4,0,5,Referral,33
1,37,Voluntary Resignation,Travel_Rarely,Human Resources,6,4,Human Resources,1,Female,3,...,0,8,0,1,6,4,0,5,Referral,29
2,41,Voluntary Resignation,Travel_Rarely,Sales,1,2,Life Sciences,2,Female,3,...,0,8,0,1,6,4,0,5,Referral,33
3,37,Voluntary Resignation,Travel_Rarely,Human Resources,6,4,Marketing,1,Female,3,...,0,8,0,1,6,4,0,5,Referral,29
4,37,Voluntary Resignation,Travel_Rarely,Human Resources,6,4,Human Resources,1,Female,3,...,0,8,0,1,6,4,0,5,Referral,29


In [13]:
# Verificando as informações das variáveis do dataset
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23058 entries, 0 to 23057
Data columns (total 30 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Age                       23058 non-null  int64 
 1   Attrition                 23058 non-null  object
 2   BusinessTravel            23058 non-null  object
 3   Department                23058 non-null  object
 4   DistanceFromHome          23058 non-null  int64 
 5   Education                 23058 non-null  int64 
 6   EducationField            23058 non-null  object
 7   EnvironmentSatisfaction   23058 non-null  int64 
 8   Gender                    23058 non-null  object
 9   JobInvolvement            23058 non-null  int64 
 10  JobLevel                  23058 non-null  int64 
 11  JobRole                   23058 non-null  object
 12  JobSatisfaction           23058 non-null  int64 
 13  MaritalStatus             23058 non-null  object
 14  MonthlyIncome         