<a href="https://colab.research.google.com/github/kubohenrique/PROJETOS_EDS/blob/main/PROJETO_RH.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Data Science para Recursos Humanos**

<center><img width="60%" src="https://image.freepik.com/vetores-gratis/lider-de-negocios-que-consultoria-especialista-em-rh_1262-21207.jpg
"></center>

## **INTRODUÇÃO**

A análise de dados para o RH tem o intuito de melhorar a performance da equipe, para isso se usam os dados colhidos pelo RH e correlacioná-los aos objetivos da empresa. Fazendo isso, cria se uma medida para verificar como as iniciativas do RH estão contribuindo para as metas e estratégias da empresa.

Em geral o RH têm muitos dados, porém eles não são de fácil entendimento, uma vez que são muitos dados e não se tem uma métrica certa a se analisar, e é aí que entra a ciência de dados, que vai organizar, comparar e analisar esses dados para criar alguns insights e responder questões como:

*   Existe um padrão na rotatividade de funcionários ?
*   Quanto tempo demorar para contratar um novo funcionário ?
*   Qual o investimento necessário para o funcionário trabalhar na sua capacidade máxima de produtividade ?
*   Qual dos funcionários é mais provavél de se demitir dentro de um período curto de tempo ?
*   Iniciativas de qualificação têm tido impacto na performance dos funcionários ?

## **O OBJETIVO DO PROJETO**
> O objetivo deste projeto é analisar e buscar soluções para diminuir o **Turnover**, e aumentar a retenção de bons profissionais nas empresas. Para isso iremos criar um modelo para detecção de atrito entre os funcionários.

Utilizando dados disponibilizados no [Kaggle]('https://kaggle.com/'), construiremos um modelo de Machine Learning capaz de nos ajudar a prever possíveis atritos, que podem ajudar empresas a tomarem decisões afim de minimizar esses efeitos, aumentar a qualidade de vida no ambiente de trabalho, e reter os bons profissionais da empresa.

## **OS DADOS**

Dados criados e disponibilizados por Cientistas De Dados da [IBM]('https://www.ibm.com/br-pt'), adquiridos através da plataforma de Ciência de Dados [Kaggle]('https://kaggle.com/').



# **1.0 - IMPORTANDO AS BIBLIOTECAS**

In [1]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# **2.0 - ANALISANDO OS DADOS**

<center><img width="30%" src="https://image.freepik.com/vetores-gratis/ilustracao-do-conceito-de-analise_114360-1119.jpg
"></center>

In [2]:
df = pd.read_csv('HR_IBM.csv')
df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,Gender,HourlyRate,JobInvolvement,JobLevel,JobRole,JobSatisfaction,MaritalStatus,MonthlyIncome,MonthlyRate,NumCompaniesWorked,Over18,OverTime,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,2,Female,94,3,2,Sales Executive,4,Single,5993,19479,8,Y,Yes,11,3,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,3,Male,61,2,2,Research Scientist,2,Married,5130,24907,1,Y,No,23,4,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,4,Male,92,2,1,Laboratory Technician,3,Single,2090,2396,6,Y,Yes,15,3,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,4,Female,56,3,1,Research Scientist,3,Married,2909,23159,1,Y,Yes,11,3,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,1,Male,40,3,1,Laboratory Technician,2,Married,3468,16632,9,Y,No,12,3,4,80,1,6,3,3,2,2,2,2


Verificar os tipos de dados:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Age                       1470 non-null   int64 
 1   Attrition                 1470 non-null   object
 2   BusinessTravel            1470 non-null   object
 3   DailyRate                 1470 non-null   int64 
 4   Department                1470 non-null   object
 5   DistanceFromHome          1470 non-null   int64 
 6   Education                 1470 non-null   int64 
 7   EducationField            1470 non-null   object
 8   EmployeeCount             1470 non-null   int64 
 9   EmployeeNumber            1470 non-null   int64 
 10  EnvironmentSatisfaction   1470 non-null   int64 
 11  Gender                    1470 non-null   object
 12  HourlyRate                1470 non-null   int64 
 13  JobInvolvement            1470 non-null   int64 
 14  JobLevel                

Verificando se possui valores nulos:

In [4]:
df.isnull().sum().sort_values(ascending = False)

YearsWithCurrManager        0
EmployeeCount               0
JobLevel                    0
JobInvolvement              0
HourlyRate                  0
Gender                      0
EnvironmentSatisfaction     0
EmployeeNumber              0
EducationField              0
JobSatisfaction             0
Education                   0
DistanceFromHome            0
Department                  0
DailyRate                   0
BusinessTravel              0
Attrition                   0
JobRole                     0
MaritalStatus               0
YearsSinceLastPromotion     0
StandardHours               0
YearsInCurrentRole          0
YearsAtCompany              0
WorkLifeBalance             0
TrainingTimesLastYear       0
TotalWorkingYears           0
StockOptionLevel            0
RelationshipSatisfaction    0
MonthlyIncome               0
PerformanceRating           0
PercentSalaryHike           0
OverTime                    0
Over18                      0
NumCompaniesWorked          0
MonthlyRat

Iremos verificar as distribuições estatísticos das variáveis:

In [5]:
df.describe()

Unnamed: 0,Age,DailyRate,DistanceFromHome,Education,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,HourlyRate,JobInvolvement,JobLevel,JobSatisfaction,MonthlyIncome,MonthlyRate,NumCompaniesWorked,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,36.92381,802.485714,9.192517,2.912925,1.0,1024.865306,2.721769,65.891156,2.729932,2.063946,2.728571,6502.931293,14313.103401,2.693197,15.209524,3.153741,2.712245,80.0,0.793878,11.279592,2.79932,2.761224,7.008163,4.229252,2.187755,4.123129
std,9.135373,403.5091,8.106864,1.024165,0.0,602.024335,1.093082,20.329428,0.711561,1.10694,1.102846,4707.956783,7117.786044,2.498009,3.659938,0.360824,1.081209,0.0,0.852077,7.780782,1.289271,0.706476,6.126525,3.623137,3.22243,3.568136
min,18.0,102.0,1.0,1.0,1.0,1.0,1.0,30.0,1.0,1.0,1.0,1009.0,2094.0,0.0,11.0,3.0,1.0,80.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,30.0,465.0,2.0,2.0,1.0,491.25,2.0,48.0,2.0,1.0,2.0,2911.0,8047.0,1.0,12.0,3.0,2.0,80.0,0.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,36.0,802.0,7.0,3.0,1.0,1020.5,3.0,66.0,3.0,2.0,3.0,4919.0,14235.5,2.0,14.0,3.0,3.0,80.0,1.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,43.0,1157.0,14.0,4.0,1.0,1555.75,4.0,83.75,3.0,3.0,4.0,8379.0,20461.5,4.0,18.0,3.0,4.0,80.0,1.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0
max,60.0,1499.0,29.0,5.0,1.0,2068.0,4.0,100.0,4.0,5.0,4.0,19999.0,26999.0,9.0,25.0,4.0,4.0,80.0,3.0,40.0,6.0,4.0,40.0,18.0,15.0,17.0


Alguns insights da análise preliminar:


*   A idade média dos funcionários é de 37 anos.
*   A maioria dos funcionários possui nível superior de educação.
*   A média salarial é de US$ 6.502,93 



In [6]:
df.nunique().sort_values(ascending = True)

Over18                         1
StandardHours                  1
EmployeeCount                  1
Gender                         2
Attrition                      2
PerformanceRating              2
OverTime                       2
MaritalStatus                  3
Department                     3
BusinessTravel                 3
StockOptionLevel               4
EnvironmentSatisfaction        4
JobInvolvement                 4
JobSatisfaction                4
RelationshipSatisfaction       4
WorkLifeBalance                4
Education                      5
JobLevel                       5
EducationField                 6
TrainingTimesLastYear          7
JobRole                        9
NumCompaniesWorked            10
PercentSalaryHike             15
YearsSinceLastPromotion       16
YearsWithCurrManager          18
YearsInCurrentRole            19
DistanceFromHome              29
YearsAtCompany                37
TotalWorkingYears             40
Age                           43
HourlyRate

Podemos verificar que as variáveis *Over18*, *StandardHours* e *EmployeeCount* possuem um único valor únicos e o *EmployeeNumber* possui todos os 1470 valores únicos, esses dados não nos serão útil nessa análise, por isso iremos retirar essas colunas.

In [7]:
df1 = df.copy()

In [8]:
df1['Attrition'].replace({'Yes':'1', 'No':'0'}, inplace=True)
df1['Attrition'] = pd.to_numeric(df1['Attrition']) 

In [9]:
df1.drop(['Over18', 'StandardHours', 'EmployeeCount', 'EmployeeNumber'], axis=1, inplace=True)

Separando em variáveis categóricas e numéricas:

In [10]:
cat_df1 = df1.select_dtypes(include='object')
num_df1 = df1.select_dtypes(exclude='object')

# **ANÁLISES**



## **IDADE x ATRITO**

Vamos verificar se a idade influencia nos atritos:

In [11]:
df_age = df.groupby(['Age', 'Attrition']).apply(lambda x:x['DailyRate'].count()).reset_index(name='Counts')
px.line(df_age,x='Age',y='Counts',color='Attrition',title='Idade dos funcionários x atritos')

**OBSERVAÇÕES:**

Como podemos observar pelo gráfico, os atritos ocorrem mais na faixa de idade entre 28 e 32 anos, depois disso a taxa de atrito cai conforme o aumento da idade. a suposição é de que conforme a idade avança os funcionários procuram estabilidade no serviço e evitam atritos.

## **SALÁRIO x ATRITO**

In [12]:
df_income = df.groupby(['MonthlyIncome', 'Attrition']).apply(lambda x:x['MonthlyIncome'].count()).reset_index(name='Counts')
df_income['MonthlyIncome']=round(df_income['MonthlyIncome'], -3)
df_income=df_income.groupby(['MonthlyIncome','Attrition']).apply(lambda x:x['MonthlyIncome'].count()).reset_index(name='Counts')
px.line(df_income,x='MonthlyIncome',y='Counts',color='Attrition',title='Salário x atritos')

**OBSERVAÇÕES**

Os salários menores tendem a ter mais atritos, depois o número de atritos decresce. Podemos ter uma conclusão preliminar de que quanto mais o salário for alto, menores as chances do empregado sair da empresa.

## **DEPARTAMENTO x ATRITO**

In [13]:
df_dp = df.groupby(['Department', 'Attrition']).apply(lambda x:x['DailyRate'].count()).reset_index(name='Counts')
fig = px.bar(df_dp,x='Department',y='Counts',color='Attrition',title='departamento x atritos')
fig.show()

**OBSERVAÇÕES**

A empresa possui 3 grandes setores: RH, P&D e Vendas, apesar de P&D ser o maior setor, proporcinalmente o setor que mais tem atritos é vendas, com quase 26% de atritos.

## **SATISFAÇÃO X ATRITO**

In [14]:
df_st = df.groupby(['EnvironmentSatisfaction', 'Attrition']).apply(lambda x:x['DailyRate'].count()).reset_index(name='Counts')
px.area(df_st,x='EnvironmentSatisfaction',y='Counts',color='Attrition',title='satisfação x atritos')

## **TEMPO DE SERVIÇO X ATRITO**

In [15]:
df_job = df.groupby(['TotalWorkingYears', 'Attrition']).apply(lambda x:x['DailyRate'].count()).reset_index(name='Counts')
px.line(df_job,x='TotalWorkingYears',y='Counts',color='Attrition',title='Tempo de serviço x atritos')

**OBSERVAÇÕES**

Podemos ver que quando o funcionário tem menos tempo de serviço, a tendencia de atrito e consequentemente deixar a empresa é maior.

## **CHEFE VS ATRITO**

In [16]:
df_boss = df.groupby(['YearsWithCurrManager', 'Attrition']).apply(lambda x:x['DailyRate'].count()).reset_index(name='Counts')
px.line(df_boss,x='YearsWithCurrManager',y='Counts',color='Attrition',title='Tempo de serviço x atritos')

**OBSERVAÇÕES**

No começo, os atritos são maiores, mas com o passar do tempo, ele vai diminuindo.

# **PREVISÕES**

<center><img width="30%" src="https://image.freepik.com/vetores-gratis/mudanca-climatica-efeito-da-cidade-paisagem-desertica-na-ilustracao-da-esfera_18591-70819.jpg
"></center>

In [49]:
num_df2 = num_df1

Iremos separar a variável alvo (y) para podermos fazer as previsões:

In [50]:
X = num_df2.drop('Attrition', axis=1)
y = num_df2.Attrition.values.ravel()

Separaremos o modelo em treino e teste, e aplocaremos Regressão logística.

In [51]:
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
log_reg=LogisticRegression(C=1000,max_iter=10000)
log_reg.fit(X_train,y_train)

print('--------------------------------------------------------------------------')
print('Logistic Regression:')
print('Acurácia do modelo de treino: {:.3f}'.format(log_reg.score(X_train,y_train)))
print('Acurácia do modelo de teste: {:.3f}'.format(log_reg.score(X_test,y_test)))
print('--------------------------------------------------------------------------')


--------------------------------------------------------------------------
Logistic Regression:
Acurácia do modelo de treino: 0.848
Acurácia do modelo de teste: 0.842
--------------------------------------------------------------------------


Obtivemos uma acurácia de 84%, nada mal para um começo, mas agora irei tentar melhorar, usarei todo o dataset com dados relevantes, e usarei o dummies para transformar os valores categóricos em numéros, (0 ou 1).

In [52]:
df1_dummies=pd.get_dummies(df1)

In [53]:
df1_dummies.columns

Index(['Age', 'Attrition', 'DailyRate', 'DistanceFromHome', 'Education',
       'EnvironmentSatisfaction', 'HourlyRate', 'JobInvolvement', 'JobLevel',
       'JobSatisfaction', 'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked',
       'PercentSalaryHike', 'PerformanceRating', 'RelationshipSatisfaction',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'WorkLifeBalance', 'YearsAtCompany', 'YearsInCurrentRole',
       'YearsSinceLastPromotion', 'YearsWithCurrManager',
       'BusinessTravel_Non-Travel', 'BusinessTravel_Travel_Frequently',
       'BusinessTravel_Travel_Rarely', 'Department_Human Resources',
       'Department_Research & Development', 'Department_Sales',
       'EducationField_Human Resources', 'EducationField_Life Sciences',
       'EducationField_Marketing', 'EducationField_Medical',
       'EducationField_Other', 'EducationField_Technical Degree',
       'Gender_Female', 'Gender_Male', 'JobRole_Healthcare Representative',
       'JobRol

In [55]:
df1_d = df1_dummies[['Age', 'DailyRate', 'DistanceFromHome', 'Education',
       'EnvironmentSatisfaction', 'HourlyRate', 'JobInvolvement', 'JobLevel',
       'JobSatisfaction', 'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked',
       'PercentSalaryHike', 'PerformanceRating', 'RelationshipSatisfaction',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'WorkLifeBalance', 'YearsAtCompany', 'YearsInCurrentRole',
       'YearsSinceLastPromotion', 'YearsWithCurrManager',
       'BusinessTravel_Non-Travel', 'BusinessTravel_Travel_Frequently',
       'BusinessTravel_Travel_Rarely', 'Department_Human Resources',
       'Department_Research & Development', 'Department_Sales',
       'EducationField_Human Resources', 'EducationField_Life Sciences',
       'EducationField_Marketing', 'EducationField_Medical',
       'EducationField_Other', 'EducationField_Technical Degree',
       'Gender_Female', 'Gender_Male', 'JobRole_Healthcare Representative',
       'JobRole_Human Resources', 'JobRole_Laboratory Technician',
       'JobRole_Manager', 'JobRole_Manufacturing Director',
       'JobRole_Research Director', 'JobRole_Research Scientist',
       'JobRole_Sales Executive', 'JobRole_Sales Representative',
       'MaritalStatus_Divorced', 'MaritalStatus_Married',
       'MaritalStatus_Single', 'OverTime_No', 'OverTime_Yes']]

In [56]:
X = df1_d.values
y = df1_dummies['Attrition'].values.ravel()
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
log_reg=LogisticRegression(C=1000,max_iter=10000)
log_reg.fit(X_train,y_train)

print('--------------------------------------------------------------------------')
print('Logistic Regression:')
print('Acurácia do modelo de treino: {:.3f}'.format(log_reg.score(X_train,y_train)))
print('Acurácia do modelo de teste: {:.3f}'.format(log_reg.score(X_test,y_test)))
print('--------------------------------------------------------------------------')


--------------------------------------------------------------------------
Logistic Regression:
Acurácia do modelo de treino: 0.891
Acurácia do modelo de teste: 0.886
--------------------------------------------------------------------------


Conseguimos melhorar a acurácia para **89%**, ou seja, uma melhora de 5% em relação ao modelo anterior.

# **RESUMO**

Podemos presumir com as análises dos dados as seguintes conclusões:

*  Os funcionários tendem a trocar de serviço no começo de suas carreiras, uma vez que encontram uma estabilidade em seus trabalhos, tendem a permanecer na empresa, e só trocar de cargo dentro da mesma instituição.

*  O salário possui um fator muito importante para a permanencia do funcionário na empresa.
