**Objectif:** prédire si un employé va démissionner ou non. Découvrez les facteurs qui mènent à l'attrition des employés et explorez comment chaque caractéristique est liée à l'attrition.

Jeu de données: Nous utilisons un jeu de données mis en place par IBM pour notre analyse. Le jeu de données contient 35 entités avec la variable cible Attrition. Il s'agit d'un ensemble de données fictif créé par les data scientists d'IBM.

**Méthodologie:** Grâce à notre analyse, nous avons l'intention de construire un modèle qui peut prédire si un employé est sur le point de quitter. Nous allons examiner toutes les variables à travers quelques graphiques et en déduire dans notre analyse exploratoire. Après notre exploration, nous allons construire quelques fonctionnalités basées sur les variables à portée de main et prendre un appel d'exclusion de quelques variables dans notre cas.

**Attrition dans une organisation || Pourquoi les travailleurs quittent-ils?**

Les employés sont l'épine dorsale de l'organisation. La performance de l'organisation est fortement basée sur la qualité des employés. Les défis auxquels une organisation doit faire face en raison de l'attrition des employés sont les suivants:

* Coûteux en termes d'argent et de temps pour former de nouveaux employés.
* Perte d'employés expérimentés.
* Impact sur la productivité.
* Impact sur les bénéfices.

**Questions commerciales à réfléchir:**

* Quels facteurs contribuent le plus à l'attrition des employés?
* Quel type de mesures l'entreprise doit-elle prendre pour fidéliser ses employés?

In [None]:
import numpy as np
import os
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [None]:
import pandas as pd
 
df = pd.read_csv('../input/ibm-hr-analytics-attrition-dataset/WA_Fn-UseC_-HR-Employee-Attrition.csv')
df


In [None]:
df.head()

In [None]:
df.columns

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.isnull().sum()

In [None]:
# affiche des fréquences des valeurs pour chaque colonne 
for i in df.columns:
  print(df[i].value_counts())

In [None]:
# afficher les histogrames de toute la dateset
import matplotlib.pyplot as plt
df.hist(figsize=(20,30))
plt.show()

Attrition Target Variable Distribution

In [None]:
attrition_freq = df[['Attrition']].apply(lambda x: x.value_counts())
attrition_freq['frequency_percent'] = round((100 * attrition_freq / attrition_freq.sum()),2)

print(attrition_freq)

# Attrition distribution bar plot
plot = attrition_freq[['frequency_percent']].plot(kind="bar");
plot.set_title("Attrition Distribution", fontsize=20);
plot.grid(color='lightgray', alpha=0.5);

Il y a quelques variables qui sont représentées sous forme numérique, mais ce sont en fait des variables catégoriques ordonnées, c'est-à-dire Eduation, EnvironmentSatisfaction, JobInvolvement, JobLevel, JobSatisfaction,PerformanceRating, RelationshipSatisfaction, WorkLifeBalance, StockOptionLevel.

**Education** 1 'Au-dessous du collège' 2 'Collège' 3 'Licence' 4 'Maître' 5 'Docteur'

**EnvironnementSatisfaction** 1 'Faible' 2 'Moyen' 3 'haut' 4 'Très élevé'

**JobInvolvemen** 1 'Faible' 2 'Moyen' 3 'haut' 4 'Très élevé'

**JobSatisfaction** 1 'Faible' 2 'Moyen' 3 'haut' 4 'Très élevé'

**PerformanceRating** 1 'Faible' 2 «Bon» 3 «Excellent» 4 'Exceptionnel'

**RelationshipSatisfaction** 1 'Faible' 2 'Moyen' 3 'haut' 4 'Très élevé'

**WorkLifeBalance** 1 'Mauvais' 2 'Bon' 3 'Mieux' 4 'Meilleur'

In [None]:
gender = {
    'Male' : 1,
    'Female' : 0
}
df['Gender'] = df['Gender'].replace(gender)
df

In [None]:
MaritalStatus = {
    'Married' : 1,
    'Single' : 0,
    'Divorced' : 3,
}
df['MaritalStatus'] = df['MaritalStatus'].replace(MaritalStatus)
df

In [None]:
# afficher les fréquences des variable qualitatives
print(df['Attrition'].value_counts())
print(df['BusinessTravel'].value_counts())
print(df['Department'].value_counts())
print(df['EducationField'].value_counts())
print(df['JobRole'].value_counts())

In [None]:
fig = px.bar(df, x="EducationField", y="Attrition",
              barmode='group',
             height=600)
fig.show()

In [None]:
fig = px.bar(df, x="JobRole", y="Attrition",
              barmode='group',
             height=600)
fig.show()

In [None]:
fig = px.bar(df, x="EducationField", y="Attrition",
              barmode='group',
             height=600)
fig.show()

In [None]:
df.Attrition.replace({'Yes': 1, 'No': 0}, inplace=True)

df.BusinessTravel.replace({'Non-Travel': 0, 'Travel_Rarely': 1, 'Travel_Frequently': 2}, inplace=True)

df.Department.replace({'Sales': 0, 'Research & Development': 1, 'Human Resources': 2}, inplace=True)

df.OverTime.replace({'No': 0, 'Yes': 1}, inplace=True)

df.EducationField.replace({'Life Sciences': 0, 'Medical': 1, 'Marketing': 2, 'Technical Degree': 3, 'Human Resources': 4, 'Other': 5}, inplace=True)

df.JobRole.replace({
'Sales Executive': 0, 'Research Scientist': 1, 'Laboratory Technician': 2,'Manufacturing Director': 3,'Healthcare Representative': 4,'Manager': 5,
    'Sales Representative': 6,'Research Director': 7,'Human Resources': 8
}, inplace=True)

df

* EmployeeNumber peut être supprimé car il s'agit d'une représentation unique de Employee et n'a aucune signification avec l'attrition.
* EmployeCount n'a qu'une seule valeur, ce qui, encore une fois, n'aidera pas notre modèle de prédiction.
* StandardHours n'a qu'une seule valeur qui est 80, encore une fois n'aidera pas dans notre modèle de prédiction.
* Over18 c'est les employés âgés de plus de 18 ans et n'a qu'une valeur unique, Donc cette fonctionnalité n'a pas de variation et n'aidera pas notre modèle de prédiction.

In [None]:
df.drop(['EmployeeCount', 'EmployeeNumber', 'StandardHours', 'Over18'], axis="columns", inplace=True)

In [None]:
df.columns

In [None]:
# traduire la matrice de corrélaion avec les heat map
s , ax = plt.subplots( figsize =( 30 , 20 ) )
cmap = sns.diverging_palette( 220 , 10 , as_cmap = True )
s = sns.heatmap( df.corr(), cmap = cmap,square=True, cbar_kws={ 'shrink' : .9 }, ax=ax, annot = True, annot_kws = { 'fontsize' : 12 } )

Analyse des résultats de corrélation (analyse d'échantillons):

* Monthly income est fortement corrélé avec Job level.
* Job level est fortement corrélé avec total working years.
* Monthly income est fortement corrélé au total working hours.
* Age est également positivement corrélé avec the Total working hours.
* Marital status et stock option level sont négativement corrélés

**Conclusion:**

* Les employés ayant un faible JobLevel, MonthlyIncome, YearAtCompany, and TotalWorkingYears sont plus susceptibles de quitter leur emploi.

* JobRole : Les techniciens de laboratoire, les représentants des ventes et des ressources humaines sont plus susceptibles de quitter comparé aux employés occupant d'autres postes.

* MaritalStatus: Les travailleurs qui ont le statut célibataire sont plus susceptibles de quitter comparé aux employés mariées et divorcées.

* Gender: les hommes sont plus susceptibles de quitter.

* Départment: Les employés en recherche et développement sont plus susceptibles de rester relativement aux employés d'un autre département.

* EducationField: Les travailleurs ayant des diplomes en ressources humaines et en technique sont plus susceptibles de quitter comparé aux employés dans d'autres domaines d'études.

# **Applying machine learning algorithms**

In [None]:
from sklearn.model_selection import train_test_split
col = ['Age', 'BusinessTravel', 'DailyRate', 'Department',
       'DistanceFromHome', 'Education', 'EducationField',
       'Gender', 'HourlyRate', 'JobInvolvement',
       'JobLevel', 'JobRole', 'MaritalStatus',
       'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked', 'OverTime',
       'PercentSalaryHike', 'PerformanceRating', 'RelationshipSatisfaction',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'WorkLifeBalance', 'YearsAtCompany', 'YearsInCurrentRole',
       'YearsSinceLastPromotion', 'YearsWithCurrManager']
x = df[col]
y = df.Attrition
x_train,x_test,y_train,y_test = train_test_split(x,y, test_size=.3 ,random_state=30 )

In [None]:
from sklearn.preprocessing import StandardScaler ,Normalizer

col = ['Age', 'BusinessTravel', 'DailyRate', 'Department',
       'DistanceFromHome', 'Education', 'EducationField',
       'Gender', 'HourlyRate', 'JobInvolvement',
       'JobLevel', 'JobRole', 'MaritalStatus',
       'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked', 'OverTime',
       'PercentSalaryHike', 'PerformanceRating', 'RelationshipSatisfaction',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'WorkLifeBalance', 'YearsAtCompany', 'YearsInCurrentRole',
       'YearsSinceLastPromotion', 'YearsWithCurrManager']
x = df[col]
y = df.Attrition
scaler = StandardScaler()
nx = scaler.fit_transform(x)
x_train,x_test,y_train,y_test = train_test_split(nx,y, test_size=.3 ,random_state=30 )

# **Logistic Regression**

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score,f1_score,precision_score,recall_score

model = LogisticRegression()
model.fit(x_train,y_train)
y_pred = model.predict(x_test)

print('Accuracy : ', accuracy_score(y_test,y_pred))
print('f1_score : ', f1_score(y_test,y_pred))
print('precision_score : ', precision_score(y_test,y_pred))
print('recall_score : ', recall_score(y_test,y_pred))

# Support Vector Machines (SVM)

In [None]:
from sklearn import svm

model = svm.SVC(kernel='poly')
model.fit(x_train,y_train)
y_pred = model.predict(x_test)

print('Accuracy : ', accuracy_score(y_test,y_pred))
print('f1_score : ', f1_score(y_test,y_pred))
print('precision_score : ', precision_score(y_test,y_pred))
print('recall_score : ', recall_score(y_test,y_pred))

# k-Nearest neighbors (k-NN)

In [None]:
from math import sqrt
sqrt(len(x_test))

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
model = KNeighborsClassifier(n_neighbors=15)
model.fit(x_train,y_train)
y_pred = model.predict(x_test)

print('Accuracy : ', accuracy_score(y_test,y_pred))
print('f1_score : ', f1_score(y_test,y_pred))
print('precision_score : ', precision_score(y_test,y_pred))
print('recall_score : ', recall_score(y_test,y_pred))

# DecisionTree (DT)

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(x_train,y_train)
y_pred = model.predict(x_test)

print('Accuracy : ', accuracy_score(y_test,y_pred))
print('f1_score : ', f1_score(y_test,y_pred))
print('precision_score : ', precision_score(y_test,y_pred))
print('recall_score : ', recall_score(y_test,y_pred))