In [17]:
print('Hello world!')

Hello world!


# Python libs

In [18]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import os
from cmath import rect, phase
from math import radians, degrees

# Remove warnings
import warnings
warnings.filterwarnings('ignore')

# Data import

In [20]:
# Set unlimited columns
pd.set_option('display.max_columns', None)

path = '../'
print("Only directories:")

print([ name for name in os.listdir(path) if os.path.isdir(os.path.join(path, name)) ])
# Import CSV files to variables of type pandas.DataFrame
general_data = pd.read_csv('../csv/general_data.csv')
employee_survey_data = pd.read_csv('../csv/employee_survey_data.csv')
manager_survey_data = pd.read_csv('../csv/manager_survey_data.csv')
in_time = pd.read_csv('../csv/in_time.csv')
out_time = pd.read_csv('../csv/out_time.csv')

FileNotFoundError: [Errno 2] No such file or directory: '../csv/general_data.csv'

# Traitement de general_data

In [None]:
general_data.head()

On va vérifier la répartition des valeurs dans notre dataset general_data sur certaines colonnes. Si tous les employés ont la même valeur pour une même colonne alors cette colonne est inutile : autant l'éliminer.

Pour cela on utilisera la fonction value_counts : dans l'exemple ci-dessous on voit les différents âges et combien d'employés par valeur d'âge

In [None]:
 general_data["Age"].value_counts()

Dans l'extrait du DataFrame plus haut, on repère seulement 3 colonnes qui ont la même valeur pour les 5 employés de l'extrait, on vérifie si cela se généralise dans tout le DataFrame ou si c'était un hasard avec les 5 premiers.

In [None]:
print(general_data["EmployeeCount"].value_counts())
print(general_data["Over18"].value_counts())
print(general_data["StandardHours"].value_counts())

Les colonnes EmployeeCount, Over18 et StandardHours sont les mêmes pour tous les employés, elles sont donc à éliminer.

In [None]:
general_data.drop(columns=['EmployeeCount', 'Over18','StandardHours'], inplace=True)
general_data.head()

On va transformer certaiens données présentes en  format numérique sous formes de caractères litteraux pour plus de compréhension. Ici Education peut être interessant à changer.

In [None]:
general_data["Education"] = general_data['Education'].replace({ 1 : 'Below College', 2: 'College',3: 'Bachelor',4: 'Master',5 : 'Doctor'})

On remarque que certaines colonnes : "NumCompaniesWorked" et "TotalWorkingYears" sont parfois non renseignées, on laisse les valeurs vides pour le moment mais il faudra peut-être les gérer si le besoin se présente.

# Traitement des questionnaires (employee_survey_data  et manager_survey_data)

In [None]:
employee_survey_data.head()

 On va de la même façon que le premier fichier modifier nos colonnes numériques importantes en litteraux.

In [None]:
# employee_survey_data['WorkLifeBalance'] = employee_survey_data['WorkLifeBalance'].replace({ 1 : 'Low', 2: 'Medium',3: 'High',4: 'Very High'})
# employee_survey_data['EnvironmentSatisfaction'] = employee_survey_data['EnvironmentSatisfaction'].replace({ 1 : 'Low', 2: 'Medium',3: 'High',4: 'Very High'})
# employee_survey_data['JobSatisfaction'] = employee_survey_data['JobSatisfaction'].replace({ 1 : 'Low', 2: 'Medium',3: 'High',4: 'Very High'})

#employee_survey_data.head()

Pour le fichier des questionnaires managers, on fait pareil pour la note de l'implication et de la qualité de travail au cours de l'année

In [None]:
manager_survey_data.head()

In [None]:
#manager_survey_data['JobInvolvement'] = manager_survey_data['JobInvolvement'].replace({ 1 : 'Low', 2: 'Medium',3: 'High',4: 'Very High'})
#manager_survey_data['PerformanceRating'] = manager_survey_data['PerformanceRating'].replace({ 1 : 'Low', 2: 'Medium',3: 'High',4: 'Very High'})

#manager_survey_data.head()

Dans le questionnaires employés, ceux ci ne sont pas obligés de répondre, il faudra donc traiter les valeurs non renseignées pour notre apprentissage.

# Traitement des données sur les horaires de travail.

On va traiter deux fichiers : les horaires d'éntrées et de sorties pour chaque employé et pour chaque jour de l'anée.

In [None]:
# Reset in_time / out_time :
#in_time = pd.read_csv('../csv/in_time.csv')
#out_time = pd.read_csv('../csv/out_time.csv')

in_time.head()

On va chercher les colonnes ou tous les employées n'ont pas été présents (NaN) : on supprimera celles ci.

In [None]:
holidays = in_time.columns[in_time.nunique() <= 1]

print(holidays)

Ce dataframe répresente toute les dates pour lesquelles les employées n'étaient pas présents, on va les supprimer.

In [None]:
in_time = in_time.drop(columns = holidays)

in_time.head()

Maintenant on va remplacer les valeurs non définies par 0 et convertir l'ensemble au format datetime

In [None]:
in_time = in_time.replace(np.nan, 0)
in_time.iloc[:, 1:] = in_time.iloc[:, 1:].apply(pd.to_datetime, errors='coerce')

in_time.head()

On fait les mêmes manipulations avec le dataframe des horraires de départ

In [None]:
out_time = out_time.drop(columns = holidays)

out_time = out_time.replace(np.nan,0)
out_time.iloc[:, 1:] = out_time.iloc[:, 1:].apply(pd.to_datetime, errors='coerce')

out_time.head()

Pour notre phase d'apprentissage, il est important pour nous de mettre en place des moyennes.

On va commencer par faire une moyenne du temps de travail pour chaque employé.

Pour mieux y voir, on va mélanger nos deux dataframes précedent : 

In [None]:
in_out_time = in_time.append(out_time)

in_out_time.shape

In [None]:
employees_number = (int) (in_out_time.shape[0] / 2)

# On fait la différence entre l'heure de départ et l'heure d'arrivée
in_out_time = in_out_time.diff(periods=employees_number)
# La seconde moitié du tableau (anciennement out_time) est désormais aux valeurs de durée

# On supprime la première moitié du tableau (in_time) puis on reset les index
in_out_time = in_out_time.iloc[employees_number:]
in_out_time.reset_index(inplace=True)

in_out_time.head()

Nos deux premières colonnes sont inutiles, on va les supprimer

In [None]:
in_out_time.drop(columns=['index', 'Unnamed: 0'], axis=1, inplace=True)
in_out_time.head()

On crée une colonne contenant la moyenne de ces temps de travail pour chaque employé

In [None]:
in_out_time['AverageWorkTimeDelta'] = in_out_time.mean(axis=1)

in_out_time.head()

On peut transformer la moyenne d'heure en heures pour plus de clarté

In [None]:
in_out_time['AverageWorkTime'] = in_out_time['AverageWorkTimeDelta'] / np.timedelta64(1, 'h')
in_out_time.head()

On ajoute le nombre d'absences de chaque employé (hors absences généralisées)

In [None]:
in_out_time['NumberOfAbsences'] = (in_out_time.drop(['AverageWorkTimeDelta', 'AverageWorkTime'], 1) == np.timedelta64(0)).sum(axis=1)

in_out_time.head()

On va maintenant faire une moyenne des heures d'arrivée et de départ de chaque employé.

In [None]:
def mean_angle(deg):
    return degrees(phase(sum(rect(1, radians(d)) for d in deg)/len(deg)))
 
def mean_time(row):
    t = ([time.hour, time.minute, time.second] for time in row)
    seconds = ((float(s) + int(m) * 60 + int(h) * 3600) 
               for h, m, s in t)
    
    # Remove NaN / 0
    seconds = [i for i in seconds if i > 0]
    
    day = 24 * 60 * 60
    to_angles = [s * 360. / day for s in seconds]
    mean_as_angle = mean_angle(to_angles)
    mean_seconds = mean_as_angle * day / 360.
    if mean_seconds < 0:
        mean_seconds += day
    h, m = divmod(mean_seconds, 3600)
    m, s = divmod(m, 60)
    return '%02i:%02i:%02i' % (h, m, s)

in_out_time['AverageInTime'] = in_time.drop(['Unnamed: 0'], 1).apply(mean_time, axis=1)
in_out_time['AverageOutTime'] = out_time.drop(['Unnamed: 0'], 1).apply(mean_time, axis=1)

On va désormais drop les colonnes de chaque jour qui ne nous sont plus utiles

In [None]:
# EmployeeID commence à 1 au lieu de 0
in_out_time.index += 1

in_out_time.reset_index(inplace=True)
in_out_time.rename(columns={'index': 'EmployeeID'}, inplace=True)
in_out_time.drop(in_out_time.columns.difference(['EmployeeID', 'AverageWorkTime', 'NumberOfAbsences', 'AverageInTime', 'AverageOutTime']), 1, inplace=True)

in_out_time.head()

# Fusion en un seul DataFrame
On s'occupe maintenant de fusionner toutes les données en un seul DataFrame, en faisant correspondre les EmployeeID.
Ce DataFrame constituera notre le jeu de donnée de base du projet à partir d'ici.

In [None]:
df = pd.merge(employee_survey_data, manager_survey_data, how='inner', on='EmployeeID')
df = pd.merge(df, general_data, how='inner', on='EmployeeID')
df = pd.merge(df, in_out_time, how='inner', on='EmployeeID')

df.head()

# ---- Essais statistiques ---

In [None]:
df.describe()

In [None]:
df.info()

## Mise en évidence de la variable clé Attrition

In [None]:
print(round(df['Attrition'].value_counts(normalize = True),2))
sns.countplot(x='Attrition',data=df)

In [None]:
sns.pairplot(df[['Age','MonthlyIncome','DistanceFromHome','Attrition']],hue = 'Attrition')

In [None]:
print('Fréquence de voyages (en %): \n')
print(round(df['BusinessTravel'].value_counts(normalize = True)*100,2))
print("\n Taux d'attrition par type de voyages \n")
print(round(df['BusinessTravel'][df['Attrition'] == 'Yes'].value_counts()/df['BusinessTravel'].value_counts()*100,2))

In [None]:
print("Nombres d'émployés par département (en %): \n")
print(round(df['Department'].value_counts(normalize = True)*100,2))  
print("\n Taux d'attrition par département \n")
print(round(df['Department'][df['Attrition'] == 'Yes'].value_counts()/df['Department'].value_counts()*100,2))

In [None]:
print("Nombre d'émployées par niveau d'éducation (en %): \n")
print(round(df['Education'].value_counts(normalize = True)*100,2).sort_index())
print("\n Taux d'attrition par niveau d'éducation : \n")
print(round(df['Education'][df['Attrition'] == 'Yes'].value_counts()/df['Education'].value_counts()*100,2).sort_index())

On peut chercher d'autre types de corrélation comme celle entre l'attarition et le statut marital.

In [None]:
print("\n Taux d'attrition par statut marital: \n")
print(round(df['MaritalStatus'][df['Attrition'] == 'Yes'].value_counts()/df['MaritalStatus'].value_counts()*100,2))
(df['MaritalStatus'][df['Attrition'] == 'Yes'].value_counts()/df['MaritalStatus'].value_counts()*100).plot.bar(color = 'blue')

On peut également chercher le nombre d'heures moyen et le taux d'attrition

In [None]:
sns.pairplot(df[['AverageWorkTime', 'JobSatisfaction', 'Attrition']],hue = 'Attrition', height = 4)

## Traitement des données 

Certaines de nos colonnes ne sont pas entièrement remplies : on va les remplir avec les valeurs médianes adéquates.

In [None]:
print(df.isnull().sum())

### EnvironmentSatisfaction

In [None]:
sns.countplot(x='EnvironmentSatisfaction', data=df)

In [None]:
df['EnvironmentSatisfaction'].value_counts(ascending=False)

In [None]:
df["EnvironmentSatisfaction"].fillna(df["EnvironmentSatisfaction"].median(), inplace=True)


### JobSatisfaction

In [None]:
sns.countplot(x='JobSatisfaction', data=df)

In [None]:
df['JobSatisfaction'].value_counts(ascending=False)

In [None]:
df["JobSatisfaction"].fillna(df["JobSatisfaction"].median(), inplace=True)
df['JobSatisfaction'].isnull().sum()

## WorkLifeBalance

In [None]:
df['WorkLifeBalance'].value_counts(ascending=False)

In [None]:
sns.countplot(x='WorkLifeBalance',data=df);

In [None]:
df["WorkLifeBalance"].fillna(df["WorkLifeBalance"].median(), inplace=True)
df['WorkLifeBalance'].isnull().sum()

## NumCompaniesWorked

In [None]:
df['NumCompaniesWorked'].value_counts(ascending=False)

In [None]:
sns.countplot(x='NumCompaniesWorked',data=df);

In [None]:
sns.boxplot(x='NumCompaniesWorked',data=df);

In [None]:
df['NumCompaniesWorked'].fillna(df.groupby(['TotalWorkingYears'])['NumCompaniesWorked'].transform('median'), inplace=True)
df['NumCompaniesWorked'].isnull().sum()

## TotalWorkingYears

In [None]:
df['TotalWorkingYears'].value_counts(ascending=False)

In [None]:
plt.figure(figsize=(8,8))
ax = sns.distplot(df['TotalWorkingYears'], hist=True, kde=False, 
             bins=int(180/5), color = 'darkblue', 
             hist_kws={'edgecolor':'black'},
             kde_kws={'linewidth': 4})
ax.set_ylabel('# of Employees')
ax.set_xlabel('TotalWorkingYears');

#Expliquer le schéma. kde = gaussian kernel density estimate => courbe.

In [None]:
sns.boxplot(x='TotalWorkingYears',data=df);


In [None]:
df['TotalWorkingYears'].fillna(df.groupby(['Age'])['TotalWorkingYears'].transform('median'), inplace=True)
df['TotalWorkingYears'].isnull().sum()

In [None]:
df['TotalWorkingYears'].head()

In [None]:
df.info()


On à désormais une harmonisation de donéés grâce à notre traitement de valeurs nulles ou non renseignées.

<h2>IMPLEMENTATION DE LA FORET ALEATOIRE</h2>

<h3>Presentation</h3>

<p>
    L’algorithme des « forêts aléatoires » (ou Random Forest parfois aussi traduit par forêt d’arbres décisionnels) est un algorithme de classification qui réduit la variance des prévisions d’un arbre de décision seul, améliorant ainsi leurs performances. Pour cela, il combine de nombreux arbres de décisions dans une approche de type bagging.
    </p>
    <p>
    Dans sa formule la plus classique, il effectue un apprentissage en parallèle sur de multiples arbres de décision construits aléatoirement et entraînés sur des sous-ensembles de données différents. Le nombre idéal d’arbres, qui peut aller jusqu’à plusieurs centaines voire plus, est un paramètre important : il est très variable et dépend du problème. Concrètement, chaque arbre de la forêt aléatoire est entrainé sur un sous ensemble aléatoire de données selon le principe du bagging, avec un sous ensemble aléatoire de features (caractéristiques variables des données) selon le principe des « projections aléatoires ». Les prédictions sont ensuite moyennées lorsque les données sont quantitatives ou utilisés pour un vote pour des données qualitatives, dans le cas des arbres de classification. L’algorithme des forêts aléatoires est connu pour être un des classifieurs les plus efficaces « out-of-the-box » (c’est-à-dire nécessitant peu de prétraitement des données). Il a été utilisé dans de nombreuses applications, y compris grand public, comme pour la classification d’images de la caméra de console de jeu Kinect* dans le but d’identifier des positions du corps.
    </p>
<img src="https://static.wixstatic.com/media/50480c_09887082457042d1a9a68ba1efd3ab41~mv2.png/v1/fit/w_592%2Ch_444%2Cal_c/file.png"/>


<p>
    Un random forest est constitué d'un ensemble d'arbres de décision indépendants. 

Chaque arbre dispose d'une vision parcellaire du problème du fait d'un double tirage aléatoire :

<li>un tirage aléatoire avec remplacement sur les observations (les lignes de votre base de données). Ce processus s'appelle le tree bagging,</li>
<li>un tirage aléatoire sur les variables (les colonnes de votre base de données). Ce processus s'appelle le feature sampling.</li>
A la fin, tous ces arbres de décisions indépendants sont assemblés. La prédiction faite par le random forest pour des données inconnues est alors la moyenne (ou le vote, dans le cas d'un problème de classification) de tous les arbres.
    </p>
    
<h2> Implementation</h2>
<p>On va d'abbord numeriser notre étiquette Attrition =></p>



In [None]:
# Creating a dummy variable for some of the categorical variables and dropping the first one.
dummy1 = pd.get_dummies(df[['JobInvolvement', 'PerformanceRating', 'EnvironmentSatisfaction',
                                 'JobSatisfaction', 'WorkLifeBalance','BusinessTravel', 'Department',
                                 'Education','EducationField', 'Gender', 'JobLevel', 'JobRole',
                                 'MaritalStatus']], drop_first=True)

# Adding the results to the master dataframe
df = pd.concat([df, dummy1], axis=1)
df = df.drop(['JobInvolvement', 'PerformanceRating', 'EnvironmentSatisfaction',
                                 'JobSatisfaction', 'WorkLifeBalance','BusinessTravel', 'Department',
                                 'Education','EducationField', 'Gender', 'JobLevel', 'JobRole',
                                 'MaritalStatus'], 1)

In [None]:
df['Attrition'] = df['Attrition'].replace({'Yes': 1, "No": 0})

In [None]:
df.head()

In [None]:
X = df.drop(['AverageOutTime', 'AverageInTime', 'Attrition' ], axis=1)
X.head()

In [None]:
y = df['Attrition']
y.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, test_size=0.3, random_state=100)


In [None]:
y_train.head()


In [None]:
scaler = StandardScaler()

X_train[[ 'MonthlyIncome', 'NumCompaniesWorked', 'PercentSalaryHike',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'YearsAtCompany', 'YearsSinceLastPromotion', 'YearsWithCurrManager',
           'DistanceFromHome','Age','AverageWorkTime', 'NumberOfAbsences']] = scaler.fit_transform(X_train[[ 'MonthlyIncome', 'NumCompaniesWorked', 'PercentSalaryHike',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'YearsAtCompany', 'YearsSinceLastPromotion', 'YearsWithCurrManager',
           'DistanceFromHome', 'Age','AverageWorkTime', 'NumberOfAbsences']])

X_train.head()

In [None]:
X_test[[ 'MonthlyIncome', 'NumCompaniesWorked', 'PercentSalaryHike',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'YearsAtCompany', 'YearsSinceLastPromotion', 'YearsWithCurrManager',
           'DistanceFromHome','Age','AverageWorkTime', 'NumberOfAbsences']] = scaler.fit_transform(X_test[[ 'MonthlyIncome', 'NumCompaniesWorked', 'PercentSalaryHike',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'YearsAtCompany', 'YearsSinceLastPromotion', 'YearsWithCurrManager',
           'DistanceFromHome', 'Age','AverageWorkTime', 'NumberOfAbsences']])

X_test.head()

In [None]:
plt.figure(figsize=(20,8))
df.corr()['Attrition'].sort_values(ascending = False).plot(kind='bar');

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
model = RandomForestClassifier()

In [None]:
print('Arbres utilises : ', model.n_estimators)

In [None]:
model.fit(X_train,y_train)

In [None]:
predict_train = model.predict(X_train)
predict_train

In [None]:
trainaccuracy = accuracy_score(y_train,predict_train)
print('accuracy_score on train dataset : ', trainaccuracy)