## **Preprocessing et EDA**

Cette section du livrable détaille l'Exploratory Data Analysis des datasets mis à disposition en détail.

### **Partie 1 : import des datasets.**

On commence par importer les 3 datasets principaux : general_data.csv, employee_survey_data.csv et manager_survey_data.csv.

In [22]:
import pandas as pd

general_data = pd.read_csv('./datasets/general_data.csv')
employee_survey_data = pd.read_csv('./datasets/employee_survey_data.csv')
manager_survey_data = pd.read_csv('./datasets/manager_survey_data.csv')

On affiche ensuite le nombre de ligne et de colonne de chaque dataset.

In [23]:
print(f"Nombre de ligne/colonne de general_data.csv : {general_data.shape}\n")
print(f"Nombre de ligne/colonne de employee_survey_data.csv : {employee_survey_data.shape}\n")
print(f"Nombre de ligne/colonne de manager_survey_data.csv : {manager_survey_data.shape}\n")


Nombre de ligne/colonne de general_data.csv : (4410, 24)

Nombre de ligne/colonne de employee_survey_data.csv : (4410, 4)

Nombre de ligne/colonne de manager_survey_data.csv : (4410, 3)



On vérifie si **EmployeeID** est bien une clé primaire commune à chaque dataset. Cela nous permettra de vérifier si la variable peut être utiliser pour la jointure des datasets.

In [24]:
#Verification de l'unicité de EmployeeID
print("Clé primaire de general_data = EmployeeID ? :", general_data["EmployeeID"].is_unique, "\n")
print("Clé primaire de employee_survey_data = EmployeeID ? :", employee_survey_data["EmployeeID"].is_unique, "\n")
print("Clé primaire de manager_survey_data = EmployeeID ? :", manager_survey_data["EmployeeID"].is_unique, "\n")

Clé primaire de general_data = EmployeeID ? : True 

Clé primaire de employee_survey_data = EmployeeID ? : True 

Clé primaire de manager_survey_data = EmployeeID ? : True 



On constate que c'est bien le cas pour les trois datasets. **EmployeeID** peut donc être utiliser pour joindre nos 3 datasets.
Pour cela, on va utiliser la fonction merge(). On va faire un left join entre la table general_data et employee_survey_data. Puis un autre left join avec la table manager_survey_data.

In [25]:
#Jointure des datasets
df = general_data.merge(employee_survey_data, on="EmployeeID", how="left")
df = df.merge(manager_survey_data, on="EmployeeID", how="left")

On vérifie ensuite si la variable **EmployeeID** est toujours laclé primaire du nouveau dataset.

In [26]:
#Verification que EmployeeID est toujours unique
print("Clé primaire du dataset final = EmployeeID ? : ", df["EmployeeID"].is_unique)

Clé primaire du dataset final = EmployeeID ? :  True


On constate que c'est bien le cas. Par la suite, on va vérifier si le nombre de ligne du dataset est toujours le même afin d'être sûr qu'aucune donnée n'a été perdu.

In [27]:
#Verification que le nombre de ligne est toujours le même
print("Nombre de lignes du dataset de base: ", len(general_data),"\n")
print("Nombre de lignes du dataset final (avec jointures): ", len(df),"\n")

Nombre de lignes du dataset de base:  4410 

Nombre de lignes du dataset final (avec jointures):  4410 



Le nombre de ligne est inchangé, les données sont donc intacts et toujours valides pour l'étape suivante. Affichons les informations générales de notre nouveaux dataset.

In [28]:
#Affichage des informations générales
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Data columns (total 29 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Age                      4410 non-null   int64  
 1   Attrition                4410 non-null   object 
 2   BusinessTravel           4410 non-null   object 
 3   Department               4410 non-null   object 
 4   DistanceFromHome         4410 non-null   int64  
 5   Education                4410 non-null   int64  
 6   EducationField           4410 non-null   object 
 7   EmployeeCount            4410 non-null   int64  
 8   EmployeeID               4410 non-null   int64  
 9   Gender                   4410 non-null   object 
 10  JobLevel                 4410 non-null   int64  
 11  JobRole                  4410 non-null   object 
 12  MaritalStatus            4410 non-null   object 
 13  MonthlyIncome            4410 non-null   int64  
 14  NumCompaniesWorked      

On constate que notre nouvelle table possède 29 colonnes. Les variables sont sous 3 types principaux : entier (int), décimal (float) ou chaine de caratère/objet (object). On constate également que certaines colonnes ont des valeurs manquantes (exemple : colonne **TotalWorkingYears**).
Nous allons maintenant afficher des données additionnelles pour notre dataset comme la médiane, la moyenne etc. Pour cela, nous allons utiliser la fonction describe() de pandas.

In [29]:
#Affichage des statistiques du dataset final
print(df.describe())

               Age  DistanceFromHome    Education  EmployeeCount   EmployeeID  \
count  4410.000000       4410.000000  4410.000000         4410.0  4410.000000   
mean     36.923810          9.192517     2.912925            1.0  2205.500000   
std       9.133301          8.105026     1.023933            0.0  1273.201673   
min      18.000000          1.000000     1.000000            1.0     1.000000   
25%      30.000000          2.000000     2.000000            1.0  1103.250000   
50%      36.000000          7.000000     3.000000            1.0  2205.500000   
75%      43.000000         14.000000     4.000000            1.0  3307.750000   
max      60.000000         29.000000     5.000000            1.0  4410.000000   

          JobLevel  MonthlyIncome  NumCompaniesWorked  PercentSalaryHike  \
count  4410.000000    4410.000000         4391.000000        4410.000000   
mean      2.063946   65029.312925            2.694830          15.209524   
std       1.106689   47068.888559         

Pour finir, nous allons identifier les colonnes avec des données manquantes. On utilise la fonction isnull() pour ce faire.

In [30]:
#Vérification de l'absence de données
print(df.isnull().sum())

Age                         0
Attrition                   0
BusinessTravel              0
Department                  0
DistanceFromHome            0
Education                   0
EducationField              0
EmployeeCount               0
EmployeeID                  0
Gender                      0
JobLevel                    0
JobRole                     0
MaritalStatus               0
MonthlyIncome               0
NumCompaniesWorked         19
Over18                      0
PercentSalaryHike           0
StandardHours               0
StockOptionLevel            0
TotalWorkingYears           9
TrainingTimesLastYear       0
YearsAtCompany              0
YearsSinceLastPromotion     0
YearsWithCurrManager        0
EnvironmentSatisfaction    25
JobSatisfaction            20
WorkLifeBalance            38
JobInvolvement              0
PerformanceRating           0
dtype: int64


On remarque qu'il y a 4 colonnes/variables avec des valeurs manquantes : NumCompaniesWorked, EnvironmentSatisfaction, JobSatisfaction, WorkLifeBalance. Nous allons voir plus tard la méthode d'imputation la plus adaptée à notre jeux de données et l'appliquer en conséquence.

### **Partie 2 : Suppression des variables sensibles.**

In [31]:
#Définition des variables sensibles
SENSITIVE_VARS = ["Age", "Gender", "MaritalStatus"]
#Définition des variables non-utiles
NON_INFORMATIVE_VARS = ["EmployeeCount", "StandardHours", "Over18"]

#Combinaison des 2 listes
COLS_TO_DROP = SENSITIVE_VARS + NON_INFORMATIVE_VARS


In [32]:
#Vérification que les variables à supprimer son les bonnes
[col for col in COLS_TO_DROP if col in general_data.columns]

['Age', 'Gender', 'MaritalStatus', 'EmployeeCount', 'StandardHours', 'Over18']

In [33]:
#Suppresion des variables
general_data_clean = general_data.drop(
    columns=COLS_TO_DROP,
    errors="ignore"
)

In [34]:
#Vérification que les variables ont bien été supprimer
set(COLS_TO_DROP) & set(general_data_clean.columns)

set()

In [35]:
#Affichage des informations dur nouveau dataset.
general_data_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Data columns (total 18 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Attrition                4410 non-null   object 
 1   BusinessTravel           4410 non-null   object 
 2   Department               4410 non-null   object 
 3   DistanceFromHome         4410 non-null   int64  
 4   Education                4410 non-null   int64  
 5   EducationField           4410 non-null   object 
 6   EmployeeID               4410 non-null   int64  
 7   JobLevel                 4410 non-null   int64  
 8   JobRole                  4410 non-null   object 
 9   MonthlyIncome            4410 non-null   int64  
 10  NumCompaniesWorked       4391 non-null   float64
 11  PercentSalaryHike        4410 non-null   int64  
 12  StockOptionLevel         4410 non-null   int64  
 13  TotalWorkingYears        4401 non-null   float64
 14  TrainingTimesLastYear   

In [36]:
general_data_clean.describe()

Unnamed: 0,DistanceFromHome,Education,EmployeeID,JobLevel,MonthlyIncome,NumCompaniesWorked,PercentSalaryHike,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager
count,4410.0,4410.0,4410.0,4410.0,4410.0,4391.0,4410.0,4410.0,4401.0,4410.0,4410.0,4410.0,4410.0
mean,9.192517,2.912925,2205.5,2.063946,65029.312925,2.69483,15.209524,0.793878,11.279936,2.79932,7.008163,2.187755,4.123129
std,8.105026,1.023933,1273.201673,1.106689,47068.888559,2.498887,3.659108,0.851883,7.782222,1.288978,6.125135,3.221699,3.567327
min,1.0,1.0,1.0,1.0,10090.0,0.0,11.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2.0,2.0,1103.25,1.0,29110.0,1.0,12.0,0.0,6.0,2.0,3.0,0.0,2.0
50%,7.0,3.0,2205.5,2.0,49190.0,2.0,14.0,1.0,10.0,3.0,5.0,1.0,3.0
75%,14.0,4.0,3307.75,3.0,83800.0,4.0,18.0,1.0,15.0,3.0,9.0,3.0,7.0
max,29.0,5.0,4410.0,5.0,199990.0,9.0,25.0,3.0,40.0,6.0,40.0,15.0,17.0


In [37]:
TARGET = "Attrition"

y = general_data_clean[TARGET]
X = general_data_clean.drop(columns=[TARGET])


In [38]:
X.dtypes


BusinessTravel              object
Department                  object
DistanceFromHome             int64
Education                    int64
EducationField              object
EmployeeID                   int64
JobLevel                     int64
JobRole                     object
MonthlyIncome                int64
NumCompaniesWorked         float64
PercentSalaryHike            int64
StockOptionLevel             int64
TotalWorkingYears          float64
TrainingTimesLastYear        int64
YearsAtCompany               int64
YearsSinceLastPromotion      int64
YearsWithCurrManager         int64
dtype: object

In [39]:
#fusion avec dataset des horraires
in_out_time_dataset = pd.read_csv("work_time_aggregated.csv")
final_dataset = general_data_clean.merge(in_out_time_dataset, on="EmployeeID", how="left")

print(final_dataset.shape)
final_dataset.head()

(4410, 21)


Unnamed: 0,Attrition,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EmployeeID,JobLevel,JobRole,MonthlyIncome,...,PercentSalaryHike,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager,MeanDailyHours,StdDailyHours,WorkedDays
0,No,Travel_Rarely,Sales,6,2,Life Sciences,1,1,Healthcare Representative,131160,...,11,0,1.0,6,1,0,0,7.373651,0.283224,232
1,Yes,Travel_Frequently,Research & Development,10,1,Life Sciences,2,1,Research Scientist,41890,...,23,1,6.0,3,5,1,4,7.718969,0.313351,236
2,No,Travel_Frequently,Research & Development,17,4,Other,3,4,Sales Executive,193280,...,15,3,5.0,2,5,0,3,7.01324,0.311551,242
3,No,Non-Travel,Research & Development,2,5,Life Sciences,4,3,Human Resources,83210,...,11,3,13.0,5,8,7,5,7.193678,0.284133,235
4,No,Travel_Rarely,Research & Development,10,1,Medical,5,1,Sales Executive,23420,...,12,2,9.0,2,6,0,4,8.006175,0.300656,245
