### 1. <a id='importation'>Importation des bibliothèques</a>

In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
import warnings

# Ignorer les avertissements
warnings.filterwarnings('ignore')

DELIMITER = "--------------------------------"

---

### 2. <a id='chargement'>Chargement des données</a>

In [16]:
employee_survey = pd.read_csv('../data/cleaned_employee_survey.csv')
general_data = pd.read_csv('../data/cleaned_general_data.csv')
manager_survey = pd.read_csv('../data/cleaned_manager_survey.csv')
total_hours_per_employee = pd.read_csv('../data/total_hours_per_employee.csv')

---

### 3. <a id='merge'>Merge et sauvegarde des datasets</a>

In [17]:
merged_dataset = general_data.merge(employee_survey, on='EmployeeID').merge(manager_survey, on='EmployeeID').merge(total_hours_per_employee, on='EmployeeID')

merged_dataset.to_csv('../data/merged_data.csv', index=False)

---

### 4. <a id='apercu'>Aperçu général</a>

In [18]:
print(f"Nombre de lignes : {merged_dataset.shape[0]}")
print(f"Nombre de colonnes : {merged_dataset.shape[1]}")

Nombre de lignes : 4410
Nombre de colonnes : 48


In [19]:
print("Informations de base :")
merged_dataset.info()

Informations de base :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Data columns (total 48 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Age                                4410 non-null   int64  
 1   Attrition                          4410 non-null   int64  
 2   DistanceFromHome                   4410 non-null   int64  
 3   Education                          4410 non-null   int64  
 4   EmployeeCount                      4410 non-null   int64  
 5   EmployeeID                         4410 non-null   int64  
 6   JobLevel                           4410 non-null   int64  
 7   MonthlyIncome                      4410 non-null   int64  
 8   NumCompaniesWorked                 4410 non-null   float64
 9   Over18                             4410 non-null   int64  
 10  PercentSalaryHike                  4410 non-null   int64  
 11  StandardHours                    

In [20]:
print(f"Sommaire des statistiques : \n{merged_dataset.describe()}")

Sommaire des statistiques : 
               Age    Attrition  DistanceFromHome    Education  EmployeeCount  \
count  4410.000000  4410.000000       4410.000000  4410.000000         4410.0   
mean     36.923810     0.161224          9.192517     1.912925            1.0   
std       9.133301     0.367780          8.105026     1.023933            0.0   
min      18.000000     0.000000          1.000000     0.000000            1.0   
25%      30.000000     0.000000          2.000000     1.000000            1.0   
50%      36.000000     0.000000          7.000000     2.000000            1.0   
75%      43.000000     0.000000         14.000000     3.000000            1.0   
max      60.000000     1.000000         29.000000     4.000000            1.0   

        EmployeeID     JobLevel  MonthlyIncome  NumCompaniesWorked  Over18  \
count  4410.000000  4410.000000    4410.000000         4410.000000  4410.0   
mean   2205.500000     2.063946   65029.312925            2.691837     1.0   
std    

In [21]:
print("Nombre de valeurs uniques par colonne :")
for column in merged_dataset.columns:
    print(f"- {column} : {merged_dataset[column].nunique()} valeurs uniques")

Nombre de valeurs uniques par colonne :
- Age : 43 valeurs uniques
- Attrition : 2 valeurs uniques
- DistanceFromHome : 29 valeurs uniques
- Education : 5 valeurs uniques
- EmployeeCount : 1 valeurs uniques
- EmployeeID : 4410 valeurs uniques
- JobLevel : 5 valeurs uniques
- MonthlyIncome : 1349 valeurs uniques
- NumCompaniesWorked : 10 valeurs uniques
- Over18 : 1 valeurs uniques
- PercentSalaryHike : 15 valeurs uniques
- StandardHours : 1 valeurs uniques
- StockOptionLevel : 4 valeurs uniques
- TotalWorkingYears : 40 valeurs uniques
- TrainingTimesLastYear : 7 valeurs uniques
- YearsAtCompany : 37 valeurs uniques
- YearsSinceLastPromotion : 16 valeurs uniques
- YearsWithCurrManager : 18 valeurs uniques
- AvgYearsPerCompany : 167 valeurs uniques
- StabilityUnderManager : 117 valeurs uniques
- TravelIntensity : 45 valeurs uniques
- YearsBeforePromotion : 31 valeurs uniques
- BusinessTravel_Travel_Frequently : 2 valeurs uniques
- BusinessTravel_Travel_Rarely : 2 valeurs uniques
- Educat

In [22]:
display(merged_dataset.head())

Unnamed: 0,Age,Attrition,DistanceFromHome,Education,EmployeeCount,EmployeeID,JobLevel,MonthlyIncome,NumCompaniesWorked,Over18,...,JobRole_Sales Executive,JobRole_Sales Representative,Department_Research & Development,Department_Sales,EnvironmentSatisfaction,JobSatisfaction,WorkLifeBalance,JobInvolvement,PerformanceRating,Total_Hours
0,51,0,6,1,1,1,1,131160,1.0,1,...,0.0,0.0,0.0,1.0,3.0,4.0,2.0,3,3,1710.69
1,31,1,10,0,1,2,1,41890,0.0,1,...,0.0,0.0,1.0,0.0,3.0,2.0,4.0,2,4,1821.68
2,32,0,17,3,1,3,4,193280,1.0,1,...,1.0,0.0,1.0,0.0,2.0,2.0,1.0,3,3,1697.2
3,38,0,2,4,1,4,3,83210,3.0,1,...,0.0,0.0,1.0,0.0,4.0,4.0,3.0,2,3,1690.51
4,32,0,10,0,1,5,1,23420,4.0,1,...,1.0,0.0,1.0,0.0,4.0,1.0,3.0,3,3,1961.51


---

### 5. <a id='missing-check'>Gestion des valeurs manquantes</a>

In [23]:
if (merged_dataset.isnull().sum() > 0).any():
    missing_values = merged_dataset.isnull().sum()[merged_dataset.isnull().sum() > 0]
    missing_percentage = (missing_values / len(merged_dataset) * 100).round(2)
    print("Valeurs manquantes par colonne :")
    for col in missing_values.index:
        print(f"{col} : {missing_values[col]} valeurs ({missing_percentage[col]}%)")
else:
    print("Il n'y a pas de valeurs manquantes dans le dataset")

Il n'y a pas de valeurs manquantes dans le dataset


---

### 6. <a id='doublons'>Gestion des valeurs dupliquées</a>

In [24]:
if merged_dataset.duplicated().sum() > 0:
    print(f"Nombre de valeurs dupliquées : {merged_dataset.duplicated().sum()}")
    merged_dataset = merged_dataset.drop_duplicates()
    print(f"Nombre de lignes après suppression des doublons : {merged_dataset.shape[0]}")
else:
    print("Il n'y a pas de valeurs dupliquées dans le dataset")

Il n'y a pas de valeurs dupliquées dans le dataset


---

### 7. <a id='types'>Vérification des types de données</a>

In [25]:
numerical_columns = merged_dataset.select_dtypes(include=['int64', 'float64']).columns

for column in numerical_columns:
    invalid_values = merged_dataset[column].apply(lambda x: isinstance(x, (str)))
    if invalid_values.any():
        print(f"La colonne {column} contient des valeurs non numériques :")
        print(merged_dataset[invalid_values][column])
        print(DELIMITER)

if not invalid_values.any():
    print("Aucune valeur non numérique a été trouvée dans les colonnes numériques")

Aucune valeur non numérique a été trouvée dans les colonnes numériques


In [26]:
categorical_columns = merged_dataset.select_dtypes(include=['object']).columns

for column in categorical_columns:
    print(f"Vérification des valeurs uniques dans la colonne {column}")
    print(merged_dataset[column].unique())
    print(DELIMITER)

---

### 8. <a id='pipeline'>Pipeline de traitement des données</a>

# <font color="red"><center>**WIP**</center></font>