# Business Understanding
De organisatie wilt graag inzicht verkrijgen in hun werknemersverloop (attrition). Gezien de scope van de opdracht is het lastig om de motivatie van de organisatie te begrijpen. Er wordt een aanname gedaan dat de organisatie kampt met hoge (on)kosten door het werknemersverloop en zij willen graag preventief kunnen handelen om werknemers te behouden. Ze vragen zich af of de kosten lager kunnen zijn door te investeren op werknemersretentie in plaats van te besteden aan recruitment. De organisatie heeft nog geen oplossing naast het werven van nieuwe werknemers.

Er zijn meerdere databronnen beschikbaar gesteld in de vorm van CSV-bestanden. De variabelen uit deze bestanden zullen worden geanalyseerd, waaruit een aantal relevante variabelen geselecteerd worden voor een voorspellend model. Voor de scope en richting van het onderzoek zijn onderstaand een tweetal doelstellingen beschreven.

* Inzicht krijgen in welke variabelen een relatie vormen die werknemersverloop beïnvloeden
* Een model bouwen om werknemersverloop te voorspellen

Tegelijkertijd zal het onderzoek een succes zijn als:

* De organisatie preventief kan handelen om werknemersverloop te minderen
* Kosten verlaagd kunnen worden, die veroorzaakt worden door werknemersverloop

In [2]:
# Importeren van de benodigde libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Data Understanding
De aangeleverde data komen uit twee verschillende bronnen; vanuit HR (bestaand) en enquêtes (additioneel). Tevens is een data dictionary meegeleverd, zodat uniforme definities gehanteerd worden. Onderstaand een beknopte opsomming van de data.

* Standaard HR-data waarin belangrijke werknemers data (anoniem) staat
* Tweemaal enquête data; één vanuit de werknemers en één vanuit de managers
* Kloktijden met de start en eind timestamps van de shifts

## Definities van de variabelen

| Variabel                 | Omschrijving                                       | Niveau |
| ------------------------ | -------------------------------------------------- | ------ |
| Age                      | Leeftijd werknemer                                 |        |
| Attrition                | De werknemer is vorig jaar weggegaan               |        |
| BusinessTravel           | Frequentie van zakelijke reizen afgelopen jaar     |        |
| Department               | Afdeling binnen het bedrijf                        |        |
| DistanceFromHome         | Afstand vanaf huis in kilometers (km's)            |        |
| Education                | Educatie niveau                                    | 1. Below college <br> 2. College <br> 3. Bachelor <br> 4. Master <br> 5. Doctor |
| EducationField           | Educatie vakgebied                                 |        |
| EmployeeCount            | Aantal werknemers                                  |        |
| EmployeeNumber           | Unieke werknemersnummer (ID)                       |        |
| EnvironmentSatisfaction  | Tevredenheidsniveau van de werkomgeving            | 1. Low <br> 2. Medium <br> 3. High <br> 4. Very High |
| Gender                   | Geslacht                                           |        |
| JobInvolvement           | Niveau van aansluiting tussen werknemer en functie | 1. Low <br> 2. Medium <br> 3. High <br> 4. Very High |
| JobLevel                 | Niveau van functie binnen de organisatie           |        |
| JobRole                  | Naam functie                                       |        |
| JobSatisfaction          | Tevredenheidsniveau over werk                      | 1. Low <br> 2. Medium <br> 3. High <br> 4. Very High |
| MaritalStatus            | Burgelijke staat                                   |        |
| MonthlyIncome            | Maandelijk inkomen in roepies (valuta India)       |        |
| NumCompaniesWorked       | Totaal aantal werkgevers van werknemer             |        |
| Over18                   | Of de werknemer boven de 18 is of niet             |        |
| PercentSalaryHike        | Procentuele salarisverhoging afgelopen jaar        |        |
| PerformanceRating        | Resultaatbeoordeling afgelopen jaar                | 1. Low <br> 2. Good <br> 3. Excellent <br> 4. Outstanding |
| RelationshipSatisfaction | Tevredenheidsniveau van relatie                    | 1. Low <br> 2. Medium <br> 3. High <br> 4. Very High |
| StandardHours            | Standaard werkuren van werknemer                   |        |
| StockOptionLevel         | Aandelenniveau van werknemer                       |        |
| TotalWorkingYears        | Totaal aantal werkjaren van werknemer              |        |
| TrainingTimesLastYear    | Aantal training voor werknemer afgelopen jaar      |        |
| WorkLifeBalance          | Niveau van werk/privé balans                       | 1. Bad <br> 2. Good <br> 3. Better <br> 4. Best |
| YearsAtCompany           | Totaal aantal werkjaren bij de organisatie         |        |
| YearsSinceLastPromotion  | Aantal jaren sinds laatste promotie                |        |
| YearsWithCurrentManager  | Aantal jaar onder huidige manager                  |        |

In [3]:
# Data inlezen
employee_survey_data = pd.read_csv('employee_survey_data.csv')
general_data = pd.read_csv('general_data.csv')
manager_survey_data = pd.read_csv('manager_survey_data.csv')
in_time = pd.read_csv('in_time.csv')
out_time = pd.read_csv('out_time.csv')

## Exploreren van de data

Het exploreren van de data is per set onder elkaar gedaan om verwarring te verkomen.

### general_data

In [4]:
general_data.head()

Unnamed: 0,Age,Attrition,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeID,Gender,...,NumCompaniesWorked,Over18,PercentSalaryHike,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager
0,51,No,Travel_Rarely,Sales,6,2,Life Sciences,1,1,Female,...,1.0,Y,11,8,0,1.0,6,1,0,0
1,31,Yes,Travel_Frequently,Research & Development,10,1,Life Sciences,1,2,Female,...,0.0,Y,23,8,1,6.0,3,5,1,4
2,32,No,Travel_Frequently,Research & Development,17,4,Other,1,3,Male,...,1.0,Y,15,8,3,5.0,2,5,0,3
3,38,No,Non-Travel,Research & Development,2,5,Life Sciences,1,4,Male,...,3.0,Y,11,8,3,13.0,5,8,7,5
4,32,No,Travel_Rarely,Research & Development,10,1,Medical,1,5,Male,...,4.0,Y,12,8,2,9.0,2,6,0,4


> De eerste vijf rijen van general_data

In [5]:
general_data.shape

(4410, 24)

> Omvang van general_data; 24 kolommen en 4410 rijen

In [6]:
general_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Age                      4410 non-null   int64  
 1   Attrition                4410 non-null   object 
 2   BusinessTravel           4410 non-null   object 
 3   Department               4410 non-null   object 
 4   DistanceFromHome         4410 non-null   int64  
 5   Education                4410 non-null   int64  
 6   EducationField           4410 non-null   object 
 7   EmployeeCount            4410 non-null   int64  
 8   EmployeeID               4410 non-null   int64  
 9   Gender                   4410 non-null   object 
 10  JobLevel                 4410 non-null   int64  
 11  JobRole                  4410 non-null   object 
 12  MaritalStatus            4410 non-null   object 
 13  MonthlyIncome            4410 non-null   int64  
 14  NumCompaniesWorked      

> Hoeveelheid non-null waarden en de data types van general_data

In [7]:
general_data.describe()

Unnamed: 0,Age,DistanceFromHome,Education,EmployeeCount,EmployeeID,JobLevel,MonthlyIncome,NumCompaniesWorked,PercentSalaryHike,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager
count,4410.0,4410.0,4410.0,4410.0,4410.0,4410.0,4410.0,4391.0,4410.0,4410.0,4410.0,4401.0,4410.0,4410.0,4410.0,4410.0
mean,36.92381,9.192517,2.912925,1.0,2205.5,2.063946,65029.312925,2.69483,15.209524,8.0,0.793878,11.279936,2.79932,7.008163,2.187755,4.123129
std,9.133301,8.105026,1.023933,0.0,1273.201673,1.106689,47068.888559,2.498887,3.659108,0.0,0.851883,7.782222,1.288978,6.125135,3.221699,3.567327
min,18.0,1.0,1.0,1.0,1.0,1.0,10090.0,0.0,11.0,8.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,30.0,2.0,2.0,1.0,1103.25,1.0,29110.0,1.0,12.0,8.0,0.0,6.0,2.0,3.0,0.0,2.0
50%,36.0,7.0,3.0,1.0,2205.5,2.0,49190.0,2.0,14.0,8.0,1.0,10.0,3.0,5.0,1.0,3.0
75%,43.0,14.0,4.0,1.0,3307.75,3.0,83800.0,4.0,18.0,8.0,1.0,15.0,3.0,9.0,3.0,7.0
max,60.0,29.0,5.0,1.0,4410.0,5.0,199990.0,9.0,25.0,8.0,3.0,40.0,6.0,40.0,15.0,17.0


> Beschrijvende statistiek van general_data

In [8]:
general_data.isna().sum()

Age                         0
Attrition                   0
BusinessTravel              0
Department                  0
DistanceFromHome            0
Education                   0
EducationField              0
EmployeeCount               0
EmployeeID                  0
Gender                      0
JobLevel                    0
JobRole                     0
MaritalStatus               0
MonthlyIncome               0
NumCompaniesWorked         19
Over18                      0
PercentSalaryHike           0
StandardHours               0
StockOptionLevel            0
TotalWorkingYears           9
TrainingTimesLastYear       0
YearsAtCompany              0
YearsSinceLastPromotion     0
YearsWithCurrManager        0
dtype: int64

> Er missen waarden in twee kolommen uit general_data: NumCompaniesWorked en TotalWorkingYears (data is vrij compleet)

In [9]:
general_data.duplicated().sum()

0

> Geen redundante data in general_data

### employee_survey_data

In [10]:
employee_survey_data.head()

Unnamed: 0,EmployeeID,EnvironmentSatisfaction,JobSatisfaction,WorkLifeBalance
0,1,3.0,4.0,2.0
1,2,3.0,2.0,4.0
2,3,2.0,2.0,1.0
3,4,4.0,4.0,3.0
4,5,4.0,1.0,3.0


> De eerste vijf rijen van employee_survey_data

In [11]:
employee_survey_data.shape

(4410, 4)

> Omvang van employee_survey_data; 4 kolommen en 4410 rijen

In [12]:
employee_survey_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Data columns (total 4 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   EmployeeID               4410 non-null   int64  
 1   EnvironmentSatisfaction  4385 non-null   float64
 2   JobSatisfaction          4390 non-null   float64
 3   WorkLifeBalance          4372 non-null   float64
dtypes: float64(3), int64(1)
memory usage: 137.9 KB


> Hoeveelheid non-null waarden en de data types van employee_survey_data

In [13]:
employee_survey_data.describe()

Unnamed: 0,EmployeeID,EnvironmentSatisfaction,JobSatisfaction,WorkLifeBalance
count,4410.0,4385.0,4390.0,4372.0
mean,2205.5,2.723603,2.728246,2.761436
std,1273.201673,1.092756,1.101253,0.706245
min,1.0,1.0,1.0,1.0
25%,1103.25,2.0,2.0,2.0
50%,2205.5,3.0,3.0,3.0
75%,3307.75,4.0,4.0,3.0
max,4410.0,4.0,4.0,4.0


>Beschrijvende statistiek van employee_survey_data

In [14]:
employee_survey_data.isna().sum()

EmployeeID                  0
EnvironmentSatisfaction    25
JobSatisfaction            20
WorkLifeBalance            38
dtype: int64

>Missende waarden in employee_survey_data

In [15]:
employee_survey_data.duplicated().sum()

0

>Geen redundante data in employee_survey_data

### manager_survey_data

In [16]:
manager_survey_data.head()

Unnamed: 0,EmployeeID,JobInvolvement,PerformanceRating
0,1,3,3
1,2,2,4
2,3,3,3
3,4,2,3
4,5,3,3


>De eerste vijf rijen van manager_survey_data

In [17]:
manager_survey_data.shape

(4410, 3)

>Omvang van manager_survey_data; 3 kolommen en 4410 rijen

In [18]:
manager_survey_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   EmployeeID         4410 non-null   int64
 1   JobInvolvement     4410 non-null   int64
 2   PerformanceRating  4410 non-null   int64
dtypes: int64(3)
memory usage: 103.5 KB


> Geen non-null waarden en de data types van manager_survey_data

In [19]:
manager_survey_data.describe()

Unnamed: 0,EmployeeID,JobInvolvement,PerformanceRating
count,4410.0,4410.0,4410.0
mean,2205.5,2.729932,3.153741
std,1273.201673,0.7114,0.360742
min,1.0,1.0,3.0
25%,1103.25,2.0,3.0
50%,2205.5,3.0,3.0
75%,3307.75,3.0,3.0
max,4410.0,4.0,4.0


>Beschrijvende statistiek van manager_survey_data

In [20]:
manager_survey_data.isna().sum()

EmployeeID           0
JobInvolvement       0
PerformanceRating    0
dtype: int64

>Geen missende waarden in manager_survey_data

In [21]:
manager_survey_data.duplicated().sum()

0

>Geen redundante data in manager_survey_data

### in_time

In [22]:
in_time.head()

Unnamed: 0.1,Unnamed: 0,2015-01-01,2015-01-02,2015-01-05,2015-01-06,2015-01-07,2015-01-08,2015-01-09,2015-01-12,2015-01-13,...,2015-12-18,2015-12-21,2015-12-22,2015-12-23,2015-12-24,2015-12-25,2015-12-28,2015-12-29,2015-12-30,2015-12-31
0,1,,2015-01-02 09:43:45,2015-01-05 10:08:48,2015-01-06 09:54:26,2015-01-07 09:34:31,2015-01-08 09:51:09,2015-01-09 10:09:25,2015-01-12 09:42:53,2015-01-13 10:13:06,...,,2015-12-21 09:55:29,2015-12-22 10:04:06,2015-12-23 10:14:27,2015-12-24 10:11:35,,2015-12-28 10:13:41,2015-12-29 10:03:36,2015-12-30 09:54:12,2015-12-31 10:12:44
1,2,,2015-01-02 10:15:44,2015-01-05 10:21:05,,2015-01-07 09:45:17,2015-01-08 10:09:04,2015-01-09 09:43:26,2015-01-12 10:00:07,2015-01-13 10:43:29,...,2015-12-18 10:37:17,2015-12-21 09:49:02,2015-12-22 10:33:51,2015-12-23 10:12:10,,,2015-12-28 09:31:45,2015-12-29 09:55:49,2015-12-30 10:32:25,2015-12-31 09:27:20
2,3,,2015-01-02 10:17:41,2015-01-05 09:50:50,2015-01-06 10:14:13,2015-01-07 09:47:27,2015-01-08 10:03:40,2015-01-09 10:05:49,2015-01-12 10:03:47,2015-01-13 10:21:26,...,2015-12-18 10:15:14,2015-12-21 10:10:28,2015-12-22 09:44:44,2015-12-23 10:15:54,2015-12-24 10:07:26,,2015-12-28 09:42:05,2015-12-29 09:43:36,2015-12-30 09:34:05,2015-12-31 10:28:39
3,4,,2015-01-02 10:05:06,2015-01-05 09:56:32,2015-01-06 10:11:07,2015-01-07 09:37:30,2015-01-08 10:02:08,2015-01-09 10:08:12,2015-01-12 10:13:42,2015-01-13 09:53:22,...,2015-12-18 10:17:38,2015-12-21 09:58:21,2015-12-22 10:04:25,2015-12-23 10:11:46,2015-12-24 09:43:15,,2015-12-28 09:52:44,2015-12-29 09:33:16,2015-12-30 10:18:12,2015-12-31 10:01:15
4,5,,2015-01-02 10:28:17,2015-01-05 09:49:58,2015-01-06 09:45:28,2015-01-07 09:49:37,2015-01-08 10:19:44,2015-01-09 10:00:50,2015-01-12 10:29:27,2015-01-13 09:59:32,...,2015-12-18 09:58:35,2015-12-21 10:03:41,2015-12-22 10:10:30,2015-12-23 10:13:36,2015-12-24 09:44:24,,2015-12-28 10:05:15,2015-12-29 10:30:53,2015-12-30 09:18:21,2015-12-31 09:41:09


>De eerste vijf rijen van in_time

In [23]:
in_time.shape

(4410, 262)

>Omvang van in_time; 262 kolommen en 4410 rijen

In [24]:
in_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Columns: 262 entries, Unnamed: 0 to 2015-12-31
dtypes: float64(12), int64(1), object(249)
memory usage: 8.8+ MB


>Data types van in_time

In [25]:
in_time.isna().sum()

Unnamed: 0       0
2015-01-01    4410
2015-01-02     209
2015-01-05     206
2015-01-06     228
              ... 
2015-12-25    4410
2015-12-28     234
2015-12-29     230
2015-12-30     265
2015-12-31     213
Length: 262, dtype: int64

>Missende waarden in in_time; wellicht verlof en verzuim ook?

In [26]:
in_time.duplicated().sum()

0

>Geen redundante data in in_time

### out_time

In [27]:
out_time.head()

Unnamed: 0.1,Unnamed: 0,2015-01-01,2015-01-02,2015-01-05,2015-01-06,2015-01-07,2015-01-08,2015-01-09,2015-01-12,2015-01-13,...,2015-12-18,2015-12-21,2015-12-22,2015-12-23,2015-12-24,2015-12-25,2015-12-28,2015-12-29,2015-12-30,2015-12-31
0,1,,2015-01-02 16:56:15,2015-01-05 17:20:11,2015-01-06 17:19:05,2015-01-07 16:34:55,2015-01-08 17:08:32,2015-01-09 17:38:29,2015-01-12 16:58:39,2015-01-13 18:02:58,...,,2015-12-21 17:15:50,2015-12-22 17:27:51,2015-12-23 16:44:44,2015-12-24 17:47:22,,2015-12-28 18:00:07,2015-12-29 17:22:30,2015-12-30 17:40:56,2015-12-31 17:17:33
1,2,,2015-01-02 18:22:17,2015-01-05 17:48:22,,2015-01-07 17:09:06,2015-01-08 17:34:04,2015-01-09 16:52:29,2015-01-12 17:36:48,2015-01-13 18:00:13,...,2015-12-18 18:31:28,2015-12-21 17:34:16,2015-12-22 18:16:35,2015-12-23 17:38:18,,,2015-12-28 17:08:38,2015-12-29 17:54:46,2015-12-30 18:31:35,2015-12-31 17:40:58
2,3,,2015-01-02 16:59:14,2015-01-05 17:06:46,2015-01-06 16:38:32,2015-01-07 16:33:21,2015-01-08 17:24:22,2015-01-09 16:57:30,2015-01-12 17:28:54,2015-01-13 17:21:25,...,2015-12-18 17:02:23,2015-12-21 17:20:17,2015-12-22 16:32:50,2015-12-23 16:59:43,2015-12-24 16:58:25,,2015-12-28 16:43:31,2015-12-29 17:09:56,2015-12-30 17:06:25,2015-12-31 17:15:50
3,4,,2015-01-02 17:25:24,2015-01-05 17:14:03,2015-01-06 17:07:42,2015-01-07 16:32:40,2015-01-08 16:53:11,2015-01-09 17:19:47,2015-01-12 17:13:37,2015-01-13 17:11:45,...,2015-12-18 17:55:23,2015-12-21 16:49:09,2015-12-22 17:24:00,2015-12-23 17:36:35,2015-12-24 16:48:21,,2015-12-28 17:19:34,2015-12-29 16:58:16,2015-12-30 17:40:11,2015-12-31 17:09:14
4,5,,2015-01-02 18:31:37,2015-01-05 17:49:15,2015-01-06 17:26:25,2015-01-07 17:37:59,2015-01-08 17:59:28,2015-01-09 17:44:08,2015-01-12 18:51:21,2015-01-13 18:14:58,...,2015-12-18 17:52:48,2015-12-21 17:43:35,2015-12-22 18:07:57,2015-12-23 18:00:49,2015-12-24 17:59:22,,2015-12-28 17:44:59,2015-12-29 18:47:00,2015-12-30 17:15:33,2015-12-31 17:42:14


>De eerste vijf rijen van out_time

In [28]:
out_time.shape

(4410, 262)

>Omvang van out_time; 262 kolommen en 4410 rijen

In [29]:
out_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Columns: 262 entries, Unnamed: 0 to 2015-12-31
dtypes: float64(12), int64(1), object(249)
memory usage: 8.8+ MB


>Data types van out_time

In [30]:
out_time.isna().sum()

Unnamed: 0       0
2015-01-01    4410
2015-01-02     209
2015-01-05     206
2015-01-06     228
              ... 
2015-12-25    4410
2015-12-28     234
2015-12-29     230
2015-12-30     265
2015-12-31     213
Length: 262, dtype: int64

>Missende waarden in out_time; wellicht ook verlof en verzuim?

In [31]:
out_time.duplicated().sum()

0

>Geen redundante data in out_time

# Data Preparation

Kijken met wat voor soort categorische data we te maken hebben en welke overwegingen genomen moeten worden. Eerst worden de unieke waarden uit de kolommen per dataset gehaald en onderverdeeld in de nominale en ordinale categorieën. Daarna zal middels explorerende data-analyse (EDA) de relaties en patronen op het eerste gezicht gevisualiseerd worden. Na de EDA kan ook besloten worden wat met missende waarden gedaan worden, namelijk verwijderen of imputeren.

## Belangrijke overwegingen

1. De kloktijddata bevatten de unieke werknemers-ID in naamloze kolom; omzetten naar EmployeeID voor integratie
2. Kloktijden omzetten naar datetime-objecten voor analyse
3. Andere data omzetten naar andere data types om memory usage te verlagen, performance te verhogen en analyses voor te bereiden
4. Rekening houden met nieuwe null-waarden na het mergen van datasets

## Unieke waarden van categorische data

### general_data

In [32]:
for column in general_data.columns:                                    # Loop om de unieke waarden van de kolommen te printen
    print(f'{column}:\n{general_data[column].unique()}\n')             # Print de kolomnaam en de unieke waarden van de kolom

Age:
[51 31 32 38 46 28 29 25 45 36 55 47 37 21 35 26 50 53 42 44 49 18 41 39
 58 33 43 52 27 30 54 40 23 48 57 34 24 22 56 60 19 20 59]

Attrition:
['No' 'Yes']

BusinessTravel:
['Travel_Rarely' 'Travel_Frequently' 'Non-Travel']

Department:
['Sales' 'Research & Development' 'Human Resources']

DistanceFromHome:
[ 6 10 17  2  8 11 18  1  7 28 14  3  4 16  9  5 20 29 15 13 24 19 22 25
 21 26 27 12 23]

Education:
[2 1 4 5 3]

EducationField:
['Life Sciences' 'Other' 'Medical' 'Marketing' 'Technical Degree'
 'Human Resources']

EmployeeCount:
[1]

EmployeeID:
[   1    2    3 ... 4408 4409 4410]

Gender:
['Female' 'Male']

JobLevel:
[1 4 3 2 5]

JobRole:
['Healthcare Representative' 'Research Scientist' 'Sales Executive'
 'Human Resources' 'Research Director' 'Laboratory Technician'
 'Manufacturing Director' 'Sales Representative' 'Manager']

MaritalStatus:
['Married' 'Single' 'Divorced']

MonthlyIncome:
[131160  41890 193280 ...  37020  23980  54680]

NumCompaniesWorked:
[ 1.  0.  3.  4

> Nominaal: Department, EducationField, Gender, JobRole en Marital Status

> Ordinaal: BusinessTravel, Education en JobLevel

### employee_survey_data

In [33]:
for column in employee_survey_data.columns:                                 # Loop om de unieke waarden van de kolommen te printen
    print(f'{column}:\n{employee_survey_data[column].unique()}\n')          # Print de kolomnaam en de unieke waarden van de kolom

EmployeeID:
[   1    2    3 ... 4408 4409 4410]

EnvironmentSatisfaction:
[ 3.  2.  4.  1. nan]

JobSatisfaction:
[ 4.  2.  1.  3. nan]

WorkLifeBalance:
[ 2.  4.  1.  3. nan]



> Ordinaal: EnvironmentSatisfaction, JobSatisfaction en WorkLifeBalance

### manager_survey_data

In [34]:
for column in manager_survey_data.columns:                                  # Loop om de unieke waarden van de kolommen te printen
    print(f'{column}:\n{manager_survey_data[column].unique()}\n')           # Print de kolomnaam en de unieke waarden van de kolom

EmployeeID:
[   1    2    3 ... 4408 4409 4410]

JobInvolvement:
[3 2 1 4]

PerformanceRating:
[3 4]



> Ordinaal: JobInvolvement en PerformanceRating

## Kloktijddata prepareren

### Indexen naar kolom zetten met dezelfde naamconventie

In [35]:
# Kolomnamen aanpassen van kloktijden indexen
in_time.rename(                                     # Hernoemen van de kolomnaam
    columns={                                       # Dictionary met oude en nieuwe kolomnaam
        in_time.columns[0]: 'EmployeeID'            # Oude en nieuwe kolomnaam
        },
    inplace=True                                    # Hernoemen van kolomnaam
    )

out_time.rename(                                    # Hernoemen van de kolomnaam
    columns={                                       # Dictionary met oude en nieuwe kolomnaam
        out_time.columns[0]: 'EmployeeID'           # Oude en nieuwe kolomnaam
        },
    inplace=True                                    # Hernoemen van kolomnaam
    )

### Datatypes wijzigen naar datetime objecten

In [36]:
# Kloktijden omzetten naar datetime
for column in in_time.columns:                      # Loop over de kolommen van de in_time dataframe
    if column != 'EmployeeID':                      # Als de kolom niet 'EmployeeID' is
        in_time[column] = pd.to_datetime(           # Zet de kolom om naar datetime
            in_time[column],                        # De kolom die omgezet moet worden van de loop-variable
            format='%Y-%m-%d %H:%M:%S'              # Het format van datetime
            )

for column in out_time.columns:                     # Loop over de kolommen van de out_time dataframe
    if column != 'EmployeeID':                      # Als de kolom niet 'EmployeeID' is
        out_time[column] = pd.to_datetime(          # Zet de kolom om naar datetime
            out_time[column],                       # De kolom die omgezet moet worden van de loop-variable
            format='%Y-%m-%d %H:%M:%S'              # Het format van datetime
            )

In [37]:
in_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Columns: 262 entries, EmployeeID to 2015-12-31
dtypes: datetime64[ns](261), int64(1)
memory usage: 8.8 MB


In [38]:
out_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Columns: 262 entries, EmployeeID to 2015-12-31
dtypes: datetime64[ns](261), int64(1)
memory usage: 8.8 MB


## Overige drie CSV's prepareren en converteren naar andere datatypes

In [39]:
# Kolommen van de dataframes opslaan in een lijst voor conversie naar andere datatypes
general_data_columns = general_data.columns.tolist()
employee_survey_data_columns = employee_survey_data.columns.tolist()
manager_survey_data_columns = manager_survey_data.columns.tolist()