# Business Understanding
De organisatie wilt graag inzicht verkrijgen in hun werknemersverloop (attrition). Er zijn meerdere databronnen beschikbaar gesteld in de vorm van CSV-bestanden. De variabelen uit deze bestanden zullen worden geanalyseerd, waaruit een aantal relevante variabelen geselecteerd worden voor een voorspellend model. Voor de scope en richting van het onderzoek zijn onderstaand een tweetal doelstellingen beschreven.

* Inzicht krijgen in welke variabelen een relatie met elkaar hebben
* Een voorspellend model bouwen om werknemersverloop te minderen

Tegelijkertijd zal het onderzoek een succes zijn als:

* De organisatie preventief kan handelen om werknemersverloop te minderen

In [123]:
# Importeren van de benodigde libraries
import pandas as pd

# Data Understanding
De aangeleverde data komen uit twee verschillende bronnen; vanuit HR (bestaand) en enquêtes (additioneel). Tevens is een data dictionary meegeleverd, zodat uniforme definities gehanteerd worden. Onderstaand een beknopte opsomming van de data.

* Standaard HR-data waarin belangrijke werknemers data (anoniem) staat
* Tweemaal enquête data; één van de werknemers en één van de managers
* Kloktijden met de start en eind timestamps van de shifts

## Definities van de variabelen

| Variabel                 | Omschrijving                                       | Niveau |
| ------------------------ | -------------------------------------------------- | ------ |
| Age                      | Leeftijd werknemer                                 |        |
| Attrition                | De werknemer is vorig jaar weggegaan               |        |
| BusinessTravel           | Frequentie van zakelijke reizen afgelopen jaar     |        |
| Department               | Afdeling binnen het bedrijf                        |        |
| DistanceFromHome         | Afstand vanaf huis in kilometers (km's)            |        |
| Education                | Educatie niveau                                    | 1. Below college <br> 2. College <br> 3. Bachelor <br> 4. Master <br> 5. Doctor |
| EducationField           | Educatie vakgebied                                 |        |
| EmployeeCount            | Aantal werknemers                                  |        |
| EmployeeNumber           | Unieke werknemersnummer (ID)                       |        |
| EnvironmentSatisfaction  | Tevredenheidsniveau van de werkomgeving            | 1. Low <br> 2. Medium <br> 3. High <br> 4. Very High |
| Gender                   | Geslacht                                           |        |
| JobInvolvement           | Niveau van aansluiting tussen werknemer en functie | 1. Low <br> 2. Medium <br> 3. High <br> 4. Very High |
| JobLevel                 | Niveau van functie binnen de organisatie           |        |
| JobRole                  | Naam functie                                       |        |
| JobSatisfaction          | Tevredenheidsniveau over werk                      | 1. Low <br> 2. Medium <br> 3. High <br> 4. Very High |
| MaritalStatus            | Burgelijke staat                                   |        |
| MonthlyIncome            | Maandelijk inkomen in roepies (valuta India)       |        |
| NumCompaniesWorked       | Totaal aantal werkgevers van werknemer             |        |
| Over18                   | Of de werknemer boven de 18 is of niet             |        |
| PercentSalaryHike        | Procentuele salarisverhoging afgelopen jaar        |        |
| PerformanceRating        | Resultaatbeoordeling afgelopen jaar                | 1. Low <br> 2. Good <br> 3. Excellent <br> 4. Outstanding |
| RelationshipSatisfaction | Tevredenheidsniveau van relatie                    | 1. Low <br> 2. Medium <br> 3. High <br> 4. Very High |
| StandardHours            | Standaard werkuren van werknemer                   |        |
| StockOptionLevel         | Aandelenniveau van werknemer                       |        |
| TotalWorkingYears        | Totaal aantal werkjaren van werknemer              |        |
| TrainingTimesLastYear    | Aantal training voor werknemer afgelopen jaar      |        |
| WorkLifeBalance          | Niveau van werk/privé balans                       | 1. Bad <br> 2. Good <br> 3. Better <br> 4. Best |
| YearsAtCompany           | Totaal aantal werkjaren bij de organisatie         |        |
| YearsSinceLastPromotion  | Aantal jaren sinds laatste promotie                |        |
| YearsWithCurrentManager  | Aantal jaar onder huidige manager                  |        |

In [122]:
# Data inlezen
employee_survey_data = pd.read_csv('employee_survey_data.csv')
general_data = pd.read_csv('general_data.csv')
manager_survey_data = pd.read_csv('manager_survey_data.csv')
in_time = pd.read_csv('in_time.csv')
out_time = pd.read_csv('out_time.csv')

## Exploreren van de data

Het exploreren van de data is per set onder elkaar gedaan om verwarring te verkomen.

### general_data

In [128]:
general_data.head()

Unnamed: 0,Age,Attrition,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeID,Gender,...,NumCompaniesWorked,Over18,PercentSalaryHike,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager
0,51,No,Travel_Rarely,Sales,6,2,Life Sciences,1,1,Female,...,1.0,Y,11,8,0,1.0,6,1,0,0
1,31,Yes,Travel_Frequently,Research & Development,10,1,Life Sciences,1,2,Female,...,0.0,Y,23,8,1,6.0,3,5,1,4
2,32,No,Travel_Frequently,Research & Development,17,4,Other,1,3,Male,...,1.0,Y,15,8,3,5.0,2,5,0,3
3,38,No,Non-Travel,Research & Development,2,5,Life Sciences,1,4,Male,...,3.0,Y,11,8,3,13.0,5,8,7,5
4,32,No,Travel_Rarely,Research & Development,10,1,Medical,1,5,Male,...,4.0,Y,12,8,2,9.0,2,6,0,4


> De eerste vijf rijen van general_data

In [129]:
general_data.shape

(4410, 24)

> Omvang van general_data; 24 kolommen en 4410 rijen

In [130]:
general_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Age                      4410 non-null   int64  
 1   Attrition                4410 non-null   object 
 2   BusinessTravel           4410 non-null   object 
 3   Department               4410 non-null   object 
 4   DistanceFromHome         4410 non-null   int64  
 5   Education                4410 non-null   int64  
 6   EducationField           4410 non-null   object 
 7   EmployeeCount            4410 non-null   int64  
 8   EmployeeID               4410 non-null   int64  
 9   Gender                   4410 non-null   object 
 10  JobLevel                 4410 non-null   int64  
 11  JobRole                  4410 non-null   object 
 12  MaritalStatus            4410 non-null   object 
 13  MonthlyIncome            4410 non-null   int64  
 14  NumCompaniesWorked      

> Hoeveelheid non-null waarden en de data types van general_data

In [131]:
general_data.describe()

Unnamed: 0,Age,DistanceFromHome,Education,EmployeeCount,EmployeeID,JobLevel,MonthlyIncome,NumCompaniesWorked,PercentSalaryHike,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager
count,4410.0,4410.0,4410.0,4410.0,4410.0,4410.0,4410.0,4391.0,4410.0,4410.0,4410.0,4401.0,4410.0,4410.0,4410.0,4410.0
mean,36.92381,9.192517,2.912925,1.0,2205.5,2.063946,65029.312925,2.69483,15.209524,8.0,0.793878,11.279936,2.79932,7.008163,2.187755,4.123129
std,9.133301,8.105026,1.023933,0.0,1273.201673,1.106689,47068.888559,2.498887,3.659108,0.0,0.851883,7.782222,1.288978,6.125135,3.221699,3.567327
min,18.0,1.0,1.0,1.0,1.0,1.0,10090.0,0.0,11.0,8.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,30.0,2.0,2.0,1.0,1103.25,1.0,29110.0,1.0,12.0,8.0,0.0,6.0,2.0,3.0,0.0,2.0
50%,36.0,7.0,3.0,1.0,2205.5,2.0,49190.0,2.0,14.0,8.0,1.0,10.0,3.0,5.0,1.0,3.0
75%,43.0,14.0,4.0,1.0,3307.75,3.0,83800.0,4.0,18.0,8.0,1.0,15.0,3.0,9.0,3.0,7.0
max,60.0,29.0,5.0,1.0,4410.0,5.0,199990.0,9.0,25.0,8.0,3.0,40.0,6.0,40.0,15.0,17.0


> Beschrijvende statistiek van general_data

In [134]:
general_data.isna().sum()

Age                         0
Attrition                   0
BusinessTravel              0
Department                  0
DistanceFromHome            0
Education                   0
EducationField              0
EmployeeCount               0
EmployeeID                  0
Gender                      0
JobLevel                    0
JobRole                     0
MaritalStatus               0
MonthlyIncome               0
NumCompaniesWorked         19
Over18                      0
PercentSalaryHike           0
StandardHours               0
StockOptionLevel            0
TotalWorkingYears           9
TrainingTimesLastYear       0
YearsAtCompany              0
YearsSinceLastPromotion     0
YearsWithCurrManager        0
dtype: int64

> Er missen waarden in twee kolommen uit general_data: NumCompaniesWorked en TotalWorkingYears (data is vrij compleet)

In [135]:
general_data.duplicated().sum()

0

> Geen sprake van redundante data in general_data

### employee_survey_data

In [136]:
employee_survey_data.head()

Unnamed: 0,EmployeeID,EnvironmentSatisfaction,JobSatisfaction,WorkLifeBalance
0,1,3.0,4.0,2.0
1,2,3.0,2.0,4.0
2,3,2.0,2.0,1.0
3,4,4.0,4.0,3.0
4,5,4.0,1.0,3.0


> De eerste vijf rijen van employee_survey_data

## Belangrijke overwegingen

1. De kloktijddata bevatten de unieke werknemers-ID als index, omzetten naar kolom voor integratie
2. Kloktijden omzetten naar datetime-objecten voor analyse
3. Andere data omzetten naar andere data types om memory usage te verlagen, performance te verhogen en analyses voor te bereiden

In [111]:
in_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Columns: 262 entries, EmployeeID to 2015-12-31
dtypes: float64(12), int64(1), object(249)
memory usage: 8.8+ MB


In [112]:
out_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Columns: 262 entries, EmployeeID to 2015-12-31
dtypes: float64(12), int64(1), object(249)
memory usage: 8.8+ MB


# Data Preparation

## Kloktijddata prepareren

### Indexen naar kolom zetten met dezelfde naamconventie

In [None]:
# Kolomnamen aanpassen van kloktijden indexen
in_time.rename(                                     # Hernoemen van de kolomnaam
    columns={                                       # Dictionary met oude en nieuwe kolomnaam
        in_time.columns[0]: 'EmployeeID'            # Oude en nieuwe kolomnaam
        },
    inplace=True                                    # Hernoemen van kolomnaam
    )

out_time.rename(                                    # Hernoemen van de kolomnaam
    columns={                                       # Dictionary met oude en nieuwe kolomnaam
        out_time.columns[0]: 'EmployeeID'           # Oude en nieuwe kolomnaam
        },
    inplace=True                                    # Hernoemen van kolomnaam
    )

### Datatypes wijzigen naar datetime objecten

In [117]:
# Kloktijden omzetten naar datetime
for column in in_time.columns:                      # Loop over de kolommen van de in_time dataframe
    if column != 'EmployeeID':                      # Als de kolom niet 'EmployeeID' is
        in_time[column] = pd.to_datetime(           # Zet de kolom om naar datetime
            in_time[column],                        # De kolom die omgezet moet worden van de loop-variable
            format='%Y-%m-%d %H:%M:%S'              # Het format van datetime
            )

for column in out_time.columns:                     # Loop over de kolommen van de out_time dataframe
    if column != 'EmployeeID':                      # Als de kolom niet 'EmployeeID' is
        out_time[column] = pd.to_datetime(          # Zet de kolom om naar datetime
            out_time[column],                       # De kolom die omgezet moet worden van de loop-variable
            format='%Y-%m-%d %H:%M:%S'              # Het format van datetime
            )

In [114]:
in_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Columns: 262 entries, EmployeeID to 2015-12-31
dtypes: datetime64[ns](261), int64(1)
memory usage: 8.8 MB


In [115]:
out_time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Columns: 262 entries, EmployeeID to 2015-12-31
dtypes: datetime64[ns](261), int64(1)
memory usage: 8.8 MB


## Overige drie CSV's prepareren en converteren naar andere datatypes

In [119]:
# Kolommen van de dataframes opslaan in een lijst voor conversie naar andere datatypes
general_data_columns = general_data.columns.tolist()
employee_survey_data_columns = employee_survey_data.columns.tolist()
manager_survey_data_columns = manager_survey_data.columns.tolist()