# Wer hat sich einen Bonus verdient?

## Datensatz importieren

In [191]:
import pandas as pd
dataset = pd.read_csv('bildungsziele_bonus.csv', sep=';')

## Aufteilung in Features and Labels

In [192]:
X = dataset.iloc[:, :-1]
y = dataset.iloc[:, -1]

In [193]:
print(X)

  Betriebliche Bildungsziele Schulische Bildungsziele Bildungsziele der ÜK  \
0                   erfuellt                 erfuellt         uebertroffen   
1                   erfuellt                 erfuellt             erfuellt   
2                   erfuellt           nicht erfuellt         uebertroffen   
3                   erfuellt                 erfuellt       nicht erfuellt   
4                   erfuellt             uebertroffen       knapp erfuellt   
5                   erfuellt             uebertroffen             erfuellt   

  Fachkompetenz Methodenkompetenz Sozialkompetenz Selbstkompetenz  \
0  uebertroffen          erfuellt        erfuellt        erfuellt   
1      erfuellt          erfuellt        erfuellt    uebertroffen   
2      erfuellt    knapp erfuellt        erfuellt  knapp erfuellt   
3      erfuellt    knapp erfuellt        erfuellt        erfuellt   
4      erfuellt    knapp erfuellt    uebertroffen        erfuellt   
5      erfuellt          erfuellt    ue

In [194]:
print(y)

0    0.8
1    0.9
2    0.2
3    0.7
4    0.4
5    0.6
Name: Bonus, dtype: float64


## Umgang mit kategorialen Daten (Bildungsziele)

In [195]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
import numpy as np
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), list(range(7)))], remainder='passthrough')
X = np.array(ct.fit_transform(X))

In [196]:
print('Matrix of features: \n' + str(X))

Matrix of features: 
[[1.   1.   0.   0.   0.   0.   0.   1.   0.   1.   1.   0.   1.   0.
  1.   0.   0.   5.   5.5  5.   4.75 5.5  5.   5.5  6.   5.75]
 [1.   1.   0.   0.   1.   0.   0.   0.   1.   0.   1.   0.   1.   0.
  0.   0.   1.   4.5  5.5  5.5  5.   5.5  5.5  6.   5.5  6.  ]
 [1.   0.   1.   0.   0.   0.   0.   1.   1.   0.   0.   1.   1.   0.
  0.   1.   0.   4.   4.5  3.5  4.5  5.   4.5  4.5  4.5  5.5 ]
 [1.   1.   0.   0.   0.   0.   1.   0.   1.   0.   0.   1.   1.   0.
  1.   0.   0.   5.   5.   5.   4.5  4.   4.5  5.   5.5  5.  ]
 [1.   0.   0.   1.   0.   1.   0.   0.   1.   0.   0.   1.   0.   1.
  1.   0.   0.   5.   4.   4.5  5.   4.5  5.   4.5  6.   4.5 ]
 [1.   0.   0.   1.   1.   0.   0.   0.   1.   0.   1.   0.   0.   1.
  1.   0.   0.   5.   5.   5.   5.   6.   5.5  5.   5.5  5.25]]


## Aufteilung in Trainings- und Testset

In [197]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

In [198]:
print(X_train)

[[1.   0.   0.   1.   0.   1.   0.   0.   1.   0.   0.   1.   0.   1.
  1.   0.   0.   5.   4.   4.5  5.   4.5  5.   4.5  6.   4.5 ]
 [1.   1.   0.   0.   0.   0.   0.   1.   0.   1.   1.   0.   1.   0.
  1.   0.   0.   5.   5.5  5.   4.75 5.5  5.   5.5  6.   5.75]
 [1.   1.   0.   0.   0.   0.   1.   0.   1.   0.   0.   1.   1.   0.
  1.   0.   0.   5.   5.   5.   4.5  4.   4.5  5.   5.5  5.  ]
 [1.   0.   0.   1.   1.   0.   0.   0.   1.   0.   1.   0.   0.   1.
  1.   0.   0.   5.   5.   5.   5.   6.   5.5  5.   5.5  5.25]]


In [199]:
print(X_test)

[[1.  0.  1.  0.  0.  0.  0.  1.  1.  0.  0.  1.  1.  0.  0.  1.  0.  4.
  4.5 3.5 4.5 5.  4.5 4.5 4.5 5.5]
 [1.  1.  0.  0.  1.  0.  0.  0.  1.  0.  1.  0.  1.  0.  0.  0.  1.  4.5
  5.5 5.5 5.  5.5 5.5 6.  5.5 6. ]]


In [200]:
print(y_train)

4    0.4
0    0.8
3    0.7
5    0.6
Name: Bonus, dtype: float64


In [201]:
print(y_test)

2    0.2
1    0.9
Name: Bonus, dtype: float64


## Feature Scaling

In [202]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
# erste ab index 7
X_train[:, 17:] = sc.fit_transform(X_train[:, 17:])
X_test[:, 17:] = sc.transform(X_test[:, 17:])

In [203]:
print(X_train)

[[ 1.          0.          0.          1.          0.          1.
   0.          0.          1.          0.          0.          1.
   0.          1.          1.          0.          0.          0.
  -1.60591014 -1.73205081  0.90453403 -0.63245553  0.         -1.41421356
   1.         -1.38675049]
 [ 1.          1.          0.          0.          0.          0.
   0.          1.          0.          1.          1.          0.
   1.          0.          1.          0.          0.          0.
   1.14707867  0.57735027 -0.30151134  0.63245553  0.          1.41421356
   1.          1.38675049]
 [ 1.          1.          0.          0.          0.          0.
   1.          0.          1.          0.          0.          1.
   1.          0.          1.          0.          0.          0.
   0.22941573  0.57735027 -1.50755672 -1.26491106 -1.41421356  0.
  -1.         -0.2773501 ]
 [ 1.          0.          0.          1.          1.          0.
   0.          0.          1.          0.    

In [204]:
print(X_test)

[[ 1.          0.          1.          0.          0.          0.
   0.          1.          1.          0.          0.          1.
   1.          0.          0.          1.          0.         -1.
  -0.6882472  -6.35085296 -1.50755672  0.         -1.41421356 -1.41421356
  -5.          0.83205029]
 [ 1.          1.          0.          0.          1.          0.
   0.          0.          1.          0.          1.          0.
   1.          0.          0.          0.          1.         -0.5
   1.14707867  2.88675135  0.90453403  0.63245553  1.41421356  2.82842712
  -1.          1.94145069]]


// TODO Scaliert wie nun weiter?