# Kodierung kategorischer Merkmale

Oft werden Merkmale nicht als kontinuierliche Werte angegeben, sondern kategorisch.   
Zum Beispiel das Geschlecht einer Person mit männlich, weiblich, etc.

Solche Merkmale können effizient als Ganzzahlen kodiert werden.  
Zum Beispiel männlich = 0, weiblich = 1.

Eine solche ganzzahlige Darstellung kann nicht direkt mit Klassifikatoren verwendet werden, da diese kontinuierliche Eingaben erwarten und die Kategorien als geordnet interpretieren würden, was oft nicht gewünscht ist.

Eine Möglichkeit, kategorische Merkmale in Merkmale zu konvertieren, die mit Klassifikatoren verwendet werden können, ist die Verwendung einer "One-Hot-Encoding", die in einem "OneHotEncoder" implementiert ist. Dieser Schätzer transformiert jedes kategorische Merkmal mit "m" möglichen Werten in "m" binäre Merkmale.

In [1]:
import numpy as np 
import pandas as pd

### Datensatz laden

Quelle: [https://www.kaggle.com/c/titanic/data)

In [2]:
df = pd.read_csv('../datasets/titanic.csv')

## Überblick über den Datensatz

In [3]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Kodieren der Spalte "Sex" mit Werten zwischen 0 und 1

[sklearn.preprocessing.LabelEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)

In [4]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit(df['Sex'])

df['Sex_label_encoded'] = le.transform(df['Sex'])

In [5]:
df[['Sex', 'Sex_label_encoded']].head(5)

Unnamed: 0,Sex,Sex_label_encoded
0,male,1
1,female,0
2,female,0
3,female,0
4,male,1


## One-Hot Encoding

Die eingabe dieses Transformators sollte eine Matrix aus ganzen Zahlen sein, die die Werte bezeichnen, die von kategorischen (diskreten) Merkmalen übernommen werden. Die Ausgabe wird eine dünn besetzte Matrix sein, wobei jede Spalte einem möglichen Wert eines Merkmals entspricht.

[sklearn.preprocessing.OneHotEncoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder)

In [6]:
from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(dtype=np.int64)
enc.fit(df['Sex_label_encoded'].values.reshape(-1, 1))

ohe = enc.transform(df['Sex_label_encoded'].values.reshape(-1, 1)).toarray()

df['Sex_male'] = ohe[:, 0]
df['Sex_female'] = ohe[:, 1]

In [7]:
df[['Sex', 'Sex_label_encoded', 'Sex_male', 'Sex_female']].head(5)

Unnamed: 0,Sex,Sex_label_encoded,Sex_male,Sex_female
0,male,1,0,1
1,female,0,1,0
2,female,0,1,0
3,female,0,1,0
4,male,1,0,1


## Transformation mit Hilfe von pandas

Konvertieren von kategorialen Variablen in Dummy-/Indikatorvariablen

[pandas.get_dummies](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html)

In [8]:
# Get one hot encoding of columns Sex
one_hot = pd.get_dummies(df['Sex'])

# Join the encoded df
df_new = df.join(one_hot)

In [9]:
df_new[['Sex', 'male', 'female']].head(5)

Unnamed: 0,Sex,male,female
0,male,1,0
1,female,0,1
2,female,0,1
3,female,0,1
4,male,1,0
