### One-Hot-Encoding: Am Beispiel der Insurance-Daten

#### 1) Daten laden

In [1]:
import pandas as pd
from math import ceil

pd.set_option('display.max_columns', 6)

data_url=r'https://github.com/tplusone/hanser_ml_zeitreihen/blob/master/Daten/insurance.csv?raw=true'
df = pd.read_csv(data_url)
df.head()

Unnamed: 0,age,sex,bmi,...,smoker,region,charges
0,19,female,27.9,...,yes,southwest,16884.924
1,18,male,33.77,...,no,southeast,1725.5523
2,28,male,33.0,...,no,southeast,4449.462
3,33,male,22.705,...,no,northwest,21984.47061
4,32,male,28.88,...,no,northwest,3866.8552


#### 2) Relevante Daten extrahieren und One-Hot-Encoder anlernen

 Hier werden nur zwei Variablen (smoker, region) One-Hot-enkodiert (vgl. Beispiel im Buch).

In [2]:
from sklearn.preprocessing import OneHotEncoder

X = df[['smoker', 'region']]

ohe = OneHotEncoder(sparse=False)
ohe.fit(X)

OneHotEncoder(categories='auto', drop=None, dtype=<class 'numpy.float64'>,
              handle_unknown='error', sparse=False)

#### 3) Prüfung, welche Kategorien anglernt wurden

In [3]:
ohe.categories_

[array(['no', 'yes'], dtype=object),
 array(['northeast', 'northwest', 'southeast', 'southwest'], dtype=object)]

#### 4) Transformation durchführen

In [4]:
X_ohe = ohe.transform(X)
X_ohe[:5]

array([[0., 1., 0., 0., 0., 1.],
       [1., 0., 0., 0., 1., 0.],
       [1., 0., 0., 0., 1., 0.],
       [1., 0., 0., 1., 0., 0.],
       [1., 0., 0., 1., 0., 0.]])

#### 5) Mit one-hot-endokodierten Daten Regression durchführen

In [5]:
from sklearn.linear_model import LinearRegression

y = df['charges'].values

model = LinearRegression()
model.fit(X_ohe, y)
intercept, coef = model.intercept_, model.coef_

print('intercept: {:.3f}'.format(intercept))
print('coef: {}'.format(coef))

intercept: 20215.137
coef: [-11782.24319275  11782.24319275    100.58769923   -220.67288774
    411.39607293   -291.31088442]


#### 6) Predictions erzeugen
Im Beispiel wird mit einem Rohdatensatz (Raucher aus dem Nordwesten) eine Schätzung durchgeführt

In [6]:
X_pred = [['yes', 'northwest']]
X_pred = ohe.transform(X_pred)
model.predict(X_pred)

array([31776.70726605])