# Oefening: Pijpleidingen

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Lees de gegevens
X_full = pd.read_csv('../data/train.csv', index_col='Id')
X_test_full = pd.read_csv('../data/test.csv', index_col='Id')

# Verwijder rijen met ontbrekend doel, scheid doel van voorspellers
X_full.dropna(axis=0, subset=['SalePrice'], inplace=True)
y = X_full.SalePrice
X_full.drop(['SalePrice'], axis=1, inplace=True)

# Breek validatieset af van trainingsgegevens
X_train_full, X_test_full, y_train, y_test = train_test_split(
X_full, y, train_size=0.8, test_size=0.2,random_state=0)

# "Kardinaliteit" betekent het aantal unieke waarden in een kolom
# Selecteer categorische kolommen met relatief lage kardinaliteit (handig maar willekeurig)
categorisch_kolommen = [cname for cname in X_train_full.columns
if X_train_full[cname].nunique() < 10 and X_train_full[cname].dtype == "object"]

# Selecteer numerieke kolommen
numeriche_kolommen = [cname for cname in X_train_full.columns
if X_train_full[cname].dtype in ['int64', 'float64']]

# Behoud alleen geselecteerde kolommen
mijn_kolommen = categorisch_kolommen + numeriche_kolommen
X_train = X_train_full[mijn_kolommen].copy()
X_test = X_test_full[mijn_kolommen].copy()

In [None]:
X_train.head()

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Preprocessing voor numerieke gegevens
numerische_transformator = SimpleImputer(strategy='constant')

# Preprocessing voor categorische gegevens
categorisch_transformator = Pipeline(steps=[
  ('imputer', SimpleImputer(strategy='most_frequent')),
  ('onehot', OneHotEncoder(handle_unknown='ignore'))
  ])

# Bundle preprocessing voor numerieke en categorische gegevens
preprocessor = ColumnTransformer(
transformers=[
  ('num', numerische_transformator, numeriche_kolommen),
  ('cat', categorisch_transformator, categorisch_kolommen)
  ])

# Definieer model
model = RandomForestRegressor(n_estimators=100, random_state=0)

# Bundel preprocessing en modellering van code in een pijplijn
clf = Pipeline(steps=[('preprocessor', preprocessor),('model', model)])

# Preprocessing van trainingsgegevens, fit model
clf.fit(X_train, y_train)

# Preprocessing van validatiegegevens, voorspellingen ophalen
preds = clf.predict(X_test)

print('MAE:', mean_absolute_error(y_test, preds))

## Stap 1: Verbeter de prestaties

### Deel A

In [None]:
# Preprocessing voor numerieke data
numerical_transformer = XXXXX # Uw code hier

# Preprocessing voor categorische data
categorical_transformer = XXXXX # Uw code hier

# Bundel preprocessing voor numerieke en categorische data
preprocessor = ColumnTransformer(
transformers=[
    ('num', numerical_transformer, numerical_cols),
    ('cat', categorical_transformer, categorical_cols)
])

# Definieer model
model = XXXXX # Uw code hier

### Deel B

In [None]:
# Bundel preprocessing en modellering van code in een pijplijn
mijn_pijpleiding = Pipeline(steps=[('preprocessor', preprocessor),('model', model)])

# Preprocessing van trainingsgegevens, fit model
mijn_pijpleiding.fit(X_train, y_train)

# Preprocessing van validatiegegevens, voorspellingen ophalen
preds = mijn_pijpleiding.predict(X_test)

# Evalueer het model
score = mean_absolute_error(y_test, preds)
print('MAE:', score)

## Stap 2: Genereer testvoorspellingen

In [None]:
# Preprocessing van testgegevens, fit model
preds_test = XXXXX # Uw code hier