# Oefening: Categorische variabelen

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Lees de gegevens
X = pd.read_csv('../data/train.csv', index_col='Id')
X_test = pd.read_csv('../data/test.csv', index_col='Id')

# Verwijder rijen met ontbrekend doel, scheid doel van voorspellers
X.dropna(axis=0, subset=['SalePrice'], inplace=True)
y = X.SalePrice
X.drop(['SalePrice'], axis=1, inplace=True)

# Om het simpel te houden, verwijderen we kolommen met ontbrekende waarden
kolommen_met_onbrekende_gegevens = [kol for kol in X.columns if X[kol].isnull().any()]
X.drop(kolommen_met_onbrekende_gegevens, axis=1, inplace=True)
X_test.drop(kolommen_met_onbrekende_gegevens, axis=1, inplace=True)

# Validatieset afbreken van trainingsgegevens
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

In [None]:
X_train.XXXXX

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error


# function for comparing different approaches
def score_dataset(X_train, X_test, y_train, y_test):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_test)
    return mean_absolute_error(y_test, preds)

## Stap 1: Kolommen met categorische gegevens verwijderen

In [None]:
# Vul de onderstaande regels in: verwijder kolommen in trainings- en testgegevens
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_test = X_test.select_dtypes(exclude=['object'])

print("MAE van stap 1 (categorische variabelen verwijderen):")
print(score_dataset(drop_X_train, drop_X_test, y_train, y_test))

## Stap 2: Ordinale codering

In [None]:
print("Unieke waarden in kolom 'Condition2' in trainingsgegevens:", X_train['Condition2'].unique())
print("\nUnieke waarden in kolom 'Condition2' in validatiegegevens:", X_test['Condition2'].unique())

### Deel A

In [None]:
# Categorische kolommen in de trainingsgegevens
object_kolommen = [kol for kol in X_train.columns if X_train[kol].dtype == "object"]

# Kolommen die veilig ordinaal gecodeerd kunnen worden
goede_label_kolommen = [kol for kol in object_kolommen if set(X_test[kol]).issubset(set(X_train[kol]))]

# Problematische kolommen die uit de dataset worden verwijderd
slechte_label_kolommen = list(set(object_kolommen)-set(goede_label_kolommen))

print('Categorische kolommen die ordinaal gecodeerd worden:', goede_label_kolommen)
print('\nCategorische kolommen die uit de dataset worden verwijderd:', slechte_label_kolommen)

### Deel B

In [None]:
from sklearn.preprocessing import OrdinalEncoder

# Verwijder categorische kolommen die niet worden gecodeerd
label_X_train = XXXXX
label_X_test = XXXXX

# Pas ordinale encoder toe
____ # Uw code hier

In [None]:
print("MAE van stap 2 (Ordinal Encoding):")
print(score_dataset(label_X_train, label_X_test, y_train, y_test))

## Stap 3: Kardinaliteit onderzoeken

In [None]:
# Aantal unieke vermeldingen in elke kolom ophalen met categorische gegevens
unike_objecten = list(map(lambda kol: X_train[kol].nunique(), object_kolommen))
d = dict(zip(object_kolommen, unike_objecten))

# Aantal unieke vermeldingen per kolom afdrukken, in oplopende volgorde
sorted(d.items(), key=lambda x: x[1])

### Deel A

In [None]:
# Vul de onderstaande regel in: Hoeveel categorische variabelen in de trainingsgegevens
# hebben een kardinaliteit groter dan 10?
grote_kardinaliteit_kolommen = XXXXX

# Vul de onderstaande regel in: Hoeveel kolommen zijn nodig om de variabele
# 'Neighborhood' in de trainingsgegevens one-hot te coderen?
nummer_kolommen_neighborhood = XXXXX

### Deel B

In [None]:
# Vul de onderstaande regel in: Hoeveel items worden toegevoegd aan de dataset door
# de kolom te vervangen door een one-hot-codering?
OH_entries_added = XXXXX

# Vul de onderstaande regel in: Hoeveel items worden toegevoegd aan de dataset door
# de kolom te vervangen door een ordinale codering?
label_entries_added = XXXXX

In [None]:
# Kolommen die one-hot gecodeerd worden
kleine_kardinaliteit_kolommen = [kol for kol in object_kolommen if X_train[kol].nunique() < 10]

# Kolommen die uit de dataset worden verwijderd
grote_kardinaliteit_kolommen = list(set(object_kolommen)-set(kleine_kardinaliteit_kolommen))

print('Categorische kolommen die one-hot gecodeerd worden:', kleine_kardinaliteit_kolommen)
print('\nCategorische kolommen die uit de dataset worden verwijderd:', grote_kardinaliteit_kolommen)

## Stap 4: One-hot-codering

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Gebruik zoveel regels code als u nodig hebt!
# Pas one-hot encoder toe op elke kolom met categorische gegevens
OH_encoder = _____
OH_cols_train = _____
OH_cols_test = _____

# One-hot encoding verwijderd index; zet het terug
OH_cols_train.index = _____
OH_cols_test.index = _____

# Verwijder categorische kolommen (zal vervangen worden door one-hot encoding)
num_X_train = _____
num_X_test = _____

# Voeg one-hot gecodeerde kolommen toe aan numerieke features
OH_X_train = _____
OH_X_test = _____

# Zorg ervoor dat alle kolommen een stringtype hebben
OH_X_train.columns = _____
OH_X_test.columns = _____

print("MAE van benadering 3 (One-Hot Encoding):")
print(score_dataset(OH_X_train, OH_X_test, y_train, y_test))