In [None]:
# importeer de benodigde bibliotheken, dan gaat het later sneller 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from kaggle.api.kaggle_api_extended import KaggleApi
import os
import zipfile
from pathlib import Path

from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from catboost import CatBoostRegressor
from tqdm import tqdm_notebook, tqdm

import random

# interactieve modus inschakelen en output verbreden
%matplotlib inline
pd.set_option('display.width', 800)

# remove future warnings
import warnings
warnings.simplefilter('ignore')
warnings.filterwarnings("ignore")

# We egbruiken steeds deze seed voor reproduceerbaarheid
seed = 42

# path settings
p = Path()
download_path = p / 'data'
output_path = p / 'output'

# Kaggle settings
api = KaggleApi()
api.authenticate()  

In [None]:
# Overzicht files en folders
def print_files_folders(path=p):
    print(path)
    for dirname, _, filenames in os.walk(download_path):
        for filename in filenames:
            print(os.path.join(dirname, filename))
            if 'train.csv' in filename:
                print("hier:",os.path.join(dirname, filename))
                train_set = os.path.join(dirname, filename)
                break

def zoek_train_set(path):
    for dirname, _, filenames in os.walk(path):
        for filename in filenames:
            if 'train' in filename: 
                train_set = os.path.join(dirname, filename)
                return train_set
def zoek_test_set(path):
    for dirname, _, filenames in os.walk(path):
        for filename in filenames:
            if 'test' in filename: 
                train_set = os.path.join(dirname, filename)
                return train_set



In [None]:
# path settings
from pathlib import Path
p = Path()
download_path = p / 'data'
output_path = p / 'output'
images_path = p / 'images'

# Create the output directory if it does not exist
if not os.path.exists(output_path):
		os.makedirs(output_path)
# Create the images directory if it does not exist
if not images_path.exists():
	images_path.mkdir(parents=True, exist_ok=True)

# Functie om de output van de gemaakte plots te bewaren
def save_fig(fig_name, tight_layout=True, fig_extension="png", resolution=300):
    path = images_path / f"{fig_name}.{fig_extension}"
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# Lees het bestand in
train_set = 'data/train.csv'
train_raw = pd.read_csv(train_set, index_col='ID') # hier gebruiken we de ID-kolom als index !!
test = pd.read_csv('data/test.csv')
sample_submission = pd.read_csv('data/sample_submission.csv')
# Vanaf hier werken we verder met 'data' als de trainingset
# train_test_split wordt dan X_train en X_valid
data = train_raw.copy()

Data cleaning en preprocessing 

# Profiling
Om een eerste indruk te krijgen over de dataset, maken we gebruik van een profiler.   
In het geëxporteerde bestand /output/profiler.html krijg je hierna een mooi overzicht van alle data waaruit deze dataset is opgebouwd.   
 

In [None]:
##########################
# PROFILER HTML DOCUMENT #
##########################

from ydata_profiling import ProfileReport
import os
import webbrowser

# controleer of er al een rapport is
profiler_file = 'profiler_3_PL.html'
profiler_path = os.path.abspath(os.path.join(output_path, profiler_file))
if os.path.exists(profiler_path):
	print(f"profiler betsaat al. Openen...")
else:
	# Generate the profiling report, kies een goede titel
	profile = ProfileReport(data, title="Baseline London-house-price Report", explorative=True) # explorative=True om ook de correlaties te zien



	# Save the report as an HTML file
	profile.to_file(os.path.join(output_path,profiler_file))

	# Pad naar je bestand
	profiler_path = os.path.abspath(os.path.join(output_path, profiler_file))
	print(f"profiler gemaakt: {profiler_path}")

# Open het bestand in de standaardbrowser
webbrowser.open(f"file://{profiler_path}")




In de Profiler kan je eigenlijk alles al zien.   
Hieronder enkele functies om hier een output te krijgen    


In [None]:
# we 'commenten' alles om bij een Run All niet steeds de outputs te moeten maken
""""
print(f"Eerste 5 rijen")
print(f"--------------")
print(data.head())
print(f"Info over de kolommen")
print(f"-----------------------")
print(data.info())
print(f"statistische info over de numerieke kolommen")
print("------------------------")
print(f"{data.describe(include='all')}")         #
print(f"aantal rijen en kolommen)
print(f"------------------------")
print(f"{data.shape}")              # 
print(f"kolomnamen")
print(f"------------------------")
print(f"{data.shape}")              # 
print(f"datatype van de kolommen")
print(f"------------------------")
print(f""{data.columns}")            # 
print(f"datatype van de kolommen")
print(f"------------------------")
print(f"{data.dtypes}")             # 
print(f"aantal missende waarden per kolom")
print(f"------------------------")
print(f"{data.isnull().sum()}")     # 
print(f"aantal unieke waarden per kolom")
print(f"------------------------")
print(f"{data.nunique()}")          # 

# Nog een methode is dfsummary
from summarytools import dfSummary
dfSummary(data) # geeft een mooi overzicht van de data


"""
None

### Vooraleer te starten, eerst wat opschonen

In [None]:
# Missende waarden invullen in test- en train-data en kilommen met te veel lege waarden droppen

# Functie om NaN-waarden te behandelen
# Lijst om kolommen met >50% missende waarden op te slaan
cols_to_drop = []

def fill_missing_values(df):
    for col, missing_count in df.isnull().sum().items():
        missing_ratio = missing_count / len(df)
        
        if 0 < missing_ratio <= 0.5:
            if df[col].dtype == object:  # Categorische kolommen
                df[col] = df[col].fillna(df[col].mode()[0])
            else:  # Numerieke kolommen
                df[col] = df[col].fillna(df[col].median())
        
        elif missing_ratio > 0.5: # meer dan de helft van de waarden ontbreken
            cols_to_drop.append(col)

# Kolommen met te veel missende waarden verwijderen
data = data.drop(columns=cols_to_drop)

del cols_to_drop  # Opschoonactie


# alleen uitvoeren indien nog lege waarden
if data.isnull().sum().sum() > 0:
    fill_missing_values(test)
    fill_missing_values(data)
    print(f"De lege waarden werden opgevuld en de kolommen met te veel missende waarden zijn verwijderd")
else:
    print("Er zijn geen missende waarden")

# Onnodige cols schrappen
# alleen uitvoeren indien de kolommen nog aanwezig zijn
if 'ID' in data.columns:
    data = data.drop(columns=['ID', 'country'])
    print(f"De kolommen 'ID' en 'country' zijn verwijderd")



Verwijderen van enkele kolommen

In [None]:
# indien geen kolom postcode aanwezig is, dan deze toevoegen
if 'postcode' not in data.columns and 'fullAddress' in data.columns:
    # Extracteer postcode uit adres (bijvoorbeeld 'SE5 8AB' uit 'Flat 6, 7 De Crespigny Park, London, SE5 8AB')
    data['postcode'] = data['fullAddress'].str.extract(r'(\w{1,2}\d{1,2} \d{1,2}[A-Z]{1,2})', expand=False)
# Verwijder de volledige adreskolom
if 'fullAddress' in data.columns:
    data.drop(columns='fullAddress', inplace=True)
    print(f"Full address is verwijderd en de postcode is toegevoegd.")
else:
    print("De fullAddress kolom reeds verwijderd.")

# slechts één waarde voor country, dus ook weg ermee
if 'country' in data.columns: 
    data.drop(columns='country', inplace=True)
    print(f"Country is verwijderd")


Deze is belangrijk.   
Gezien de spreiding van de 'Price' kies ik ervoor om een Log-transformatie toe te passen op deze waarden 

In [None]:
# Target-transformatie (Log-transformatie op `price`) indien niet eerder gebeurd
if data['price'].max() > 100:
    data['price'] = np.log1p(data['price'])  # log(1 + price) om log(0) te voorkomen
    print(f"Log-transformatie op 'price' uitgevoerd")
else:
    print("Log-transformatie op 'price' werd reeds uitgevoerd")


# Hier gaat het gebeuren

Stap 1: Definieer de preprocessing stappen
Label Encoding voor categorische features en StandardScaler voor numerieke features gebruiken.

Stap 2: Bouw de pipeline
We maken de pipeline voor elke modelvariant en voegen de preprocessing in de pipeline in.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, LabelEncoder, OrdinalEncoder, FunctionTransformer
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV, cross_val_score
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from scipy.stats import randint
import xgboost as xgb
from catboost import CatBoostRegressor



#  2. Splitsen in features (X) en target (y)
X = data.drop(columns=['price'])
y = data['price']

# 3. Train-test split
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=seed)

# 4. Pipeline setup
num_features = ['bathrooms', 'bedrooms', 'floorAreaSqM', 'livingRooms']  # Voorbeeld van numerieke features
cat_features=['tenure', 'propertyType', 'currentEnergyRating']


# Maak een ColumnTransformer voor de preprocessing van de data
preprocessor = ColumnTransformer([
    ('num', StandardScaler(), num_features),
    ('cat', OrdinalEncoder(), cat_features),
])

# Maak een pipeline voor Random Forest (of elk ander model)
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),  # Voeg de preprocessing stap toe
    ('feature_selection', SelectFromModel(Lasso(alpha=0.01))),  # Lasso selecteert de belangrijkste features
    ('regressor', RandomForestRegressor(n_estimators=100, 
                                        max_depth=10,
                                        min_samples_split=5,
                                        random_state=seed))  # Model
])

# 🔹 Hyperparameter distributies voor RandomizedSearchCV (breder bereik)
param_dist = {
    'regressor__n_estimators': randint(50, 300),  # Willekeurig tussen 50-300 bomen
    'regressor__max_depth': [None, 10, 20, 30],  # Verschillende dieptes
    'regressor__min_samples_split': randint(2, 20),  # Willekeurig 2-20 splits
}

# 1️⃣ Eerst snelle zoektocht met RandomizedSearchCV
random_search = RandomizedSearchCV(pipeline, param_distributions=param_dist, 
                                   n_iter=10,  # Aantal combinaties om te testen
                                   cv=3, scoring='r2', 
                                   n_jobs=-1, verbose=2, random_state=seed)

# Train het model met RandomizedSearch
random_search.fit(X_train, y_train)

# Print de beste parameters uit RandomizedSearch
print(f"\nBeste parameters na RandomizedSearch: {random_search.best_params_}\n")


# 2️⃣ Fijnere zoektocht met GridSearchCV rond de beste RandomizedSearch waarden
best_params = random_search.best_params_

# GridSearch instellen op basis van de gevonden beste waardes
param_grid = {
    'regressor__n_estimators': [best_params['regressor__n_estimators'] - 50, 
                                best_params['regressor__n_estimators'], 
                                best_params['regressor__n_estimators'] + 50],
    'regressor__max_depth': [best_params['regressor__max_depth']],
    'regressor__min_samples_split': [best_params['regressor__min_samples_split'] - 2, 
                                     best_params['regressor__min_samples_split'], 
                                     best_params['regressor__min_samples_split'] + 2]
}

# GridSearch uitvoeren
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='r2', 
                           n_jobs=-1, verbose=2)

# Train GridSearch met de fijnafstemming
grid_search.fit(X_train, y_train)

# Beste model ophalen
best_pipeline = grid_search.best_estimator_
print(f"\nBeste parameters na GridSearch: {grid_search.best_params_}\n")

# Voorspellen met het getunede model
y_pred = best_pipeline.predict(X_valid)

# Evaluatie-metrics berekenen
mae = mean_absolute_error(y_valid, y_pred)
mse = mean_squared_error(y_valid, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_valid, y_pred)

# Print de resultaten
print(f'MAE: {mae:.4f}')
print(f'MSE: {mse:.4f}')
print(f'RMSE: {rmse:.4f}')
print(f'R²: {r2:.4f}')


In [None]:
y_pred_log = best_pipeline.predict(test)
y_pred = np.round(np.expm1(y_pred_log),0).astype(int)

In [None]:
# nodig om het resultaat in te dienen
sub = sample_submission.copy()
sub['price'] = y_pred
sub.to_csv('output/submission_cbr_log.csv', index=False)
sub