<h2 style="text-align:center;">Regressie - Melbourne Housing Market</h2>
<div style="text-align: center;">
    <img src="https://images.pexels.com/photos/2097616/pexels-photo-2097616.jpeg?auto=compress&cs=tinysrgb&w=1260&h=750&dpr=2" width="400">
</div>
<div style="text-align: center;">
    <ul style="list-style: none; padding: 0;">
        <li>Abel van Dijk</li>
        <li>Mark Hendrikx</li>
        <li>Luuk Kessels</li>
        <li>Sem Kieboom</li>
    </ul>
</div>

<h2><b>Inhoudsopgave</b></h2>
<div style="text-align: left;">
  <ul style="list-style-type: disc; padding-left: 20px;">
    <li><a href="#section1">Introductie</a></li>
    <li><a href="#section2">Functies Inladen</a></li>
    <li><a href="#section3">Dataframe</a></li>
    <li><a href="#section4">Verkenning en Datavoorbereiding</a></li>
    <li><a href="#section5">Modelkeuze en Implementatie</a></li>
    <li><a href="#section6">Model Evaluatie</a></li>
    <li><a href="#section7">Optimalisatie en Verbeteringen</a></li>
    <li><a href="#section8">Explainable AI (XAI) Analyse</a></li>
    <li><a href="#section9">Conclusie</a></li>
    <li><a href="#section10">Reflectie</a></li>
  </ul>
</div>


<div id=section1>
<h2><b>Introductie</b></h2>

Dit notebook is geschreven met het doel om Machine Learning toe te passen op twee datasets die betrekking hebben op de huizenmarkt in Melbourne.
Hierbij wordt verwacht dat er aandacht wordt besteed aan het uitvoeren van de regressie-methode, in dat er verschillende relaties worden onderzocht en uitgelicht, om zo een voorspelling te kunnen maken over de prijs van huizen gebaseerd op de verschillende beschrijvende elementen die bij een huis horen.

Dit betekend dat er bijvoorbeeld wordt gekeken naar het aantal kamers, hoe oud het huis is, hoe lang het al te koop staat, etc.

De datasets zijn de "MELBOURNE_HOUSES_PRICE_LESS" en de "Melbourne_housing_FULL", deze bevatten ieder dezelfde kolommen, maar "Melbourne_housing_FULL" bevat er wat meer.

In principe is het mogelijk dat alle informatie in "MELBOURNE_HOUSES_PRICE_LESS" ook in "Melbourne_housing_FULL" staat, dit zal dan ook allereest gecontroleerd worden in de Exploratory Data Analyse.

Wanneer de data is onderzocht kunnen er toepassingen worden gedaan met betrekking tot Machine Learning, hiervoor gaan er ten minste twee verschillende algoritmen gebruikt worden, waarna deze worden vergeleken en uitgelicht, om zo te achterhalen welk soort algoritme het beste werkt voor de regressie in deze dataset.

<div id=section2>
<h2><b>Functies Inladen</b></h2>
Voor dit document zijn een aantal functies nodig die de mogelijkheid aanreiken om data op bepaalde manieren te transformeren. Om deze functies toe te passen moeten deze geïmplementeerd worden in de set-up.

In deze set-up worden alle functies die in dit rapport worden gebruikt aangeduid.

De set-up is als volgt:
</div>

In [17]:
import pandas as pd #dataframe data manipulatie
import matplotlib.pyplot as plt #Python Visualisatie
from IPython.display import display, HTML #Dataframe weergave gebaseerd op HTML customisatie
from IPython.display import display, Markdown #Dataframe weergave gebaseerd op Markdown
import seaborn as sns #data visualisatie
import numpy as np #array toepassingen

from sklearn.tree import DecisionTreeClassifier #Random Forest
from sklearn.metrics import accuracy_score

<div id=section3>
<h2><b>Dataframe</b></h2>
Dataframes bevatten de data die de gebruiker gaat transformeren om zo effectief te manipuleren in het rapport.

In de eerste insantie wordt het dataframe gecreëerd als de fundamentele basis van alle data transformatie die zich af gaat spelen in dit rapport.

Hieronder worden de twee relevante datasets ingeladen en geconverteerd naar een dataframe, waarna deze gebruikt kunnen worden binnenin de EDA.

Tenslotte worden er twee dataframes per dataset geüpload zodat het verschil tussen een mogelijk rommelige dataset, en de dan schoongemaakte dataset duidelijk kan worden gemaakt.
</div>

In [19]:
MelbourneLessBaseDF = pd.read_csv('MELBOURNE_HOUSE_PRICES_LESS.csv', delimiter = ',') #Dit dataframe wordt gebruikt
MelbourneLessOriginalDF = pd.read_csv('MELBOURNE_HOUSE_PRICES_LESS.csv', delimiter = ',') #Dit dataframe blijft het origineel

MelbourneFullBaseDF = pd.read_csv('Melbourne_housing_FULL.csv', delimiter = ',') #Dit dataframe wordt gebruikt
MelbourneFullOriginalDF = pd.read_csv('Melbourne_housing_FULL.csv', delimiter = ',') #Dit dataframe blijft het origineel

<div id=section4>
<h2><b>Verkenning en Datavoorbereiding</b></h2>

Een eerste stap in de verkenning van de datasets is het achterhalen van de vorm en omschrijving met het gebruik van de .shape-, en .describe functie.
Deze functie wordt gebruikt om de twee datasets te vergelijken, en ook om te achterhalen of er mogelijk al grote uitschieters aanwezig zijn.

In [18]:
display(Markdown(f"## MelbournePricesBaseDF (Shape: {MelbournePricesBaseDF.shape})"))
display(MelbournePricesBaseDF.describe())

display(Markdown(f"## MelbourneFullBaseDF (Shape: {MelbourneFullBaseDF.shape})"))
display(MelbourneFullBaseDF.describe())

## MelbournePricesBaseDF (Shape: (63023, 13))

Unnamed: 0,Rooms,Price,Postcode,Propertycount,Distance
count,63023.0,48433.0,63023.0,63023.0,63023.0
mean,3.110595,997898.2,3125.673897,7617.728131,12.684829
std,0.957551,593498.9,125.626877,4424.423167,7.592015
min,1.0,85000.0,3000.0,39.0,0.0
25%,3.0,620000.0,3056.0,4380.0,7.0
50%,3.0,830000.0,3107.0,6795.0,11.4
75%,4.0,1220000.0,3163.0,10412.0,16.7
max,31.0,11200000.0,3980.0,21650.0,64.1


## MelbourneFullBaseDF (Shape: (34857, 21))

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,34857.0,27247.0,34856.0,34856.0,26640.0,26631.0,26129.0,23047.0,13742.0,15551.0,26881.0,26881.0,34854.0
mean,3.031012,1050173.0,11.184929,3116.062859,3.084647,1.624798,1.728845,593.598993,160.2564,1965.289885,-37.810634,145.001851,7572.888306
std,0.969933,641467.1,6.788892,109.023903,0.98069,0.724212,1.010771,3398.841946,401.26706,37.328178,0.090279,0.120169,4428.090313
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.19043,144.42379,83.0
25%,2.0,635000.0,6.4,3051.0,2.0,1.0,1.0,224.0,102.0,1940.0,-37.86295,144.9335,4385.0
50%,3.0,870000.0,10.3,3103.0,3.0,2.0,2.0,521.0,136.0,1970.0,-37.8076,145.0078,6763.0
75%,4.0,1295000.0,14.0,3156.0,4.0,2.0,2.0,670.0,188.0,2000.0,-37.7541,145.0719,10412.0
max,16.0,11200000.0,48.1,3978.0,30.0,12.0,26.0,433014.0,44515.0,2106.0,-37.3902,145.52635,21650.0


De uitlichting van de vorm geeft bijzondere resulaten:

- 