# Data Exploration

In deze notebook gaan we werken met een dataset de eigenschappen van een hele reeks huizen uit Amerika bevat samen met hun verkoopprijs. 
Deze dataset kan gebruikt worden om de verkoopprijs van een huis in te schatten maar in deze notebook gaan we vooral focussen op het verkennen en bestuderen van de dataset.
De link naar deze dataset is: https://www.kaggle.com/c/house-prices-advanced-regression-techniques.
Via deze link kan je heel wat informatie vinden over welke gegevens er in deze dataset zitten.
Voor we beginnen met deze dataset te verkennen moeten we een aantal libraries inladen. 
Doe dit hieronder:

In [None]:
# import everything
import opendatasets as od
from zipfile import ZipFile
import pandas as pd
import numpy as np

# plotting
import matplotlib.pyplot as plt
import seaborn as sns

## Downloaden en inladen dataset

De eerste stap is om de dataset in te downloaden.
Aangezien we hier werken met een dataset van kaggle gaat het iets complexer zijn dan de voorgaande.
Volg [deze stappen](https://www.analyticsvidhya.com/blog/2021/04/how-to-download-kaggle-datasets-using-jupyter-notebook/) om de dataset correct te downloaden.
* Maak een account aan op Kaggle
* Maak een API - token aan (Rechtsbovenaan op het icoontje -> Account -> API -> Create New API Token
* Download dit token in de vorm van de json. Hierin staat je username en key die je meegeeft bij het downloaden

Merk op dat dit een zip gedownload heeft omdat de datset bestaat uit 4 bestanden. 
Unzip nu de dataset.
Laad daarna de train.csv file in als panda.
De informatie over de categorieke data zit in de txt-file.
De andere files moeten gebruikt worden voor de sale-price te voorspellen om te bepalen hoe goe je model werkt en zo op het leaderboard terecht te komen.
Hoeveel rijen en kolommen heeft de gecombineerde dataset? Is dit correct gedaan?

In [None]:
#download
#od.download("https://www.kaggle.com/c/house-prices-advanced-regression-techniques")

In [None]:
# unzip files

In [1]:
# load data (merk op dat SalePrice de target is waarnaar opzoek gegaan moet worden in deze dataset)
# deze kolom is niet aanwezig in de testdata

## Bestuderen dataset

### Globale informatie over de kolommen

En eerste stap om informatie over de beschikbare data te bkomen is door middel van de functie [info()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html).
Deze functie geeft een overzicht van hoeveel rijen en kolommen er in het dataframe zijn, wat voor type data de verschillende kolommen bevatten en hoeveel null-waarden er in elke kolom zitten.
Daarnaast kunnen we met [describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) meer informatie opvragen over de verdeling van de numerieke waarden per kolom.

De dataset kan in twee gesplits worden op basis van hun soort data dat ze bevatten, bijvoorbeeld Categorieke of Numerieke data.
Dit kan je doen door een gekozen dtype te selecteren of eruit te halen door middel van de functie [select_dtypes()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.select_dtypes.html?highlight=select_dtypes#pandas.DataFrame.select_dtypes). 
Een tekstuele waarde wordt in een dataframe steeds als een object dtype.
Hoeveel kolommen zijn er van elk?
Splits daarna het dataframe met de numerieke data ook nog eens in discrete of continue waarden.

### Unieke waarden

Naast het bekijken van wat voor type data we beschikbaar hebben, kan er ook gekeken worden naar hoeveel unieke waarden elke categorie bevat. 
Dit kan door voor elke categorieke kolom, een bar plot te laten tekenen met behulp van de functie [plot.bar()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.bar.html). 
Deze methode maakt gebruik van de standaard plotting tools van pandas, welke een wrapper zijn voor de functionaliteiten van de library [matplotlib](https://matplotlib.org/).
Voor het maken van ingewikkelde plots kan het zijn dat je ook zaken rechtstreeks uit die library nodig hebt.
Daarnaast bestaat er ook nog de library [seaborn](https://seaborn.pydata.org/index.html) die gebouwd is boven op matplotlib en goed geintegreerd is met pandas. 

Na het plotten van de unieke waarden van alle kolommen, kies een kolom met categorieke data uit en maak een barplot waar elke bar weergeeft hoe frequent deze waarde voorkomt, gebruik hiervoor de functie [value_counts](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.value_counts.html). 
Probeer er ook een pie chart van te maken met behulp van deze links voor [pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.pie.html) of [seaborn]()


Oefening: Maak door gebruik te maken van explode en labels en startangle argumenten de volgende figuur waarin de verdeling van de "OverallQual" kolom getoond wordt, zo goed als mogelijk na met behulp van matplotlib. 
Merk op dat deze kolom numerieke waarden (0 tot en met 10) bevat en dus niet in de categorieke data zit. De labels kunnen echter omgezet worden op basis van de waarden uit het txt-bestand. Meer informatie over het op te bouwen van een pie chart vind je [hier](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html) en de standaard kleurcombinaties vind je [hier](https://matplotlib.org/stable/tutorials/colors/colormaps.html)

![Example](example1.png)

### Statistische waarden

We hebben reeds gezien dat een heel aantal statische waarden berekend worden voor numerieke kolommen door de functie describe(), namelijk het gemiddelde en mediaan (de 50%) wordt berekend, de standaardafwijking en de variante (kwadraat van de std), minimum en maximum. Er zijn echter nog twee zaken die ontbreken, namelijk de lowerThresholdOutlier en UpperThresholdOutlier (welke berekend kunnen worden door respectievelijk het eerste of laatste kwartiel te verlagen of verhogen met 1,5 keer de interkwartielafstand). Doe dit nu en combineer het met het resultaat in een dataframe.

Maak nu op basis van dit dataframe een bar plot dat het gemiddelde, standaardafwijking, de drie kwartielen en de upper/lower threshold toont voor de kolommen LotArea en TotalBsmtSF.

Om de verdeling van een kolom met numerieke waarde te bekijken, kan er ook een histogram gemaakt worden.
Doe dit nu voor de kolommen LotArea en YearBuilt

### Verband tussen variabelen

Door de statistische waarden en distributies van verschillende kolommen te vergelijken is het moeilijk om te bepalen welke kolommen belangrijk zijn om je vraag op te lossen. 
Ook is het moeilijk om het verband tussen verschillende features te bepalen. 
In het volgende deel wordt er gefocused om dit verband te bestuderen en te bepalen. 

#### ScatterPlots

Een eerste manier is dit verband te bestuderen is door middel van scatter plots.
Dit geeft het verband tussen twee features. 
Doe dit nu voor de features GrLivArea en SalePrice en voor de features TotalBsmtSF en SalePrice.
Indien je een derde feature wil erbij betrekken kan dit doen door de markers een andere kleur/symbool/grootte te geven op basis van een derde feature. 
In sommige gevallen kan dit bruikbare data geven maar dit gaat niet altijd het geval zijn.

Oefening: We hebben reeds gezien dat de er een aantal heel grote gronden zijn verkocht. Maak nu een scatterplot van de LotArea, beperkt tot gronden kleiner dan 15000

#### Correlation matrix

Een correlatie matrix bevat de correlatie tussen alle mogelijke combinaties van twee willekeurige kolommen met numerieke waarden.
Deze kan berekend worden doormiddel van de [corr()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html) functie en getoond worden met behulp van [matshow()](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.matshow.html).
Dit geeft het volgende resultaat:

Merk op dat de correlatie op de diagonaal altijd 1 is (dit komt door de definitie van correlatie).
Als we daarnaast eens kijken naar de correlatie van de SalePrice - dan zien we dat die sterk gecontroleerd is door de Overall Quality van het huis, de grootte van het huis en de grootte van de garage. 

Oefening: Maak een bar-plot die de gemiddelde SalePrice weergeeft van elke categorie van OverallQuall. Zorg ervoor dat de labels gecorrigeerd zijn (niet de numerieke waarden maar de categorie)

Als we nu de belangrijkste features willen detecteren voor het voorspellen van de SalePrice moeten we kijken naar de kolom of rij van de SalePrice in de correlation matrix. 
We kunnen de correlatie-waarden van de SalePrice kolom afzonderlijk tonen in een bar-plot.
Dit kan ook gedaan worden voor de categorieke data, maar dan moeten wel eerst alle labels omgezet worden naar getallen (numerieke waarden).
Hiervoor kan de [OrdinalEncoder]() van sklearn gebruikt worden.

Daarnaas kan een pairplot ook veel informatie opleveren. Een pairplot is net zoals een correlation matrix een figuur waar elke combinatie van twee parameters bekeken wordt. In plaats van de correlatie te bestuderen wordt er een scatter plot gemaakt. Dit kan weergeven welk verband er is tussen deze twee parameters. Hoe beter deze plots een curve maken, hoe beter de ze elkaar gaan voorspellen/ hoe hoger de correlatie. Meer informatie hierover vind je [hier](https://seaborn.pydata.org/generated/seaborn.pairplot.html). Aangezien de diagonale de combinatie tonen van slechts 1 parameter worden hierbij de histogrammen getekend van de verschillende parameters.

### Outlier detection

We hebben reeds al aangehaald in het bovenstaande dat er redelijk wat outliers aanwezig zijn in deze dataset.
Daarvoor hebben we de upper en lower thresholds berekend voor de numerieke features.
Dit kan op de volgende manier:

Oefening: Maak een boxplot van LotFrontage om de outliers in meer detail te zien.

Oefening: In plaats van kwartielen te gebruiken, bereken het aantal outliers door te kijken naar 20% en 80% van het maximum als lower en upper threshold.