# Data understanding

Het CSV-bestand bestaat uit een viertal kolommen, elk met eigen attributten.
 - `Perdioden` is het jaartal waarin de gemiddelde huisprijs is gemeten.
 - `Regio's` is de regio waar de gegevens van de gemiddelde huisprijs bekent zijn.
 - `Gemiddelde verkoopprijs (euro)` is de hoogte van de gemiddelde huisprijs in een bepaalde regio en bepaalde periode. 

## Beschrijven van de data

Hieronder wordt de data beschreven. Dit wordt telkens door een stukje code gedaan, met comments erbij.

In [1]:
# Importeren van de benodigde packages.
import pandas as pd
import geopandas as gpd


In [2]:
# Importeren van de dataset en in een bestand zetten.
file = "../../../raw-data/Bestaande_koopwoningen__prijzen__regio_14042020_114827.csv"
perceelprijzen = pd.read_csv(file, sep=";")
perceelprijzen

Unnamed: 0,Perioden,Regio's,Gemiddelde verkoopprijs (euro)
0,1995,Arnhem,80240
1,2000,Arnhem,149386
2,2005,Arnhem,188779
3,2010,Arnhem,204498
4,2011,Arnhem,212747
...,...,...,...
151,2015,Zwolle,218349
152,2016,Zwolle,228479
153,2017,Zwolle,245803
154,2018,Zwolle,279684


In [3]:
# Beschrijvende statistieken van de data
beschrijvende_perceelprijzen = perceelprijzen.describe()
beschrijvende_perceelprijzen

Unnamed: 0,Perioden,Gemiddelde verkoopprijs (euro)
count,156.0,156.0
mean,2011.153846,207055.916667
std,6.915298,62585.033309
min,1995.0,56599.0
25%,2010.0,173257.0
50%,2013.0,210899.0
75%,2016.0,243404.5
max,2019.0,417583.0


In [4]:
# Beschrijvende statistieken per regio
beschrijvende_periode_perceelprijzen = perceelprijzen.groupby(["Perioden"]).describe()
beschrijvende_periode_perceelprijzen

Unnamed: 0_level_0,Gemiddelde verkoopprijs (euro),Gemiddelde verkoopprijs (euro),Gemiddelde verkoopprijs (euro),Gemiddelde verkoopprijs (euro),Gemiddelde verkoopprijs (euro),Gemiddelde verkoopprijs (euro),Gemiddelde verkoopprijs (euro),Gemiddelde verkoopprijs (euro)
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Perioden,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1995,12.0,80621.666667,12518.380576,56599.0,74773.0,81706.0,86210.0,100092.0
2000,12.0,141246.0,28655.392226,95702.0,122954.25,142377.0,162863.5,191688.0
2005,12.0,196732.166667,29852.685741,143596.0,172984.5,200842.0,215423.0,246806.0
2010,12.0,215694.666667,32937.637039,162912.0,191732.75,214542.5,233728.0,267413.0
2011,12.0,215126.083333,34843.619918,164585.0,182838.0,216817.0,234513.5,265863.0
2012,12.0,205850.5,32289.629907,154669.0,180309.0,208274.5,222828.25,252145.0
2013,12.0,196763.0,29721.601728,143835.0,170532.5,206067.0,217421.75,234272.0
2014,12.0,202427.416667,30101.460996,154238.0,174557.75,204907.0,226012.75,245391.0
2015,12.0,210905.333333,34309.736416,157690.0,182877.75,208938.5,234951.5,268197.0
2016,12.0,222474.916667,38520.046182,164437.0,190107.0,218268.0,250213.25,290367.0


In [23]:
# Info over de kolommen in perceelprijzen
info_perceel = perceelprijzen.info()
info_perceel

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 156 entries, 0 to 155
Data columns (total 3 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   Perioden                        156 non-null    int64 
 1   Regio's                         156 non-null    object
 2   Gemiddelde verkoopprijs (euro)  156 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 3.8+ KB


In [24]:
# Informatie over de kolomnamen in de Dataframe
perceelprijzen.columns

Index(['Perioden', 'Regio's', 'Gemiddelde verkoopprijs (euro)'], dtype='object')

In [25]:
# Controleren op nulwaarden in de dataframe
perceelprijzen.isna().sum()

Perioden                          0
Regio's                           0
Gemiddelde verkoopprijs (euro)    0
dtype: int64