# Data mining

De notebook hieronder geeft een voorbeeld van twee technieken om data te downloaden van het internet. De eerste techniek is om met behulp van de opendatasets package een dataset te downloaden van kaggle.
Bij de tweede techniek wordt er een excel-dataset gedownload van de statbel-site van de belgische overheid.

## Dataset van Kaggle

Een handige manier om data te downloaden van kaggle is door gebruik te maken van de kagglehub package. Deze is reeds geinstalleerd maar verwacht wel een api-key om automatisch datasets te downloaden. Hiervoor moet je onderstaande stappen volgen:

Om toegang te krijgen tot de dataset heb je echter een kaggle-username en api-key nodig. Om dit te verkijgen moet je de volgende stappen uitvoeren:
* Ga naar https://www.kaggle.com/settings en login
* Scroll naar beneden tot de sectie API
* Klik op create new token
* Dan krijg je een json met je username en api-key in
* Deze json plaats je in de directory van je notebook(s). Dan worden je credentials automatisch gebruikt.

In [8]:
# importeer packages
import kagglehub
import pandas as pd

# link naar iris dataset: https://www.kaggle.com/datasets/uciml/iris
# gebruik het stukje achter de datasets/
path = kagglehub.dataset_download("uciml/iris") # return waarde = path waar het opgeslagen is

# inlezen van de datset
iris_df =  pd.read_csv(f"{path}/Iris.csv") # Iris.csv is de bestandsnaam (zie kaggle site)

# toon een aantal rijen
iris_df.head()
iris_df.head(10)
iris_df.tail(10)

# dataframe zoals een sql tabel
# series zoals een kolom
iris_df.Species
iris_df['Species'] #indien er spaties of andere symbolen in de kolomnaam aanwezig is

# indexering
iris_df.loc[:, ["Id", 'Species']] # indexeer op basis van index/kolomnaam
iris_df.iloc[10:26, :3] # indexeer op basis van de index van de index/kolom



Unnamed: 0,Id,SepalLengthCm,SepalWidthCm
10,11,5.4,3.7
11,12,4.8,3.4
12,13,4.8,3.0
13,14,4.3,3.0
14,15,5.8,4.0
15,16,5.7,4.4
16,17,5.4,3.9
17,18,5.1,3.5
18,19,5.7,3.8
19,20,5.1,3.8


## Data van de Belgische overheid

Een tweede techniek die we gaan toelichten is om data te downloaden van andere bronnen, bijvoorbeeld van de Belgische overheid. Dit houdt in dat we eerst gaan zoeken naar een goede dataset via de statbel-site die je [hier](https://statbel.fgov.be/en) kan vinden. Als test gaan we een [dataset](https://statbel.fgov.be/en/open-data/fiscal-statistics-income) gebruiken over de inkomsten van personen. 

**Let op:** om te werken met excel files heb je de openpyxl package nodig maar deze is reeds geinstalleerd in deze docker container.

In [9]:
# Downloading an Excel file from Statbel
statbel_url = 'https://statbel.fgov.be/sites/default/files/files/opendata/arbeid/TF_PSNL_INC_TAX_MUNTY.xlsx'

# Using pandas to directly download and read the Excel file
statbel_df = pd.read_excel(statbel_url)

# Display the first few rows of the dataset
statbel_df.head()

Unnamed: 0,CD_YEAR,CD_MUNTY_REFNIS,MS_NBR_NON_ZERO_INC,MS_NBR_ZERO_INC,MS_TOT_NET_TAXABLE_INC,MS_TOT_NET_INC,MS_NBR_TOT_NET_INC,MS_REAL_ESTATE_NET_INC,MS_NBR_REAL_ESTATE_NET_INC,MS_TOT_NET_MOV_ASS_INC,...,CD_PROV_REFNIS,TX_PROV_DESCR_NL,TX_PROV_DESCR_FR,TX_PROV_DESCR_EN,TX_PROV_DESCR_DE,CD_RGN_REFNIS,TX_RGN_DESCR_NL,TX_RGN_DESCR_FR,TX_RGN_DESCR_EN,TX_RGN_DESCR_DE
0,2005,11001,8065,381,260615500.0,263021900.0,8065,2857128.46,815,614863.85,...,10000.0,Provincie Antwerpen,Province d’Anvers,Province of Antwerpen,Provinz Antwerpen,2000,Vlaams Gewest,Région flamande,Flanders region,Flämische Region
1,2006,11001,8155,261,267383500.0,270527000.0,8155,2945477.61,830,300368.82,...,10000.0,Provincie Antwerpen,Province d’Anvers,Province of Antwerpen,Provinz Antwerpen,2000,Vlaams Gewest,Région flamande,Flanders region,Flämische Region
2,2007,11001,8153,266,279781800.0,283445900.0,8153,2954362.27,822,323008.45,...,10000.0,Provincie Antwerpen,Province d’Anvers,Province of Antwerpen,Provinz Antwerpen,2000,Vlaams Gewest,Région flamande,Flanders region,Flämische Region
3,2008,11001,8285,428,285969500.0,290370600.0,8285,2996274.05,814,438376.6,...,10000.0,Provincie Antwerpen,Province d’Anvers,Province of Antwerpen,Provinz Antwerpen,2000,Vlaams Gewest,Région flamande,Flanders region,Flämische Region
4,2009,11001,8236,530,294151200.0,299126100.0,8236,2990552.63,808,1625597.45,...,10000.0,Provincie Antwerpen,Province d’Anvers,Province of Antwerpen,Provinz Antwerpen,2000,Vlaams Gewest,Région flamande,Flanders region,Flämische Region


In [None]:
# uitvoeren cellen: shift + enter
# je kan er ook nieuwe aanmaken, a is erboven of b voor eronder
# je kan een cell knippen en plakken met x en v

In [10]:
# om een cell te debuggen, kan je ook een cell splitsen met ctrl + shift + -