# Data mining

De notebook hieronder geeft een voorbeeld van twee technieken om data te downloaden van het internet. De eerste techniek is om met behulp van de opendatasets package een dataset te downloaden van kaggle.
Bij de tweede techniek wordt er een excel-dataset gedownload van de statbel-site van de belgische overheid.

## Dataset van Kaggle

Een handige manier om data te downloaden van kaggle is door gebruik te maken van de kagglehub package. Deze is reeds geinstalleerd maar verwacht wel een api-key om automatisch datasets te downloaden. Hiervoor moet je onderstaande stappen volgen:

Om toegang te krijgen tot de dataset heb je echter een kaggle-username en api-key nodig. Om dit te verkijgen moet je de volgende stappen uitvoeren:
* Ga naar https://www.kaggle.com/settings en login
* Scroll naar beneden tot de sectie API
* Klik op create new token
* Dan krijg je een json met je username en api-key in
* Deze json plaats je in de directory van je notebook(s). Dan worden je credentials automatisch gebruikt.

In [1]:
# importeer de packages
import kagglehub
import pandas as pd

# link naar iris dataset is: https://www.kaggle.com/datasets/uciml/iris
# behoud het stukje achter de datasets/ en plaats het in onderstaande functie
path = kagglehub.dataset_download("uciml/iris")
print(path) # path is waar de dataset gedownload is

# dataset inlezen (df = dataframe)
iris_df = pd.read_csv(f"{path}/Iris.csv") # naam die je hier moet zetten vind je in de data-tab in de link van de dataset

iris_df # shift + enter om een cell uit te voeren

Downloading from https://www.kaggle.com/api/v1/datasets/download/uciml/iris?dataset_version_number=2...


100%|██████████| 3.60k/3.60k [00:00<00:00, 1.91MB/s]

Extracting files...
/root/.cache/kagglehub/datasets/uciml/iris/versions/2





Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


In [6]:
# met a kan je een cell boven een andere cell maken, met b eronder
# x is om een cell weg te doen en met v kan je de cell terug plakken
# ctrl + shift + - om een cell te splitsen -> kan gebruikt worden om een kleiner stukje van de cell af te splitsen om te debuggen

iris_df.head()
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [7]:
iris_df.tail()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica
149,150,5.9,3.0,5.1,1.8,Iris-virginica


## Data van de Belgische overheid

Een tweede techniek die we gaan toelichten is om data te downloaden van andere bronnen, bijvoorbeeld van de Belgische overheid. Dit houdt in dat we eerst gaan zoeken naar een goede dataset via de statbel-site die je [hier](https://statbel.fgov.be/en) kan vinden. Als test gaan we een [dataset](https://statbel.fgov.be/en/open-data/fiscal-statistics-income) gebruiken over de inkomsten van personen. 

**Let op:** om te werken met excel files heb je de openpyxl package nodig maar deze is reeds geinstalleerd in deze docker container.

In [9]:
statbel_url = 'https://statbel.fgov.be/sites/default/files/files/opendata/arbeid/TF_PSNL_INC_TAX_MUNTY.xlsx'

statbel_df = pd.read_excel(statbel_url)

statbel_df.head()
statbel_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10458 entries, 0 to 10457
Data columns (total 49 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   CD_YEAR                     10458 non-null  int64  
 1   CD_MUNTY_REFNIS             10458 non-null  int64  
 2   MS_NBR_NON_ZERO_INC         10458 non-null  int64  
 3   MS_NBR_ZERO_INC             10458 non-null  object 
 4   MS_TOT_NET_TAXABLE_INC      10458 non-null  float64
 5   MS_TOT_NET_INC              10458 non-null  float64
 6   MS_NBR_TOT_NET_INC          10458 non-null  int64  
 7   MS_REAL_ESTATE_NET_INC      10458 non-null  object 
 8   MS_NBR_REAL_ESTATE_NET_INC  10458 non-null  int64  
 9   MS_TOT_NET_MOV_ASS_INC      10458 non-null  object 
 10  MS_NBR_NET_MOV_ASS_INC      10458 non-null  int64  
 11  MS_TOT_NET_VARIOUS_INC      10458 non-null  object 
 12  MS_NBR_NET_VARIOUS_INC      10458 non-null  int64  
 13  MS_TOT_NET_PROF_INC         104