# Data Loading

Scikit learn heeft een aantal standaard datasets. Deze datasets gaan we gebruiken om te leren hoe we de data in een juiste format kunnen krijgen en daarop machine learning kunnen toepassen. Een beroemde en veelgebruikte dataset is de digits data set. Ga naar https://scikit-learn.org/stable/datasets.html voor alle beschikbaar voorbeeld datasets.

## Stap 1: laden van data

De volgende code laadt de daadwerkelijke digits dataset in. Op deze manier kun je alle beschikbare voorbeeld datasets inladen. Het importeren van numpy is nodig voor verdere data exploratie of data bewerking later in de notebook.

In [None]:
from sklearn.datasets import load_digits
import numpy as np
digits = load_digits()
digits.keys()

## Stap 2: data exploratie

We kunnen enkele data exploratie technieken toepassen om onze data wat te leren kennen. Let hier bij op dat de '.target' en '.data' attributen alleen beschikbaar zijn voor de built-in scikit-learn datasets. 

In [None]:
digits.data.shape

In [None]:
digits.data

In [None]:
digits.target.shape

In [None]:
digits.target

In [None]:
np.bincount(digits.target)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.matshow(digits.data[0].reshape(8, 8), cmap=plt.cm.Greys)

In [None]:
digits.target[0]

In [None]:
fig, axes = plt.subplots(4, 4)
for x, y, ax in zip(digits.data, digits.target, axes.ravel()):
    ax.set_title(y)
    ax.imshow(x.reshape(8, 8), cmap="gray_r")
    ax.set_xticks(())
    ax.set_yticks(())
plt.tight_layout()

**Data is altijd een numpy array (n_samples, n_features)**

## Stap 3: splitten van data

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(digits.data,
                                                    digits.target)

In [None]:
digits.data.shape

In [None]:
X_train.shape

In [None]:
X_test.shape

# Oefeningen

## Oefening 1

Laad het iris-dataset van de module ``sklearn.datasets`` met behulp van de functie ``load_iris``.
De functie retourneert een object dat lijkt op een woordenboek en dezelfde attributen heeft als ``digits``.

**Wat is het aantal klassen, kenmerken en datapunten in dit dataset?
Gebruik een scatterplot om de dataset te visualiseren.**

*Tip: Je kunt het attribuut ``DESCR`` bekijken om meer te weten te komen over de dataset.*

## Oefening 2

Normaal gesproken komt data niet zo netjes zoals scikit learn dit aanbiedt via hun library. Er is een manier om de csv van de ``iris dataset`` te verkrijgen:

```python
import sklearn.datasets
import os
iris_path = os.path.join(sklearn.datasets.__path__[0], 'data', 'iris.csv')
```

**Laad deze data via de ``pd.read_csv`` method (pandas) en vorm deze tot hetzelfde format waarin scikit learn deze 
data toont. Plaats deze dataset in een variable genaamd ``X`` en de labels in een variable genaamd ``y``**

Happy coding!