# Datavisualisatie

@author: Jan Verwaeren - Arne Deloose

@course: *Machine learning: van theorie tot praktijk*

Dit notebook bevat enkele illustraties van datavisualisatie in Python. In het eerste deel worden een aantal voorbeelden gegeven. In het tweede deel staan de oefeningen die aangevuld kunnen worden.

In deze sessie wordt (beperkt) gebruikgemaakt van de visualisatiemodule `matplotlib`. Dit is een zeer populaire low-level plotting library en is de basis voor meer high-level interfaces, zoals `plotnine` of `seaborn`. De high-level libraries zijn vaak gebruiksvrindelijker dan `matplotlib` en daarom zullen we voornamelijk deze gaan gebruiken in deze sessie, en in het bijzonder `seaborn`.


## 1. Importeren van modules

In [None]:
#importeer 
import pandas as pd               # pandas voor gebruik van de dataframe datastructuur
import numpy as np                # numpy voor implementatie van homogene arrays (matrices)
import matplotlib.pyplot as plt   # low-level plotting
import seaborn as sns             # high-level plotting

## 2. Illustraties van matplotlib

Hieronder volgt een illustratie van het gebruik van matplotlib voor het maken van een scatter plot en een histogram. Voor beide wordt iris-dataset gebruikt.

In [None]:
# inlezen data
url='https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/iris.csv'

df = pd.read_csv(url, sep = ";")
df.head()

**Is er een verband tussen de lengte van de sepalen en de petalen?**

Hieronder volgt een scatter plot die illustreert dat er inderdaad een verband aanwezig is.

In [None]:
plt.scatter(x = df["sepal length"],    # variabele x-as
            y = df["petal length"],    # variabele y-as
            c = "r")                   # kleur van markers
plt.xlabel("Sepal Length")             # benoemen x- en y-as
plt.ylabel("Sepal Width")

**Bepaal de frequentieverdeling van de lengte van de sepalen**

Hieronder volgt een histogram.

In [None]:
plt.hist(df["sepal length"])
plt.xlabel("Sepal Length")

## 3. Illustraties van seaborn

Meer complexe plots dan de bovenstaande vergen al snel een aantal minder intuitieve manipulaties, wat leidt tot onoverzichtelijke broncode die bovendien moeilijker aan te passen is. Hierna gebruiken we `seaborn` als een meer high-level alternatief.

**Is er een verband tussen de lengte van de sepalen en de petalen?**

In [None]:
sns.relplot(df,
            x='sepal length',
            y='petal length')

**Bepaal de frequentieverdeling van de lengte van de sepalen**

In [None]:
sns.histplot(df,
             x='sepal length')

**Wat is de invloed van de soort op de breedte van de sepalen?**

In [None]:
sns.boxplot(df,
            x='soort',
            y='sepal length')

**Kan men op basis van de Sepal length en Sepal width de soorten onderscheiden van elkaar?**

In [None]:
sns.relplot(df,
            x='sepal length',
            y='petal length',
            hue='soort')

**Is het verband tussen sepalen en petalen hetzelfde voor de drie soorten?**

In [None]:
sns.lmplot(df,
            x='sepal width',
            y='petal width',
            col='soort')

## 4. Oefeningen

In deze oefeningensessie werken we met de `msleep`. Deze dataset bevat gegevens over het slaappatroon van 83 dieren. Hieronder wordt een deel van deze dataset getoond.

In [None]:
# inlezen data
url='https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/msleep.csv'

msleep = pd.read_csv(url, sep = ",")
msleep.head()

**1.1. Maak een histogram voor totale slaap. Gebruik 10 bins en kleur de grafiek donkerblauw
(darkblue).**

OPMERKING: veel van de code die je hieronder nodig hebt kan je kopiëren uit de bovenstaande voorbeelden. Informatie over opties die hiervoor niet besproken werden kan je eenvoudig terugvinden dmv een zoekterm die `seaborn` bevat samen met de naam van de eigenschap waarnaar je op zoek bent.

In [None]:
sns.histplot(msleep,
             ***)

**1.2. Maak een boxplot voor rem slaap per type *voor* (omnivoor, carnivoor, insectivoor, herbivoor). Kleur de boxplot donkergrijs (darkgrey).**

In [None]:
sns.boxplot(msleep,
            ***)

**1.3. Maak een scatter plot van het aantal uren remslaap en het totaal aantal uren slaap per *voor* groep. Stijgt de hoeveelheid remslaap op dezelfde manier met het totale aantal uren slaap voor elke groep?**

In [None]:
sns.relplot(msleep,
            ***)

**1.4.: EXTRA - GEBRUIK HET WWW:  De `mtcars` dataset bevat informatie over verschillende wagens.**

Enkele variabelen (van belang voor deze oefening) zijn:
- mpg: miles per gallon (verbruik aan benzine)
- cyl: het aantal cilinders
- am: manuele (1) of automatische (0) versnellingsbak

Gebruik deze informatie om de volgende plot na te maken, die voor elke combinatie van `cyl` en `carb` de gemiddelde `mpg` toont als een barplot (en optioneel alsook een foutenvlag op dit gemiddelde). 

![image](https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/mtcars_plot.png)

In [None]:
# inlezen data
url='https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/mtcars.csv'

mtcars = pd.read_csv(url, sep = ",")
mtcars.head()

In [None]:
sns.barplot(mtcars,
            ***)