# Datavisualisatie

@author: Jan Verwaeren - Arne Deloose

@course: *Machine learning: van theorie tot praktijk*

Dit notebook bevat enkele illustraties van datavisualisatie in Python. In het eerste deel worden een aantal voorbeelden gegeven. In het tweede deel staan de oefeningen die aangevuld kunnen worden.

In deze sessie wordt (beperkt) gebruikgemaakt van de visualisatiemodule `matplotlib`. Dit is een zeer populaire low-level plotting library en is de basis voor meer high-level interfaces, zoals `plotnine` of `seaborn`. De high-level libraries zijn vaak gebruiksvrindelijker dan `matplotlib` en daarom zullen we voornamelijk deze gaan gebruiken in deze sessie, en in het bijzonder `seaborn`.


## 1. Importeren van modules

In [None]:
#importeer 
import pandas as pd               # pandas voor gebruik van de dataframe datastructuur
import numpy as np                # numpy voor implementatie van homogene arrays (matrices)
import matplotlib.pyplot as plt   # low-level plotting
import seaborn as sns             # high-level plotting

## 2. Illustraties op de tips dataset

### 2.1 matplotlib

Hieronder volgt een illustratie van het gebruik van matplotlib voor het maken van een scatter plot en een histogram. Voor beide wordt de tips dataset gebruikt.

In [None]:
# inlezen data
df_tips = sns.load_dataset('tips') #ingebouwde dataset
df_tips.head() #toon eerste rijen

**Is er een verband tussen het bedrag op de rekening en de fooi?**

Hieronder volgt een scatter plot die illustreert dat er inderdaad een verband aanwezig is.

In [None]:
plt.scatter(x = df_tips["total_bill"],    # variabele x-as
            y = df_tips["tip"],    # variabele y-as
            c = "r")                   # kleur van markers
plt.xlabel("Totale rekening")             # benoemen x- en y-as
plt.ylabel("Fooi")

**Bepaal de frequentieverdeling van de fooi**

Hieronder volgt een histogram.

In [None]:
plt.hist(df_tips["tip"])
plt.xlabel("Fooi")

### 2.2 seaborn

Meer complexe plots dan de bovenstaande vergen al snel een aantal minder intuitieve manipulaties, wat leidt tot onoverzichtelijke broncode die bovendien moeilijker aan te passen is. Hierna gebruiken we `seaborn` als een meer high-level alternatief.

**Is er een verband tussen het bedrag op de rekening en de fooi?**

Hieronder volgt een scatter plot die illustreert dat er inderdaad een verband aanwezig is. Dit is a relationele plot.

In [None]:
#basis plot
sns.relplot(data = df_tips,
            x='total_bill',
            y='tip')

Om te kijken of andere variabelen ook een invloed hebben kunnen deze op een andere aesthethic gemapped worden. Dit wordt hieronder geillustreerd.

In [None]:
sns.relplot(data = df_tips,
            x='total_bill',
            y='tip',
            col='time',
            hue='smoker',
            style='smoker',
            size='size')

**Op welke dag is de rekening het hoogst?**

Hieronder volgt een plot die deze vraag beantwoord. Dit is een categorische plot.

In [None]:
sns.catplot(df_tips,
            x='day',
            y='total_bill')

Andere variabelen toevoegen aan deze basis plot gebeurd op dezelfde manier. Het type plot kan aangepast worden via 'kind'. Hier kunnen we bijvoorbeeld voor een boxplot kiezen met kind='box'.

In [None]:
sns.catplot(df_tips,
            x='day',
            y='total_bill',
            hue='smoker',
            col='time',
            kind='box')

**Wat is de verdeling van de fooi?**

Hieronder volgt een plot die deze vraag beantwoord. Hier plotten we een distributie via distplot

In [None]:
sns.displot(df_tips,
             x='tip')

### 2.3 automatische EDA

Hieronder wordt een illustratie gegeven van een automatische EDA (ydata_profiling). Het kan zijn dat deze code wat meer tijd nodig heeft om uit te voeren.

In [None]:
#installeer package
!python -m pip install -U ydata-profiling[notebook]

In [None]:
#importeer juiste functie
from ydata_profiling import ProfileReport
#pas toe op tips
profile = ProfileReport(df_tips, title="Pandas Profiling Report")

In [None]:
#maak resultaat interactief
profile.to_widgets()

## 3. Seaborn oefeningen (iris dataset)

Hieronder worden een aantal oefeningen gegeven. Vul deze aan waar '***' staat. De oplossingen zijn beschikbaar in Visualisation_Exercise_Solution.ipynb

In [None]:
# dit blok leest de data in
url='https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/iris.csv'

df_iris = pd.read_csv(url, sep = ";")
df_iris.head()

**Is er een verband tussen de lengte van de sepalen en de petalen?**

In [None]:
sns.relplot(df_iris,
            ***)

**Bepaal de frequentieverdeling van de lengte van de sepalen**

In [None]:
sns.displot(df_iris,
            ***)

**Wat is de invloed van de soort op de breedte van de sepalen?**

In [None]:
sns.catplot(df_iris,
            ***)

**Kan men op basis van de Sepal length en Sepal width de soorten onderscheiden van elkaar?**

In [None]:
sns.relplot(df_iris,
            ***)

## 4. Extra oefeningen

Hieronder volgen een aantal extra oefeningen. 

Maak gebruik van de `msleep` dataset. Deze dataset bevat gegevens over het slaappatroon van 83 dieren. Hieronder wordt een deel van deze dataset getoond.

In [None]:
# inlezen data
url='https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/msleep.csv'

msleep = pd.read_csv(url, sep = ",")
msleep.head()

**Maak een histogram voor totale slaap. Gebruik 10 bins en kleur de grafiek donkerblauw
(darkblue).**

OPMERKING: veel van de code die je hieronder nodig hebt kan je kopiëren uit de bovenstaande voorbeelden. Informatie over opties die hiervoor niet besproken werden kan je eenvoudig terugvinden dmv een zoekterm die `seaborn` bevat samen met de naam van de eigenschap waarnaar je op zoek bent.

In [None]:
sns.displot(msleep,
            ***)

**Maak een boxplot voor rem slaap per type *voor* (omnivoor, carnivoor, insectivoor, herbivoor). Kleur de boxplot donkergrijs (darkgrey).**

In [None]:
sns.catplot(msleep,
            ***)

**Maak een scatter plot van het aantal uren remslaap en het totaal aantal uren slaap per *voor* groep. Stijgt de hoeveelheid remslaap op dezelfde manier met het totale aantal uren slaap voor elke groep?**

In [None]:
sns.relplot(msleep,
            ***)

Maak gebruik van de `mtcars` dataset. Deze dataset bevat gegevens over verschillende wagens.

Enkele variabelen (van belang voor deze oefening) zijn:
- mpg: miles per gallon (verbruik aan benzine)
- cyl: het aantal cilinders
- am: manuele (1) of automatische (0) versnellingsbak

Gebruik deze informatie om de volgende plot na te maken, die voor elke combinatie van `cyl` en `carb` de gemiddelde `mpg` toont als een barplot (en optioneel alsook een foutenvlag op dit gemiddelde). 

![image](https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/mtcars_plot.png)

In [None]:
# inlezen data
url='https://raw.githubusercontent.com/jverwaer/ugain_machine_learning/main/Data/mtcars.csv'

mtcars = pd.read_csv(url, sep = ",")
mtcars.head()

In [None]:
fig = sns.catplot(mtcars,
                  ***)