# Data Visualisation

Heel veel informatie over hoe je visualisatie kan doen met behulp van matplotlib kan je vinden op deze website: https://www.python-graph-gallery.com/.
Specifiek voor pandas vind je ook op [deze](https://pandas.pydata.org/pandas-docs/stable/visualization.html) pagina veel informatie.

In [2]:
# imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Relative to reference point

### Bar diverging

Maak deze figuur zo goed mogelijk na:

![bar diverging plot](plot1.png)


Tips:
* Plotting function hlines
* Kleuren van de balken kan je instellen met het color argument
* De axes van een plot kan je ook opvragen met de gca() functie.
* De lijnen in de plot (de grid) kan je aanpassen met de plt.grid() functie
* De kader van het assenstelsel aanpassen kan je doen door de spines van het assenstelsel aan te passen.

In [46]:
# aanmaken van data
df = pd.DataFrame({"data":np.random.random(size=20)*30+5}) # create random dataframe between 5 and 35
df.sort_values("data", inplace = True) # sorteer by value
df.reset_index(inplace=True) # reset index to ensure index not sorted
df

Unnamed: 0,index,data
0,2,6.134615
1,16,10.124225
2,18,11.086861
3,13,11.843968
4,1,12.413305
5,9,12.835951
6,7,15.429931
7,8,16.620368
8,3,18.037376
9,11,20.348056


### Bar diverging stacked

Je kan ook verschillende balken op dezelfde figuur plaatsen.
Maak nu door gebruik te maken van de barh functie onderstaande figuur zo goed mogelijk na.

![Oef2](plot2.png)

In [45]:
df = pd.DataFrame({"positive":np.random.randint(0,100, size=20),
                  "neutral": np.random.randint(0,50, size=20),
                  "negative": np.random.randint(0,50, size=20)}) # create random dataframe
df

Unnamed: 0,positive,neutral,negative
0,6,49,16
1,2,44,31
2,40,7,28
3,93,0,15
4,89,15,43
5,98,31,22
6,58,13,33
7,31,10,37
8,29,25,12
9,25,21,25


### Line Surplus Deficit Filled

Ook is het mogelijk om gebieden op te vullen met de **fill_between functie**.

Maak door gebruik te maken van bovenstaande functie, onderstaande figuur zo goed mogelijk na.

![plot3](plot3.png)

Tips: 
* subplots
* fill_between

In [47]:
df = pd.DataFrame({"x": np.linspace(0, 12, 100)})
df["sin"] = np.sin(df.x)
df["cos"] = np.cos(df.x)
df

Unnamed: 0,x,sin,cos
0,0.000000,0.000000,1.000000
1,0.121212,0.120916,0.992663
2,0.242424,0.240057,0.970759
3,0.363636,0.355675,0.934610
4,0.484848,0.466074,0.884746
...,...,...,...
95,11.515152,-0.868029,0.496513
96,11.636364,-0.801624,0.597828
97,11.757576,-0.723456,0.690371
98,11.878788,-0.634671,0.772782


## Verband tussen features

### Scatter plot

Reeds veel gedaan dus ga ik hier niet opnieuw tonen

### Line Column Plot

Nu gaan we kijken om te werken met twee assenstelsels.
Dit kan je doen door gebruik te maken van de **twinx()** functie. Zo krijg je een links en rechtse y-as die elk een aparte schaal kunnen hebben.
Maak hiervoor onderstaande figuur zo goed mogelijk na.

![plot4 - line column plot](plot4.png)

In [48]:
df = pd.DataFrame({"x": np.linspace(1, 100, 10)})
df["square"] = df.x * df.x
df["sqrt"] = np.sqrt(df.x)
df

Unnamed: 0,x,square,sqrt
0,1.0,1.0,1.0
1,12.0,144.0,3.464102
2,23.0,529.0,4.795832
3,34.0,1156.0,5.830952
4,45.0,2025.0,6.708204
5,56.0,3136.0,7.483315
6,67.0,4489.0,8.185353
7,78.0,6084.0,8.831761
8,89.0,7921.0,9.433981
9,100.0,10000.0,10.0


### Connected scatter plot

Om een geconnecteede scatter plot te maken zijn er twee paden die je kan volgen.
* Ofwel zorg je ervoor dat je zowel een line plot als een scatter plot tekend waardoor de punten aangegeven worden. Let op dat hierbij de data in de juiste volgorde moet staan
* Ofwel gebruik je markers in de line-plot om de datapunten aan te geven. Zie [hier](https://matplotlib.org/stable/api/markers_api.html) voor meer info

Kies een methode en maak onderstaande figuur zo goed mogelijk na

![connected scatter plot](plot5.png)

In [49]:
df = pd.DataFrame({"x": np.arange(0, 20)})
df["y"] = np.random.random(size=20) * 2 -1
df

Unnamed: 0,x,y
0,0,-0.119374
1,1,0.171572
2,2,0.667634
3,3,-0.106851
4,4,-0.123813
5,5,-0.165317
6,6,-0.111911
7,7,-0.914637
8,8,0.742607
9,9,-0.803068


### Bubble plot

Een bubble plot kan je maken door de **size** parameter van een scatter plot te laten afhangen van een aparte rij.

Oefen dit door deze figuur zo goed mogelijk na te maken:

![bubble plot](plot6.png)

In [50]:
df = pd.DataFrame({"x": np.arange(0, 20)})
df["y"] = np.random.random(size=20) * 2 -1
df["size"] = np.random.random(size=20) * 1000
df

Unnamed: 0,x,y,size
0,0,-0.941556,942.561047
1,1,-0.333367,832.839743
2,2,-0.334268,527.806433
3,3,-0.650218,810.391414
4,4,0.474402,372.926678
5,5,-0.616076,292.295064
6,6,-0.777693,774.695181
7,7,0.812875,406.924933
8,8,-0.622749,852.760535
9,9,-0.397044,611.332473


### XY - heatmap

Dit hebben we ook reeds gedaan bij de correlatie matrices, die ga ik nu niet overdoen. Binnen maptlotlib kan dit met matshow. Seaborn heeft een alternatief dat [heatmap](https://seaborn.pydata.org/generated/seaborn.heatmap.html) noemt.

## Plots voor verbanden met de tijd

### (Stacked) Area plot

Met behulp van de stackplot functie kan je verschillende plots boven elkaar leggen.
Oefen dit door onderstaande figuur zo goed mogelijk na te bouwen

![plot 7](plot7.png)

In [51]:
df = pd.DataFrame({"x": np.arange(0, 20)})
df["y1"] = np.random.randint(10, 20, size=20)
df["y2"] = np.random.randint(5, 40, size=20)
df["y3"] = np.random.randint(0, 10, size=20)
df

Unnamed: 0,x,y1,y2,y3
0,0,15,20,9
1,1,15,9,9
2,2,11,38,7
3,3,10,11,6
4,4,11,30,8
5,5,10,28,8
6,6,19,10,8
7,7,17,32,7
8,8,18,39,8
9,9,16,18,1


### Fan plot

Een andere belangrijke plot is een fan plot. Deze kan bijvoorbeeld gebruikt worden om fouten op voorspellingen aan te geven.
Hiervoor moet er vanaf een bepaald punt (het punt waarop de voorspellingen beginnen) een area opgevuld worden om de mogelijke fout aan te geven.

Om dit in te oefenen, maak onderstaande figuur na
De meeste functies hiervoor heb je reeds gezien. Enkel voor de grijze zone na te bootsen kan je gebruik maken van axvspan()

![plot 8](plot8.png)

In [52]:
df = pd.DataFrame({"x": np.arange(0, 50)})
df["y"] = np.random.randint(10, 100, size=50)
df_errors = df.tail(10).copy()
df_errors["error_1"] = 50 * 0.2 * (df_errors.x-df_errors.x.min()) / len(df_errors)
df_errors["error_2"] = 50 * 0.5 * (df_errors.x-df_errors.x.min()) / len(df_errors)
df_errors["error_3"] = 50 * 0.7 * (df_errors.x-df_errors.x.min()) / len(df_errors)
df

Unnamed: 0,x,y
0,0,57
1,1,42
2,2,80
3,3,18
4,4,98
5,5,90
6,6,58
7,7,47
8,8,19
9,9,68


### Circles Timeline Plot

Dit kan gegenereerd worden door middel van een scatter plot waar de x-as de tijd is (of een index), de y waarde is een constante (bijvoorbeeld 0) en de bubble size is dan de bijhorende waarde

Probeer dit zelf eens uit met onderstaande data om deze figuur zo goed mogelijk na te maken

![plot 9](plot9.png)

In [53]:
df = pd.DataFrame({"x": np.arange(0, 20)})
df["y1"] = np.random.random(size=20) * 1000 +500
df["y2"] = np.random.random(size=20) * 2000 +0
df

Unnamed: 0,x,y1,y2
0,0,1286.31664,1051.050554
1,1,1352.796716,1596.349648
2,2,729.415721,1051.627316
3,3,1453.977672,1442.871056
4,4,1318.326347,1001.707007
5,5,510.966569,1774.198317
6,6,1122.001915,953.037804
7,7,808.892678,191.51635
8,8,1178.203965,1584.208584
9,9,854.441596,1913.513421


### Seismogram plot

Dit kan opnieuw gedaan worden op basis van de vorige voorbeelden. Zoals bij het Connected scatter plot er twee zaken geplot zijn op 1 figuur met dezelfde y-as moeten er hier twee lijn plots zijn. De ene bevat de exacte waarden en de andere een lijn dat de toppen van de golven verbindt. 

Het moeilijke is om de lokale maxima/minima te zoeken die verbonden moet worden. Dit kan eventueel zelf gedaan worden of je kan gebruik maken van een package die dit doet voor jou, bijvoorbeeld: https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.argrelextrema.html of https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.find_peaks.html

## Sorteren / Volgorde van data

### Lollipop chart

Hiervoor kan je de stem functie gebruiken. Meer informatie over deze functie kan je vinden op [deze website](https://www.python-graph-gallery.com/lollipop-plot/)
Deze kan je inoefenen door onderstaande figuur na te bootsen

![plot 10](plot10.png)

In [54]:
df = pd.DataFrame({'x':range(20), 'y':np.random.uniform(size=20) })
ordered_df = df.sort_values(by='y')
ordered_df.reset_index(inplace=True)
df

Unnamed: 0,x,y
0,0,0.838431
1,1,0.273869
2,2,0.460195
3,3,0.15675
4,4,0.02279
5,5,0.282488
6,6,0.395855
7,7,0.323355
8,8,0.600846
9,9,0.72195


### Bump plot

Dit kan gedaan worden als connected scatter plot (1 per lijn). Je moet dan wel nog extra aandacht besteden aan de y-ticks die de startvolgorde van de verschillende lijnen bepaalt. Het maken van aparte ticks links en rechts voor het veranderen van de volgorde kan door gebruik te maken van de twinx functie (zie de line-column plot).