# Visualisatie - opdrachten

In dit notebook vind je twee opdrachten.
- <a href="#vis_opdracht1"> Opdracht 1 </a>  maak je ter voorbereiding van het college.
- <a href="#vis_opdracht2"> Opdracht 2 </a> is voor in het college.

<a id="vis_opdracht1"></a>
## Opdracht 1

Maak onderstaande figuur met matplotlib:

<img src="vis_opdracht1.jpg" alt="Verkoop Oost-Azie" />

Merk op:

- De cijfers 1 t/m 7 hoef je niet te plotten :-)
- Maak gebruik van de functionaliteiten van matplotlib: ga dus niet zelf balkjes en lijntjes tekenen in Python!!
- Je kunt matplotlib op twee manieren gebruiken: als script of met objecten. Kies er een. Of doe ze allebei.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Data
c_2005 = (20000, 18000, 15000, 24000)
c_2006 = (22000, 25000, 21000, 28000)
c_2007 = (25000, 23000, 24000, 30000)
index = np.arange(4)

#### Methode 1. Script

In [None]:
# Voorbeeld staafdiagram
plt.bar([1, 2], [200, 100])

In [None]:
bar_width = 0.25

plt.figure(figsize=(6,4))

# Data
plt.bar(index, c_2005, bar_width, color='b', label='2005')
plt.bar(index + bar_width, c_2006, bar_width, color='r', label='2006')
plt.bar(index + 2*bar_width, c_2007, bar_width, color='g', label='2007')

# Assen
plt.xlabel('Verkoop per kwartaal')
plt.ylabel('')
plt.title('Verkoop Oost-Azië')
plt.xticks(index+bar_width, ('Q1', 'Q2', 'Q3', 'Q4'))

# Legenda
plt.legend(bbox_to_anchor=(1.22, 0.3))

# Text
plt.text(4, 28000, "Kwartaal Q4 \n uitstekende \n verkoopcijfers", 
         bbox=dict(boxstyle="round,pad=0.3", fc="w", ec="g", lw=2))

plt.show()

#### Methode 2. Object-georienteerd

In [None]:
bar_width = 0.25
fig, ax = plt.subplots(figsize=(6,4))

# Data
ax.bar(index, c_2005, bar_width, color='b', label='2005')
ax.bar(index + bar_width, c_2006, bar_width, color='r', label='2006')
ax.bar(index + 2*bar_width, c_2007, bar_width, color='g', label='2007')

# Assen
ax.set(title='Verkoop Oost-Azië')
ax.xaxis.set(label='Verkoop per kwartaal',
             ticks=index+bar_width,
             ticklabels=('Q1', 'Q2', 'Q3', 'Q4'))

# Legenda
ax.legend(bbox_to_anchor=(1.22, 0.3))

# Text box
ax.text(4, 28000, "Kwartaal Q4 \n uitstekende \n verkoopcijfers", 
         bbox=dict(boxstyle="round,pad=0.3", fc="w", ec="g", lw=2))

plt.show()

<a id="vis_opdracht2"></a>
## Opdracht 2 - vervolg toetsuitslagen

Tijdens college 4 hebben we gekeken naar de toetsuitslagen van een eerstejaarsvak. We gaan hier nu mee verder gaan de theorie van correlatie en visualisatie in de praktijk brengen.

Hiervoor introduceren we twee aanvullende datasets:
1. De toetsuitslagen van een tweede eerstejaarsvak: Computer Systems and Networks (CSN)
2. De klassenindeling



In [None]:
# Bibliotheken
from datetime import datetime
import pandas as pd
import numpy as np
import scipy as sp
from scipy import stats
import matplotlib.pyplot as plt
import holoviews as hv

%matplotlib inline
hv.extension('bokeh')

### Voorbereidingen

Voordat we starten met de extra opgaven, moeten we eerst de datasets inladen en de acties op de dataset van de vorige keer opnieuw uitvoeren.

In [None]:
# Naast de cijferlijst van PROG, laden we ook de cijferlijst van CSN in
uitslag_csn = pd.read_excel("uitslag_csn.xlsx")
uitslag_prog = pd.read_excel("uitslag_prog.xlsx")

In [None]:
# Code voor het hernoemen
columns=lambda x: x[1:]

replacements = {"Score." + str(i) : "Score_" + str(i+1)  for i in range(1, 40)}
replacements["Score"] = "Score_1"

# Hernoemen van de columns van het dataframe
uitslag_prog.rename(columns=replacements, inplace=True)
uitslag_csn.rename(columns=replacements, inplace=True)

# Studentnummer herformatten
uitslag_prog['StudentNummer'] = uitslag_prog['StudentNummer'].astype('category')
uitslag_csn['StudentNummer'] = uitslag_csn['StudentNummer'].astype('category')

# Eindtijd herformatten
uitslag_prog['Eindtijd'] = pd.to_datetime(uitslag_prog['Eindtijd'])
uitslag_csn['Eindtijd'] = pd.to_datetime(uitslag_csn['Eindtijd'])

In [None]:
# Eindcijfers toevoegen
uitslag_prog['Cijfer'] = (9/30)*(uitslag_prog.loc[:,'Score_1':'Score_40'].sum(1) - 10) + 1
uitslag_prog['Eindcijfer'] = np.maximum( uitslag_prog['Cijfer'], [1]*uitslag_prog.shape[0] )
uitslag_csn['Cijfer'] = (9/30)*(uitslag_csn.loc[:,'Score_1':'Score_40'].sum(1) - 10) + 1
uitslag_csn['Eindcijfer'] = np.maximum( uitslag_csn['Cijfer'], [1]*uitslag_csn.shape[0] )

### Correlatie tussen CSN en PROG
We gaan kijken of er een correlatie is tussen de resultaten van studenten voor CSN en PROG. Is het zo dat studenten altijd een laag / gemiddeld / hoog cijfer halen voor zowel CSN als PROG? Of is er geen samenhang?


Bepaal of er een correlatie tussen de cijfers van CSN en PROG? Geef dat ook visueel weer. **Tip**: zorg ervoor dat studenten die niet aan beide toetsen hebben deelgenomen worden genegeerd. 

In [None]:
uitslag_prog.head()

In [None]:
uitslag_csn.head()

In [None]:
cijfers = pd.merge(uitslag_prog, uitslag_csn, on = "StudentNummer", how = "inner", suffixes=('_csn', '_prog'))

In [None]:
cijfers.plot.scatter('Eindcijfer_prog', 'Eindcijfer_csn')

In [None]:
#met holoviews
scatter = hv.Scatter(cijfers,'Eindcijfer_prog', 'Eindcijfer_csn') 
scatter


Hoeveel procent van de variabiliteit tussen de cijfers kunnen we verklaren met een linear verband?


In [None]:
cijfers[['Eindcijfer_prog', 'Eindcijfer_csn']].corr()

### Klasgegevens
Er is een derde databestand beschikbaar met voor elke student diens klas. Extra informatie betekent extra mogelijkheden voor leuke analyses.

We moeten eerst de klassenlijst importeren en koppelen aan het uitslagen dataframe.

In [None]:
# De klassenlijst laden we eerst in

klassenlijst = pd.read_excel("klassenindeling.xlsx")
klassenlijst.head()

In [None]:
# Er zitten een aantal studenten dubbel in de dataset, die gaan we eerst verwijderen

klassenlijst.drop_duplicates(subset='StudentNummer',inplace=True)

In [None]:
# Omdat we hier ons uitslagen dataframe gaan samenvoegen met de klassenlijst, is het handig om tot een
# gezamelijke index te komen. In ons geval is  StudentNummer een geschikte kandidaat.
uitslagen = cijfers
uitslagen = uitslagen.set_index('StudentNummer')
klassenlijst = klassenlijst.set_index('StudentNummer')

In [None]:
# We mergen de twee datasets tot een nieuwe dataset. 
# Helaas gaan hier een aantal studenten verloren: waarschijnlijk zijn er herkansers voor wie geen klas bekend is 

uitslagen_klas = pd.merge(uitslagen, klassenlijst, how='inner', on='StudentNummer') 


Een van de docenten vraagt zich af welke klas het *beste* is.

Maak een visualisatie waarmee in **één oogopslag** kunt zien welke klas het beste gescoord heeft op CSN én PROG.

**Tip:** denk eerst goed na *welk* type visualisatie hier het meest geschikt voor is, voordat je gaat knallen met MatplotLib...! 

In [None]:
# De vraag is wat het 'beste' betekent. De hoogste cijfers? Het hoogste slagingspercentage? 
# Dat is een vraag die een product owner moet beantwoorden!

# Hieronder gaan we uit van het slagingspercentage. 
# Dat is niet bekend, dus daarvoor moeten we eerst data toevoegen.
# Te beginnen met een indicator of iemand geslaagd is of niet.

uitslagen_klas['Voldoende_csn'] = np.where(uitslagen_klas['Eindcijfer_csn']>=5.5, 1, 0)
uitslagen_klas['Voldoende_prog'] = np.where(uitslagen_klas['Eindcijfer_prog']>=5.5, 1, 0)

In [None]:
# Met onderstaande stacked barchart kun je de slagingspercentages op elkaar stapelen
# De waarde op de y-as zegt niet zoveel: het is de som van twee slagingspercentages
# De vergelijking met andere klassen zegt wél iets, je ziet dat klas P het hoogste scoort!

labels = uitslagen_klas['Klas'].sort_values().unique()
csn_means = uitslagen_klas.groupby('Klas')['Voldoende_csn'].agg(['mean'])
prog_means = uitslagen_klas.groupby('Klas')['Voldoende_prog'].agg(['mean'])
width = 0.35       # the width of the bars: can also be len(x) sequence

fig, ax = plt.subplots()

ax.bar(labels, csn_means['mean'], width, label='CSN')
ax.bar(labels, prog_means['mean'], width, label='PROG', bottom=csn_means['mean'])

ax.set_ylabel('Gemiddelde voor CSN en PROG')
ax.set_title('Vergelijking klassen')
ax.legend()

plt.show()


Een van de docenten vindt het correlatiecoëfficient aan de lage kant. Hij vraagt zich af of er klassen zijn waar het coëfficient hoger is.

Maak een **interactieve** visualisatie waarmee de correlatie tussen de attributen `Eindcijfer_csn` en `Eindcijfer_prog` wordt getoond voor een of meerdere klassen. De visualisatie bij opgave 6.a was gebaseerd op de gehele dataset, de nieuwe visualisatie moet het mogelijk maken om een of meerdere klassen te selecteren en daarvoor de correlatie te tonen.

**Tip:** gebruik hiervoor HoloViews en de bokeh extension

In [None]:
import holoviews as hv
from holoviews import opts
import pandas as pd
hv.extension('bokeh')

In [None]:
# Met onderstaande plot zie je niet veel meer omdat er maar weinig punten zijn...
# Het is beter om een correlation matrix te maken voor elke klas apart @TODO

kdims = [('Klas')]
vdims = ['Eindcijfer_prog', 'Eindcijfer_csn']
ds = hv.Dataset(uitslagen_klas, kdims, vdims)
ds

In [None]:
%%opts Scatter [width=500 height=500]

ds.to(hv.Scatter, 'Eindcijfer_prog', 'Eindcijfer_csn')

## Extra: Voorbeelden holoviews met titanic data

In [None]:
titanic = pd.read_csv('../titanic/train.csv')
titanic.head()

In [None]:
#wat is de invloed van Sex op de overlevingskans? Maakt het daarbij nog uit in welke klasse je zat?

In [None]:
import numpy as np

In [None]:
vdims = ['Survived']
kdims = ['Sex', 'Pclass']
ds = hv.Dataset(titanic, kdims, vdims)

ds = ds.aggregate(function = np.sum)
ds.to(hv.Bars, 'Sex')

In [None]:
#Is er een relatie tussen de leeftijd en de betaalde prijs voor een ticket? Maakt de Pclass hier nog uit?

In [None]:
vdims = ['Age', 'Fare']
kdims = ['Pclass']
ds = hv.Dataset(titanic, kdims, vdims)

In [None]:
ds.to(hv.Scatter, 'Age', 'Fare')

In [None]:
# We willen weten hoe de leeftijd van de titanic-passagiers verdeeld is

In [None]:
titanic.dropna(how = 'any', inplace = True)
hv.Histogram(np.histogram(titanic['Age'], bins=10), kdims=['Age'])