<img src="images/logodwengo.png" alt="Banner" width="150"/>

<div>
    <font color=#690027 markdown="1">
        <h1>Statistiek in Python 2: Data visualiseren</h1> 
    </font>
</div>

We importeren eerst opnieuw de nodige modules.

In [None]:
import pandas as pd
import numpy as np

<div>
    <font color=#690027 markdown="1">
        <h2>1. Staafdiagrammen & Cirkeldiagrammen</h2> 
    </font>
</div>

In dit notebook gebruiken we de *happydata* dataset. Deze dataset bevat de resultaten van een bevraging over hoe tevreden inwoners zijn met verschillende voorzieningen in hun stad. De deelnemers konden antwoorden met *unhappy*, *rather unhappy*, *indifferent*, *rather happy* en *happy*.

Laad eerst zelf de *happydata* dataset in en print ze op het scherm. Het bestand is opgeslagen op de locatie `data/happydata_orig.csv`.

In [None]:
happydata = pd.read_csv("data/happydata.csv")
happydata

### Opdracht 1.1

We willen graag meer informatie over de tevredenheid van de inwoners over de vastgoedprijzen in hun stad. Uit de dataset zelf kunnen we hierover nog niet veel informatie aflezen. Bereken de absolute frequentietabel van de kolom `housecost`, sla ze op in de variabele `absolute_frequentie_housecost` en print ze op het scherm.

Probeer nu af te leiden wat de verhoudingen zijn tussen het aantal mensen dat *unhappy* heeft geantwoord en alle andere antwoorden.

<div class="alert alert-block alert-danger"> 
Je kan dit met de hand uitrekenen. Maar je kan hiervoor natuurlijk ook Python gebruiken.
</div>

Verhouding aantal keer *rather unhappy* tegenover aantal keer *unhappy*.

Antwoord: 

Verhouding aantal keer *indifferent* tegenover aantal keer *unhappy*:

Antwoord: 

Verhouding aantal keer *rather happy* tegenover aantal keer *unhappy*:

Antwoord: 

Verhouding aantal keer *happy* tegenover aantal keer *unhappy*:

Antwoord: 

### Voorbeeld 1.1

Dit was wellicht geen aangenaam werk. Bovendien is kijken naar een reeks getallen niet zo aantrekkelijk. Door de informatie uit de dataset te visualiseren in een diagram kan al veel informatie snel duidelijk worden.

Er zijn een hele hoop mogelijkheden om diagrammen te tekenen met Python. De makkelijk manier in deze context is om de `plot` functie uit de `pandas` module toe te passen op een absolute frequentietabel. Je kan dan via het argument `kind` aangeven wat voor grafiek je wilt tekenen. Door `pie` in te vullen kan je bijvoorbeeld een **cirkeldiagram** of **taartdiagram** tekenen.

In [None]:
absolute_frequentie_housecost.plot(kind='pie')  # Teken een cirkeldiagram van de tevredenheid over de vastgoedprijzen.

### Opdracht 1.2

Genereer zelf een cirkeldiagram van de tevredenheid van de bewoners over de onderwijskwaliteit. Die kan je vinden in de kolom `schoolquality` in de `happydata` dataset.

<div class="alert alert-block alert-danger"> 
    Herinner je dat we voor een cirkeldiagram te genereren de absolute frequentietabel nodig hebben. 
</div>

### Voorbeeld 1.2

We kunnen ook een **staafdiagram** tekenen door `kind=bar` als argument in te geven. Hieronder een voorbeeld van een staafdiagram van de tevredenheid van de vastgoedprijzen.

In [None]:
absolute_frequentie_housecost.plot(kind='bar')  # Teken een staafdiagram van de tevredenheid van de vastgoedprijzen

Deze diagrammen maken het al veel makkelijker om informatie af te lezen dan uit de absolute frequentietabel. Maar wie even langer naar de grafiek kijkt kan al snel een vorm van onduidelijkheid vinden. Op de horizontale as staan de uitkomsten door elkaar. Dit kan verwarring veroorzaken. Het zou overzichtelijker zijn om de horizontale as te sorteren van *unhappy* naar *happy*.

Een absolute frequentietabel staat in `pandas` standaard van hoogste naar laagste absolute frequentie. We kunnen dit aanpassen door de gewenste volgorde als lijst aan de functie `loc` door te geven en deze functie toe te passen op de absolute frequentietabel.

In [None]:
volgorde = ['unhappy', 'rather unhappy', 'indifferent', 'rather happy', 'happy']  # Specifieer de gewenste volgorde via een lijst 
absolute_frequentie_housecost_gesorteerd = absolute_frequentie_housecost.loc[volgorde]  # Maak een nieuwe absolute frequentietabel met aangepaste volgorde
absolute_frequentie_housecost_gesorteerd

Het resultaat is een absolute frequentietabel in de volgorde die we hebben doorgegeven. Als we nu van deze gesorteerde absolute frequentietabel een staafdiagram tekenen krijgen we de gewenste grafiek.

In [None]:
absolute_frequentie_housecost_gesorteerd.plot(kind='bar')  # Teken een nieuw staafdiagram met de correcte volgorde

### Opdracht 1.3

Maak nu zelf een staafdiagram van de tevredenheid over de `events`. Zorg dat de data gesorteerd staat van `unhappy` naar `happy`.

### Opdracht 1.4

Maak nu een nieuw staafdiagram maar met de relatieve frequenties van de kolom `policetrust` op de verticale as in plaats van de absolute frequenties.

<div class="alert alert-box alert-success">
Kijk eens terug naar het vorige notebook <i>Statistiek in Python 1: Absolute en relatieve frequentie</i> als je niet meer weet hoe je een relatieve frequentietabel moet opstellen.
</div>

Dit diagram kan voor sommige lezers misleidend overkomen. Waarom? 

Antwoord: 

### Voorbeeld 1.3

We kunnen het interval van de waarden op de verticale as aanpassen via het `ylim` argument van de `plot` functie. Vergelijk het resultaat hieronder met *Voorbeeld 1.2*.

In [None]:
absolute_frequentie_housecost_gesorteerd.plot(kind='bar', ylim=(0,60))  # Teken een staafdiagram van de vastgoedprijzen, waarbij de horizontale as nu gaan van 0 tot 60

### Opdracht 1.5

Pas de grafiek van *Opdracht 1.4* aan zodat alle mogelijke relatieve frequentie tot en met 1 op de grafiek zichtbaar zijn.

### Opdracht 1.6

Onderstaande diagram steld de relative frequentie voor van de kolom `happy`, die de algemene tevredenheid weergeeft. . Dit diagram doet blijken dat de mensen veel gelukkiger zijn dan ongelukkig. Echter het verschil is in de realiteit veel kleiner. De ongelukkige keuze voor de waarden op de verticale as zorgt voor een vertekend beeld. In de media wordt dit nochtans vaak gedaan om de aandacht van de lezer te krijgen. 

<img src="images/fig_N2Opr1.6.png" width="500"/>

Herteken dit diagram en kies met Python en maak zelf keuze voor een duidelijke verticale as.

<div>
    <font color=#690027 markdown="1">
        <h2>2. Histogrammen</h2> 
    </font>
</div>

In dit onderdeel willen we de `mcu_box_office` dataset visueel voorstellen. Deze dataset bevat een lijst van films uit het *Marvel Cinematic Universe*. Bij elke film horen een aantal gegevens zoals het productiebudget, de opbrengst, scores van het publiek,...

### Opdracht 2.1

Laadt eerst opnieuw zelf de dataset in, sla ze op in de variabele `mcu` en geef ze weer op het scherm. De locatie is `data/mcu_box_office.csv`.

De dataset bevat onder andere de `tomato_meter` score. Dat is een score over de kwaliteit van een film volgens de populaire website https://www.rottentomatoes.com/. We willen deze gegevens overzichtelijk voorstellen in een staafdiagram. Stel daartoe een absolute frequentietabel op en print ze op het scherm. Gebruik dan deze absolute frequentietabel om een staafdiagram te tekenen zoals in het vorige onderdeel. Je hoeft de gegevens op de horizontale as niet te sorteren.

Waarom is dit geen duidelijke grafiek?

Antwoord: 

Als je terug naar de absolute frequentietabel kijkt zie je dat we hier met een ander soort data te maken hebben. 

Bij de *happydata* dataset konden we spreken van **kwalitatieve data** of **categorische data**. Hierbij bestaat de data uit een vast aantal verschillende categorieën en kunnen we elke rij een categorie toekennen. We kunnen dan ook de absolute en relatieve frequentie berekenen door te tellen hoeveel rijen tot een bepaalde categorie behoren.

Bij de *mcu_box_office* spreken we van **kwantitatieve data** of **numerieke data**. Dit wil zeggen dat de data in getalvorm voorkomt, vaak reele getallen. Er zijn geen categorieen die we kunnen tellen.

### Voorbeeld 2.2

We willen wel, net zoals bij kwalitatieve data, frequentietabellen en staafdiagrammen maken. Daartoe delen we de data op in verschillende **klassen**. Aangezien de *tomato_meter* een score is van 0 tot 100 kunnen we bijvoorbeeld 5 klassen definieren:
* tomato_meter 0 tot 20
* tomato_meter 20 tot 40
* tomato_meter 40 tot 60
* tomato_meter 60 tot 80
* tomato_meter 80 tot 100

In dit geval spreken we van een **klassebreedde** van 20.

We maken eerst een lijst met daarin de grenzen van deze klassen en slaan ze op in een variabele.

In [None]:
klasse_grenzen = [0,20,40,60,80,100]  # De grenzen van de klassen in een lijst vastleggen

We kunnen nu wel een absolute frequentietabel opstellen door de gewenste `klassen_grenzen` aan de `value_counts` functie door te geven via het argument `bins`.

In [None]:
tomato_meter = mcu['tomato_meter']
absolute_frequentietabel_tomato_meter = tomato_meter.value_counts(bins=klasse_grenzen)  # Bereken de absolute frequentietabel door de gegevens op te delen in klassen
absolute_frequentietabel_tomato_meter

We tekenen een nieuw staafdiagram.

In [None]:
absolute_frequentietabel_tomato_meter.plot(kind='bar')

### Voorbeeld 2.3

Dit diagram ziet er al beter uit dan in opdracht 2.1. Maar we ontbreken nog steeds duidelijkheid. Bovendien wordt de volgorde van de klassen op de horizontale as aanpassen hier een uitdaging.

Een andere methode is om argument `hist` mee te geven in plaats van `bar`. Hierbij geven we de `klasse_grenzen` direct door aan de `plot` functie via het argument `bins`.

In [None]:
tomato_meter.plot(kind='hist', bins=klasse_grenzen)  # Teken een histogram met de plot functie

`hist` geeft aan dat we een **histogram** willen tekenen. Dat is een staafdiagram dat kwalitatieve data in klassen weergeeft. Dit is hier dan ook de beste optie voor een duidelijk diagram.

<div class="alert alert-block alert-danger"> 
Merk op dat we geen absolute frequentietabel nodig hebben. Je roept de plot-functie dus op voor een volledige kolom uit de dataset.
</div>

### Opdracht 2.2

Teken nu zelf een histogram van de duur van elke film. Die is opgeslagen in de kolom `movie_duration`. Gebruik de onderstaande klassengrenzen.

In [None]:
klasse_grenzen = [90,105,120,135,150,165,180]

Merk op dat de horizontale as in deze grafiek niet overeenkomt met met de klassengrenzen die we gespecifiëerd hebben. Je kan de labels op de horizontale as zelf aanpassen via het argument `xticks`. In ons geval willen we dat de labels hetzelfde zijn als de klassengrenzen. Dus we geven als argument door: `xticks=klasse_grenzen`. Pas dit zelf toe op de bovenstaande grafiek.

Een kritische lezer kan deze grafiek misschien misleidend vinden omdat de horizontale as start op 90 in plaats van 0. Pas deze histogram aan zodat ze is opgedeeld in klassen van elk een half uur breed, lopend van 0 tot 180 minuten.

We hebben de klassenbreedde hier ook verhoogd van 15 naar 30. Wat gebeurt er met de verticale as?

Antwoord: 

Waarom gebreurt dit?

Antwoord: 

### Opdracht 2.3

Op locatie `data/artists.csv` is een dataset die informatie bevat over artiesten op Spotify. Teken een duidelijk histogram die de verdeling van de populariteit van de artiesten weergeeft. Kies zelf een geschikte klassenbreedde en zorg dat de waarden op beide assen duidelijk zijn.

<div class="alert alert-block alert-danger"> 
    Om makkelijk de grenzen van de klassen aan te geven kan je gebruik maken van de <code>linspace</code> functie uit de <code>numpy</code> module. <code>np.linspace(a,b,c)</code> genereerd een rij met c elementen van a tot b die evenver uit elkaar liggen. Enkele voorbeelden:
<ul>
  <li><code>np.linspace(0,10,6)</code> = <code>[0,2,4,6,8,10]</code></li>
  <li><code>np.linspace(200,600,9)</code> = <code>[200,250,300,350,400,450,500,550,600]</code></li>
  <li><code>np.linspace(8,9,5)</code> = <code>[8,8.25,8.5,8.56,9]</code></li>
  <li>...</li>
</ul>
</div>

Welke klassenbreedde koos je en waarom?

Antwoord: 

Wat gebeurt er we de klassen te breed kiezen? Waarom zorg dit voor een onduidelijk histogram?

Antwoord: 

Wat gebeurt er we de klassen te smal kiezen? Waarom zorg dit voor een onduidelijk histogram?

Antwoord: 

### Opdracht 2.4

Door aan `plot` het argument `density=True` toe te voegen bekom je een histogram van de relatieve frequenties. Pas dit toe op het histogram van de populariteit van de artiesten.

<img src="images/cclic.png" alt="Banner" align="left" width="100"/><br><br>

<b>Opmerking. Welke tekst moet hier terecht komen?

Notebook Python in wiskunde, zie Computationeel denken - Programmeren in Python van <a href="http://www.aiopschool.be">AI Op School</a>, van F. wyffels, B. Van de Velde & N. Gesquière in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.