<img src="images/logos.png" alt="Banner" width="300"/>

<div>
    <font color=#690027 markdown="1">
        <h1>Statistiek in Python 3: Data visualiseren (histogrammen)</h1> 
    </font>
</div>

We importeren eerst opnieuw de nodige modules.

In [None]:
import pandas as pd
import numpy as np

In dit onderdeel willen we de `mcu_box_office` dataset visueel voorstellen. Deze dataset bevat een lijst van films uit het *Marvel Cinematic Universe*. Bij elke film horen een aantal gegevens zoals het productiebudget, de opbrengst, scores van het publiek,...
* Bron: https://www.kaggle.com/datasets/davidgdong/marvel-cinematic-universe-box-office-dataset

<div>
    <font color=#690027 markdown="1">
        <h2>1. Inleiding: Marvel dataset</h2> 
    </font>
</div>

### Opdracht 1.1

Laad eerst opnieuw zelf de dataset in, verwijs ernaar met de variabele `mcu` en geef ze weer op het scherm. De locatie is `data/mcu_box_office.csv`.

### Opdracht 1.2

De dataset bevat onder andere de `tomato_meter` score. Dat is een score over de kwaliteit van een film volgens de populaire website https://www.rottentomatoes.com/. We willen deze gegevens overzichtelijk voorstellen in een staafdiagram. Stel daartoe een absolute frequentietabel op en print ze op het scherm. Gebruik dan deze absolute frequentietabel om een staafdiagram te tekenen zoals in de vorige notebook. Je hoeft de gegevens op de horizontale as niet te sorteren.

Waarom is dit geen duidelijke grafiek?

Antwoord: 

<div>
    <font color=#690027 markdown="1">
        <h2>2. Histogrammen</h2> 
    </font>
</div>

Als je terug naar de absolute frequentietabel kijkt zie je dat we hier met een ander soort steekproefvariabele te maken hebben. Bij de *mcu_box_office* spreken we van **kwantitatieve variabelen** of **numerieke variabelen**. Dit wil zeggen dat de data in getalvorm voorkomt, vaak reële getallen.

### Voorbeeld 2.1

We willen wel, net zoals bij kwalitatieve data, frequentietabellen en staafdiagrammen maken. Daartoe delen we de data op in verschillende **klassen**. Aangezien de *tomato_meter* een score is van 0 tot 100 kunnen we bijvoorbeeld 5 klassen definieren:
* tomato_meter 0 tot 20
* tomato_meter 20 tot 40
* tomato_meter 40 tot 60
* tomato_meter 60 tot 80
* tomato_meter 80 tot 100

In dit geval spreken we van een **klassebreedte** van 20.

We maken eerst een lijst met daarin de grenzen van deze klassen en slaan ze op in een variabele.

In [None]:
klasse_grenzen = [0, 20, 40, 60, 80, 100]  # De grenzen van de klassen in een lijst vastleggen

We kunnen nu wel een absolute frequentietabel opstellen door de gewenste `klasse_grenzen` aan de `value_counts` functie door te geven via het argument `bins`.

In [None]:
tomato_meter = mcu["tomato_meter"]
absolute_frequentietabel_tomato_meter = tomato_meter.value_counts(bins=klasse_grenzen)  # Bereken de absolute frequentietabel door de gegevens op te delen in klassen
absolute_frequentietabel_tomato_meter

De gegevens zijn nu omgezet in kwalitatieve data. Er zijn 5 mogelijke categorieën in de vorm van een halfopen intervallen.

We tekenen een nieuw staafdiagram.

In [None]:
absolute_frequentietabel_tomato_meter.plot(kind="bar", xlabel='tomato_score', ylabel='absolute frequentie', title='Tomato meter Marvel films')

Het diagram ziet er al beter uit dan in opdracht 1.2. Maar we ontbreken nog steeds duidelijkheid.

### Voorbeeld 2.2

Een andere methode is om argument `hist` mee te geven in plaats van `bar`. Hierbij geven we de `klasse_grenzen` direct door aan de `plot` functie via het argument `bins`.

In [None]:
tomato_meter.plot(kind="hist", bins=klasse_grenzen, title='Tomato meter Marvel films')  # Teken een histogram met de plot functie

`hist` geeft aan dat we een **histogram** willen tekenen. Dat is een staafdiagram dat kwalitatieve data in klassen weergeeft. Dit is hier dan ook de beste optie voor een duidelijk diagram.

<div class="alert alert-block alert-danger"> 
Merk op dat we geen absolute frequentietabel nodig hebben. Je roept de plot-functie dus op voor een volledige kolom uit de dataset.
</div>

### Opdracht 2.1

Teken nu zelf een histogram van de duur van elke film. Die is opgeslagen in de kolom `movie_duration`. Gebruik de onderstaande klassegrenzen.

In [None]:
klasse_grenzen = [90, 105, 120, 135, 150, 165, 180]

### Opdracht 2.2

Merk op dat de horizontale as in deze grafiek niet overeenkomt met met de klassegrenzen die we gespecifiëerd hebben. Je kan de labels op de horizontale as zelf aanpassen via het argument `xticks`. In ons geval willen we dat de labels hetzelfde zijn als de klassegrenzen. Dus we geven als argument door: `xticks=klasse_grenzen`. Pas dit zelf toe op de bovenstaande grafiek.

### Opdracht 2.3

Een kritische lezer kan deze grafiek misschien misleidend vinden omdat de horizontale as start op 90 in plaats van 0. Pas dit histogram aan zodat ze is opgedeeld in klassen van elk een half uur breed, lopend van 0 tot 180 minuten.

We hebben de klassebreedte hier ook verhoogd van 15 naar 30. Wat gebeurt er met de verticale as?

Antwoord: 

Waarom gebeurt dit?

Antwoord:

<div>
    <font color=#690027 markdown="1">
        <h2>3. Oefening</h2> 
    </font>
</div>

### Opdracht 3.1

Op locatie `data/artists.csv` is een dataset die informatie bevat over artiesten op Spotify. Teken een duidelijk histogram dat de verdeling van de populariteit van de artiesten weergeeft. Kies zelf een geschikte klassebreedte en zorg dat de waarden op beide assen duidelijk zijn.
* Bron: https://www.kaggle.com/datasets/viktoriiashkurenko/278k-spotify-songs

<div class="alert alert-block alert-danger"> 
    Om makkelijk de grenzen van de klassen aan te geven kan je gebruik maken van de <code>linspace</code> functie uit de <code>numpy</code> module. <code>np.linspace(a,b,c)</code> genereert een rij met c elementen van a tot b die evenver uit elkaar liggen. Enkele voorbeelden:
<ul>
  <li><code>np.linspace(0, 10, 6)</code> = <code>[0, 2, 4, 6, 8, 10]</code></li>
  <li><code>np.linspace(200, 600, 9)</code> = <code>[200, 250, 300, 350, 400, 450, 500, 550, 600]</code></li>
  <li><code>np.linspace(8, 9, 5)</code> = <code>[8, 8.25, 8.5, 8.56, 9]</code></li>
  <li>...</li>
</ul>
</div>

Welke klassebreedte koos je en waarom?

Antwoord:

Wat gebeurt er als we de klassen te breed kiezen? Waarom zorgt dit voor een onduidelijk histogram?

Antwoord: 

Wat gebeurt er we de klassen te smal kiezen? Waarom zorg dit voor een onduidelijk histogram?

Antwoord: 

### Opdracht 3.2

Door aan `plot` het argument `density=True` toe te voegen bekom je een histogram van de relatieve frequenties. Pas dit toe op het histogram van de populariteit van de artiesten.

### Referentielijst

Marvel Cinematic Universe Box Office Dataset. https://www.kaggle.com/datasets/davidgdong/marvel-cinematic-universe-box-office-dataset

6K Spotify Playlists. https://www.kaggle.com/datasets/viktoriiashkurenko/278k-spotify-songs

<img src="images/cclic.png" alt="Banner" align="left" width="100"/><br><br>

Notebook python in wiskunde - Statistiek, van D. De Bolster, F. wyffels & N. Gesquière in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.