<img src="images/logos.png" alt="Banner" width="300"/>

<div>
    <font color=#690027 markdown="1">
        <h1>Statistiek in Python 4: Data analyseren</h1> 
    </font>
</div>

Uit een frequentietabel of diagram kunnen we informatie halen over alle verschillende gegevens afzonderlijk. Maar wie een krant leest zal daar zelden een frequentietabel zien staan. Termen zoals *het gemiddelde* zijn aantrekkelijker omdat ze een hele dataset kunnen samenvatten in 1 getal. Maar ze kunnen ook "te veel samenvatten". En dan kan belangrijke informatie verloren gaan. 

Importeer eerst de nodige modules.

In [None]:
import pandas as pd
import numpy as np
pd.set_option("display.min_rows", 50)  # Dit zorgt ervoor dat we tot 50 rijen in 1 keer kunnen zien als we een dataset op het scherm printen

<div>
    <font color=#690027 markdown="1">
        <h2>1. Gemiddelde</h2> 
    </font>
</div>

Als voorbeeld gebruiken we een dataset die statistieken bevat van alle video van MrBeast, een van de meest populaire kanalen op YouTube.
* Bron van de dataset: https://www.kaggle.com/datasets/dissfya/mr-beast-youtube-stats-and-subtitles
* YouTubekanaal van MrBeast: https://www.youtube.com/@MrBeast

We laden eerst de dataset in en slaan ze op in een variabele.

In [None]:
mrBeast = pd.read_csv("data/MrBeast.csv")  # De dataset uitlezen
mrBeast  # De dataset op het scherm tonen

### Opdracht 1.1
We willen het gemiddeld aantal minuten dat van en video op het kanaal duurt kennen. Surf eerst eens naar het kanaal en probeer op het eerste zicht een schatting te maken van de gemiddelde lengte van een video.

Antwoord:

### Voorbeeld 1.1
We berekenen nu het correcte gemiddelde met Python. Eerst zonderen we de kolom *duration_seconds* af. We delen deze kolom door 60 om de gegevens om te zetten van aantal seconden naar aantal minuten.

In [None]:
mrBeast_videotijd = mrBeast["duration_seconds"]/60
mrBeast_videotijd                                   # Print de kolom videotijd op het scherm

We kunnen het gemiddelde van een kolom in pandas berekenen via de `mean` functie.

In [None]:
mrBeast_videotijd_gemiddelde = mrBeast_videotijd.mean()  # Bereken de gemiddelde lengte van een video
mrBeast_videotijd_gemiddelde  # Print het gemiddelde op het scherm

De uitkomst zou een stuk hoger moeten liggen dan je schatting. Nochtans is de dataset up-to-date en de berekeningsmethode correct. We onderzoeken wat hier de oorzaak van is door een histogram op te stellen.

In [None]:
klasse_grenzen = np.linspace(0, 1500, 26)  # Genereer een lijst die de klassegrenzen moet voorstellen. Er zijn 25 klassen van 0 tot 1500
mrBeast_videotijd.plot(kind="hist", bins=klasse_grenzen, xticks=klasse_grenzen, title="Afspeeltijd van een MrBeast video", rot=90)  # Teken een histogram van de videotijd

We merken direct het probleem. De meeste videos duren maximaal een uur (zelf minder maar de klassebreedte versmallen  zou de histogram onduidelijk maken). Een aantal video duren echter veel langer dan de rest. Uitzonderlijk grote of uitzonderlijk kleine gegevens in een dataset worden **uitschieters** (of in het Engels *outliers*) genoemd.

Om de invloed van deze uischieters op het gemiddelde te leren gaan we ze uit de dataset proberen filteren. We bekijken opnieuw de dataset  maar sorteren ze nu van hoog naar laag met de pandas functie `sort_value`. Het argument `"duration_seconds"` wil zeggen dat we op basis van de kolom *duration_seconds* willen sorteren. `ascending=False` wil zeggen dat we van groot naar klein willen sorteren (stijgend=Vals).

In [None]:
mrBeast_gesorteerd = mrBeast.sort_values("duration_seconds", ascending=False)  # Sorteer de dataset zodat de video's van lang naar kort zijn geordend
mrBeast_gesorteerd  # Print de gesorteerde dataset op het scherm

Nu zien we dat de langst durende video's speciale stunt zijn die 10 uur of langer duren. Als we verder kijken dan de top 10 langste video's is de duur al heel wat korter wordt. We filteren nu de top 10 langst durende video's uit de dataset via slicing.

<div class="alert alert-box alert-success">
<b>Slicing</b> is een techniek in Python om gerangschikte gegevens, zoals in ons geval een kolom in een Pandas dataset, in stukken op te delen. Dat kan door de uitdrukking te laten volgen door [m:n]. Zo word enkel het deel van de kolom van het m'de tot het n'de element beschouwd. Je kan ook m of n weglaten om vanaf het begin of einde van de rij af te zonderen. Een aantal voorbeelden:
<ul>
  <li><code>mijnKolom[2:7]</code> is een kolom met het 2e tot het 7e element van mijnKolom</li>
  <li><code>mijnKolom[:10]</code> is een kolom met het eerste tot het 10e element van mijnKolom</li>
  <li><code>mijnKolom[10:]</code> is een kolom met het 11e tot het einde van mijnKolom (tot het 10e element wordt niet beschouwd)</li>
</ul>

Je kan bovendien ook een voorwaarde gebruiken om via slicing bepaalde elementen uit een kolom te filteren. Bijvoorbeeld:
<ul>
  <li><code>mijnKolom[mijnKolom < 7]</code> is een kolom met alle waarden uit mijnKolom die kleiner zijn dan 7</li>
  <li><code>mijnKolom[90 < mijnKolom]</code> is een kolom met alle waarden uit mijnKolom die groter zijn dan 90</li>
  <li><code>mijnKolom[mijnKolom == 'hallo']</code> is een kolom met alle waarden uit mijnKolom die gelijk zijn aan de tekst 'hallo'</li>    
    
</div>

In [None]:
mrBeast_videotijd_gesorteerd = mrBeast_gesorteerd["duration_seconds"]/60  # Zonder de kolom duration_seconds af uit de gesorteerde dataset
mrBeast_videotijd_gefilterd = mrBeast_videotijd_gesorteerd[10:]  # Maak een nieuwe kolom zonder de top 10 elementen met de langste videotijd

### Opdracht 1.2

Teken een nieuwe histogram van de gefilterde kolom. Kies zelf een geschikte klassebreedte.

Bereken het gemiddelde van de gefilterde kolom.

Hoeveel verschilt het originele gemiddelde met het gemiddelde zonder de top 10 langste video's?

Antwoord: 

Dat is een uitzonderlijk groot verschil door slechts 10 van de 728 gegevens buiten beschouwing te laten. We merken dus dat uitschieters een grote invloed kunnen hebben op het gemiddelde.

<div class="alert alert-block alert-info"> 
Het is een discussiepunt of uitschieters uit een dataset wegfilteren wel een goed idee is. Langs de ene kant zorgen ze voor moeilijkheden om een volledige dataset beschrijven, zoals we hiernet hebben gemerkt bij het gemiddelde. Langs de andere kant kunnen ze misschien belangrijke informatie bevatten. Daarnaast is het niet altijd eenvoudig om te bepalen hoe groot of klein een gegeven moet zijn om als uitschieterd te worden beschouwd.
</div>

<div>
    <font color=#690027 markdown="1">
        <h2>2. Mediaan</h2> 
    </font>
</div>

### Opdracht 2.1
Naast het gemiddelde is de mediaan ook een veelgebruikte maat. Je kan de mediaan op een analoge manier als het gemiddelde berekenen aan de hand van de functie `median`. Bereken uit de MrBeast dataset de mediaan van de lengte van een video (ongefilterd).

Hoe denk je dat komt dat de mediaan van de lengte van een video kleiner is den de gemiddelde lengte van een video?

Antwoord:

### Opdracht 2.2
Bereken ook de mediaan van de lengte van een video met de top 10 langste video's buiten beschouwing gelaten. 

<div class="alert alert-block alert-danger"> 
Tip: We hebben eerder al de top 10 weggefilterd. Je hoeft dit niet opnieuw te berekenen.
</div>

Wat is nu het verschil tussen de mediaan van de originele en de gefilterde data?

Antwoord: 

Waarom is dit verschil zo klein terwijl we bij het gemiddelde net een zeer groot verschil hadden?

Antwoord: 

<div>
    <font color=#690027 markdown="1">
        <h2>3. Kwartielen, Interkwartielafstand & Boxplot</h2> 
    </font>
</div>

### Voorbeeld 3.1
We kunnen ook het eerste en derde kwartiel berekenen. Dat kan met de functie `quantile`. In het onderstaande voorbeeld berekenen we het eerste kwartiel van de lengte van een video.

In [None]:
mrBeast_videotijd.quantile(0.25)  # Print het eerste kwartiel op het scherm

De functie `quantile` neemt een reël getal als argument. Hier is dat `0.25` om aan te duiden dat we het eerste kwartiel willen kennen, dus de waarde waarvoor 25% van de andere gegevens kleiner is. 

### Opdracht 3.1
Bereken analoog het 3e kwartiel van de lengte van een video.

We hoeven ons niet tot het eerste en derde kwartiel te beperken. Genereer een waarde zodat 90% van de video's langer is dan deze waarde.

Bereken de mediaan van de lengte van een video opnieuw zonder de functie `median` te gebruiken.

Het verschil tussen het derde en het eerste kwartiel noemen we de **interkwartielafstand**. Bereken de interkwartielafstand van de lengte van een video met Python en print ze op het scherm.

<div class="alert alert-block alert-info"> 
Het gemiddelde en de mediaan zijn voorbeelden van <b>centrummaten</b>. Zij proberen een beeld te geven van het midden of "centrum" van de gegevens in een dataset. De interkwartielafstand is een voorbeeld van een <b>spreidingsmaat</b>. Spreidingsmaten illustreren hoe ver de waarden ongeveer van het centrum liggen 
</div>

### Voorbeeld 3.2

Met de `pandas` module kunnen we ook een **boxplot** tekenen.

In [None]:
mrBeast_videotijd_gefilterd.plot(kind='box')

Een boxplot interpreteer je als volgt:
* De groene lijn steld de mediaan voor.
* De bovenste en onderste lijn van de rechthoek stellen het 1e en 3e kwartiel voor.
* De bovenste en onderste lijn op de verticale streep stellen het minimum en maximum voor.
* De bolletjes zijn uitschieters. Pandas detecteerd deze automatisch en rekend deze uit het boxplot.

<div class="alert alert-box alert-success">
    Er zijn nog vele andere centrum- en spreidingsmaten die je aan de hand van de pandas module kan berekenen. Zo kan je de <b>modus</b> berekenen met de functie <code>mode</code> en de <b>standaardafwijking</b> met de functie <code>std</code> (std van het Engelse "standard deviation").
    
Aangezien de modus het gegeven met de hoogste (absolute of relatieve) frequentie teruggeeft, moet kwantitatieve data eerst in klassen worden verdeeld. Voor de <code>mode</code> functie is dit echter niet nodig. Pandas kiest namelijk zelf een zo precies mogelijke opdeling in klassen.
    
</div>

<div>
    <font color=#690027 markdown="1">
        <h2>4. Oefening</h2> 
    </font>
</div>

Beschouw de US tornado dataset, opgeslagen in `data/us_tornado_dataset_1950_2021.csv`. Deze dataset bevat gegevens over alle geregistreerde tornado's in de Verenigde Staten vanaf 1950.
* Bron: https://www.kaggle.com/datasets/danbraswell/us-tornado-dataset-1950-2021

Laad de dataset in en print de volgende gegevens op het scherm:
* De gemiddelde breedde van een tornado (de breedde is opgeslagen in kolom `wid`)
* De mediaan, het eerste en het derde kwartiel van de startbreedde van een tornado (de startbreedde is opgeslagen in kolom `slat`)
* De interkwartielafstand van de eindbreedde van een tornado (de eindbreedde is opgeslagen in kolom `elat``)
* Een boxplot van de eindbreedde van een tornado

### Referentielijst

MrBeast Youtube Stats and subtitles. https://www.kaggle.com/datasets/dissfya/mr-beast-youtube-stats-and-subtitles

US Tornado Dataset 1950-2021. https://www.kaggle.com/datasets/danbraswell/us-tornado-dataset-1950-2021

<img src="images/cclic.png" alt="Banner" align="left" width="100"/><br><br>

Notebook python in wiskunde - Statistiek, van D. De Bolster, F. wyffels & N. Gesquière in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>.