<figure>
   <IMG SRC="https://mamba-python.nl/images/logo_basis.png" WIDTH=125 ALIGN="right">
   
</figure>

#  Oefening Pandas

Deze oefening is bedoeld als kennismaking met de `pandas` package voor data-analyse. In de oefening wordt gebruikt gemaakt van KNMI data.

### Stap 1. Importeer de nodige packages

In [None]:
import pandas as pd

### Stap 2. Maak een Series aan

Met de pandas package kan je data analyseren. Dit is vergelijkbaar met de manier waarop je in excel data analyseert. Het verschil zit hem in de aansturing. In excel klik je veelal met de muis op knoppen om de data te bewerken, in Python schrijf je code om data te bewerken. 

Om de data te bewerken moet er eerst data ingelezen worden in het geheugen. Je kan met de `pandas` package op twee manieren data in het geheugen inlezen:
- Series: bedoeld voor een datareeks van 2 variabelen, bijvoorbeeld een tijdreeks van grondwaterstanden met een datum. Vergelijkbaar met een excel spreadsheet met 2 kolommen.
- DataFrame: bedoeld voor een datareeks met meerdere variabelen, bijvoorbeeld een lijst met putlocaties met x en y coördinaten. Vergelijkbaar met een excel spreadsheet met meer dan 2 kolommen.

De meest eenvoudige manier om data in het geheugen te lezen is door de data zelf op te geven. Hieronder maken we een series van een aantal dieren en hun gewicht. 

In [None]:
s = pd.Series(index=['koe', 'paard', 'kip'], data=[656., 450., 3.8], name='gewicht')

De `pandas Series` is nu aangemaakt en opgeslagen als variabele `s`. Om de data ook daadwerkelijk weer te geven moeten we deze laten printen. we kunnen dit doen met het `print` statement.

In [None]:
print(s)

### Stap 3. eigenschappen

Deze `pandas Series` heeft allerlei eigenschappen. Een `Series` bevat altijd de volgende eigenschappen:
- index
- values
- name
- shape
- dtype

Je kan deze opvragen door een `.` achter de variabelenaam te typen.

In [None]:
s.index

In [None]:
s.values

Er wordt dus een onderscheid gemaakt tussen de `values` en de `index`. Deze structuur zorgt ervoor dat je makkelijk een specifieke waarde kan opvragen op basis van de naam in de `index`. Dit kan je doen met `loc` of `iloc` in combinatie met rechte haken `[]`. Het gewicht van de koe kan je met `iloc` zo opvragen:

In [None]:
s.iloc[0]

of met `loc` op deze manier:

In [None]:
s.loc['koe']

#### Opdracht 1 <a name="opdr1"></a>
vraag het gewicht op van de `kip` met behulp van `iloc`. Typ je code hieronder

<a href="#antw1">Antwoord Opdracht 1</a>

### Stap 4. Bewerkingen

Naast het opvragen van eigenschappen, kunnen we ook bewerkingen doen op deze data. We kunnen bijvoorbeeld het gemiddelde gewicht uitrekenen van deze dieren:

In [None]:
s.mean()

Let op: Omdat dit een bewerking is en niet een eigenschap van een `Series` moeten er in de code altijd `()` achter de naam van de bewerking.

het maximale gewicht kan worden uitgerekende met `max()`

In [None]:
s.max()

en het is ook mogelijk om in 1 keer een heleboel beschrijvende statistieken te krijgen van een `Series`.

In [None]:
s.describe()

#### Opdracht 2  <a name="opdr2"></a>

Het resultaat van `s.describe()` is ook een `pandas Series`. Je kan deze ook opslaan in het geheugen, bijvoorbeeld als de variabele `stats` met `stats = s.describe()`. Sla de resultaten van `s.describe()` op en gebruik de `loc` functie om het 25% percentiel op te vragen.

<a href="#antw2">Antwoord Opdracht 2</a>

### Stap 5. DataFrame

Naast de `pandas Series` is het ook mogelijk om data met meer dan 2 dimensies in het geheugen in te lezen. Dit kan met een `DataFrame`. Je kan een `DataFrame` op de volgende manier aanmaken.

In [None]:
df = pd.DataFrame(index=['Rotterdam', 'Zwolle', 'Engelse werk'], 
                  data={'lat':[51.9225, 52.516499, 52.4971], 
                        'lon':[4.47917, 6.084683, 6.0661],
                        'aanwezigen':[623652, 123861, 20]})
df

Een `DataFrame` heeft net als een `Series` ook de eigenschappen: `index`, `values` en `shape`. Er zijn verschillen tussen een `DataFrame` en een `Series`. Zo heeft een `DataFrame` in plaats van de eigenschap `name` de eigenschap `columns`. Dit zijn de namen van de kolommen (vergelijkbaar met excel). De datatypes van de kolommen vraag je op met `dtypes`.

In [None]:
df.columns

In [None]:
df.dtypes

#### Opdracht 3  <a name="opdr3"></a>

Vraag het aantal aanwezigen bij het Engelse werk op met de `loc` functie.

<a href="#antw3">Antwoord Opdracht 3</a>

Net als bij een `Series` kan je bij een `DataFrame` ook allerlei bewerkingen uitvoeren. Deze worden dan automatisch uitgevoerd op alle kolommen. Zie de voorbeelden hieronder

In [None]:
df.max()

In [None]:
df.describe()

Soms ben je alleen geïnteresseerd in één kolom van een `DataFrame`. Je kan deze opvragen met behulp van de rechte haken `[]`. Je krijgt vervolgens een series terug.

In [None]:
s = df['aanwezigen']
s

#### Opdracht 4  <a name="opdr4"></a>

Het resultaat van `df.describe()` is ook een `pandas DataFrame` (zie hierboven). Je kan deze ook opslaan in het geheugen. Sla de resultaten van `df.describe()` op en maak een series met de statistieken van de kolom 'aanwezigen`.

<a href="#antw4">Antwoord Opdracht 4</a>

### Stap 6. Bestanden inlezen

Meestal krijg je datasets aangeleverd als een bestand (bijv. een .csv bestand). Het is niet nodig om alle getallen over te typen om deze als `DataFrame` in het geheugen te lezen. In plaats daarvan kan je gebruik maken van inleesfuncties. Voor het inlezen van tekstbestanden gebruik je bijvoorbeeld `pd.read_csv`.

In deze stap volgt een voorbeeld voor het inlezen van een knmi bestand met etmaalgegevens van een weerstation. Het knmi bestand `etmgeg_240.txt` wat is meegeleverd met dit notebook kan worden ingelezen met:

In [None]:
df = pd.read_csv("etmgeg_240.txt", skiprows=47, index_col="YYYYMMDD", 
                 parse_dates=[1])

Geef bij het inlezen van een csv bestand altijd een aantal parameters mee aan de `pd.read_csv()` functie.

Allereerst de naam van het bestand met de bestandslocatie. In ons geval staat het bestand in dezelfde map als het script dus is de bestandsnaam voldoende.

Geef daarnaast instellingen mee zodat het csv bestand goed kan worden ingelezen. De instellingen van `pd.read_csv()` hebben een standaardwaarde (default). Je hoeft de instellingen alleen mee te geven als de gewenste instellingen afwijken van de standaard. Bij het inlezen van een csv bestand geef je meestal de volgende instellingen mee:
- `skiprows`: de meeste bestanden hebben bovenaan uitleg en daaronder pas de gestructureerde data. Deze uitleg, ook wel header genoemd, bevat meestal geen netjes georde data en is lastig om in te lezen. Het makkelijkst is om deze data over te slaan. Met skiprows kies je het aantal rijen aan het begin van een tekst document die worden overgeslagen. In ons geval bevatten de eerste 47 rijen van het .txt bestand uitleg en kunnen dus worden overgeslagen.
- `sep`: het scheidingsteken wat gebruikt wordt in het tekstbestand. In dit geval is onze data in het bestand gescheiden met een komma. De komma `,` is ook de standaardwaarde (default value) dus hoeft deze niet te worden meegegeven bij het inlezen.
- `index_col`: de kolom die gebruikt moet worden als index van het `DataFrame`. De index kan later makkelijk gebruikt worden om data te selecteren. Het is een goed idee om hiervoor een kolom te kiezen met unieke waarde. Om deze reden kiezen we de kolom `YYYYMMDD` met de datum. Deze kolom heeft voor iedere rij in het `DataFrame` een unieke waarde.
- De `parse_dates` instelling is een wat geavanceerdere optie die in ons geval ervoor zorgt dat de 2de kolom wordt ingelezen als een datum. 

Bekijk vervolgens de eerste 5 regels met de `head()` functie.

In [None]:
df.head()

#### Opdracht 5  <a name="opdr5"></a>

Vraag het aantal rijen en kolommen op van het ingelezen `DataFrame` met knmi waarden

<a href="#antw5">Antwoord Opdracht 5</a>

### Stap 7. Nabewerking ingelezen bestand

Meestal gaat het inlezen van een bestand niet in 1 keer goed. Het is dan nuttig om het `DataFrame` wat is ingelezen te onderzoeken om te kijken of deze goed is ingelezen. Hieronder zijn een aantal nabewerkingsstappen gedaan om het `DataFrame` op zo'n manier in het geheugen te lezen dat we er bewerkingen op kunnen uitvoeren.


Allereerst bekijken we de kolommen. Vervelend genoeg voor ons staan er nog spaties in de kolomnamen.

In [None]:
df.columns

Daarna kijken we naar het datatype in de verschillende kolommen. Voor het uitvoeren van wiskundige operaties moeten het datatype nummeriek zijn (`int` of `float`). We kunnen dus nog niet voor alle kolommen wiskundige operaties uitvoeren.

In [None]:
df.dtypes

We kunnen de spaties uit de kolomnamen verwijderen met `str.strip`

In [None]:
new_names = []
for icol in df.columns:
    new_names.append(icol.strip())
new_names

Dan hernoemen we de kolommen van het oorspronkelijke `DataFrame` 

In [None]:
df.columns = new_names

Dan bekijken we de kolommen weer om te kijken of het gelukt is.

In [None]:
df.columns

Het instellen van een Index met datums kan heel handig werken. Zo kan je gemakkelijk een bepaalde periode selecteren. Hier kiezen we het jaar 2018. Met het `.head()` commando kijken we alleen naar de eerste 5 waarden uit de DataFrame.

In [None]:
df.loc['2018'].head()

We kunnen daarnaast ook kiezen om alleen naar de kolommen "RH"= dagelijkse neerslag en "EV24"=verdamping per dag te kijken.

In [None]:
df.loc["2018", ["RH", "EV24"]].head()

#### Opdracht 6  <a name="opdr6"></a>

De kolom `TX` bevat de maximum temperatuur in 0.1 graden Celsius. Vraag de maximale temperatuur op over 2018

<a href="#antw6">Antwoord Opdracht 6</a>

### Stap 8. plotten data

Stel notebook in om figuren direct weer te geven in de notebook (soms niet nodig, maar op mijn (Davíds) computer wel.)

In [None]:
%matplotlib inline

Omdat we niet de hele tijd de selectie willen typen slaan we onze subselectie op onder een nieuwe variabele `dfs`

In [None]:
dfs = df.loc[:, ["RH", "EV24"]]

Nu willen we deze data plotten. In eerste instantie levert dat nog een error op:

In [None]:
dfs.plot()

De error zegt onderaan er geen data is:

```{python}
TypeError: Empty 'DataFrame': no numeric data to plot
```

Maar we zagen net dat er wel degelijk waarden in de tabel stonden. Zou het misschien aan het datatype kunnen liggen?

In [None]:
dfs.dtypes

Dat is dus het probleem, voor de plot moet de data wel numeriek zijn, dus `int` of `float` en niet `object`. We gaan per kolom de data omzetten naar numerieke waardes met de functie van pandas `pd.to_numeric`. Omdat pandas niet direct begrijpt hoe je een leeg veld moet omzetten naar een getal moeten we de functie ook vertellen dat als die zoiets tegenkomt een waarde van `NaN` (Not a Number) moet invullen. Dat doen we met het keyword argument `errors="coerce"`.

In [None]:
for icol in dfs.columns:
    print(icol)
    dfs[icol] = pd.to_numeric(dfs[icol], errors="coerce")

Kijken of dat gelukt is:

In [None]:
dfs.dtypes

Poging 2 om te plotten dan maar:

In [None]:
dfs.plot()

Dat is gelukt! Nu kan je de grafiek nog op verschillende manier opmaken. Hieronder is een voorbeeld gegeven hoe je dat zou kunnen doen.

In [None]:
ax = dfs.plot(figsize=(12,6))
ax.set_xlim('2017','2018')
ax.set_ylabel('0.1 mm/dag')
ax.set_xlabel('')
ax.grid()

#### Opdracht 7  <a name="opdr7"></a>

Plot de maximale temperatuur tussen 2000 en 2005.

<a href="#antw7">Antwoord Opdracht 7</a>

### Stap 8. Opslaan resultaten
Wanneer je een `DataFrame` hebt ingelezen en aangepast is het handig om de resultaten op te slaan om later te gebruiken. Ook kan het soms handig zijn om de resultaten in bijv. excel te bekijken. Dit kan eenvoudig met de `to_csv()` functie:

In [None]:
df.to_csv(r'aangepaste_tabel.csv')

Er is nu een .csv bestand met de naam 'aangepaste_tabel' opgeslagen in dezelfde map als dit script. Dit bestand kan je met excel openenen om de resultaten te bekijken.

#### Opdracht 8  <a name="opdr8"></a>

Vraag de statistieken op van het `DataFrame` met de `describe()` functie. Sla deze statistieken op als csv bestand met de naam 'statistiek.csv'.

<a href="#antw8">Antwoord Opdracht 8</a>

### Stap 9. Geavanceerd analyses

Hieronder worden nog een aantal geavanceerde analysemethode beschreven. Er zijn geen opdrachten meer.

Stel we willen een analyse doen op de jaarlijkse neerslag en verdampingssom. Hiervoor hebben we subselecties nodig van de dataset per jaar. Om analyses te doen op subselecties uit je dataset is de `groupby` methode zeer geschikt. Zo pak je op basis van een bepaalde eigenschap steeds een groep uit je dataset die die eigenschap delen. Hier wil ik de data groeperen per jaar.

Even kijken naar de index. Dat is dus een `DateTimeIndex`, die bepaalde functionaliteit met zich meebrengt.

In [None]:
dfs.index

Zo kunnen we het jaar van elke regel opvragen

In [None]:
dfs.index.year

Of de dag:

In [None]:
dfs.index.day

In [None]:
gr = dfs.groupby(by=dfs.index.year)

Vervolgens kan ik de som van elk jaar bereken met dit commando:

In [None]:
gr.sum()

Het resultaat van een `df.groupby()` is een GroupBy Object. Dat is een beetje een vaag ding. Het belangrijkste om te weten is dat je dingen als `gr.sum()`, `gr.mean()`, `gr.plot` gewoon werken zoals op DataFrames. 

Ook handig is om te weten dat de groepen die gemaakt zijn te benaderen zijn via `gr.groups`:

In [None]:
from IPython.display import display

In [None]:
for groupname, group in gr:
    # Ik wil niet alles printen, dus alleen na 2016
    if groupname > 2016:
        print(groupname)
        display(group.head())

Hier maken we een barplot van de som van de neerslag en verdamping per jaar.

In [None]:
gr.sum().plot.bar(figsize=(16, 6))

Berekenen van het neerslagoverschot in 2018 = Neerslag - Verdamping:

In [None]:
no = dfs.loc["2018", "RH"] - dfs.loc["2018", "EV24"]

Plotten van cumulatieve Neerslag, Verdamping en neerslagoverschot in dezelfe grafiek.

In [None]:
ax = dfs.loc["2018", "RH"].cumsum().plot(legend=True)
dfs.loc["2018", "EV24"].cumsum().plot(ax=ax, legend=True)
no.cumsum().plot(ax=ax, label="Neerslagoverschot", legend=True)

Hoe vaak was de neerslag per dag meer dan 15.0 mm? De data staat nog in tiende millimeters

In [None]:
gt150  = dfs.loc[:, "RH"] > 150

Het resultaat is een reeks aan True/False, die ons verteld of er wel of niet aan de voorwaarde is voldaan.

In [None]:
gt150.head()

Omdat True gelijk is aan 1 en False gelijk aan 0, kunnen we de som nemen van dit resultaat om het aantal dagen te tellen met meer dan 15 mm neerslag.

In [None]:
gt150.sum()

Het totale aantal dagen in de dataset is:

In [None]:
gt150.shape

Als we nu die specifieke dagen willen beschouwen (uit de dataset willen trekken) kan dat met `df.loc[<hier je True/False reeks>, <hier je kolomnaam>]`

In [None]:
dfs.loc[gt150, "RH"]

Voor het kopieren van data naar Excel `pd.to_clibpoard()` (de Pandas equivalent van `ctrl+c`) of `pd.to_excel()` (de Pandas equivalent van save.

In [None]:
dfs.to_clipboard()

En je kan het dan ook weer terug halen met `pd.read_clipboard()` (de pandas equivalent van `ctrl+v`) of `pd.read_excel()` (pandas equivalent van load).

In [None]:
df2 = pd.read_clipboard()
df2.head()


## Antwoorden

#### <a href="#opdr1">Antwoord Opdracht 1</a> <a name="antw1"></a>

In [None]:
s.iloc[2]

#### <a href="#opdr2">Antwoord Opdracht 2</a> <a name="antw2"></a>

In [None]:
stats = s.describe()
stats.loc['25%']

#### <a href="#opdr3">Antwoord Opdracht 3</a> <a name="antw3"></a>

In [None]:
df.loc['Engelse werk', 'aanwezigen']

#### <a href="#opdr4">Antwoord Opdracht 4</a> <a name="antw4"></a>

In [None]:
stats = df.describe()
s = stats['aanwezigen']
print(s)

#### <a href="#opdr5">Antwoord Opdracht 5</a> <a name="antw5"></a>

In [None]:
df.shape
print(df.shape[0],' rijen')
print(df.shape[1],' kolommen')

#### <a href="#opdr6">Antwoord Opdracht 6</a> <a name="antw6"></a>

In [None]:
df.loc['2018','TX'].max()

In [None]:
# Bonus: om de datum op te vragen wanneer dit op trad kunnen we idxmax() gebruiken:
df.loc['2018','TX'].idxmax()

#### <a href="#opdr7">Antwoord Opdracht 7</a> <a name="antw7"></a>

In [None]:
ax = df['TX'].plot(figsize=(12,6))
ax.set_xlim('2000','2005')
ax.set_ylabel('temperatuur (0.1$^\circ$C)')
ax.set_xlabel('')
ax.grid()

#### <a href="#opdr8">Antwoord Opdracht 8</a> <a name="antw8"></a>

In [None]:
stats = df.describe()
stats.to_csv(r'statistiek.csv')