<p><font size="6"><b> Introductie tot Pandas</b></font></p>



> *GCCA+ phase 2 - Geopyhton training*  
> *June, 2023*
>
> *© 2023, Jasper Feyen  (<mailto:jasperfeyen@hotmail.com>)*
---

## Werken met tabulaire gegevens met behulp van Pandas

Om het pandas-pakket te laden en ermee te werken, importeren we eerst het pakket. De conventionele alias voor pandas, zoals afgesproken binnen de community, is `pd`, en dat zullen we hier ook gebruiken.

In [None]:
# We importeren pandas, en gebruiken de pd afkortin
import pandas as pd

Laat ons een eerste tabel inladen! Pandas staat toe om verschillende types aan data in te lezen (excel, csv, txt, ...). 

Hier laden we plotdata in van de mangrove-inventaris uit 2019 (dummy data).

In [None]:
plotdata = pd.read_csv("data/Mangrove_2019.csv")

In [None]:
plotdata

De tabel hierboven is een **DataFrame**:

In [None]:
type(plotdata)

Een `DataFrame` is a 2-dimensionaal, **tablular data structure** bestaand uit rijen en kolommen. Het is gelijkaardig aan een spreadsheet, database (SQL) tabel of een data.frame in R.

<img align="center" width=50% src="../img/pandas/01_table_dataframe1.svg">

Een DataFrame kan data bevatten van verschillende types types (including *character*, *integers*, *floating point values*, *categorical data* and more) in columns. In pandas kan het datatype met de `dtypes` attribuut worden bekeken:

In [None]:
plotdata.dtypes

### Elke kolom uit een `DataFrame` is een `Series`

Wanneer je een kolom selecteert uit een `DataFrame`, bekom je een pandas `Series`: een 1-dimensionale structuur

Om een kolom te selecteren, maak je gebruik van rechthoekige haakjes, zoals hieronder `[]`. De kolomnaam, is steeds een 'string', en dien je met enkele haakjes aan te geven

In [None]:
plotdata['AGB_Mg']

We kunnen deze Series ook opslaan onder een nieuwe variabelenaam

In [None]:
agb = plotdata['AGB_Mg']
type(agb)

### Pandas objecten hebben *attributen* en *methods*

Pandas biedt veel functionaliteiten voor DataFrame en Series. Het `.dtypes` dat hierboven wordt getoond, is een attribuut van het DataFrame. Daarnaast zijn er ook functies die kunnen worden aangeroepen op een DataFrame of Series, dit zijn *methods*. Aangezien *methods* functies zijn, vergeet niet haakjes () te gebruiken om ze aan te roepen.

Enkele voorbeelden die kunnen helpen bij het verkennen van de gegevens:

In [None]:
plotdata.head() # Bovenste rijen afzonder = method

In [None]:
plotdata.tail() # Onderste rijen

De ``describe`` method berekend statistieken van een bepaalde kolom

In [None]:
countries['AGB_Mg'].describe()

**Sort**eren van je data kan via een specifieke kolom met `.sort_values()`.

In deze functie heb je het argument *by* dat aangeeft op welke kolom er moet gesorteerd worden

In [None]:
plotdata.sort_values(by='AGB_Mg')

<div class="alert alert-success">

**OEFENING**:

* Sorteer de dataset eens op basis van 'Sampling Unit' (SU)

## Basis operaties op Series en DataFrames

### Elementsgewijze-operaties

De typische operatoren (+, -, \*, /) en vergelijkingen (==, >, <, ...) werken *element-wise*.

Dit wilt zeggen: voor elke rij (= element) wordt dit toegepast

In [None]:
# We slaan de eerste 5 biomassawaarden op als agb

In [None]:
agb = plotdata['AGB_Mg'].head()
agb

Deel de AGB-waarden door 1000

In [None]:
agb / 1000

Rijen waar AGB groter is dat 12 Mg

In [None]:
agb > 12

Er kan ook gerekend worden met de Series zelf, bijvoorbeeld de som van 2 kolommen nemen:

In [None]:
# som van aantal Rhizopora en Avicennia bomen
plotdata['Rhizopora_count'] + plotdata['Avicennia_count']

### Aggregaties (reducties)

Pandas biedt een uitgebreide set van **summary statistics** aan die werken op verschillende soorten pandas-objecten (DataFrames, Series, Index) en een enkele waarde produceren. Wanneer deze functies worden toegepast op een DataFrame, wordt het resultaat teruggegeven als een pandas Series (één waarde voor elke kolom).

De gemiddelde bovengroendse biomassa-waarde over alle plotlocaties heen:

In [None]:
agb.mean()

De maximale AGB waarde:

In [None]:
plotdata['AGB_Mg'].max()

Je kunt dit ook toepassen op de volledige DataBase. Hierbij neem je enkel de kolommen in rekening met numerieke waarden:

In [None]:
plotdata.median(numeric_only=True)

### Toevoegen van een nieuwe kolom aan je DataFrame

We kunnen een nieuwe kolom toevoegen aan een DataFrame met een vergelijkbare syntaxis als het selecteren van een kolom: we creëren een nieuwe kolom door de output toe te wijzen aan het DataFrame met een nieuwe kolomnaam tussen de `[]`.

Bijvoorbeeld; we berekenen het totaal aantal bomen door de som te nemen van de Avicennia en Rhizopora bomen, en wijzen die toe aan een nieuwe kolom `total_trees`

In [None]:
plotdata['total_trees'] = plotdata['Avicennia_count'] + plotdata['Rhizopora_count']

In [None]:
# Een nieuwe kolom is toegevoegd
plotdata.head()

## Indexering: maken van een subset van de data

### Subset van variabelen (kolommen)

Selecteren van een **enkele kolom**:

In [None]:
plotdata['AGB_Mg'] # single []

Deze syntax kan ook gebruikt worden om nieuwe kolommen toe te voegen, zoals we al gedaan hebben: `df['new'] = ...`.

Het is ook mogelijk om **meerdere kolommen** te selecteren op basis van een lijst van kolomnamen `[]`:

In [None]:
plotdata[['id_plot', 'AGB_Mg']] # double [[]], want je maakt gebruik van een lijst van kolomnamen

### Subset van observaties (rijen)

MEt `[]`, kun je rijen afzonderen. Dit wordt in pandas-termen *slicing* genoemd:

### Slicing

In [None]:
plotdata[0:4] #Eerste 4 rijen

### Boolean indexing (filteren)

Heel vaak wil je je tabel filteren op basis van een bepaalde voorwaarde. Om dit te doen gebruiken we het fenomeen van *'boolean indexing'* 

Een boolean mask is een 1-D series, die dezelfde lengte moet hebben als de dataframe die je gaat filteren.

In [None]:
# we nemen de eerste 5 rijen, om een eenvoudiger overicht te krijgen
df = plotdata.head()
df

Ter illustratie willen we enkel de plotlocaties afzonderen waar zwarte mangrove voorkomt (*Avicennia count* bevat het aantal zwarte mangrovebomen geteld in de plot).

In [None]:
# Nagaan waar 
mask = df['Avicennia_count'] > 0
mask

Deze *mask* kunnen we nu gebruiken om de rijen waar Avicennia voorkomt af te zonderen

In [None]:
df[mask]

In [None]:
# Dit kan ook in één stap
df[df['Avicennia_count'] > 0]

Nog een oefening:

Zoek de plotlocaties in de volledige dataset waar rode mangrove aanwezig is:

In [None]:
plotdata[plotdata['Rhizopora_count'] > 0]

<div class="alert alert-success">

**OEFENING 1**:

* Maak een nieuwe dataframe aan, met enkel de plotdata van Sampling Unit 15 (SU), op basis van Boolean filterin

<details>
  <summary>Hints</summary>

* Hier maken we gebruik van ==

</details>
    
</div>

In [None]:
# %load _solutions\02-introduction-pandas_1.py

Een overzicht met alle mogelijke operatoren:

Operator   |  Description
------ | --------
==       | Equal
!=       | Not equal
\>       | Greater than
\>=       | Greater than or equal
<       | Lesser than
<=       | Lesser than or equal

En voor het combineren van meerdere condities

Operator   |  Description
------ | --------
&       | And (`cond1 & cond2`)
\|       | Or (`cond1 \| cond2`)

Voorbeeld van het combineren van condities: selectieren van SU15 PSP 1:

In [None]:
plotdata[(plotdata['SU']==15) & (plotdata['PSP']==1)]

<div class="alert alert-info" style="font-size:120%">
<b>ONTHOUD</b>: <br><br>

Vierkante haakjes, `[]`worden gebruikt voor:

* **Series**: selecteren op basis van een **label**: `s[label]`
* **DataFrame**: selecteren van één of meerdere **kolommen**:`df['col']` or `df[['col1', 'col2']]`
* **DataFrame**: slicing of filteren van **rijen**: `df['row_label1':'row_label2']` of `df[mask]`

</div>

## Oefeningen

We beschikken over volgende dataset: een lijst met landen in `countries.csv`

<div class="alert alert-success">

**OEFENING 1**:

* Lees de datast `data/countries.csv` file, en maak hier een nieuwe DataFrame voor aan met de naam `countries`.
* Bekijk de eerste rijen via de .head() methode

<details>
  <summary>Hints</summary>

* Om een CSV file in te lezen, gebruiken we de `pd.read_csv()` functie. Het eerste argument is de filelocatie.

</details>
    
</div>

In [None]:
# %load _solutions\02-introduction-pandas_2.py


In [None]:
# %load _solutions\02-introduction-pandas_3.py

<div class="alert alert-success">

**OEFENING 2**:

* Wat is de gemiddelde populatie van alle landen?
* En wat is de mediaan?

<details>
  <summary>Hints</summary>

* De kolom `pop_est` bevat de populatie per land
* Het gemiddelde van een kolom kan berekend worden met de `mean()` method.
* Het selecteren van een enkele kolom: `df['colname']`.

</details>
    
</div>

In [None]:
# %load _solutions\02-introduction-pandas_4.py

In [None]:
# %load _solutions\02-introduction-pandas_5.py

<div class="alert alert-success">

**OEFENING 3**:

* Filter de GeoDataframe met landen die een populatie groter dan 100000000 hebben

<details>
  <summary>Hints</summary>

* The maximum of a column can be calculated with the `max()` method.
* The division operator is `/`, and if we want to take the power of 2 we can use `10**2` (so not `10^2` as you might expect from other languages!).
* Operations on a Series are *element-wise*. For example, to add a number to each element of the Series `s`, we can do `s + 2`.
    
</details>
    
</div>

In [None]:
# %load _solutions\02-introduction-pandas_6.py

<div class="alert alert-success">

**OEFENING 4**:

* Bereken de GDP per capita en voeg die aan de `countries`database toe als een nieuwe kolom ('gdp_capita')

<details>
  <summary>Hints</summary>

* Het delen van twee Series-objecten werkt ook elementgewijs: het eerste element van Series 1 wordt gedeeld door het eerste element van Series 2, het tweede element door het tweede, enzovoort.

* gdp per capita = gpd_md_est/pop_est
</details>
    
</div>

In [None]:
# %load _solutions\02-introduction-pandas_7.py

<div class="alert alert-success">

**OEFENING 5**:

* Sorteer de `countries` DataFrame volgens de populaties (pop_est). Sorteer zodat de landen met de kleinste populatie bovenaan komen te staan. (Tip: check de help van de functie!)

<details>
  <summary>Hints</summary>

* Het Sorteren kan gedaan worden met de `sort_values` methode.
* Om een Dataframe te sorteren volgens een bepaalde kolom, gebruik je `by=`.
* Het argument `ascending` bepaalt of de grootste waarden worden gesorteerd bovenaan (`False`) of onderaan in de DataFrame (`True`).
</details>
    
</div>

In [None]:
# %load _solutions\02-introduction-pandas_8.py

<div class="alert alert-success">

**EXERCISE 7**:

* Selecteer alle landen die behoren tot het continent 'Oceania'.
* Voor deze subset: wat is de totale populatie?
    
</div>

In [None]:
# %load _solutions\02-introduction-pandas_9.py

<div class="alert alert-success">

**EXERCISE 8**:

* Select the districts with a population of more than 50.000 inhabitants.

</div>

## Plotting: visuele data exploratie

The **`plot`** method can gebruik worden om de data op verschillende manieren te plotten

In [None]:
plotdata['AGB_Mg'].plot();

De *default* plot is een *line* plot.Je ziet onmiddellijk dat dit niet echt een geschikte plot is voor onze data. Met `.plot.<kind>` (of het `kind` argmunent), kan je verschillende plottypes kiezen. Bijvoorbeeld een histogram:

In [None]:
plotdata['AGB_Mg'].plot.hist()  # or: .plot(kind='hist')

Heel informatief is deze plot niet echt.

###  `matplotlib` 

De plot die wordt gegenereerd door pandas met de `.plot()`-methode, wordt eigenlijk gemaakt met behulp van het `matplotlib`-pakket.

[Matplotlib](http://matplotlib.org/) is een Python-pakket dat veel wordt gebruikt in de wetenschappelijke Python-gemeenschap om hoogwaardige 2D-publicatiegrafieken te produceren. Het ondersteunt transparant een breed scala aan uitvoerformaten, waaronder PNG (en andere rasterformaten), PostScript/EPS, PDF en SVG, en heeft interfaces voor alle belangrijke desktop-GUI (graphical user interface) toolkits. Het is een geweldig pakket met veel opties.

Echter, matplotlib is ook een *gigantische* bibliotheek, waarmee je alles kunt plotten wat je wilt en elke detail van de plot kunt aanpassen... als je weet hoe dit te doen.

Deze cursus is uiteraard geen diepgaande python cursus, dus zullen we ons eerder beperken.

Dus in deze cursus zullen we voornamelijk matplotlib gebruiken via een handige laag, zoals de pandas `.plot()`-methode, of een hulplib zoals `seaborn`. Maar je leert ook enkele basis-technieken van matplotlib.


Matplotlib wordt geleverd met een handig subpakket genaamd ``pyplot``, dat voor consistentie met de bredere matplotlib-gemeenschap altijd moet worden geïmporteerd als ``plt``.


In [None]:
import matplotlib.pyplot as plt

Het object uit de `plot()` method wordt een **Axes** genoemd

In [None]:
ax = plotdata['AGB_Mg'].plot.hist()

In [None]:
type(ax)

De Axes vertegenwoordigt de "dataruimte" van een typische plot: waar gegevens worden geplot en meestal een x- en y-as hebben. De Axes maakt deel uit van een **Figure** (in het bovenstaande voorbeeld heeft de Figure één Axes of subplot, maar je kunt ook een Figure maken met meerdere Axes of subplots).

We kunnen ook deze Figure en Axes handmatig maken:


In [None]:
fig, axs = plt.subplots()  # ncols=

Daarna kun je deze **ax** vullen met één (of meerdere) plots binnen dezelfde dataruimte

In [None]:
fig, axs = plt.subplots()
plotdata['AGB_Mg'].plot.hist(ax=axs)

Verder kun je heel de plot aanpassen, titels geven, kleurtjes geven, ... Helaas hebben wij hier weinig tijd voor, maar ik geef alvast een voorbeeldje mee:

In [None]:
fig, axs = plt.subplots()
plotdata['AGB_Mg'].plot.hist(ax=axs)
axs.set_title("Mangrove AboveGround Biomass per PSP")
axs.set_xlabel("AGB (Mg)")
axs.set_xlim(0, 30)

Een voorbeeld van een ander pakket dat is gebouwd bovenop matplotlib is **`seaborn`** (https://seaborn.pydata.org/). Het biedt een hoog niveau interface voor een reeks statistische grafieken.

Het geeft je echt prachtige plots, dus zeker de moeite waard hier wat verder in te verdiepen!

Bijvoorbeeld, we kunnen een boxplot maken van de bovengrondse biomassa (AGB) binnen de mangrove-sampling units


In [None]:
import seaborn

In [None]:
fig, ax = plt.subplots(figsize=(8, 8))
seaborn.boxplot(y="AGB_Mg", x="SU", color="C0", data=plotdata, ax=ax)  # violinplot

In deze cursus zit ook nog een extra notebook verder toegespitst op deze visualisaties. ([visualization-01-matplotlib.ipynb](visualization-01-matplotlib.ipynb#An-small-cheat-sheet-reference-for-some-common-elements)).

<div class="alert alert-info" style="font-size:18px">

**Galleries!**

Op het internet staan een hele reeks aan gallijen met voorbeeld-plotjes, waarbij je uitleg krijgt hoe je dergelijk type plots kan maken. Zeker de moeite waard dus!

    
* [matplotlib gallery](https://matplotlib.org/stable/gallery/) = basis
* [seaborn gallery](https://seaborn.pydata.org/examples/index.html) = prachtig
* The Python Graph Gallery (https://python-graph-gallery.com/) = nuttig

</div>

## Groeperen per categorie

<img align="center" src="../img/pandas/06_groupby1.svg">

Stel dat we nu wensen de totale bovengronde biomassa van één SU (sampling unit) te berekenen. Dit kunnen we doen door de methode die we hierboven reeds zagen:![06_groupby1.svg](attachment:e8de9f8c-9360-48c3-b9e5-1634b21bf266.svg)

In [None]:
plotdata

In [None]:
SU1 = plotdata[plotdata['SU'] == 1]

In [None]:
SU1

In [None]:
SU1['AGB_Mg'].sum()

Maar als we dit moeten herhalen voor elke SU, dan zijn we wel even bezig. Gelukkig bestaan er intelligentere manieren: de `groupby` methode!

In [None]:
plotdata.groupby('SU')['AGB_Mg'].sum()

Het berekenen van een bepaalde statistiek (bijv. de som van de bevolking) voor elke categorie in een kolom (bijv. de verschillende continenten) is een veelvoorkomend patroon. De `groupby()`-methode wordt gebruikt om dit type bewerkingen te ondersteunen. Meer algemeen past dit in het meer algemene split-apply-combine-patroon:

- **Split** de gegevens in groepen
- **Apply** een functie op elke groep onafhankelijk
- **Combine** de resultaten in een datastructuur

De apply- en combine-stappen worden meestal samen uitgevoerd in pandas.


In [None]:
plotdata.groupby('SU')['AGB_Mg'].sum().plot.barh()  # or plot(kind="barh")

## Oefenen maar!

Voor onze oefeningen gebruiken we opnieuw de countries database

In [None]:
countries = pd.read_csv("data/countries.csv")

In [None]:
countries.head()

<div class="alert alert-success">
<b>OEFENING 9</b>:

* Plot de populatiedistributie van alle landen

</div>

In [None]:
countries['pop_est'].plot.hist()

In [None]:
# %load _solutions/01-introduction-tabular-data20.py

<div class="alert alert-success">

<b>EXERCISE 10</b>:

* Maak gebruik van groupby(), om de totale populatie te berekenen per continent

</div>

In [None]:
countries.groupby('continent')['pop_est'].sum()

##  --- EXTRA ----

Deze notebook is slechts een introductie. De pandas-bibliotheek biedt veel meer functionaliteit voor het werken met tabulaire gegevens, die we in deze cursus niet zullen behandelen.


### Tellen van waarden

Wil je weten wat de unieke waarden zijn van een kolom en hoe vaak elke waarde voorkomt? Gebruik de `value_counts()`-methode:

In [None]:
countries['continent'].value_counts()

### Selecteren vaan een specifieke rij in een dataframe

Om een specifieke waarde van een DataFrame te benaderen, kunnen we de `.loc`-methode gebruiken door de (rijlabel, kolomnaam) door te geven:

In [None]:
countries.loc[0, "name"]

### Merging dataframes

Pandas biedt verschillende manieren om verschillende DataFrames te combineren. Als er een gemeenschappelijke kolom is waarop je beide DataFrames wilt matchen, kunnen we de functie `pd.merge()` gebruiken:


In [None]:
cities = pd.read_csv("data/cities.csv")

In [None]:
cities.head()

In [None]:
countries.head()

Beide DataFrames hebben de kolom `'iso_a3'` met een 3-karaktercode van het land. Op basis hiervan kunnen we informatie over het land toevoegen aan het steden-dataset:

In [None]:
pd.merge(cities, countries, on="iso_a3")

## Van Pandas naar Geopandas 
De datasets die in deze notebook worden gebruikt, bevatten ruimtelijke informatie: gegevens over gebieden (landen, districten) of puntlocaties (steden, fietsstations). Maar de gegevens zelf bevatten niet altijd expliciet het ruimtelijke aspect. Bijvoorbeeld, we weten niet precies de omvang van de landen met de hier gebruikte dataset.

Bij puntlocaties, zoals het steden DataFrame, wordt de locatie opgenomen als twee kolommen:

In [None]:
cities.head()

Dit stelt ons bijvoorbeeld in staat om de locaties handmatig in kaart te brengen:

In [None]:
cities.plot.scatter(x="longitude", y="latitude")

Dit maakt het echter niet gemakkelijk om met die locaties te werken en ruimtelijke analyses uit te voeren. Daarvoor gaan we een nieuwe package introduceren: **`geopandas`**.

Als illustratie converteren we het pandas DataFrame met steden naar een geopandas GeoDataFrame:

In [None]:
import geopandas

In [None]:
cities_geo = geopandas.GeoDataFrame(cities, geometry=geopandas.points_from_xy(cities["longitude"], cities["latitude"]))

In [None]:
cities_geo

Een extra kolom geeft ons nu een Punt-geometrie aan. Dit wordt het onderwerp van de volgende notebooks!