<p><font size="6"><b> Introductie tot geospatiale vector data in Python</b></font></p>


> *GCCA+ phase 2 - Geopyhton training*  
> *June, 2023*
>
> *© 2023, Jasper Feyen  (<mailto:jasperfeyen@hotmail.com>)*

---
---

In [None]:
%matplotlib inline

import pandas as pd
import geopandas

## Importeren van GeoDataFrames

Geospatiale gegevens zijn vaak beschikbaar in specifieke GIS-bestandsindelingen of gegevensopslagplaatsen, zoals ESRI shapefiles, GeoJSON-bestanden, geopackage-bestanden, PostGIS (PostgreSQL) databases, ...

We kunnen de GeoPandas-bibliotheek gebruiken om veel van die GIS-bestandsindelingen te lezen (met behulp van de `fiona`-bibliotheek onder de motorkap, die een interface is naar GDAL/OGR), met behulp van de functie `geopandas.read_file`.

Laten we bijvoorbeeld beginnen met het lezen van een shapefile met alle landen ter wereld (aangepast van [deze bron](http://www.naturalearthdata.com/downloads/110m-cultural-vectors/110m-admin-0-countries/), het zipbestand is beschikbaar in de `/data`-map), en de gegevens inspecteren:


In [None]:
countries = geopandas.read_file("data/ne_10m_admin_0_countries.zip")
# Of indien je een uitgepakte schapefile beschikt:
# countries = geopandas.read_file("data/ne_10m_admin_0_countries/ne_110m_admin_0_countries.shp")

In [None]:
countries.head()

In [None]:
countries.plot()

In [None]:
countries.explore()

Wat observeren we:

- Met behulp van `.head()` kunnen we de eerste rijen van de dataset bekijken, net zoals we met Pandas kunnen doen.
- Er is een `geometry`-kolom en de verschillende landen worden weergegeven als polygonen.
- We kunnen de methode `.plot()` (matplotlib) of `explore()` (Folium / Leaflet.js) gebruiken om snel een *basis* visualisatie van de gegevens te krijgen.

## Wat is een GeoDataFrame?

We hebben de GeoPandas-bibliotheek gebruikt om de geospatiale gegevens in te lezen, en dit heeft ons een `GeoDataFrame` als output gegeven.

In [None]:
type(countries)

Een GeoDataFrame bevat een tabulaire, geospatiala dataset:

* Het heeft een **'geometry' kolom** die de geometrie-informatie bevat (of kenmerken in GeoJSON).
* De andere kolommen zijn de **attributen** (of eigenschappen in GeoJSON) die elke geometrie beschrijven.

Een dergelijke `GeoDataFrame` is vergelijkbaar met een pandas `DataFrame`, maar heeft enkele extra functionaliteiten voor het werken met geospatiale data:

* Een `.geometry` attribuut dat altijd de kolom met de geometrie-informatie bevat (als een GeoSeries). De naam van de kolom hoeft niet per se 'geometry' te zijn, maar deze zal altijd toegankelijk zijn onder de `.geometry` attribuut.
* Het heeft enkele extra methoden voor het werken met ruimtelijke gegevens (oppervlakte, afstand, buffer, intersectie, ...), waar we in deze notebooks even onder ons vergrootglas zullen houden.

In [None]:
# GeoDataframes bevatten dus steeds een geometry-attribuut:
countries.geometry

In [None]:
type(countries.geometry)

In [None]:
countries.geometry.area

**Het is nog steeds een DataFrame**, dus we hebben alle functionaliteit van Pandas beschikbaar om te gebruiken op de geospatiële dataset en om gegevensmanipulaties uit te voeren met de attributen en geometrie-informatie samen.

Bijvoorbeeld, we kunnen het gemiddelde bevolkingsaantal van alle landen berekenen (door toegang te krijgen tot de 'pop_est' kolom en de `mean` methode erop aan te roepen):

In [None]:
countries['pop_est'].mean()

Ook Boolean filtering werkt nog steeds:

In [None]:
countries[countries['name']== 'Suriname'].plot()

In [None]:
South_America = countries[countries['continent'] == 'South America']

In [None]:
South_America.plot()

<div class="alert alert-info" style="font-size:120%">

**ONTHOUD:** <br>

* A `GeoDataFrame` allows to perform typical tabular data analysis together with spatial operations
* A `GeoDataFrame` (or *Feature Collection*) consists of:
    * **Geometries** or **features**: the spatial objects
    * **Attributes** or **properties**: columns with information about each spatial object

</div>

<div class="alert alert-success">

**OEFENING 1**:

Maak een visualisatie van de landsgrenzen van Suriname.

Opmerking: De 'countries' dataset heeft een lage graad van detail en is afkomstig van https://www.naturalearthdata.com/downloads/. Vectorfiles met hogere kwaliteit kunnen hier ook worden gedownload.
    
</div>

In [None]:
# %load _solutions/03-introduction-geospatial-data_1.py
suriname = countries[countries['name'] == 'Suriname'];
# Plotten van de grenzen
suriname.plot()


## Geometries: Points, Linestrings and Polygons

**Spatiale vectoren** kunnen bestaan uit verschillende typen, en de 3 fundamentele typen zijn:

![](../img/simple_features_3_text.svg)

* **Puntdata**: vertegenwoordigt een enkel punt in de ruimte.
* **Lijndata** ("LineString"): vertegenwoordigt een reeks punten die een lijn vormen.
* **Polygoondata**: vertegenwoordigt een gevuld gebied.

En elk van deze typen kan ook worden gecombineerd in meerdelige geometrieën (zie https://shapely.readthedocs.io/en/stable/manual.html#geometric-objects voor een uitgebreid overzicht).


Tot nu toe hebben we steeds de geometrie geplot van een enkele polygoon:

In [None]:
countries[countries['name'] == 'Luxembourg'].plot()

In [None]:
print(countries.geometry[2])

Laten we enkele andere datasets importeren met verschillende soorten geometrie-objecten.

Een dataset over steden in de wereld (aangepast van http://www.naturalearthdata.com/downloads/110m-cultural-vectors/110m-populated-places/, het zip-bestand is beschikbaar in de `/data`-map), bestaande uit puntgegevens:

In [None]:
cities = geopandas.read_file("data/ne_110m_populated_places.zip")

In [None]:
print(cities.geometry[0])

In [None]:
cities.plot()

En een dataset van rivieren in de wereld (van http://www.naturalearthdata.com/downloads/50m-physical-vectors/50m-rivers-lake-centerlines/, het zip-bestand is beschikbaar in de `/data`-map) waarbij elke rivier een (multi-)lijn is:

In [None]:
rivers = geopandas.read_file("data/ne_50m_rivers_lake_centerlines.zip")

In [None]:
rivers.plot()

In [None]:
rivers[rivers['name'] == 'Amazonas'].plot()

In [None]:
# Plot alle landen uit Asië

In [None]:
mask_1 = countries['continent'] == 'Asia'
mask_2 = countries['continent'] == 'South America'
# Twee conditionals: OF = |
countries[ (mask_1) | (mask_2) ].plot()

In [None]:
print(rivers.geometry[0])

### Over de `shapely` bibliotheek

De individuele geometrie-objecten worden geleverd door de [`shapely`](https://shapely.readthedocs.io/en/stable/) bibliotheek.

In [None]:
type(countries.geometry[0])

Om er zelf een te construeren:

In [None]:
from shapely.geometry import Point, Polygon, LineString

In [None]:
p = Point(0, 0)

In [None]:
print(p)

In [None]:
polygon = Polygon([(1, 1), (2,2), (2, 1)])

In [None]:
polygon.area

In [None]:
polygon.distance(p)

<div class="alert alert-info" style="font-size:120%">

**REMEMBER**: <br>

**Enkele geometrieën worden vertegenwoordigd door `shapely`-objecten:**

* Als je toegang krijgt tot een enkele geometrie van een GeoDataFrame, krijg je een shapely-geometrieobject.
* Deze objecten hebben vergelijkbare functionaliteit als geopandas-objecten (GeoDataFrame/GeoSeries). Bijvoorbeeld:
  * `single_shapely_object.distance(other_point)` -> afstand tussen twee punten
  * `geodataframe.distance(other_point)` -> afstand voor elk punt in de gegevensreeks naar het andere punt.


</div>

## Plotten van meerdere lagen

Je kunt meerdere datalagen gemakkelijk samen plotten. Voorwaarde is natuurlijk dat ze over hetzelfde Coordinatensysteem beschikken, maar daar gaan we in volgend notebook iets dieper op in.

In [None]:
# fig, ax = plt.subplots(figsize=(10, 8))
ax = countries.plot( facecolor='none', figsize=(10, 8))
rivers.plot(ax=ax)
cities.plot(ax=ax, color='red')
ax.set(xlim=(-90, -30), ylim=(-60, 20))

EXTRA: Bekijk het notebook [visualization-02-geopandas.ipynb](visualization-02-geopandas.ipynb) voor meer details over het visualiseren van geospatiale datasets.

## OEFENINGEN: MANGROVE DATA

Zoals in vorige notebooks, oefenen we wat verder op onze mangrove-data. 
Hier starten we simpel, met volgende datasets

- De administratieve disctricten van Suriname (gedownload via Gonini)
- De locaties van de Sampling Units (SU's) en Principal Sampling Plots (PSP) gebruikt binnen het GCCA+ project

Beide datasets bevatten een geospatiale component en zijn daarom dus GIS-lagen.

In vorig hoofdstuk zagen we enkel tabeldata, maar nu koppelen we hier dus ook de spatiale context aan!

<div class="alert alert-success">

**OEFENING 2**:

We starten met het inladen van de mangrove-inventarisdata (beschikbaar als Shapefile: `data/mangrove_2022.gpkg`)
    
* Lees de mangrove dataset als een GeoDataFrame met de naam `plotdata`.
* Bekijk het type van het eerste object
* Uit hoeveel rijen bestaat de dataset? Welke type geospatiale data betreft het?
* Hoeveel *features* zijn er aanwezig in de dataset?
    
<details><summary>Tips</summary>

* Gebruik `type(..)` om het type van elk Python object te achterhalen
* Gebruik de `geopandas.read_file()` functie voor het inlezen van geospatiale (vector) data.
* Gebruik de `.shape` attribuut om het aantal *features* te achterhalen

</details>
    
    
</div>

In [None]:
plotdata = geopandas.read_file('data/mangrove_2022.gpkg')

In [None]:
plotdata.plot()

In [None]:
plotdata.shape

In [None]:
# %load _solutions/03-introduction-geospatial-data_2.py

In [None]:
# %load _solutions/03-introduction-geospatial-data_3.py

In [None]:
# %load _solutions/03-introduction-geospatial-data_4.py


<div class="alert alert-success">

**OEFENING 2**:

* Maak een snelle plot van de `plotdata` dataset.
* Maak de plot een beetje groter door de grootte naar (12, 6) te brengen (hint: de `plot` methode accepteert een `figsize` argument).
 
</div>

In [None]:
type(plotdata)

In [None]:
plotdata.plot(figsize= (12,6), markersize =10, color = 'red')

In [None]:
# %load _solutions/03-introduction-geospatial-data_5.py

## Toevoegen van contextly

Een plot met alleen punten kan moeilijk te interpreteren zijn zonder enige ruimtelijke context. We hebben gezien dat we de explore()-methode kunnen gebruiken om eenvoudig een interactieve figuur te krijgen die standaard een achtergrondkaart bevat. Maar ook voor de statische plot gebaseerd op matplotlib kan het handig zijn om zo'n basis kaart toe te voegen, en dat is wat we in de volgende oefening zullen leren.

We gaan gebruik maken van het [contextily](https://github.com/darribas/contextily) pakket. De `add_basemap()` functie van dit pakket maakt het eenvoudig om een achtergrond webkaart aan onze plot toe te voegen. We beginnen met het plotten van onze data, en geven vervolgens het matplotlib as-object (bekomen door de `plot()` methode van het dataframe) door aan de `add_basemap()` functie. contextily zal dan de webtegels downloaden die nodig zijn voor het geografische bereik van je plot.


<div class="alert alert-success">

**OEFENING 3**:

* Importeer `contextily`.
* Maak opnieuw een figuur aan van alle plotpunten in `plotdata`, maar wijs dit nu toe aan een `ax` variable (bv `ax = plotdata.plot(...)`).
* Wijzig de grootte van de *markers* naar grootte 5 (gebruik de `markersize` keyword of binnen de `plot()` methode hiervoor).
* Gebruik de `add_basemap()` functie vab `contextily` en een achtergrond toe te voegen, als argument van de functie geef je de aangemaakte variabele `ax` op.

</div>

In [None]:
# %load _solutions/03-introduction-geospatial-data_6.py
import contextily

# Plot opstellen met de gewenste eigenschappen
ax = plotdata.to_crs('epsg:3857').plot(figsize=(12,6), markersize=5)

# Extra: wijzig de y-as: groter maken adhv ax.set(ylim = ...)
ax.set(ylim = (635000, 680000))

# uit het contextily pakket halen we de add_basemap() functie
contextily.add_basemap(ax)


<div class="alert alert-success">

**Oefening 4**:

* Maak een histogram die de distributie van het aantal Avicennia (zwarte mangrove) bomen over de plots weergeeft.

<details>
  <summary>Hints</summary>

* Een kolom selecteren kan via vierkante haakjes: `df['col_name']`
* Enkelvoudige kolomen kunnen adhv `hist()` methode een eenvoudige histogram plotten
    
</details>
    
</div>

In [None]:
# %load _solutions/03-introduction-geospatial-data_7.py

<div class="alert alert-success">

**OEFENING 5**:

We kunnen het aantal Avicennia-bomen ook visueel maken in onze plot:
    
* Maak een plot van de `plotdata` dataset
* Gebruik de kolom `Avicennia_count` om een kleur toe te voegen aan de punten. Hiervoor gebruik je de `column=` parameter binnen de `.plot()` methode.
* Extra: voeg `legend=True` argument toe aan de .plot() om een kleurenschaal te krijgen.
 
</div>

In [None]:
plotdata.crs

In [None]:
# %load _solutions/03-introduction-geospatial-data_8.py

<div class="alert alert-success">

**OEFENING 8**:

* Voeg een kolom `'tree_density'` toe, die het aantal bomen per ha weergeeft (in een plot).
    * Bereken hiervoor zelf eerst het totale aantal bomen in de plot (= som van de 3 type bomen)
    * Densiteit kan vervolgens berekend worden door aantal_bomen/(20* 100 * 10**-4)
* Plot the plots opnieuw volgens  de ``tree_density'` . 
* Gebruik `legend=True` om een kleurenlegende toe te voegen.

</div>

In [None]:
# %load _solutions/03-introduction-geospatial-data_9.py

In [None]:
# %load _solutions/03-introduction-geospatial-data_10.py

In [None]:
# %load _solutions/02-introduction-geospatial-data9.py

<div class="alert alert-success">

**OEFENING 6**:

Vervolgens zullen we de Beschermde natuurgebieden van Suriname wat bekijken.

* Lees de dataset `potected_areas.shp`.
* Bekijk de eerste rijen van de set. Welke soort geometry bevat deze laag?
* Hoeveel *features* zijn er aanwezig? (hint: use the `.shape` attribute)
* Maak een snelle plot van de `protected_areas` dataset (set the figure size to (12, 6)).
    
</div>

In [None]:
# %load _solutions/03-introduction-geospatial-data_11.py

In [None]:
# %load _solutions/03-introduction-geospatial-data_12.py

In [None]:
# %load _solutions/03-introduction-geospatial-data_13.py

<div class="alert alert-success">

**OEFENING 7**:
    
Wat is het grootste beschermd gebied (grootste oppervlakte)?

* Bereken de oppervlakte van elk district in km² naar een nieuwe kolom area_km2
* Voeg de oppervlakte toe aan de `protected_areas` dataframe.
* Sorteer je dataframe by op Area van hoog naar laag (descending).

<details><summary>Hints</summary>

* Het toevoegen van een nieuwe kolom aan een dataframe kan door het gebruiken van vierkante haakjes `df['new_col'] = values`
* via .area wordt de oppervlakte berekend in m². Door een vermenigvuldigen met `10**-6**` kun je dit omrekenen naar km².
* Om je DataFrame te sorteren kun je de `sort_values()` methode gebruiken. Je specifieert de kolom waarop er gesorteerd moet worden door de parameter `by='col_name'` toe te voegen aan de functie. Bekijk de help van deze functie om te achterhalen hoe je kan sorteren volgens *ascending* of *descending*.

</details>

</div>

In [None]:
# %load _solutions/03-introduction-geospatial-data_14.py

In [None]:
# %load _solutions/03-introduction-geospatial-data_14.py

---

## EXTRA: een Geodataframe halen uit een Pandas dataframe

Dit is handig als je bijvoorbeeld een tabel hebt met coordinaten in twee kolommen

In [None]:
# Colgende functie maakt een nieuwe pandas dataframe aan ter illustratie
df = pd.DataFrame(
    {'City': ['Buenos Aires', 'Brasilia', 'Santiago', 'Bogota', 'Caracas'],
     'Country': ['Argentina', 'Brazil', 'Chile', 'Colombia', 'Venezuela'],
     'Latitude': [-34.58, -15.78, -33.45, 4.60, 10.48],
     'Longitude': [-58.66, -47.91, -70.66, -74.08, -66.86]})

In [None]:
df

We wensen dit om te zetten naar een Geopandas dataframe, op basis van de longitude en latitude

In [None]:
gdf = geopandas.GeoDataFrame(
    df, geometry=geopandas.points_from_xy(df.Longitude, df.Latitude), crs = 'EPSG:4236')

In [None]:
gdf

Zie: https://geopandas.org/en/latest/gallery/create_geopandas_from_pandas.html voor een vollediger overzichtje