<p><font size="6"><b> Basis Raster operaties en raster-vector tools </b></font></p>

> *GCCA+ phase 2 - Geopyhton training*  
> *June, 2023*
>
> *© 2023, Jasper Feyen  (<mailto:jasperfeyen@hotmail.com>)*

---
---

In het vorige notebook focusten we enkel op vectoren of raster. Uiteraard kunnen we veel meer indien we vectoren en rasters kunnen combinerenç

In [None]:
import pandas as pd
import numpy as np
import geopandas
import rasterio

import xarray as xr

import matplotlib.pyplot as plt

# `rioxarray`: de kracht van xarray en rasterio samen

In de vorige notebooks hebben we al gebruik gemaakt van `rasterio` (https://rasterio.readthedocs.io/en/latest/) om rasterbestanden zoals GeoTIFFs te lezen (via de `xarray.open_dataarray(...,engine="rasterio")` functie). Rasterio biedt ondersteuning voor het lezen en schrijven van georuimtelijke rastergegevens als numpy N-D arrays, voornamelijk via bindings met de GDAL-library.

Daarnaast biedt rasterio een Python API om enkele GIS-rasterbewerkingen uit te voeren (clipping, masking, warping, samenvoegen, transformatie, enz.) en kan het worden gebruikt om slechts een subset van een groot dataset in het geheugen te laden. De belangrijkste complexiteit bij het gebruik van `rasterio` is echter dat de ruimtelijke informatie losgekoppeld is van de gegevens zelf (d.w.z. de numpy-array). Dit betekent dat je de omvang en metadata gedurende de bewerkingen moet bijhouden en organiseren (bijv. de "transform") en dat je moet bijhouden wat elke dimensie vertegenwoordigt (y-eerst, aangezien arrays eerst georganiseerd zijn langs rijen). 

Maak kennis met `rioxarray` (https://corteva.github.io/rioxarray/stable/index.html), dat xarray uitbreidt met georuimtelijke functionaliteiten aangedreven door rasterio.


In [None]:
import rioxarray

In [None]:
data_file = "data/Sentinel_2022_example.tif"

In [None]:
data = rioxarray.open_rasterio(data_file)
data

De `rioxarray.open_rasterio` functie is vergelijkbaar met `xarray.open_dataarray`.

Zodra `rioxarray` is geïmporteerd, biedt het een `.rio` accessor op het `xarray.DataArray` object, waarmee toegang wordt verkregen tot enkele eigenschappen van de rastergegevens:

In [None]:
data.rio.crs

In [None]:
data.rio.bounds()

In [None]:
data.rio.resolution()

In [None]:
data.rio.nodata

In [None]:
data.rio.transform()

## Bandnamen hernoemen

Bij het bekijken van de raster dataset, hebben we de 10 verschillende Sentinel-2 banden, deze zijn genummerd van 1 tot 10. Dit komt niet overeen met de werkelijke bandnummer van Sentinel-2 zoals die moet gegeven zijn.

Zo is onze band 1 de blauwe band, wat volgens Sentinel-2 benaming eigenlijk "Band 2" moet zijn. Zo klopt voor elk van onze banden het gegeven bandnummer niet met de bandbenamingen. Kijken we onder de 'Attributes', zien we echter wel dat de 'long name' als metadata zit opgeslagen: de werkelijke bandnamen.

Het zou dus handig zijn om deze labels toe te kennen aan onze banden, om verwarring te voorkomen. Gelukkig kan dit!

In [None]:
# Bandnamen zitten opgeslagen onder de attributen
data.attrs['long_name']

We kunnen de labels toekennen met assign_coordinates:

In [None]:
data = data.assign_coords(band=("band", list(data.attrs['long_name'])))
data

## Reprojecting rasters

`rioxarray` geeft toegang tot een set rasterverwerkingsfuncties van rasterio/GDAL.

Een daarvan is het herschalen (transformeren en resampling) van rasters, bijvoorbeeld om naar een ander coördinatenreferentiesysteem te transformeren, naar een andere resolutie te verkleinen/vergroten, enzovoort. In al deze gevallen, bij de transformatie van een oorspronkelijk raster naar een doelraster, moeten pixelwaarden opnieuw worden berekend. Er zijn verschillende "resampling"methoden die hiervoor kunnen worden gebruikt: de Nearest Neighbor pixelwaarde, het gemiddelde berekenen, een (niet-)lineaire interpolatie, enzovoort..

De functionaliteit is beschikbaar via de `reproject()`-methode.:


In [None]:
#We nemen enkel de rode, groene en blauwe band (= B4, B3, B2)
data.sel(band = ['B4','B3','B2']).rio.crs

In [None]:
data.sel(band = ['B4','B3','B2']).rio.reproject("EPSG:31370").plot.imshow(figsize=(10,6),vmax=0.2)

De *default* resampling methode  is "nearest", wat vaak geen geschikte methode is (vooral voor continue data). We kunnen de methode wijzigen met behulp van de `rasterio.enums.Resampling`-enumeratie (zie [docs](https://rasterio.readthedocs.io/en/latest/api/rasterio.enums.html#rasterio.enums.Resampling) voor een overzicht van alle methoden):

In [None]:
from rasterio.enums import Resampling

In [None]:
data.rio.reproject("EPSG:31370", resampling=Resampling.bilinear).sel(band=['B4','B3','B2']).plot.imshow(figsize=(10,6),vmax = 0.2)

Je kunt ook meteen downsamplen

In [None]:
data.rio.reproject(data.rio.crs, resolution=120, resampling=Resampling.cubic).sel(band=['B4','B3','B2']).plot.imshow(figsize=(10,6),vmax = 0.2)

# Clip raster by mask layer

Binnen veel toepassingen is het studiegebied (veel) kleiner dan de gegeven rasters.

In [None]:
districts = geopandas.read_file("./data/Suriname_districts.geojson")
paramaribo_district = districts[districts['DISTR_NAAM'] == 'Paramaribo']
paramaribo_district

In [None]:
paramaribo_district.plot()

In [None]:
paramaribo_district.crs

We moeten zorgen dat beide datasets in hetzelfde CRS staan!

In [None]:
paramaribo_district = paramaribo_district.to_crs(epsg=32621)

In [None]:
clipped = data.rio.clip(paramaribo_district.geometry)

In [None]:
fig, (ax0, ax1) = plt.subplots(ncols=2, figsize=(12,4))
data.sel(band=['B4','B3','B2']).plot.imshow(ax=ax0, vmax = 0.2)
paramaribo_district.plot(ax=ax0, facecolor="none", edgecolor="red")

clipped.sel(band=['B4','B3','B2']).plot.imshow(ax=ax1, vmax = 0.2)
paramaribo_district.plot(ax=ax1, facecolor="none", edgecolor="red")

fig.tight_layout()

De bovenstaande code maakt gebruik van het `rasterio`-pakket (met de functionaliteit `mask` en `geometry_mask` / `rasterize`) onder de motorkap. Dit vereenvoudigt de bewerking in vergelijking met het direct gebruik van `rasterio`.

```python
   # cfr. The Rasterio workflow

   from rasterio.mask import mask

   # 1 - Open een dataset met behulp van de contextbeheerder
   with rasterio.open(data_file) as src:

    # 2 - Lees de dataset en transformeer deze door uit te snijden
    out_image, out_transform = mask(src, paramaribo_vect.geometry, crop=True)

    # 3 - Werk de ruimtelijke metadata/profiel van de dataset bij
    paramaribo_profile = src.profile
    paramaribo_profile.update({"height": out_image.shape[1],
                              "width": out_image.shape[2],
                              "transform": out_transform})
    # 4 - Sla de nieuwe dataset op met de bijgewerkte metadata/profiel
    with rasterio.open("./paramaribo_masked.tif", "w", **paramaribo_profile) as dest:
        dest.write(out_image)



# Raster bewerkingen

## Reducties & element-gewijze berekeningen

In [None]:
paramaribo = xr.open_dataarray( "data/Sentinel_2022_example.tif", engine="rasterio")
paramaribo = paramaribo.assign_coords(band=("band", list(paramaribo.attrs['long_name'])))
paramaribo_red = paramaribo.sel(band="B4")

### Reducties

De __reductie__ (aggregaties) worden aangeboden als methoden en kunnen worden toegepast langs één of meerdere dimensies van de gegevens.

Standaard wordt een array gereduceerd over *alle* dimensies, waarbij een enkele waarde als ouput wordt gegeven als een DataArray:

In [None]:
paramaribo_red.mean()

In NumPy, deze dimenties worden __axis__ genoemd:

In [None]:
paramaribo_red.mean(axis=1)

Maar we hebben dimensies met labels (zoals 'X', en 'Y'), dus in plaats van reducties uit te voeren op assen (zoals in NumPy), kunnen we ze uitvoeren op de dimensies (x of y as). Dit is handiger:

In [None]:
paramaribo_red.mean(dim="x")

Berekenen van gemiddelde per as

In [None]:
paramaribo.mean(dim=["x", "y"])  #  'neem het gemiddelde over de x- en y- as samen)

### Elementsgewijze berekeningen

In Xarray kun je gemakkelijk elementswijze berekingen uitvoeren. In onderstaand voorbeeld vermenigvuldig je dus **elke** pixel in de rode band met 10

In [None]:
paramaribo_red * 10.

Indien we meerdere banden met elkaar combineren, gebeurt ook dit elementgewijs; 

In [None]:
paramaribo.sel(band="B4") - paramaribo.sel(band="B3")

### Oefenen maar!

<div class="alert alert-success">

**OEFENING**:

Op basis van onze verschillende banden in het Sentinel-beeld, kunnen we de NDVI berekenen. Deze wordt berekend op basis van band 8 en band 4:
    
$$\frac{band_8 - band_4}{band_8 + band_4} $$
    
Maak gebruik van de Paramaribo-set:
    
- Zorg er eerst voor dat de verschillende banden hun correcte naam meekrijgen. 
- Bereken de NDVI, sla deze op als een nieuwe variabele: paramaribo_ndvi
- Maak een visualitie. Gebruik "Greens" als colormap. 


           
</div>

In [None]:
# %load _solutions/08-rasters-rioxarray-1.py
# Stap 1: banden selecteren uit het paramaribo-beeld
B8 = paramaribo.sel(band='B8')
B4 = paramaribo.sel(band='B4')

In [None]:
# %load _solutions/08-rasters-rioxarray-2.py
# Stap 2: "simpele" berekening uitvoeren
ndvi = (B8 - B4)/(B8 + B4)

In [None]:
# %load _solutions/08-rasters-rioxarray-3.py
# Stap 3; visualisatie
# Extra= vmin en vmax bepalen respectivelijk de onder- en boven visualisatiegrens
ndvi.plot.imshow(figsize=(10,6), cmap = 'Greens', vmin = 0.5, vmax = 1)


# Raster statistieken

Het **rasterstats**- pakket biedt methoden aan om op basis van rasters en eventueel overlappende vectoren statistieken te berekenen (https://github.com/perrygeo/python-rasterstats)

Om dit te illustreren maken we gebruik een een 2e type raster: de mangrove-land cover classificatie uit 2021

<div class="alert alert-success">

**OEFENING**:

* Laad de mangrove landcover map voor 2021 in (file: `data\Mangrove_LU_2021.tiff`). Gebruik hiervoor rioxarray, zoals hierboven reeds is geïllustreerd. Laad de coverkaart in als een nieuwe variabele `Mangrove_LU_2021`.
    
* Visualiseer de landcoverkaart (hiervoor selecteer je de enige aanwezige band; band 1).


           
</div>

De Mangrove landcoverkaart heeft volgende klassen:


| Pixelwaarde |                         Klasse                         |
|:-----------:|:------------------------------------------------------:|
|      0      |                        Achtergrond                     |
|      1      |                        Mangrove                        |
|      2      |                      Ander bostype                     |
|      3      |                     Lage vegetatie                     |
|      4      |                          Water                         |
|      5      |                      Urbaan gebied                     |
|      6      |                      Dode Mangrove                     |
|      7      | Transitiebos (bos in transitie van mangrove > hoogbos) |

In [None]:
data_file = "data/Mangrove_LC_2021.tiff"

In [None]:
data = rioxarray.open_rasterio(data_file)
data

Tip: om je kleurenschema van de plot te wijzigen, gebruik je de `cmap` argument in de `imshow()` methode. Volgende site geeft je enkele mogelijke kleurenschema's: [https://matplotlib.org/stable/tutorials/colors/colormaps.html](https://matplotlib.org/stable/tutorials/colors/colormaps.html)

In [None]:
ax = data.sel(band=1).plot.imshow(levels = 7,figsize=(20,3),cmap='tab10')
ax.axes.set_aspect('equal')

Wat als we nu de oppervlakte van het mangrovegebied willen berekenen, per district? Het `rasterstats`-pakket helpt ons hierbij!

In [None]:
import rasterstats

Gezien we enkel geïnteresseerd zijn in het mangrove-gebied, starten we met de mangrove af te zonderen van de andere pixels. Dit doen we op basis van een conditie. Echter, bij xarray maken we gebruik van de .where(), om een boolean mask toe te passen, zoals hieronder wordt geïllustreerd:

In [None]:
mangrove = data.where(data.sel(band = 1) == 1)

In [None]:
ax = mangrove.sel(band=1).plot.imshow(figsize=(10,2),levels = 2,cmap='Greens')
ax.axes.set_aspect('equal')

<div class="alert alert-success">

**OEFENING**:

* Visualiseer ook eens de klasse Dode mangrove (pixelwaarde 6). Doe dit op basis met een grijze kleurenschaal: `cmap = 'Grays'


           
</div>

### Statistieken berekenen

Om pixelwaarde te extraheren, maken we gebruik van de `zonal_stats` functie, waarbij we de som van het aantal pixels nemen per districts. Eerst dienen we de districten opnieuw in te lezen als een GeoDataFrame.

In [None]:
import geopandas
districten = geopandas.read_file('data/Suriname_districts.geojson')

Het is echter opnieuw zeer belangrijk dat beide lagen dezelfde CRS hebben vooraleer we de operatie uitvoeren!

In [None]:
# Bekijk CRS van de districtenlaag
districten.crs

Districten moet dus eerst geherprojecteerd worden:

In [None]:
mangrove.rio.crs

In [None]:
districten = districten.to_crs('EPSG:32621')

Sla raster op als nieuwe tif-laag:

In [None]:
mangrove.rio.to_raster('data/Mangrove_2021.tiff')

Raster stats kunnen we dan toepassen op deze net aangemaakte tiff-file:

In [None]:
result = rasterstats.zonal_stats(vectors = districten.geometry, raster = 'data/Mangrove_2021.tiff',
                                 stats=['sum'], nodata=-999)

Dit is echter de *som* van alle mangrove-pixels. Hieruit kunnen we vervolgens de oppervlakte berekenen:

In [None]:
som = pd.DataFrame(result)

In [None]:
# Pixelgrootte = 10m, dus oppervlakte per pixel = 10x10 :²
mangrove.rio.resolution()

In [None]:
# Oppervlakte per district, om rekenen naar km²:
districten[['Mangrove_km2']] = som*(10*10)*(10**-6)

Het resultaat kunnen we toevoegen aan de Districten DataFrame

In [None]:
districten.head()

En dan kunnen we de dataset sorteren volgens Mangrove-aandeel

In [None]:
districten.sort_values('Mangrove_km2', ascending=False).head()

# Raster merging

Een laatste rasterbewerking die we zullen uitvoeren is *raster merging*, ook wel bekend als *mosaïcing*.

In dit geval worden 2 aangrenzende raster-tiles aan elkaar 'gelijmd'.

In [None]:
# Importeren van bibliotheken
import rioxarray as rioxarray
from rioxarray.merge import merge_arrays
 

Voeg als eerste stap een 2e raster toe: `sentinel_2022_merge.tif`

In [None]:
S2_1_file = "data/Sentinel_2022_example.tif"
S2_2_file = "data/Sentinel_2022_merge.tif"

In [None]:
# Inlezen van merge-file met rioxarray
S2_1 = rioxarray.open_rasterio(S2_1_file)
S2_1

In [None]:
# Inlezen van merge-file met rioxarray
S2_2 = rioxarray.open_rasterio(S2_2_file)
S2_2

In [None]:
# Merge/Mosaic multiple rasters using merge_arrays method of rioxarray
merged_raster = merge_arrays(dataarrays = [S2_1, S2_2], res = (30, 30), nodata = 0)

In [None]:
merged_raster.sel(band=[1,2,3]).plot.imshow(robust=True)

# Oefeningen

Thanks to https://geohackweek.github.io/raster/04-workingwithrasters/ for the inspiration