## waterstandstatistiek op basis vanuit waterstanden opgeslagen in his-bestanden

Deze notebook bevat informatie hoe het mogelijk is om .his-bestanden uit te lezen binnen Python en op welke manier hieruit waterstandstatistiek af te leiden is. Een aantal functies worden hierbij toegelicht. Waarbij elke functie in detail is beschreven in de toebehorende `docstring`.

Allereerst importeren we de extension package en declareren we het object `ws`.

In [None]:
import hkvsobekpy as hkv
import geopandas as gpd

Ook bepalen we de input bestanden.

In [None]:
his_file = r'input_data\waterstand-statistiek\CALCPNT.HIS'
shp_file = r'input_data\waterstand-statistiek\input_locaties.shp'

Informatie in het his-bestand kunnen we op de volgende manier inlezen. De metadata wordt weggeschreven binnen het object.

In [None]:
hkv.read_his.LeesMetadata(his_file)

De volgende drie functies kunnen gebruikt worden om de locaties, tijdstappen en parameters vanuit het .his bestand uit te lezen

In [None]:
locaties = hkv.read_his.KrijgLokaties()
tijdstappen = hkv.read_his.KrijgTijdstappen()
parameters = hkv.read_his.KrijgParameters()

In [None]:
print("""\
eerste 5 locaties:     {0}
laatste 2 tijdstappen: {1}
alle parameters:       {2}""".format(locaties[0:5],
                                     tijdstappen[-2:],
                                     parameters))

Naast het .his-bestand is er een .shp-bestand gedefinieerd met een bijbehorende .dbf-bestand. De locaties die hierin staan gedefinieerd worden gebruikt voor als locaties vanuit het .his-bestand. 
Het is daarom van belang dat deze IDs identiek zijn. 

De shp-file kunnen we als volgt inlezen naar een `GeoDataFrame` en vervolgens plotten in figuur (de `shp`) en tabel (de `dbf`)

In [None]:
gdf = gpd.read_file(shp_file)
gdf.plot()

In [None]:
gdf.head()

In dit geval zijn een aantal kolommen gedefinieerd met als laatste kolom een `nodeID` kolom. Deze IDs komen overeen met de locaties welke bekend zijn binnen het .his-bestand en gebruikt zullen worden om de waterstandstatistiek op te bepalen.

In het volgend code block vragen we met de `EnkeleWaardenArray` functie de waarden op van een enkele locatie en parameter en plotten we het resultaat gelijk terug vanuit het dataframe. Let op: `df_enkel` is een dataframe met een multi-column met locatie en parameter.

Het is mogelijk om met de functie `EnkeleWaardenArray` alleen de gebeurtenissen van een jaarlijkse terugkerende periode te selecteren, bijvoorbeeld om alleen de gebeurtenissen in de zomer of het groeizoen mee te nemen. Ook kunnen de jaarmaxima bepaald worden in het geval er meerdere gebeurtenissen in 1 jaar zitten, waarbij aangegeven kan worden of je de exacte datum terug wilt hebben of alleen het jaar met de maxima.

Met `startMMdd` wordt de start van de periode bepaald. Met `endMMdd` wordt de eind datum van de periode bepaald. Met `jaarmax_ax` is het mogelijk om de DataFrame te groeperen op basis van jaar om het jaarmaxima te bepalen. Het jaarmaxima wordt bepaald nadat de slice van de jaarlijkse periode is toegepast. Keuze bestaat uit:
- `'date'` - bepaalt de jaarlijkse maxima binnen de periode en geeft de maximale waarde terug met de exacte datum van deze gebeurtenis
- `'year'` - bepaalt de jaarlijkse maxima binnen de periode en geeft de maximale waarde terug met het jaar van de gebeurtenis
- `'none'` - retourneert alle gebeurtenissen in elk jaar welke binnen de periode filter vallen

In [None]:
df_enkel = hkv.read_his.EnkeleWaardenArray(
    gdf['nodeID'].iloc[15],
    parameters[0],
    startMMdd=(1, 1),
    endMMdd=(12, 31),
    jaarmax_as='date')
df_enkel.plot(legend=True)

Om de eerste 5 items te tonen gebruiken we de `.head()` functionaleit op de DataFrame van `df_enkel`. Te zien is dat in elk jaar de jaarmaxima al bepaald is en dat deze jaarmaxima gekoppeld is aan de unieke datum waar deze op plaatsvond. 

In [None]:
df_enkel.head()

Soortgelijk kunnen we ook verschillende locaties voor een enkele parameter opvragen met de `MultiWaardenArray` functie. Standaard wordt een periode van `01-01` tot `12-31` in ogenschouw genomen, waarbij er een 1 jaarmaxima wordt 
bepaald welke met de specifieke datum van deze gebeurtenis. 
Om een jaarlijkse periode filter van 15 mei tot 15 oktober te gebruiken en de jaarmaxima als alleen jaar waarden terug te geven doe als volgt:

In [None]:
gdf['nodeID'].iloc[15:20].values

In [None]:
#Gebruik van MultiwaardenArray
df_multi = hkv.read_his.MultiWaardenArary(
    gdf['nodeID'].iloc[15:20].values,
    parameters[0:1],
    startMMdd=(5,15),
    endMMdd=(10,15),
    jaarmax_as='year',
    drop_lege_jaren=False)
ax = df_multi.loc[:,parameters[0]].plot()
ax.set_ylabel(parameters[0])

Voor `df_multi` is te zien dat de er voor elk jaar wel een jaarmaxima bepaald wordt binnen de filter, maar dat deze gekoppeld is aan alleen het jaar en niet de preciese datum van gebeurtenis. Deze kan namelijk verschillen van locatie tot locatie. Ook is te zien dat wanneer er geen gebeurtenissen zijn voor de periode filter deze gedropt kunnen worden uit de selectie. In dit voorbeeld is dat 1995. Wanneer je deze jaren niet dropt, zullen er `NaN` waarden getoond worden.

In [None]:
df_multi.head()

Om met een Gumbel functie de fit toe te passen defineeren we allereerst het `vensterArray` en de `GumbelT`. Met deze twee functies bepalen we welke maxima meedoen met de fit en voor welke terugkeertijd we de geschatte waarden willen weten.

We gebruiken hier een venster van de 10 maximale gebeurtenissen `vensterArray = [0,10]`, wanneer we de meest extreme gebeurtenis niet willen gebruiken kan dit door het venster aan te passen. Dit wordt dan `[1,10]`.

Voor een enkele terugkeertijd wordt deze bepaald op basis van het gewogen gemiddelde. In dit geval is dit `T10` (`TOI = 10`). Waarbij we het groeiseizoen definieren van 5 mei tot en met 15 oktober (`startMMdd` en `endMMdd`). 

Daarnaast is `N` gedefineerd welke het aantal jaren zijn waarover de plotposities bepaald wordt. Dit getal kan nooit meer kleiner zijn dan het aantal gebeurtenissen binnen `df_enkel`.

In [None]:
# get N from tijdstapInfo metadata his-file
N = hkv.read_his.hisFile.tijdstapInfo.N

# leid de parameters voor waterstandstatistiek af
hkv.waterlevelstat.AfleidingParameters(
    df_enkel=df_enkel, 
    N=N,  # aantal jaren voor bepaling van de plotposities
    vensterArray=[0, 10],  # mee te nemen gebeurtenissen
    GumbelT=[10, 25, 50, 100],  # terugkeertijden voor Gumbel functie
    TOI=10,  # terugkeertijd voor het gewogen gemiddelde
    startMMdd=(4, 15),  # start groeiseizoen
    endMMdd=(6, 15),  # einde groeseizoen
    jaarmax_as='date', 
    Ggi=0.44, 
    GgN=0.12)

De parameters zijn succesvol afgeleid en nu is het dan ook mogelijk om deze te gebruiken voor het aanmaken van het figuur van de locatie

In [None]:
hkv.waterlevelstat.PlotFiguur()

Ook is het mogelijk om de tabellen terug te krijgen als met de daarbij behorende waarden voor de verschillende terugkeertijden en via welke methode en voor welk seizoen deze zijn afgeleid. De functie `schrijfTabellen()` retourneerd twee tabellen welke we hier declareren binnen `df1` en `df2`.

In [None]:
df1, df2 = hkv.waterlevelstat.SchrijfTabellen('nodeID')

De tabellen bevatten de volgende informatie

In [None]:
df1

en

In [None]:
df2

Al het bovenstaande kan ook automatsich weggeschreven worden naar de output folder. Binnen de output folder moet een `png` folder aanwezig zijn wanneer ook de afgeleide figuren weggeschreven dienen te worden.

In [None]:
out_folder = r'output_data\waterstand-statistiek'

In [None]:
hkv.waterlevelstat.EnsembleRunner(
    out_folder=out_folder,
    his_file=his_file,
    shp_file=shp_file,
    shp_key='nodeID',
    parameter=parameters[0],
    startMMdd=(5, 15),
    endMMdd=(10, 15),
    vensterArray=[0, 10],
    GumbelT=[10, 25, 50, 100],
    TOI=10,
    draw_plot=True,
    write_table=True)

Waarbij de tabel soortgelijk aan `df1` nu is opgeslagen als `output-data\waterstand-statistiek_output_1.csv` en de tabel `df2` nu is gejoined met de `dbf`-tabel en weggeschreven is als nieuw een nieuw shp-file getiteld `output-data\waterstand-statistiek_output_2.shp`. 

De figuren zijn weggeschreven binnen de `output-data\png` folder waarbij bovenstaand figuur opgeslagen is onder `output-data\png\waterstandstatistiek_loc_CFBerg_I_o.png`