# Laden van gegevens in database

In deze notebook wordt uitgelegd hoe je ruimtelijke gegevens in een PostgreSQL kan laden. We gaan werken met de database _meteodb_ die in het notebook *Maken_van_database* gemaakt is. Hieronder volgen de database connectie parameters.



In [None]:
# Inladen modules
import os       # Operating system interface
import psycopg2 # PostgreSQL interface

# Database connection parameters
host = 'localhost'
port = '5434'
user = 'postgres'
password = 'postgres'
database = 'meteodb'

# Build connect string
db_connect = "host=" + host + " port=" + port + " dbname=" + database + " user=" + user + " password=" + password 


## Laden van csv-bestand in PostgreSQL tabel

Wij gaan een csv-bestand met de meteo stations laden in de database tabel _meteostation_ met een Python script. Dit csv-bestand (_meteo_stations.csv_) heeft de volgende kolommen. Per kolom is aangegeven in welke database kolom de gegevens opgeslagen worden:  

* alt => hoogte	
* lat	=> geom
* lon	=> geom
* meteostationid =>	id
* name	=> naam
* provider	
* source => eigenaar	
* wmocode

Het script bestaat uit de volgende stappen:

1. Inladen modules
2. Openen database connectie
3. Openen en inlezen csv-bestand
4. Per rij uit csv-bestand 
    * Splitsen van rij in kolommen op basis van ';'
    * Waardes ophalen uit rij
    * Opstellen SQL insert statement
    * Waardes uit csv-bestand koppelen aan en uitvoeren van SQL statement
5. Commit
6. Sluiten van database
7. Sluiten van csv-bestand

Om de _lon_ en _lat_ om te zetten naar een PostGIS geometrie maken we gebruik van de PostGIS functie [ST_MakePoint](https://postgis.net/docs/ST_MakePoint.html). Deze functie heeft als input lon (als x) en lat (als y). De output is het punt als PostGIS geometrie. De geometrieën worden aangeleverd in het coördinaatsysteem EPSG:4326. Met de PostGIS functie [ST_SetSRID](https://postgis.net/docs/ST_SetSRID.html) zetten we het coördinaatsysteem van de geometrie bij het inserten in de tabel op 4326.

In [None]:
# 1: Inladen modules
import os       # Operating system interface
import psycopg2 # PostgreSQL interface

# 2: Openen database connectie
conn = psycopg2.connect(db_connect)
cur = conn.cursor()

# 3. Openen en inlezen csv-bestand ('r' is openen voor lezen)
csv_file = open('data_files/meteo_stations.csv','r')
lines = csv_file.readlines()
i = 0 

# 4. Per rij uit csv-bestand 
for line in lines :

  if i > 0:
  
    # Splitsen van rij in kolommen op basis van ';'
    kolom_waardes = line.split(';')
    
    # Waardes ophalen uit rij
    hoogte = float(kolom_waardes[0])
    lat = float(kolom_waardes[1])
    lon = float(kolom_waardes[2])
    id = int(kolom_waardes[3])
    naam = str(kolom_waardes[4])
    eigenaar = str(kolom_waardes[6])

    # Opstellen SQL insert statement
    sql_insert = 'insert into meteostation(id, hoogte, naam, eigenaar, geom) values (%s, %s, %s, %s, St_SetSRID(ST_makePoint(%s,%s),4326))'
    
    # Waardes uit csv-bestand koppelen aan en uitvoeren van SQL statement
    cur.execute(sql_insert, (id, hoogte, naam, eigenaar, lon, lat))
  
  # Next line
  i = i + 1

# 5: Commit
conn.commit()

# 6: Sluiten van database
conn.close()

# 7. Sluiten van csv-bestand  
csv_file.close()

# Print aantal geïmporteerde rijen
print(str(i-1) + " rijen geïmporteerd in database")

## Laden van csv-bestanden in PostgreSQL tabel met pandas

Het is ook mogelijk om csv-bestanden met de module [*pandas*](https://pandas.pydata.org/) in de database te laden. Dit is vooral een handige methode als je niet al te veel checks en business logica in moet bouwen tijdens het inlezen. Wij gaan wederom een csv-bestand met de meteo stations laden in de database tabel _meteostation_. Dit csv-bestand (_meteo_stations.csv_) heeft de volgende kolommen. Per kolom is aangegeven in welke database kolom de gegevens opgeslagen worden:  

* alt => hoogte	
* lat	=> geom
* lon	=> geom
* meteostationid =>	id
* name	=> naam
* provider	
* source => eigenaar	
* wmocode

De kolommen _provider_ en _wmocode_ worden niet in de database opgeslagen.

Ook in deze oplossing maken we gebruik van de PostGIS functie [ST_MakePoint](https://postgis.net/docs/ST_MakePoint.html) om een PostGIS punt te maken en van  [ST_SetSRID](https://postgis.net/docs/ST_SetSRID.html) om het coördinaatsysteem van de geometrie te zetten op 4326.

Het script bestaat uit de volgende stappen:

1. Inladen modules
2. Inlezen van csv-bstand in dataframe
3. Printen van kolommen en tellen van rijen in csv-bestand
4. Verwijderen van kolommen die geen deel uitmaken van tabel
5. Kolommen in dataframe in de juiste volgorde zetten
6. Rijen van dataframe in numpy lijst zetten
7. Openen database connectie
8. Opstellen van SQL insert statement. Volgorde kolommen moet overeenkomen met volgorde in lijst
9. Uitvoeren insert statement
10. Commit en sluiten database connectie

In [None]:
# 1. Inladen modules
import os           # Operating system interface
import psycopg2     # PostgreSQL interface
import pandas as pd # Dataframe interface

# 2. Inlezen van csv-bstand in dataframe
df = pd.read_csv('data_files/meteo_stations.csv', sep=';')

# 3. Printen van kolommen en tellen van rijen in csv-bestand
print(df.columns)
print(len(df.index))

# 4. Verwijderen van kolommen die geen deel uitmaken van tabel
df.drop('provider', inplace=True, axis=1)
df.drop('wmocode', inplace=True, axis=1)

# 5. Kolommen in dataframe in de juiste volgorde zetten
df = df[['alt', 'lon', 'lat', 'meteostationid', 'name', 'source']]

# 6. Rijen van dataframe in numpy lijst zetten
rows = [tuple(x) for x in df.to_numpy()]

# 7. Openen database connectie
conn = psycopg2.connect(db_connect)
cur = conn.cursor()

# Delete rows in table
sql_delete = 'delete from meteostation'
cur.execute(sql_delete)

# 8.Opstellen van SQL insert statement. Volgorde kolommen moet overeenkomen met volgorde in lijst
sql_insert = 'insert into meteostation(hoogte, geom, id, naam, eigenaar)' 
sql_insert = sql_insert + ' values (%s, St_SetSRID(ST_makePoint(%s,%s),4326), %s, %s, %s)'
            
# 9. Uitvoeren insert statement 
cur.executemany(sql_insert, rows)
            
# 10. Commit en sluiten database connectie           
conn.commit()
conn.close()

Andere voorbeelden van het laden van csv-bestanden met *pandas* kan je [hier](https://naysan.ca/2020/05/09/pandas-to-postgresql-using-psycopg2-bulk-insert-performance-benchmark/) vinden.


## Laden van ESRI shape-bestand in PostgreSQL tabel

Wij gaan een ESRI shape-bestand met de provincie grenzen van Nederland (_2018_provinciegrenzen_met_water.shp_) laden in de database tabel _provincie_ met een Python script. Het shape-bestand heeft de volgende attributen. Per attribuut is aangegeven in welke database kolom het attribuut opgeslagen wordt.

id => id
gml_id
Provincien => naam

Het script bestaat uit de volgende stappen:

1. Inladen modules
2. Openen database connectie
3. Openen en inlezen shape-bestand
4. Per feature uit shape-bestand: 
    * Waardes ophalen uit feature
    * Opstellen SQL insert statement
    * Waardes uit shape-bestand koppelen aan en uitvoeren van SQL statement
5. Commit
6. Sluiten van database
7. Sluiten van shape-bestand

Voor het inlezen van ESRI shape-bestanden maken we gebruik van de GDAL/OGR module. Om de geometrie uit het shape-bestand om te zetten naar een PostGIS geometrie maken we gebruik van de PostGIS functie [ST_GeomFromText](https://postgis.net/docs/ST_GeomFromText.html). Deze functie heeft als input de geometrie in [WKT formaat](en.wikipedia.org/wiki/Well-known_text_representation_of_geometry) en het coördinaatsysteem van de aangeleverde geometrie. De geometrie uit het shape-bestand heeft [EPSG:28992](https://epsg.io/28992) (RD) als coördinaatsysteem. Om deze geometrie om te zetten naar een WKT geometrie zodat deze omgezet kan worden naar een PostGIS geometrie maken we gebruik een functie _ExportToWkt()_ uit de _ogr_ module.

In de tabel _provincie_ moet de geometrie opgeslagen worden in het coördinaatsysteem EPSG:4326. Daarom gebruiken we de PostGIS functie [ST_Transform](https://postgis.net/docs/ST_Transform.html) om de geometrie uit het shape-bestand te transformeren van coördinaatsysteem EPSG:4326 naar coördinaatsysteem EPSG:28992.


In [None]:
# 1: Inladen modules
import os       # Operating system interface
import psycopg2 # PostgreSQL interface
from osgeo import ogr      # Vectordata interface

# 2: Openen database connectie
conn = psycopg2.connect(db_connect)
cur = conn.cursor()

# 3. Openen en inlezen shape-bestand ('r' is openen voor lezen)
driver = ogr.GetDriverByName('ESRI Shapefile')
shp_file = driver.Open('data_files/2018_provinciegrenzen_met_water.shp', 0)
layer = shp_file.GetLayer()

# 4. Per rij uit shape-bestand 
i = 0
feature = layer.GetNextFeature()
while feature:

    # Waardes ophalen uit feature
    id = feature.GetField('id')
    naam = feature.GetField('Provincien')
    geom_wkt = feature.GetGeometryRef().ExportToWkt()
    
    # Opstellen SQL insert statement
    sql = 'insert into provincie(id, naam, geom) values (%s, %s, st_transform(st_geomfromtext(%s,28992),4326))'
    
    # Waardes uit shape-bestand koppelen aan en uitvoeren van SQL statement
    cur.execute(sql,(id, naam, geom_wkt))
    
    # Volgende feature ophalen
    feature = layer.GetNextFeature()
    i = i + 1

# 5: Commit
conn.commit()

# 6: Sluiten van database
conn.close()

# 7. Sluiten van shape-bestand  
shp_file = None

# Print aantal geïmporteerde rijen
print(str(i-1) + " rijen geïmporteerd in database")

[Hier](https://pcjericks.github.io/py-gdalogr-cookbook/) vind je meer voorbeelden van het gebruik van Python scripts in combinatie met GDAL/OGR voor het werken met geodata. 

## Laden van json-bestand in een PostgreSQL tabel 

We gaan een JSON-bestand met temperatuurgegevens laden in de tabel _waarneming_. Dit JSON-bestand halen we op via een web API bij de [AgroDataCude](https://agrodatacube.wur.nl/). AgroDataCube biedt een grote vezameling van open data en afgeleide data voor gebruik binnen het agri-food domein. Deze data is te bevragen en op te halen via een web API. Uitleg over deze web API en voorbeelden zijn [hier](https://documenter.getpostman.com/view/3284162/TVeqd7aa) te vinden. Om de web API te kunnen gebuiken met je je eerst [hier](https://agrodatacube.wur.nl/api-v2/register.jsp) registreren. Dan krijg je een access token toegemaild om toegang te krijgen. Gebruik van AgroDataCube is gratis als je minder dan 25000 verzoeken pr jaar doet. Daarboven moet je gaan betalen.  

In het script gaan we de meteodata ophalen voor meteostations met de volgende ID's: 235, 240, 251, 270 voor de periode van 20150201 tot 2015022. Zowel het meteostation ID als de periode moeten we meegeven in het HTTP request. We halen per meteostation alleen de _datum_ en de _mean_temperature_ uit het JSON-bestand. Deze gegevens worden in de volgende kolommen van de tabel _waarneming_ opgeslagen:

- datum => datum
- mean_temperature => gemiddelde_temperatuur
- meteostation ID => meteostation_id

Het script bestaat uit de volgende stappen:

1. Inladen modules
2. Definiëren lijst met meteostation ID's
3. Definiëren HTTP header met token
4. Openen database connectie
5. Per meteostation: 
    * Samenstellen HTTP request
    * Uitvoeren HTTP request
    * Waardes ophalen uit JSON response
    * Opstellen SQL insert statement
    * Waardes uit JSON response koppelen aan en uitvoeren van SQL statement
6. Commit
7. Sluiten van database



In [None]:
# 1. Inladen modules
import requests # HTTP interface
import json     # JSON interface
import psycopg2 # PostgreSQL interface

# 2. Definiëren lijst met meteostation ID's
meteo_ids = (235, 240, 251, 270)

# 3. Definiëren HTTP header met token

# You need te request a token at https://agrodatacube.wur.nl/api-v2/register.jsp
token = 'eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpc3N1ZWR0byI6Im0udGVybGllbkBoYXMubmwiLCJyZXNvdXJjZSI6WyIqIl0sImlhdCI6MTY3MDg1ODgxMn0.Taskgl1rote5jINGMUATLqW82jenQCQyvQrPUvRaGMM'

# HTTP headers
headers = {
    'Accept': 'application/json',
    'token': token, 
}

# 4. Openen database connectie
conn = psycopg2.connect(db_connect)
cur = conn.cursor()

# 5. Per meteostation:
i = 0
for meteo_id in meteo_ids :

    # Samenstellen HTTP request (see https://documenter.getpostman.com/view/5525378/S1EQSdKN#35d1ce17-8fd1-4815-b8f8-365f2cd08b84)
    url = 'https://agrodatacube.wur.nl/api/v2/rest/meteodata?output_epsg=28992&meteostation=' + str(meteo_id) + '&fromdate=20150201&todate=20150228&page_size=25&page_offset=0'

    # Uitvoeren HTTP request
    response = requests.get(url, headers=headers)

    # Waardes ophalen uit JSON response
    if response.status_code == 200 :

        # Waardes ophalen uit JSON response
        for feature in response.json()["features"]:
            temp  = feature["properties"]["mean_temperature"]
            datum = feature["properties"]["datum"]

            # Opstellen SQL insert statement
            sql = 'insert into waarneming(datum, gemiddelde_temperatuur, meteostation_id) values(%s, %s, %s)'
            # Waardes uit JSON response koppelen aan en uitvoeren van SQL statement
            cur.execute(sql,(datum,temp,meteo_id))
            i = i + 1

    else:
        print('Request failed with error ' + str(response.status_code))

# 6: Commit
conn.commit()

# 7: Sluiten van database
conn.close()

# Print aantal geïmporteerde rijen
print(str(i-1) + " rijen geïmporteerd in database")

Met de regel 

```{python, eval=F}
if response.status_code == 200 :
```

checken we of het verzoek goed gegaan is. Als dat niet het geval is wordt de foutcode geprint. [Hier](https://nl.wikipedia.org/wiki/Lijst_van_HTTP-statuscodes) kan je opzoeken wat de foutcodes betekenen.

De manier waarop we de datum en temperatuur uit de JSON-response halen, behoeft enige uitleg. De JSON die we terugkrijgen als response is een [GeoJSON](https://nl.wikipedia.org/wiki/GeoJSON)-bestand en wordt vertaald naar [Python dictionaries](https://www.w3schools.com/python/python_dictionaries.asp) en [Python lists](https://www.w3schools.com/python/python_lists.asp). De structuur van het bestand is als volgt:

```json
{
  "type": "FeatureCollection",
  "features": [
    {
      "type": "Feature",
      "geometry": {
        "type": "Point",
        "coordinates": ["x_value", "y_value"]
      },
      "properties": {
        "datum": "datum_value"
		"mean_temperature": "mean_temperature_value"
      }
    },
  ]
}
```

Als eerste stap halen we op basis van de key "features" de lijst met features uit de dictionary. Vervolgens halen we per feature eerst de op basis van de key "properties" de properties van de feature op. Als laatste stap halen we op basis van de naam van de properties (key "datum" en "mean_temperature") de waarde van de property op.