# Geodatenanalyse 2


## Termin 5 - Modul 1

## Was ist "big data"? Datenformate und Umgang

Ca. 20-30 Minuten

## Übersicht über "big data"

Quelle: [Wikipedia](https://en.wikipedia.org/wiki/Big_data)

<img width=700 style="float: left;" src="images\digital_age.png">

### Was ist "big data"?

- Definition von **big data** im [Oxford English Dictionary](https://www.lexico.com/definition/big_data): *Extrem große Datensätze, die computergestützt analysiert werden können, um Muster, Trends und Assoziationen zu erkennen, insbesondere in Bezug auf menschliches Verhalten und Interaktionen*

- Zum Beispiel **big data** werden Datensätze genannt, die extrem groß sind oder extrem groß anwachsen können

- In der Realität ist **big data** eher schwamming definiert

- Oftmals werden darunter **große Datensätze** verstanden

### Wo liegen große Datensätze?

- Meist sind große Datensätze auf Datenbanken und in Netzwerken verteilt gespeichert

- Auch eine zentrale Datenspeicherung ist möglich, z.B. auf einem Server

- Beispiele: Google Suche, Facebook, Twitter, etc.

### Was ist das Format von großen Datensätzen?

- **strukturiert**: Definierte Vorgabe von Feldern und Positionen, z.B. ähnlich einem *Pandas* *DataFrame*

- **unstrukturiert**: Als einzelne Dateien in unterschiedlichen Formaten auf Datenträgern verteilt, z.B. als verschiedene Dateien in einer Ordnerstruktur

- **quasi-strukturiert**: Ohne feste Vorgabe aber dennoch mit geordneter Datenstruktur, z.B. [Extensible Markup Language (XML)](https://en.wikipedia.org/wiki/XML)

### Was ist das Ziel von "big data"?

Das Ziel von **big data** ist eine Verbesserung von **datenbasierten Entscheidungen**

### Alternative Definition von "big data"

Der Umgang mit Datensätzen, welche zur Verarbeitung aufgrund ihrer Größe nicht komplett in den Arbeitsspeicher passen

### Überblick über den Umgang mit Daten und die Abhängigkeit der Transfergeschwindigkeit

<img width=700 style="float: left;" src="images\data_transfer.png">

### Wie gehen wir mit "big data" um?

In Geodatenanalyse 2 werden zwei grundsätzliche Möglichkeiten vorgestellt:

1 - **Python Pakete** für den Umgang mit Datensätzen

2 - **Google Earth Engine** für cloudbasierte Datensätze

## Gewöhnliche Datenformate

- **Textformate**: Abgespeichert als ASCII Zeichen, z.B. xls, csv, html, xml, json, etc.

- **Binärformate**: Abgespeichert als binär, z.B. xlsx, SQL, netCDF, HDF, etc.

### Beispiele für Datenformate

<img width=700 style="float: left;" src="images\data_formats.png">

## *Network Common Data Form* (*netCDF*)

- **Selbstbeschreibend**: Eine netCDF-Datei enthält Informationen über die darin enthaltenen Daten

- **Portabel**: Auf eine netCDF-Datei kann von Computern mit verschiedenen Arten der Speicherung von Ganzzahlen, Zeichen und Gleitkommazahlen zugegriffen werden

- **Skalierbar**: Auf kleine Teilmengen großer Datensätze in verschiedenen Formaten kann über netCDF-Schnittstellen effizient zugegriffen werden, auch von entfernten Servern

- **Erweiterbar**: Daten können an eine korrekt strukturierte netCDF-Datei angehängt werden, ohne den Datensatz zu kopieren oder seine Struktur neu zu definieren

- **Kollaborativ**: Ein Schreiber und mehrere Leser können gleichzeitig auf dieselbe netCDF-Datei zugreifen

- **Archivierbar**: Der Zugriff auf alle früheren Formen von netCDF-Daten wird von aktuellen und zukünftigen Versionen der Software unterstützt

Weitere Infos unter [Unidata](https://www.unidata.ucar.edu/software/netcdf/)

### Beispiel der *netCDF*-Datenstruktur für strukturierte Daten

Quelle: [xarray Referenz](https://xarray.pydata.org/en/stable/data-structures.html#dataset)

<img width=700 style="float: left;" src="images\netcdf.png">

**Achtung**

Die Daten ...

- ... können beliebig definierte Dimensionen haben

- ... werden generell binär gespeichert und können somit nicht über einen Texteditor angeschaut werden

### Was ist *xarray*?

- xarray (früher xray) ist ein Open-Source-Projekt und Python-Paket, das die Arbeit mit beschrifteten mehrdimensionalen Arrays einfach und effizient macht

- Xarray führt Labels in Form von Dimensionen, Koordinaten und Attributen auf rohen NumPy-ähnlichen Arrays ein

- Das Paket enthält eine große und wachsende Bibliothek von domänenunabhängigen Funktionen für fortgeschrittene Analysen und Visualisierung mit diesen Datenstrukturen

- Es ist besonders auf die Arbeit mit netCDF-Dateien zugeschnitten, die die Quelle des Datenmodells von Xarray waren

Mehr Infos unter [xarray](https://xarray.pydata.org/)

#### Zwei Arten von Datencontainern

In vielen Anwendungen müssen gemessene Variablen einem Raum und einer Zeit zugeordnet werden. Das sind dann schnell mal 4 Dimensionen!

Die folgenden Datencontainer sind verfügbar:

- **DataArray** ist für beschriftete, mehrdimensionalen Arrays mit einem Parameter


- **Dataset** ist das mehrdimensionale Äquivalent zu einem *DataFrame* in *Pandas*, für mehrere Parameter


In [1]:
import xarray as xr
import numpy as np

### Beispiel für die Erstellung eines *DataArray*

In [2]:
# Geokoordinaten
latitude = np.arange(-90, 90, 5)
longitude = np.arange(-180, 180, 5)

# Daten
temperature_2d = np.random.rand(latitude.size, longitude.size)

# Datencontainer erstellen
data = xr.DataArray(data=temperature_2d, dims=["latitude", "longitude"], coords=[latitude, longitude])
data

### Laden und speichern von *Dataset*

*xarray* ist hauptsächlich für *netCDF*-Dateien.

ALs Beispiel laden wir hier die Meeresoberflächentemperatur des Jahres 2019:

In [3]:
sst = xr.open_dataset('data/HadISST_2019.nc')
sst

### Beispiel für das Laden von Daten von einem Server

Allerdings können auch andere Formate angesprochen werde, z.B. über das Internet ([PRISM Climate Group](https://prism.oregonstate.edu/)):

In [4]:
remote_data = xr.open_dataset(
    "http://iridl.ldeo.columbia.edu/SOURCES/.OSU/.PRISM/.monthly/dods",
    decode_times = False,
)
remote_data

**Hinweis**: *xarray* öffnet diese Datei nur virtuell. d.h. lädt die Daten nicht direkt in den Arbeistspeicher. Hier handelt es sich nähmlich um Gigabytes! Auf die Daten wird erst zugegriffen, wenn sie vom Code gebraucht werden.

### Ein Blick auf die Metadaten

In [5]:
sst.attrs

{'cdm_data_type': 'Grid',
 'comment': 'Data restrictions: for academic research use only. Data are Crown copyright see (http://www.opsi.gov.uk/advice/crown-copyright/copyright-guidance/index.htm)',
 'Conventions': 'CF-1.6, COARDS, ACDD-1.3',
 'creator_email': 'john.kennedy@metoffice.gov.uk',
 'creator_name': 'Met Office Hadley Centre',
 'creator_type': 'institution',
 'creator_url': 'http://hadobs.metoffice.com/',
 'description': 'HadISST 1.1 monthly average sea surface temperature',
 'Easternmost_Easting': 179.5,
 'geospatial_lat_max': 89.5,
 'geospatial_lat_min': -89.5,
 'geospatial_lat_resolution': 1.0,
 'geospatial_lat_units': 'degrees_north',
 'geospatial_lon_max': 179.5,
 'geospatial_lon_min': -179.5,
 'geospatial_lon_resolution': 1.0,
 'geospatial_lon_units': 'degrees_east',
 'history': '2017-01 Roy Mendelssohn (erd.data@noaa.gov) downloaded HadISST_ice.nc.gz from http://hadobs.metoffice.com/hadisst/data/download.html\n2021-02-19T16:28:24Z (local files)\n2021-02-19T16:28:24Z htt

In [6]:
sst.attrs['institution']

'Met Office Hadley Centre'

## *Hierarchical Data Format* (*HDF*) 

- **Selbstbeschreibend**: Dies ermöglicht eine effiziente Extraktion von Metadaten, ohne dass ein zusätzliches Metadaten-Dokument benötigt wird

- **Unterstützung heterogener Daten**: HDF ist ein komprimiertes Format, das für die Unterstützung großer, heterogener und komplexer Datensätze ausgelegt ist

- **nterstützt Data Slicing**: Das Extrahieren von Teilen des Datensatzes nach Bedarf für die Analyse, bedeutet, dass große Dateien nicht komplett in den Speicher oder RAM des Computers eingelesen werden müssen

- **Offenes Format**: Da das HDF-Format offen ist, wird es von einer Vielzahl von Programmiersprachen und Tools unterstützt, darunter Open-Source-Sprachen wie R und Python und offene GIS-Tools wie QGIS

Weitere Infos [NEON](https://www.neonscience.org/resources/learning-hub/tutorials/about-hdf5)

### Beispiel der *HDF5*-Datenstruktur für unstrukturierte Daten

Quelle: [NEON](https://www.neonscience.org/resources/learning-hub/tutorials/about-hdf5)

<img width=500 style="float: left;" src="images\hdf5_structure.jpg">

### Was ist *h5py*?

Ein Python-Paket für den Umgang mit Daten im HDF5 Format

**Achtung**

Wenn das Paket *h5py* nicht existiert müssen wir es installieren. Dazu im *Anaconda Prompt* folgendes eingeben:

``conda activate geo`` (bestätigen)

``conda install h5py`` (bestätigen)

In [7]:
import h5py as hdf

### HDF5-Datei erstellen und speichern

In [8]:
# # open file with the attribute 'w' (stands for write)
hf = hdf.File('data/example.h5', 'w')

In [9]:
# create random datasets ...
d1 = np.random.random(size=(1000,20))
d2 = np.random.random(size=(100,200))

In [10]:

# store to the opened file ...
hf.create_dataset('dataset_1', data=d1)
hf.create_dataset('dataset_2', data=d2)

<HDF5 dataset "dataset_2": shape (100, 200), type "<f8">

In [11]:
# set attributes ...
hf.attrs['title'] = "An example dataset"

In [12]:
hf.close()

### HDF5 Daten lesen

Lesen wir unseren eignen Datensatz wieder ein:

In [13]:
# open file with the attribute 'r' (stands for read)
hf = hdf.File("data/example.h5", "r")
hf.keys()

<KeysViewHDF5 ['dataset_1', 'dataset_2']>

In [14]:
hf.attrs.keys()

<KeysViewHDF5 ['title']>

In [15]:
# access the attribute ...
hf.attrs['title']

'An example dataset'

In [16]:
# access the dataset ...
hf['dataset_1'][()]

array([[0.34095754, 0.74340048, 0.0229571 , ..., 0.85685604, 0.18328657,
        0.45870484],
       [0.96250271, 0.90516541, 0.45578234, ..., 0.63674501, 0.57039971,
        0.19079794],
       [0.30732198, 0.01290608, 0.63319212, ..., 0.92511616, 0.06492573,
        0.87338831],
       ...,
       [0.23976724, 0.08044032, 0.05395802, ..., 0.1695506 , 0.70809029,
        0.0988069 ],
       [0.01456594, 0.77707417, 0.01288955, ..., 0.11072525, 0.54676517,
        0.74292902],
       [0.86127253, 0.2017644 , 0.6566657 , ..., 0.3263728 , 0.63005923,
        0.45978426]])

In [17]:
# don't forget to close the dataset when finished!
hf.close()

## ENDE