# Geodatenanalyse 2


## Termin 6 - Modul 1

## Was ist "big data"? Datenformate und Umgang

In [1]:
import xarray as xr
import numpy as np
import cartopy.crs as ccrs
import matplotlib.pyplot as plt
import pandas as pd

## Übung 1

Ein globaler Datensatz wurde erstellt und soll voruntersucht werden. **ACHTUNG**: Die Daten müssen unbedingt vertraulich behandelt werden! Sie können auf ILIAS herunter geladen werden (*SMBM_global_means.nc*). Die Daten stammen aus einer Publikation, welche gerade begutachtet wird:

> [Cuthbert et al. (under review) *Global climate-driven trade-offs between the water retention and cooling benefits of urban greening*](https://eartharxiv.org/repository/view/2100/)

- **Aufgabe 1**: Untersuche welch Eigenschaften (z.B., Dimensionen, Koordinaten, Variable, Attribute, etc.) der Datensatz hat. 

- **Aufgabe 2**: Wie groß ist die Auflösung eines einzelnen Pixels in Kilometer Erdoberfläche in Richtung Längengrad und Breitengrad? Warum sind die Werte unterschiedlich? Der Erdradius beträgt ca. 6.371 km.

- **Aufgabe 3**: Extrahiere den Wert der Variable *p_av* (durchschnittlicher Niederschlag) für Karlsruhe (49.0069° N, 8.4037° E).


In [2]:
# Aufgabe 1

data = xr.open_dataset('data/SMBM_global_means.nc')
data

In [3]:
# Aufgabe 2

earth_radius = 6371
circumference = 2*np.pi*earth_radius

lon_res = circumference / len(data.longitude)
print(lon_res)

lat_res = circumference / len(data.latitude) / 2
print(lat_res)

27.798731661139684
33.30297303830378


In [4]:
# Aufgabe 3

ka_lat = 49.0069
ka_lon = 8.4037

lat_id = np.argmin(np.abs(data.latitude.values - ka_lat))
print(lat_id)
lon_id = np.argmin(np.abs(data.longitude.values - ka_lon))
print(lon_id)

ka_p_av = data['p_av'][lat_id, lon_id].values
ka_p_av

164
754


array(2.34079117)

## Übung 2

Ein historischer und globaler Klimadatensatz der [Global Precipitation Climatology Centre (GPCC )](https://prism.oregonstate.edu/) soll untersucht werden. Er liegt auf dem folgenden Server:  *https://psl.noaa.gov/thredds/dodsC/Datasets/gpcc/full_v7/precip.mon.total.v7.nc*. Die Erklärung zum Datensatz ist auf der Webseite von [NOAA](https://psl.noaa.gov/data/gridded/data.gpcc.html).

- **Aufgabe 1**: Öffne den Datensatz und untersuche die Eigenschaften (z.B., Dimensionen, Koordinaten, Variable, Attribute, etc.). 

- **Aufgabe 2**: Lade eine Zeitreihe des durchschnittlichen monatlichen Niederschlags für das Gebiet von Karlsruhe herunter und speichere diese als CSV-Datei. *ACHTUNG*: Das kann eine Weile dauern!


In [5]:
# Aufgabe 1
remote_data = xr.open_dataset(
    "https://psl.noaa.gov/thredds/dodsC/Datasets/gpcc/full_v7/precip.mon.total.v7.nc",
    decode_times = False,
)
remote_data

In [6]:
# Aufgabe 2

remote_data = xr.open_dataset(
    "https://psl.noaa.gov/thredds/dodsC/Datasets/gpcc/full_v7/precip.mon.total.v7.nc",
    decode_times = False,
)
remote_data

In [7]:
# find the right latitude and longitude locations
lat_id = np.argmin(np.abs(remote_data.lat.values - 49))
lon_id = np.argmin(np.abs(remote_data.lon.values - 8.4))

# download the dataset
ka_precip = remote_data.precip.isel(lat=lat_id, lon=lon_id)
ka_precip

In [8]:
# a proper format for the date ...
format_time = pd.to_datetime('1800-01-01') + pd.to_timedelta(remote_data.precip.time.values, unit='d')

# create a DataFrame
ka_precip = pd.DataFrame({'Datetime': format_time, 'Precipitation [mm]': ka_precip.values})

# store as CSV
ka_precip.to_csv('data/GPCC_Karlsruhe.csv')