# Geodatenanalyse 2


## Woche 2 - Teil 1

## Umgang mit Datum und Zeit

In [1]:
import datetime as dt
import numpy as np
import pandas as pd

## Übung 1

Über einen langen Zeitraum wurde ein Datensatz gemessen (siehe: "*data/datetime_unsorted.csv*"), bei welchem Jahr, Monat, Tag, Stunde, und Minute winzeln gespeichert wurden.

- **Aufgabe 1**: Lade den Datensatz und konvertiere die Spalten in ein Datums- und Zeitobjekt.
- **Aufgabe 2**: Sortiere die Daten nach Datum und Zeit und konvertiere Datum und Zeit in das deutsche Format.
- **Aufgabe 3**: Berechne die Zeitdifferenz zwischen zwei Einträgen in Tagen und speichere das Ergebnis als Excel-Datei.


In [107]:
# Datei einlesen
data = pd.read_csv("data/datetime_unsorted.csv")

# relevante Spalten in Datum und Zeit konvertieren
data['Datetime'] = pd.to_datetime(data[['Year', 'Month', 'Day', 'Hour', 'Minute']])
data

Unnamed: 0,Year,Month,Day,Hour,Minute,Values,Datetime
0,2007,10,12,19,10,0.858757,2007-10-12 19:10:00
1,2016,1,14,1,8,0.104170,2016-01-14 01:08:00
2,2017,1,14,18,52,0.727276,2017-01-14 18:52:00
3,2019,9,11,15,41,0.521470,2019-09-11 15:41:00
4,2001,1,2,14,9,0.004398,2001-01-02 14:09:00
...,...,...,...,...,...,...,...
229,2014,11,25,8,26,0.295781,2014-11-25 08:26:00
230,2014,10,11,21,9,0.425065,2014-10-11 21:09:00
231,2002,2,8,11,51,0.005506,2002-02-08 11:51:00
232,2009,3,13,2,14,0.841021,2009-03-13 02:14:00


In [108]:
# Aufgabe 2

# Daten sortieren
data.sort_values('Datetime', inplace=True)

# das Datum wird konvertiert
data['Datum & Zeit'] = data['Datetime'].dt.strftime('%d.%m.%Y %H:%M')

In [109]:
# Aufgabe 3

# Zeitdifferenz berechnen
data['Differenz'] = data['Datetime'].diff().dt.days + data['Datetime'].diff().dt.seconds/86400

# die relevanten Spalten werden gespeichert
data.to_excel("data/formatted.xlsx")

## Übung 2

Ein Datensatz soll regelmäßige Einträge haben:

- **Aufgabe 1**: Lade den Datensatz in der Datei "*data/missing_values.csv*". Ist dieser regelmäßig?

- **Aufgabe 2**: Finde die fehlenden Datums- und Zeitobjekte. Wieviele Einträge fehlen?

- **Aufgabe 3**: Wieviele knontinuierliche Datenlücken gibt es? diese Aufgabe ist etwas schwierig, denn man muss sich eine Logik überlegen.

In [58]:
# Aufgabe 1

data = pd.read_csv("data/missing_values.csv")
data['New'] = pd.to_datetime(data.loc[:, 'Datetime'], dayfirst=True)

# Zeitdifferenzen berechnen
tdiff = np.diff(data['New'])

# Zeitdifferenzen mit dem häufigsten vergelichen
np.any(tdiff != np.median(tdiff))

True

In [28]:
# Aufgabe 2

# erstelle eine neue, regelmäßige Zeitsequenz
ref_date_range = pd.date_range(data['New'].min(), data['New'].max(), freq='10Min')
ref_date_range

# finde die fehlenden Einträge
idx = ~ref_date_range.isin(data['New'])

# bestimme die fehlenden EInträge
print(ref_date_range[idx])

print("Es fehlen {} Einträge".format(len(ref_date_range[idx])))

DatetimeIndex(['2021-01-02 04:50:00', '2021-01-02 16:50:00',
               '2021-01-02 17:00:00', '2021-01-03 11:00:00',
               '2021-01-03 13:00:00', '2021-01-03 22:30:00',
               '2021-01-04 03:50:00', '2021-01-04 13:50:00',
               '2021-01-04 14:00:00', '2021-01-04 14:10:00',
               '2021-01-05 00:00:00', '2021-01-05 11:10:00',
               '2021-01-05 11:20:00', '2021-01-05 22:50:00',
               '2021-01-05 23:00:00', '2021-01-06 23:10:00',
               '2021-01-06 23:30:00', '2021-01-07 17:30:00',
               '2021-01-07 17:40:00'],
              dtype='datetime64[ns]', freq=None)
Es fehlen 19 Einträge


In [57]:
# Aufgabe 3

# berechne die Zeitdifferenz zwischen Einträgen in Sekunden
tdiff = data['New'].diff().dt.seconds

# teile die Differenz durch den häufigsten Wert
gaps = tdiff / tdiff.median()

# alle Einträge >1 sind nun Datenlücken mit der gegebenen Länge
gaps[gaps > 1]

173    2.0
244    3.0
351    2.0
362    2.0
418    2.0
449    2.0
508    4.0
566    2.0
632    3.0
700    3.0
844    2.0
845    2.0
952    3.0
Name: New, dtype: float64

## ENDE