# Hands On Python 3 - Datenaufbereitung
Dieses Notebook zeigt wie
- man Daten aus zwei csv Dateien zu einem Datensatz zusammenfügen kann
- wie man mit nicht existenten Werten (NaN - Not a Number) umgeht
- wie man Zeitreihen mit unterschiedlichen Frequenzen auf eine gemeinsame Frequenz bringen kann

## Notwendige Bibliotheken importieren

In [None]:
# notwendige Bibliotheken importieren
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


## Daten einlesen

In [None]:
# Daten einlesen

# Daten der 1. Quelle
rawData1 = pd.read_csv('/content/drive/My Drive/datasets/source1.csv')

# Lesen Sie die Daten der 2. Quelle ein
rawData2 = pd.read_csv('/content/drive/My Drive/datasets/source2.csv')

In [None]:
# Anzahl der Zeilen und Spalten ausgeben

# Geben Sie Zeilen und Spalten des 1. Datensatzes von Quelle 1 aus
rawData1.shape

(135, 5)

In [None]:
# Geben Sie Zeilen und Spalten des 2. Datensatzes von Quelle 2 aus
rawData2.shape

(45, 2)

In [None]:
# Geben Sie die ersten Zeilen von Quelle 1 aus:
rawData1.head(10)

Unnamed: 0,Date,Energy,Light,CO2,Occupancy
0,2015-02-02 14:15:00,26.285636,527.283333,785.951515,1.0
1,2015-02-02 14:30:00,27.016313,481.697917,894.539583,1.0
2,2015-02-02 14:45:00,27.612107,499.415646,992.291327,1.0
3,2015-02-02 15:00:00,28.006019,456.43619,1051.151905,1.0
4,2015-02-02 15:15:00,28.489948,464.760417,1101.779167,1.0
5,2015-02-02 15:30:00,28.612774,462.291667,1126.020238,1.0
6,2015-02-02 15:45:00,28.549167,443.223333,1135.41,1.0
7,2015-02-02 16:00:00,28.074896,429.1875,1078.897917,1.0
8,2015-02-02 16:15:00,27.276864,435.369898,1023.19949,1.0
9,2015-02-02 16:30:00,26.238711,439.55,941.767778,1.0


In [None]:
# Geben Sie die ersten Zeilen von Quelle 2 aus:
rawData2.head(10)

Unnamed: 0,Date,Temperature
0,2015-02-02 14:00:00,23.657118
1,2015-02-02 15:00:00,23.29395
2,2015-02-02 16:00:00,22.773142
3,2015-02-02 17:00:00,22.53452
4,2015-02-02 18:00:00,21.993372
5,2015-02-02 19:00:00,21.276331
6,2015-02-02 20:00:00,21.005339
7,2015-02-02 21:00:00,20.881794
8,2015-02-02 22:00:00,20.736664
9,2015-02-02 23:00:00,20.671794


In [None]:
# Geben Sie die letzten Zeilen von Quelle 1 aus:
rawData1.tail(10)

Unnamed: 0,Date,Energy,Light,CO2,Occupancy
125,2015-02-03 21:30:00,26.12619,0.0,612.146429,0.0
126,2015-02-03 21:45:00,25.963333,0.0,604.093333,0.0
127,2015-02-03 22:00:00,25.809531,0.0,589.694792,0.0
128,2015-02-03 22:15:00,25.692857,0.0,580.80119,0.0
129,2015-02-03 22:30:00,25.536056,0.0,574.465556,0.0
130,2015-02-03 22:45:00,25.365469,0.0,570.291667,0.0
131,2015-02-03 23:00:00,25.24275,0.0,563.39881,0.0
132,2015-02-03 23:15:00,25.146556,0.0,559.753333,0.0
133,2015-02-03 23:30:00,25.029479,0.0,555.6,0.0
134,2015-02-03 23:45:00,24.94125,0.0,553.130952,0.0


In [None]:
# Geben Sie die letzten Zeilen von Quelle 2 aus
rawData2.tail(10)

Unnamed: 0,Date,Temperature
35,2015-02-04 01:00:00,20.758172
36,2015-02-04 02:00:00,20.692203
37,2015-02-04 03:00:00,20.70075
38,2015-02-04 04:00:00,20.698689
39,2015-02-04 05:00:00,20.63435
40,2015-02-04 06:00:00,20.576972
41,2015-02-04 07:00:00,20.509123
42,2015-02-04 08:00:00,20.957842
43,2015-02-04 09:00:00,22.234915
44,2015-02-04 10:00:00,23.946885


## Daten auf fehlende Werte hin überprüfen

In [None]:
# Geben Sie sich die Anzahl der NaNs in den Spalten von Quelle 2 aus:
rawData2.isna().sum()

Date           0
Temperature    0
dtype: int64

In [None]:
# Sofern der Datensatz keine NaNs erhält --> Kopie der Rohdaten namens data2 erstellen und damit direkt weiterarbeiten:
data2 = rawData2.copy()

In [None]:
# Wie sieht es bei rawData1 aus? Geben Sie für rawData1 die Anzahl der NaNs in den Spalten aus
rawData1.isna().sum()

Date          0
Energy        0
Light        10
CO2           0
Occupancy     0
dtype: int64

## Mit NaNs umgehen

### Möglichkeit 1: alle Zeilen, in denen mindestens 1x NaN vorkommt, löschen

In [1]:
# Kopie der Rohdaten anlegen
data1_del = rawData1.copy()

# Zeilen mit mind. 1x NaN löschen (d.h. in irgendeiner Spalte kommt ein NaN vor --> Zeile wird gelöscht)
data1_del.dropna(inplace=True)

# Überprüfen
data1_del.isna().sum()

NameError: ignored

### Möglichkeit 2: Fehlende Werte durch interpolierte Werte ersetzen

### Linear Interpolieren

In [None]:
# Führen Sie eine lineare Interpolation durch. Erstellen Sie sich dazu zunächst data1_ip als Kopie von rawData1
data1_ip = rawData1.copy()
data1_ip.interpolate(inplace=True)
# fehlende Werte ersetzen durch lineare Interpolation
# lineare Interpolation - um Werte zwischen bekannten Werten zu schätzen oder zu berechnen.
# Diese Methode basiert auf der Annahme, dass sich der Wert zwischen zwei bekannten Punkten linear verhält.

# Geben Sie sich die Anzahl an NaN in den Spalten nach der Interpolation aus:
data1_ip.isnull().sum()

In [None]:
# Plotten der alten Zeitreihe
plt.figure(figsize=(18, 4))
rawData1['Light'].plot(marker='o')

In [None]:
#neue Zeitreihe mit interpolierten Werten plotten
plt.figure(figsize=(18, 4))
data1_ip['Light'].plot(marker='o')

**Wie zufrieden sind Sie mit der Interpolation?** <br>
zufrieden, da wir keine Daten verlieren und nur wenige Punkte werden hinzugefügt -> genaues Ergebnis

In [None]:
# Grundsätzlich ist auch möglich mit Polynomfunktionen zu interpolieren.
# Interpolieren Sie quadratisch (method='polynomial', order=2)
data1_q = rawData1.copy()
data1_q.interpolate(method='polynomial', order=2, inplace=True)

# Anzahl an NaN in Spalten ausgeben
data1_q.isnull().sum()

In [None]:
# Plotten Sie zum Vergleich wieder die alte und die neue Zeitreihe
# Plot der alten Zeitreihe:
plt.figure(figsize=(18, 4))
rawData1['Light'].plot(marker='o', color='red')

In [None]:
# Plot der neuen Zeitreihe:
plt.figure(figsize=(18, 4))
data1_q['Light'].plot(marker='o', color = 'green')

**Hat sich die quadratische Interpolation im Vergleich zur linearen gelohnt?**<br>
Ja, die quadratische Interpolation bietet eine höhere Genauigkeit, weil die Beziehung zwischen den Datenpunkten nicht linear ist.
<br><br>
**Welches der beiden Interpolationsverfahren würden Sie wählen?**<br>
die quadratische Interpolation

## Zeitstempel als Index setzen
- Momentan sind die Zeilenindizes einfach durchnummeriert: 0,1,2,...
- Wenn der Zeitstempel als Index gesetzt wird, kann man einfacher arbeiten
- Dafür muss der Zeitstempel als erstes in das Format datetime gebracht werden, damit Python ihn als Zeitstempel erkennt

In [None]:
# die Spalte Date ist noch nicht im datetime Format
data1_ip.dtypes

Date          object
Energy       float64
Light        float64
CO2          float64
Occupancy    float64
dtype: object

In [None]:
# Bringen Sie die Spalte Date ins datetime Format
data1_ip["Date"] = pd.to_datetime(data1_ip["Date"])

In [None]:
# Indizieren Sie mit der Zeitstempel-Spalte
data1_ip = data1_ip.set_index(data1_ip["Date"])

# Kontrollieren Sie das durch Ausgabe der ersten Zeilen des Datensatzes.
data1_ip.head(5)

Unnamed: 0_level_0,Date,Energy,Light,CO2,Occupancy
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-02-02 14:15:00,2015-02-02 14:15:00,26.285636,527.283333,785.951515,1.0
2015-02-02 14:30:00,2015-02-02 14:30:00,27.016313,481.697917,894.539583,1.0
2015-02-02 14:45:00,2015-02-02 14:45:00,27.612107,499.415646,992.291327,1.0
2015-02-02 15:00:00,2015-02-02 15:00:00,28.006019,456.43619,1051.151905,1.0
2015-02-02 15:15:00,2015-02-02 15:15:00,28.489948,464.760417,1101.779167,1.0


**Wieso wird bei wiederholtem Ausführen obiger Zelle ein Fehler geworfen? Müssen Sie etwas am Code korrigieren?** <br>
Bei mir wird kein Fehler geworfen.

**My approach to set index:** <br>
``data1_ip.set_index('Date', inplace=True)`` - der Index des Datenrahmens wird auf die Spalte 'Date' gesetzt <br><br>
**Chris approach to set index:** <br>
``data1_ip = data1_ip.set_index(data1_ip["Date"])`` - hier wird die Spalte 'Date' als Index gesetzt <br>
Es wird jedoch ein neuer Datenrahmen erstellt und dieser dem ursprünglichen Datenrahmen (data1_ip) zugewiesen.<br><br>
**Fehler tritt auf beim wiederholten Ausführen der zweiten Zeile:** <br>
es wird versucht, den Index mehrmals zu setzen, obwohl er bereits auf Date gesetzt ist<br><br>
**Korrektur:**<br>
sollte man vor dem erneuten Ausführen von set_index überprüfen, ob der Index bereits auf Date gesetzt ist.

In [None]:
# Indizieren Sie auch data2 mit dessen Zeitstempel
data2["Date"] = pd.to_datetime(data2["Date"])

In [None]:
data2.dtypes

Date           datetime64[ns]
Temperature           float64
dtype: object

In [None]:
# Indizieren Sie mit der Zeitstempel-Spalte
data2 = data2.set_index(data2["Date"])

# Kontrollieren Sie das durch Ausgabe der ersten Zeilen des Datensatzes.
data2.head(5)

Unnamed: 0_level_0,Date,Temperature
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-02-02 14:00:00,2015-02-02 14:00:00,23.657118
2015-02-02 15:00:00,2015-02-02 15:00:00,23.29395
2015-02-02 16:00:00,2015-02-02 16:00:00,22.773142
2015-02-02 17:00:00,2015-02-02 17:00:00,22.53452
2015-02-02 18:00:00,2015-02-02 18:00:00,21.993372


## Datensätze zu einem Zusammenfügen
- Problem: Die Datensätze haben unterschiedliche Frequenzen: Datensatz 1: 15min, Datensatz 2: stündlich
- Möglichkeit 1: Nur die Indizes nehmen, die sowohl in Datensatz 1, als auch in Datensatz 2 sind, also jede volle Stunde
- Möglichkeit 2: Den Datensatz mit der höheren Frequenz (Datensatz 1) runtersamplen, z.B. indem der stündliche Mittelwert oder die Summe über je eine Stunde gebildet wird

**Frage: Worauf muss man aufpassen, wenn man Möglichkeit 2 wählt?**<br>
- Ergebnisse können unkonsistent sein
- Zeitstempel auf die Stunden aufrunden
- Datensatzqualität kann damit leiden

### Möglichkeit 1: Nur die Indizes nehmen, die sowohl in Datensatz 1, als auch in Datensatz 2 sind

In [None]:
# Neuen Datensatz definieren, der aus Datensatz 2 von rechts angehängt an Datensatz 1 besteht
data = pd.concat([data1_ip, data2], axis=1)

# Dort wo keine Werte für den jeweiligen Zeitstempel vorhanden sind, werden NaN eingefügt
data.head()

Unnamed: 0_level_0,Date,Energy,Light,CO2,Occupancy,Date,Temperature
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2015-02-02 14:00:00,NaT,,,,,2015-02-02 14:00:00,23.657118
2015-02-02 14:15:00,2015-02-02 14:15:00,26.285636,527.283333,785.951515,1.0,NaT,
2015-02-02 14:30:00,2015-02-02 14:30:00,27.016313,481.697917,894.539583,1.0,NaT,
2015-02-02 14:45:00,2015-02-02 14:45:00,27.612107,499.415646,992.291327,1.0,NaT,
2015-02-02 15:00:00,2015-02-02 15:00:00,28.006019,456.43619,1051.151905,1.0,2015-02-02 15:00:00,23.29395


In [None]:
# Löschen Sie nun noch die Zeilen in denen mindestens 1x NaN vorkommt:
data.dropna(inplace=True)

# Ausgabe der ersten Zeilen von data zur Kontrolle:
data.head()

Unnamed: 0_level_0,Date,Energy,Light,CO2,Occupancy,Date,Temperature
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2015-02-02 15:00:00,2015-02-02 15:00:00,28.006019,456.43619,1051.151905,1.0,2015-02-02 15:00:00,23.29395
2015-02-02 16:00:00,2015-02-02 16:00:00,28.074896,429.1875,1078.897917,1.0,2015-02-02 16:00:00,22.773142
2015-02-02 17:00:00,2015-02-02 17:00:00,25.045857,431.085714,828.878571,1.0,2015-02-02 17:00:00,22.53452
2015-02-02 18:00:00,2015-02-02 18:00:00,24.9199,131.936667,782.071111,0.0,2015-02-02 18:00:00,21.993372
2015-02-02 19:00:00,2015-02-02 19:00:00,24.088542,0.0,621.942708,0.0,2015-02-02 19:00:00,21.276331


## Möglichkeit 2:
- Datensatz 1 soll von 15minüten auf stündliche Werte runtergesampelt werden
- Für die Spalten Light und CO2 soll dazu der stündliche Mittelwert genommen werden
- Für die Spalte Energy soll dazu jeweils die Summe über die 4 Werte in einer Stunde gebildet werden
- Für die Spalte Occupancy soll einfach der Wert zur vollen Stunde genommen werden

In [None]:
# Ursprünglicher Datensatz
data1_ip.head()

Unnamed: 0_level_0,Date,Energy,Light,CO2,Occupancy
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-02-02 14:15:00,2015-02-02 14:15:00,26.285636,527.283333,785.951515,1.0
2015-02-02 14:30:00,2015-02-02 14:30:00,27.016313,481.697917,894.539583,1.0
2015-02-02 14:45:00,2015-02-02 14:45:00,27.612107,499.415646,992.291327,1.0
2015-02-02 15:00:00,2015-02-02 15:00:00,28.006019,456.43619,1051.151905,1.0
2015-02-02 15:15:00,2015-02-02 15:15:00,28.489948,464.760417,1101.779167,1.0


In [None]:
# Ursprünglichen Datensatz aufteilen

# nur die Spalten, die gemittelt werden sollen
data1_mean = data1_ip.copy()
data1_mean.drop(['Energy', 'Occupancy'], axis=1, inplace=True)
data1_mean.head()

Unnamed: 0_level_0,Date,Light,CO2
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015-02-02 14:15:00,2015-02-02 14:15:00,527.283333,785.951515
2015-02-02 14:30:00,2015-02-02 14:30:00,481.697917,894.539583
2015-02-02 14:45:00,2015-02-02 14:45:00,499.415646,992.291327
2015-02-02 15:00:00,2015-02-02 15:00:00,456.43619,1051.151905
2015-02-02 15:15:00,2015-02-02 15:15:00,464.760417,1101.779167


In [None]:
# Generieren Sie einen Datensatz data1_sum, der nur die Spalten enthält, die summiert werden sollen
data1_sum = data1_ip.copy()
data1_sum.drop(['CO2','Light','Occupancy'],axis=1, inplace=True)
data1_sum.head()

Unnamed: 0_level_0,Date,Energy
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-02-02 14:15:00,2015-02-02 14:15:00,26.285636
2015-02-02 14:30:00,2015-02-02 14:30:00,27.016313
2015-02-02 14:45:00,2015-02-02 14:45:00,27.612107
2015-02-02 15:00:00,2015-02-02 15:00:00,28.006019
2015-02-02 15:15:00,2015-02-02 15:15:00,28.489948


In [None]:
# Generieren Sie einen Datensatz data1_binary, der nur die Spalten enthält, die weder gemittelt noch aufsummiert werden sollen
data1_binary = data1_ip.copy()
data1_binary.drop(['CO2','Light','Energy','Date'],axis=1,inplace=True)
data1_binary.head()

Unnamed: 0_level_0,Occupancy
Date,Unnamed: 1_level_1
2015-02-02 14:15:00,1.0
2015-02-02 14:30:00,1.0
2015-02-02 14:45:00,1.0
2015-02-02 15:00:00,1.0
2015-02-02 15:15:00,1.0


In [None]:
# Bringen Sie den Datensatz data1_mean durch Mittelwertbildung auf eine höhere Frequenz (stündlich):
data1_resampled_mean = data1_mean.resample("1H").mean()

# Lassen Sie sich zur Kontrolle die ersten Zeilen ausgeben:
data1_resampled_mean.head()

  data1_resampled_mean = data1_mean.resample("1H").mean()


Unnamed: 0_level_0,Light,CO2
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-02-02 14:00:00,502.798965,890.927475
2015-02-02 15:00:00,456.677902,1103.590327
2015-02-02 16:00:00,434.929193,980.338952
2015-02-02 17:00:00,426.717991,821.89256
2015-02-02 18:00:00,32.984167,719.712031


In [None]:
# Bringen Sie data1_sum durch Summenbildung auf eine höhere Frequenz (stündlich). (statt .mean() verwenden Sie .sum())
data1_resampled_sum = data1_sum.resample("1H").sum()

# Ausgabe der ersten Zeilen zur Kontrolle:
data1_resampled_sum.head()

  data1_resampled_sum = data1_sum.resample("1H").sum()


Unnamed: 0_level_0,Energy
Date,Unnamed: 1_level_1
2015-02-02 14:00:00,80.914056
2015-02-02 15:00:00,113.657907
2015-02-02 16:00:00,106.986065
2015-02-02 17:00:00,99.873477
2015-02-02 18:00:00,98.368227


In [None]:
# Bringen Sie den Datensatz data1_binary auf eine höhere Frequenz (stündlich).
# Dafür soll immer der Wert des Merkmals Occupancy zu vollen Stunde genommen werden, die anderen Werte sollen verworfen werden.
data1_resampled_binary = data1_binary.resample("1H").asfreq()

# Ausgabe der ersten Zeilen zur Kontrolle:
data1_resampled_binary.head()

Unnamed: 0_level_0,Occupancy
Date,Unnamed: 1_level_1
2015-02-02 14:00:00,
2015-02-02 15:00:00,1.0
2015-02-02 16:00:00,1.0
2015-02-02 17:00:00,1.0
2015-02-02 18:00:00,0.0


In [None]:
# Daten zusammenfügen
data = pd.concat([data2, data1_resampled_sum, data1_resampled_mean, data1_resampled_binary], axis=1)

data.head()

Unnamed: 0_level_0,Date,Temperature,Energy,Light,CO2,Occupancy
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-02-02 14:00:00,2015-02-02 14:00:00,23.657118,80.914056,502.798965,890.927475,
2015-02-02 15:00:00,2015-02-02 15:00:00,23.29395,113.657907,456.677902,1103.590327,1.0
2015-02-02 16:00:00,2015-02-02 16:00:00,22.773142,106.986065,434.929193,980.338952,1.0
2015-02-02 17:00:00,2015-02-02 17:00:00,22.53452,99.873477,426.717991,821.89256,1.0
2015-02-02 18:00:00,2015-02-02 18:00:00,21.993372,98.368227,32.984167,719.712031,0.0


In [None]:
# Entfernen von Zeilen mit mind. 1x NaN falls vorhanden:
data.dropna(inplace=True)

In [None]:
# Ausgabe der ersten Zeilen von data
data.head()

Unnamed: 0_level_0,Date,Temperature,Energy,Light,CO2,Occupancy
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-02-02 15:00:00,2015-02-02 15:00:00,23.29395,113.657907,456.677902,1103.590327,1.0
2015-02-02 16:00:00,2015-02-02 16:00:00,22.773142,106.986065,434.929193,980.338952,1.0
2015-02-02 17:00:00,2015-02-02 17:00:00,22.53452,99.873477,426.717991,821.89256,1.0
2015-02-02 18:00:00,2015-02-02 18:00:00,21.993372,98.368227,32.984167,719.712031,0.0
2015-02-02 19:00:00,2015-02-02 19:00:00,21.276331,95.37188,0.0,585.110384,0.0


In [None]:
# Ausgabe der Anzahl NaN in den jeweiligen Spalten

data.isna().sum()

Date           0
Temperature    0
Energy         0
Light          0
CO2            0
Occupancy      0
dtype: int64