# Hands On Python 3 - Datenaufbereitung
Dieses Notebook zeigt wie
- man Daten aus zwei csv Dateien zu einem Datensatz zusammenfügen kann
- wie man mit nicht existenten Werten (NaN - Not a Number) umgeht
- wie man Zeitreihen mit unterschiedlichen Frequenzen auf eine gemeinsame Frequenz bringen kann

## Notwendige Bibliotheken importieren

In [None]:
# notwendige Bibliotheken importieren
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


## Daten einlesen

In [None]:
# Daten einlesen

# Daten der 1. Quelle
rawData1 = pd.read_csv('/content/drive/My Drive/source1.csv')

# Lesen Sie die Daten der 2. Quelle ein
rawData2 = pd.read_csv('/content/drive/My Drive/source2.csv')

In [1]:
# Anzahl der Zeilen und Spalten ausgeben 

# Geben Sie Zeilen und Spalten des 1. Datensatzes von Quelle 1 aus

# Geben Sie Zeilen und Spalten des 2. Datensatzes von Quelle 2 aus


In [2]:
# Geben Sie die ersten Zeilen von Quelle 1 aus:


In [3]:
# Geben Sie die ersten Zeilen von Quelle 2 aus:


In [4]:
# Geben Sie die letzten Zeilen von Quelle 1 aus:


In [5]:
# Geben Sie die letzten Zeilen von Quelle 2 aus


## Daten auf fehlende Werte hin überprüfen

In [6]:
# Geben Sie sich die Anzahl der NaNs in den Spalten von Quelle 2 aus:


In [7]:
# Sofern der Datensatz keine NaNs erhält --> Kopie der Rohdaten namens data2 erstellen und damit direkt weiterarbeiten:


In [8]:
# Wie sieht es bei rawData1 aus? Geben Sie für rawData1 die Anzahl der NaNs in den Spalten aus


## Mit NaNs umgehen

### Möglichkeit 1: alle Zeilen, in denen mindestens 1x NaN vorkommt, löschen

In [None]:
# Kopie der Rohdaten anlegen
data1_del = rawData1.copy() 

# Zeilen mit mind. 1x NaN löschen (d.h. in irgendeiner Spalte kommt ein NaN vor --> Zeile wird gelöscht)
data1_del.dropna(inplace=True)

# Überprüfen
data1_del.isna().sum()

Date         0
Energy       0
Light        0
CO2          0
Occupancy    0
dtype: int64

### Möglichkeit 2: Fehlende Werte durch interpolierte Werte ersetzen

### Linear Interpolieren

In [9]:
# Führen Sie eine lineare Interpolation durch. Erstellen Sie sich dazu zunächst data1_ip als Kopie von rawData1


# Geben Sie sich die Anzahl an NaN in den Spalten nach der Interpolation aus:


In [12]:
# Plotten der alten Zeitreihe
plt.figure(figsize=(18, 4))
rawData1['Light'].plot(marker='o')   

In [11]:
#neue Zeitreihe mit interpolierten Werten plotten


Wie zufrieden sind Sie mit der Interpolation?


....

In [None]:
# Grundsätzlich ist auch möglich mit Polynomfunktionen zu interpolieren.
# Interpolieren Sie quadratisch (method='polynomial', order=2)



# Anzahl an NaN in Spalten ausgeben



Date         0
Energy       0
Light        0
CO2          0
Occupancy    0
dtype: int64

In [14]:
# Plotten Sie zum Vergleich wieder die alte und die neue Zeitreihe 
# Plot der alten Zeitreihe:



In [15]:
# Plot der neuen Zeitreihe:

Hat sich die quadratische Interpolation im Vergleich zur linearen gelohnt? Welches der beiden Interpolationsverfahren würden Sie wählen?

.......

## Zeitstempel als Index setzen
- Momentan sind die Zeilenindizes einfach durchnummeriert: 0,1,2,...
- Wenn der Zeitstempel als Index gesetzt wird, kann man einfacher arbeiten
- Dafür muss der Zeitstempel als erstes in das Format datetime gebracht werden, damit Python ihn als Zeitstempel erkennt

In [None]:
# die Spalte Date ist noch nicht im datetime Format
data1_ip.dtypes

Date          object
Energy       float64
Light        float64
CO2          float64
Occupancy    float64
dtype: object

In [16]:
# Bringen Sie die Spalte Date ins datetime Format 


In [17]:
# Indizieren Sie mit der Zeitstempel-Spalte 


# Kontrollieren Sie das durch Ausgabe der ersten Zeilen des Datensatzes. 


Wieso wird bei wiederholtem Ausführen obiger Zelle ein Fehler geworfen? Müssen Sie etwas am Code korrigieren?

....

In [18]:
# Indizieren Sie auch data2 mit dessen Zeitstempel


## Datensätze zu einem Zusammenfügen
- Problem: Die Datensätze haben unterschiedliche Frequenzen: Datensatz 1: 15min, Datensatz 2: stündlich
- Möglichkeit 1: Nur die Indizes nehmen, die sowohl in Datensatz 1, als auch in Datensatz 2 sind, also jede volle Stunde
- Möglichkeit 2: Den Datensatz mit der höheren Frequenz (Datensatz 1) runtersamplen, z.B. indem der stündliche Mittelwert oder die Summe über je eine Stunde gebildet wird

Frage: Worauf muss man aufpassen, wenn man Möglichkeit 2 wählt?

Antwort: 
....

### Möglichkeit 1: Nur die Indizes nehmen, die sowohl in Datensatz 1, als auch in Datensatz 2 sind

In [None]:
# Neuen Datensatz definieren, der aus Datensatz 2 von rechts angehängt an Datensatz 1 besteht
data = pd.concat([data1_ip, data2], axis=1)

# Dort wo keine Werte für den jeweiligen Zeitstempel vorhanden sind, werden NaN eingefügt
data.head()

Unnamed: 0_level_0,Energy,Light,CO2,Occupancy,Temperature
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-02-02 14:00:00,,,,,23.657118
2015-02-02 14:15:00,26.285636,527.283333,785.951515,1.0,
2015-02-02 14:30:00,27.016313,481.697917,894.539583,1.0,
2015-02-02 14:45:00,27.612107,499.415646,992.291327,1.0,
2015-02-02 15:00:00,28.006019,456.43619,1051.151905,1.0,23.29395


In [20]:
# Löschen Sie nun noch die Zeilen in denen mindestens 1x NaN vorkommt:


# Ausgabe der ersten Zeilen von data zur Kontrolle:


## Möglichkeit 2: 
- Datensatz 1 soll von 15minüten auf stündliche Werte runtergesampelt werden
- Für die Spalten Light und CO2 soll dazu der stündliche Mittelwert genommen werden
- Für die Spalte Energy soll dazu jeweils die Summe über die 4 Werte in einer Stunde gebildet werden
- Für die Spalte Occupancy soll einfach der Wert zur vollen Stunde genommen werden

In [21]:
# Ursprünglicher Datensatz
data1_ip.head()

NameError: ignored

In [None]:
# Ursprünglichen Datensatz aufteilen

# nur die Spalten, die gemittelt werden sollen 
data1_mean = data1_ip.copy()
data1_mean.drop(['Energy', 'Occupancy'], axis=1, inplace=True)
data1_mean.head()

Unnamed: 0_level_0,Light,CO2
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-02-02 14:15:00,527.283333,785.951515
2015-02-02 14:30:00,481.697917,894.539583
2015-02-02 14:45:00,499.415646,992.291327
2015-02-02 15:00:00,456.43619,1051.151905
2015-02-02 15:15:00,464.760417,1101.779167


In [22]:
# Generieren Sie einen Datensatz data1_sum, der nur die Spalten enthält, die summiert werden sollen


In [23]:
# Generieren Sie einen Datensatz data1_binary, der nur die Spalten enthält, die weder gemittelt noch aufsummiert werden sollen


In [24]:
# Bringen Sie den Datensatz data1_mean durch Mittelwertbildung auf eine höhere Frequenz (stündlich):


# Lassen Sie sich zur Kontrolle die ersten Zeilen ausgeben:


In [25]:
# Bringen Sie data1_sum durch Summenbildung auf eine höhere Frequenz (stündlich). (statt .mean() verwenden Sie .sum())

# Ausgabe der ersten Zeilen zur Kontrolle:


In [26]:
# Bringen Sie den Datensatz data1_binary auf eine höhere Frequenz (stündlich). 
# Dafür soll immer der Wert des Merkmals Occupancy zu vollen Stunde genommen werden, die anderen Werte sollen verworfen werden. 


# Ausgabe der ersten Zeilen zur Kontrolle:


In [None]:
# Daten zusammenfügen
data = pd.concat([data2, data1_resampled_sum, data1_resampled_mean, data1_resampled_binary], axis=1)

data.head()

Unnamed: 0_level_0,Temperature,Energy,Light,CO2,Occupancy
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-02-02 14:00:00,23.657118,,502.798965,890.927475,1.0
2015-02-02 15:00:00,23.29395,80.914056,456.677902,1103.590327,1.0
2015-02-02 16:00:00,22.773142,113.657907,434.929193,980.338952,1.0
2015-02-02 17:00:00,22.53452,106.986065,426.717991,821.89256,1.0
2015-02-02 18:00:00,21.993372,99.873477,32.984167,719.712031,0.0


In [None]:
# Entfernen von Zeilen mit mind. 1x NaN falls vorhanden:
data.dropna(inplace=True)

In [None]:
# Ausgabe der ersten Zeilen von data
data.head()

Unnamed: 0_level_0,Temperature,Energy,Light,CO2,Occupancy
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-02-02 15:00:00,23.29395,80.914056,456.677902,1103.590327,1.0
2015-02-02 16:00:00,22.773142,113.657907,434.929193,980.338952,1.0
2015-02-02 17:00:00,22.53452,106.986065,426.717991,821.89256,1.0
2015-02-02 18:00:00,21.993372,99.873477,32.984167,719.712031,0.0
2015-02-02 19:00:00,21.276331,98.368227,0.0,585.110384,0.0


In [None]:
# Ausgabe der Anzahl NaN in den jeweiligen Spalten

data.isna().sum()

Temperature    0
Energy         0
Light          0
CO2            0
Occupancy      0
dtype: int64