# Zeitreihenanalyse am Beispiel von Stromverbrauchs- und Produktionsdaten

## Ziele dieser Übung
- Wie kann ich mir schnell einen Überblick über den Datensatz verschaffen?
- Wie kann ich mir die Korrelation zwischen den Variablen ausgeben lassen?
- Wie kann ich in Python Zeitreihen plotten? 
- Wie kann ich saisonale Einflüsse untersuchen und in Plots darstellen?
- Wie kann ich die Plots exportieren?

In [None]:
# Paket pandas einbinden
import pandas as pd

# Google Drive mounten
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

## Daten einlesen und vorbereiten

In [None]:
# Daten einlesen über pandas Funktion read_csv()
raw_data = pd.read_csv('/content/drive/My Drive/germany_daily.csv')


# Die Daten sind nun in einem pandas data frame gespeichert. 
# Geben Sie sich die Anzahl der Zeilen und Spalten des data frames aus


In [None]:
# Lassen Sie sich die ersten 8 Zeilen der Rohdaten ausgeben


In [None]:
# Lassen Sie sich die letzten 5 Zeilen der Rohdaten ausgeben


In [None]:
# Lassen Sie sich die Datentypen der Spalten ausgeben


In [None]:
# Ersten Überblick über den Datensatz verschaffen, funktioniert mit der Funktion describe()


In [None]:
# Überprüfen Sie den Datensatz auf NaN - Wie viele NaN sind in den einzelnen Spalten enthalten?


In [None]:
# Zeilen mit mindestens 1x NaN verwerfen. Hierfür vorher eine Kopie der Rohdaten mit copy() anlegen. 
# Zeilen mit mindestens 1x NaN verwerfen funktioniert mit dropna, dabei auf die Angabe von inplace achten.


In [None]:
# Überprüfen durch erneute Ausgabe der NaNs in den Spalten


In [None]:
# Datumsspalte ist noch nicht im richtigen Format. 
# Soll als Zeitstempel erkannt werden. 
# Das funktioniert über die pandas Funktion to_datetime()
# Dafür die passende Spalte aus dem Dataframe auswählen und anschließend die to_datetime() auf die Spalte anwenden


# Überprüfung der Datentypen



In [None]:
# Der Zeitstempel soll nun als Index des data frames gesetzt werden


In [None]:
# Wir können auf einfache Art weitere Spalten mit dem Jahr, Monat oder Tag hinzufügen
# Hierzu greifen wir auf die entsprechenden Attribute des datetime index zu 
data['Year'] = data.index.year
data.head()

In [None]:
# Fügen Sie weitere Spalten mit dem Wochentag und Monat hinzu.
# Der Wochentag entspricht dem Attribut weekday des index, der Monat dem Attribut month

# Wochentag durchnummeriert von 0-6 (Mo-So)


# Monat durchnummeriert von 1-12


# Ausgabe der ersten Zeilen


In [None]:
# Wochenenden
data['Weekend'] = data['Weekday'] > 5

# Name des Wochentags (Monday, Tuesday, ...)
# Achtung, hier ist day_name() eine Funktion, die den Namen zurückgibt 
# und nicht wie oben ein Attribut von index
data['Weekday Name'] = data.index.day_name()

# Monatsname (January, February, ...)
# Achtung, hier ist month_name() eine Funktion, die den Monatsnamen zurückgibt 
# und nicht wie oben ein Attribut von index
data['Month Name'] = data.index.month_name() 

data.head()

In [None]:
# Korrelationsmatrix ausgeben
data.corr()

# Was fällt auf? Welche Merkmale korrelieren positiv, welche negativ?
# Würden Sie Merkmale aus der weiteren Analyse ausschließen?


In [None]:
# Anschaulichere Darstellung

import seaborn as sns
sns.heatmap(data.corr(), annot=True, fmt='.2f', vmin=-1, vmax=1)


# Erkenntnisse? 


In [None]:
# Spalten wieder löschen funktioniert über die Funktion df.drop(columns=['Name1', 'Name2'], inplace=True)
# Löschen Sie die Spalten 'Month', 'Year', 'Weekday Name', 'Weekday'


# Ausgabe der ersten Zeilen


In [None]:
# Durch das Indizieren mit dem Zeitstempel kann man wie wir im letzten Notebook gesehen haben auf einfache Art und Weise auf Einträge eines bestimmten Datums zugreifen.
# Das funktioniert mit der Methode loc['Datum']
# Greifen Sie auf die Werte des Datums '2016-03-15' zu und erzeugen Sie eine Ausgabe


In [None]:
# Man kann mit loc auch eine Zeitspanne auswählen. Greifen Sie auf den Zeitraum von '2016-03-15' bis 2016-03-20' zu.


In [None]:
# Ein weiteres praktisches Feature ist partial indexing. 
# Was passiert bei data.loc['2016-03']?



## Visualisierung

In [None]:
# Bibliothek matplotlib für die Visualisierung einbinden
import matplotlib.pyplot as plt # zum plotten

# weitere Bibliothek für schönere Plots
import seaborn as sns

# Einstellungen um die Standardgröße von Plots, sowie die Schriftgrößen in den Plots zu bestimmen
sns.set(rc={'figure.figsize':(30, 10)})
plt.rc('xtick', labelsize=22) 
plt.rc('ytick', labelsize=22) 
plt.rc('font', size=22)
plt.rc('axes', titlesize=28, labelsize=24)
plt.rc('legend', fontsize=28) 

In [None]:
# Plot für den Stromverbrauch

# Linienplot
consumption_plot = data['Consumption'].plot(linewidth=1, title='Consumption in GWh');

In [None]:
# Plot exportieren funktioniert mit Plotname.figure.savefig()

# Zeile einmalig ausführen
from google.colab import files

# Speichern der Plots
consumption_plot.figure.savefig('/content/drive/My Drive/mein_plot.pdf')
consumption_plot.figure.savefig('/content/drive/My Drive/mein_plot.png', dpi=consumption_plot.figure.dpi)

files.download("mein_plot.pdf") 

In [None]:
# Linienplot mit speziell definiertem Marker
consumption_plot = data['Consumption'].plot(linewidth=1, marker='.');  
plt.show()

# Was passiert wenn Sie marker='o' oder marker='x' setzen?



Eine Übersicht weiterer Marker gibt es hier:
https://matplotlib.org/3.1.1/api/markers_api.html 

In [None]:
# Plot mit Marker ohne Linie
data['Consumption'].plot(linestyle='', marker='.');  # oder z.B. marker='x', marker='o'

In [None]:
# Achsenbeschriftung des Plots einstellen

ax = data['Consumption'].plot(linewidth=1, marker='.');
ax.set_ylabel('Daily Consumption (GWh)');

In [None]:
# Aufgabe: Erstellen Sie einen Linienplot des Stromverbrauchs im Jahr 2016
# Fügen Sie eine geeignete Achsenbeschriftung für die y-Achse hinzu



In [None]:
# Aufgabe: Plotten Sie die Stromproduktion aus Wind- und Solarenergie für das Jahr 2017 in einem Graphen



In [None]:
# Wir wollen nun die Verläufe für Verbrauch, Produktion aus Sonne, Produktion aus Wind untereinander plotten. 
# Das funktioniert so:

cols_plot = ['Consumption', 'Solar', 'Wind']
axes = data[cols_plot].plot(alpha=0.5, linewidth=1, figsize=(30, 20), subplots=True)
for ax in axes:
    ax.set_ylabel('Daily Totals (GWh)')
    ax.legend(loc="upper left")
    
axes[2].set_ylabel('mein neues Label');

In [None]:
# Achtung: ein Linienplot kann den Eindruck verfälschen!
# Wir plotten nochmal mit Punkten als Marker und ohne Linie

axes = data[cols_plot].plot(marker='.',alpha=0.5, linestyle='', figsize=(30, 20), subplots=True)
for ax in axes:
    ax.set_ylabel('Daily Totals (GWh)')
    ax.legend(loc="upper left")

Welche interessanten Muster können wir hier schon jetzt erkennen?

Antwort:
.....

## Saisonalität 
- Alle drei Zeitreihen weisen Periodizitäten auf, bei Zeitreihen auch Saisonalität genannt.
- Saisonalität: Ein Muster wiederholt sich in regelmäßigen Zeitintervallen
- Auf der jährlichen Zeitskala oszillieren Stromverbrauch, Solarenergie und Windenergie aufgrund der Jahreszeiten
- Ist auch Saisonalität auf anderen Zeitskalen zu beobachten?
- Wir untersuchen den Stromverbrauch hinsichtlich Saisonalität auf einer monatlichen Zeitskala

In [None]:
# Plotten Sie den Stromverbrauch für Januar und Februar 2017
ax = data.loc['2017-01':'2017-02', 'Consumption'].plot(marker='o', linestyle='-')
ax.set_ylabel('Daily Consumption (GWh)');

### Auswertung
- Montage sind der 02.01., 09.01, 16.01, ...
- ......

## Saisonalität mit Boxplots untersuchen

Ziel: Saisonalität näher untersuchen. Das funktioniert mit Boxplots.

In [None]:
# Als erstes fügen wir den Daten wieder eine Spalte mit dem Monat hinzu:
data['Month'] = data.index.month
data.head()

In [None]:
# Ein Boxplot kann mit der boxplot() Funktion von seaborn erstellt werden.
# wir gruppieren damit die Daten hinsichtlich unterschiedlicher Zeiträume 
# und lassen uns die Verteilungen für jede Gruppe anzeigen
# zunächst gruppieren wir die Daten monatsweise, um die jährliche Saisonalität zu untersuchen

mein_boxplot = sns.boxplot(data=data, x='Month', y='Consumption').set_title('Distribution of energy consumption over months, years 2012 - 2017')

# Aufgabe: Speichern Sie sich den Graphen mit den Boxplots als pdf


In [None]:
# Wir können auch mehrere Boxplots für die einzelnen Spalten untereinander anzeigen lassen.

fig, axes = plt.subplots(3, 1, figsize=(30, 20), sharex=True)
for name, ax in zip(['Consumption', 'Solar', 'Wind'], axes):
    sns.boxplot(data=data, x='Month', y=name, ax=ax)
    #ax.set(ylim=(0, 1800))
    ax.set_ylabel('GWh', fontsize=24)
    ax.set_title(name, fontsize=36)
    ax.tick_params(labelsize=24) #Größe der Zahlenbeschriftungen der Achsen einstellen
# Automatisch generiertes Label der x-Achse entfernen für alle Subplots außer dem untersten.
    if ax != axes[-1]:
        ax.set_xlabel('')
        
#Abstand zwischen den Subplots einstellen
plt.subplots_adjust(hspace = 0.2)

# Plot speichern
fig.savefig('mehrere_boxplots.pdf')
files.download("mehrere_boxplots.pdf") 


## Interpretation der Boxplots
Welche Bestandteile hat ein Boxplot?
- ....


Welche Erkenntnisse lassen sich aus den Boxplots gewinnen?
- ....



## Grundlagen Boxplot
Was wird hier überhaupt gemacht? 
- Von den vorhandenen Jahren 2012 bis 2017 werden jeweils für einen Monat die Tagesverbräuche analysiert. Wie war der Tagesverbrauch im Januar verteilt? Wie im Februar?
- Die Box des Boxplots entspricht dem Bereich, in dem die mittleren 50 % der Daten liegen. D.h. 25% der Werte sind höher und 25% der Werte sind niedriger.
- Die Länge der Box entspricht dem Interquartilsabstand (IQR). Dieser ist ein Maß für die Streuung der Daten. Z.B. streut die Produktion von Solarenergie im Winter weniger als im Sommer. "Im Sommer gibt es gute und schlechte Tage, im Winter hauptsächlich schlechte".
- Der Median wird durch die gerade Linie in der Box dargestellt. Er teilt das Diagramm in zwei Bereiche: die unteren 50% der Werte und die oberen 50% der Werte.
- Durch die Lage des Medians innerhalb der Box bekommt man einen Eindruck von der Schiefe der den Daten zugrunde liegenden Verteilung. Ist der Median im linken Teil der Box, so ist die Verteilung rechtsschief, und umgekehrt.
- Die Antennen/Whisker stellen die außerhalb der Box liegenden Werte dar. Ihre Länge ist maximal 1.5 mal so lang wie die Länge der Box (IQR). 
- Punkte außerhalb der Whisker (Werte, die unter oder über 1.5 x IQR liegen) stellen Ausreißer dar.

## Analyseergebnisse Boxplots
- ......