# Data Science zum Mitmachen: Wetter, Radfahrer und mehr...

## Einleitung

Wie wir in der Bastelstrecke von [diy-iot2ds](https://github.com/birds-on-mars/diy-iot2ds) lernen können, ist es gar nicht sooo schwer und aufwendig, Wetterdaten automatisch zu erfassen. Allerdings ist die Analyse der isolierten Daten etwas ... gähn. Um spannendere Dinge zu tun und zu erkennen, muss man schon ein paar verschiedene Daten zusammenbringen - so wird wirkliche Data Science daraus!  

Um zu **veranschaulichen, wie Data Science funktioniert**, haben wir uns von Jake van der Plas, einem Astrophysiker, Data Science-Meister und Python-Guru, inspirieren lassen. Jake hält nicht nur viele Talks zum Thema und hat hervorragende Bücher wie das [Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/) geschrieben, das es übrigens komplett open-source und interaktiv durch- und zu bearbeiten gibt. Er schreibt auch seit längerem einen Blog, in dem er auch immer wieder Methoden anschaulich beschreibt.  

In 2014 hat er dort die Frage gestellt, ob es einen Aufschwung in der Nutzung von Fahrrädern in Seattle gibt. Hier der [Link zum Blog von dunnemals](https://jakevdp.github.io/blog/2014/06/10/is-seattle-really-seeing-an-uptick-in-cycling/).  

**Hier werden öffentlich zugängliche und recht volatile Daten zum (automatisch erfassten) Fahrrad-Verkehr über die Fremont-Brücke in Seatlle mit Wetter- und auch berechneten Daten in Verbindung gebracht, um zu verifizieren, ob es tatsächlich eine Veränderung der Fahrrad-Fahrten im Laufe der Zeit gibt bzw. welchen Einfluss andere Umgebungsdaten haben.** 

Die Antwort von Jake van der Plas in seinem Blog damals war: ja, es gibt einen Zuwachs an Fahrradverkehr.
Jetzt sind wir ein paar Jahre weiter und wir fragen uns daher: ist das immer noch der Fall?  

**Und auch das ist machbar!**  

Google bietet eine kostenlose Umgebung dafür an. Falls noch nicht geschehen, jetzt **bitte einfach oben den Button "open in colab" anklicken** (und nach Studie der Bedingungen von Google diese ggf. akzeptieren, damit die Kiste läuft) - dann wird's interaktiv! 
- **Einen kleinen Teil des Ganzen muss/darf der geneigte Leser dabei selber machen!** 
- Andere Teile/Hilfsfunktionen haben wir "weggeklappt", um das Gesamtverständnis nicht zu behindern.
- Damit alles läuft muss immer, wenn ein kleiner "Play-Button" an der Zelle ist, dieser angeklickt werden, sonst läuft der Programmcode nicht.

## Verwendete Datenquellen

Auf den Fahrradwegen der Fremont-Brücke in Seattle werden mit magnetischen Induktionsschleifen automatisch Fahrräder gezählt. Da [Open-Data](https://de.wikipedia.org/wiki/Open_Data) in den USA auch bei öffentlichen Institutionen recht verbreitet ist, sind diese Daten frei zugänglich. Sie werden [auf dem Open-Data-Portal der Stadt Seattle bereitgestellt](https://data.seattle.gov/Transportation/Fremont-Bridge-Hourly-Bicycle-Counts-by-Month-Octo/65db-xm6k). Die hier im Repository hinterlegten Daten sind vom 04. Juni 2019 und reichen zurück bis 2012.  

So sieht übrigens die Fremont-Brücke in Seattle aus:

![Fremont-Brücke in Seatlle](https://upload.wikimedia.org/wikipedia/commons/thumb/5/50/Seattle_%E2%80%94_Fremont_Bridge_%E2%80%94_%282016-06-12%29%2C_01.jpg/320px-Seattle_%E2%80%94_Fremont_Bridge_%E2%80%94_%282016-06-12%29%2C_01.jpg)  

Auch Wetterdaten aus den USA sind frei zugänglich über das [National Center of Environmental Information](https://www.ncdc.noaa.gov/cdo-web/search?datasetid=GHCND), wo u.a. die Wetterstation des SeaTac Airport in Seattle ausgewählt werden kann (ID der Wetterstation "USW00024233"). Hier haben wir uns die letzten verfügbaren Daten vom 25. Juni 2019 (auch zurück bis 2012) besorgt, aber nicht alle möglichen Datenfelder heruntergeladen, sondern und auf Durchschnittstemperatur und Niederschlag beschränkt.

Die [Daten liegen bereits in diesem Repository](https://github.com/QuantificAid/hands-on-data-science-example/blob/master/Daten/):

In [0]:
Pfad_zu_Daten = 'https://raw.githubusercontent.com/QuantificAid/hands-on-data-science-example/master/Daten/'

## Vorgehen

Auch hier werden wir die üblichen Schritte einer Data Science-Analyse durchlaufen:
- **Laden und erstes Explorieren der Daten** (*Gathering*) verbunden mit einer ersten ganz kurzen ersten Exploration, wie die Daten in der Rohversion aussehen.
- **Strukturieren der Daten** (*Preprocessing*) um die Daten in eine gesamthaft weiterverarbeitbare Form zu bringen.
- **Bereinigung und weitere Exploration der Daten** *(Cleansing, Exploration)*, um die Daten in die finale Form für die Modellbildung zu bringen. Glücklicherweise sind die Daten recht "sauber", was den ansonsten oft sehr mühseligen Teil der Bereinigung sehr kurz macht. Wir werden die Daten aber recht ausgiebig visualisieren.
- Last, but not least **Modellierung der Daten** *(Modelling)*. Hier benutzen wir werden wir eine "einfache" multi-lineare Regression anwenden, um zu prüfen, welcher Einflussfaktor wie (linear) wirkt und welcher Trend sich am Ende für den zeitlichen Verlauf der Fahrrad-Nutzung ergibt. Wie lineare Regression funktioniert wird im entsprechenden Teil erläutert.

## Verwendete Programmbibliotheken

Die Analyse der Daten nehmen wir in der Programmiersprache Python vor, die für sehr vieles geeignet ist, aber auch sehr beliebt für Data Science, Machine Learning und AI ist.

Sie ist nicht nur deshalb in diesen Gebieten so beliebt, weil sie relativ leicht zu lernen und sehr vielseitig ist, sondern auch und insbesondere, weil es viele schlaue Geister in Python sehr coole Programm-Bibliotheken geschrieben haben, die open source bereitstehen, deren enthaltene Objekte, Methoden und Funktionen sofort verwendet werden können und die einem viel Arbeit abnehmen.

Wir laden uns die folgenden Bibliotheken:
- [pandas](https://pandas.pydata.org/) zur effizienten Bearbeitung von Datentabellen
- [NumPy](https://www.numpy.org/) zur schnellen numerischen Bearbeitung von Tabellendaten und Matrizen (wird im Hintergrund auch von pandas verwendet)
- [altair](https://altair-viz.github.io/) zur grafischen und interaktiven Darstellung von Daten und
- [scikit-learn oder auch sklearn](https://scikit-learn.org/stable/), einer elegant programmierten Bibliothek mit vielen Funktionen zum maschinellen Lernen (u.a. der linearen Regression).

In [0]:
#Importieren von Programm-Bibliotheken

# Programm-Bibliothek zur effizienten Bearbeitung von Datentabellen
import pandas as pd

# Programm-Bibliothek zur schnellen numerischen 
# Bearbeitung von Tabellendaten und Matrizen.
import numpy as np

# Programm-Bibliothek zu grafischen und interaktiven 
# Darstellung von Daten
import altair as alt

# Programm-Bibliothek u.a. Lineare Regression
from sklearn.linear_model import LinearRegression

## Laden und erstes Explorieren der Daten *(Gathering, First Exploration)*

Um Daten mit Python (oder einer anderen geeigneten Programmiersprache oder Software) zu analysieren, muss man sie natürlich erst laden. Oft und auch hier haben wir mehrere Datenquellen und Bestandteile, so dass es Sinn macht, sich dabei auch einen allerersten Überblick zu verschaffen, um schon mal zu überlegen, wie man die Daten später zusammenbringen kann.

### Laden und erstes Explorieren der Verkehrsdaten

Die Verkehrsdaten liegen in Form eine "Comma seperated value"-Datei (csv-Datei) vor, in der Tabellendaten sehr einfach gespeichert werden können.
Diese können wir sehr einfach in ein Tabellenobjekt von pandas (einen sogenannten DataFrame) laden und uns mit einfachen Funktionen einen ersten Eindruck verschaffen.. 

In [0]:
# Laden der 'Verkehrsdaten' 
# aus Datei'Fremont_Bridge_Hourly_Bicycle_Counts_by_Month_October_2012_to_present.csv' 
# im Ordner 'Daten'
Verkehrsdaten = pd.read_csv(
    Pfad_zu_Daten + 'Fremont_Bridge_Hourly_Bicycle_Counts_by_Month_October_2012_to_present.csv')

In [0]:
# Lesen der obersten Reihe der 'Verkehrsdaten'
Verkehrsdaten.head()

In [0]:
# Lesen der untersten Reihen der 'Verkehrsdaten'
Verkehrsdaten.tail()

In [0]:
# Abstrakte Information über die 'Verkehrsdaten'
Verkehrsdaten.info()

In [0]:
# Grundlegende Statistik der 'Verkehrsdaten'
Verkehrsdaten.describe(include='all').T

Wie wir sehen, wird der Verkehr in der Datei stündlich und auf beiden Seiten der Brücke/in beiden Fahrrichtungen seit dem 10.03.2012 bis zum 31.05.2019 erfasst. Die Fahrten liegen im float64-Format vor (Fließkommazahlen), während die Datums-Zeilen ('Date') noch nicht als solche erkannt wurden und nur als allgemeines 'object' vorliegen. Insgesamt haben wir zu fast 60.000 Zeitpunkten jeweils zwei Fahrt-Informationen. Das ist mehr Information, als wir brauchen. Uns reichen die Fahrten insgesamt und auch eine Aggregation auf einzelne Tage wird uns genügen.

Wir werden später also:
- Das Datums-Format "reparieren", damit wir damit weiterrechnen können.
- Die Fahrten auf Tage aggregieren.
- Die Fahrten in beide Richtungen zusammenrechnen.


### *Do-It-Yourself: Laden und erstes Explorieren der Wetterdaten*

Nachdem wir im vorherigen Abschnitt gezeigt haben, wie die ganzen Schritte des Ladens und für eine erste Orientierung mit den Verkehrsdaten funktionieren, ist es nun am geneigten Leser dasselbe mit den Wetterdaten in der Datei '1790755.csv' vorzunehmen.

Im Zweifel einfach den Code von oben kopieren und leicht anpassen sollte genügen...

*P.S.: Falls es nicht klappt, darf auch [hier](https://github.com/QuantificAid/hands-on-data-science-example/blob/master/hands-on-data-science-example-solution.ipynb) gespickt werden* 

In [0]:
# Lesen der 'Wetterdaten' 
# aus Datei '1790755.csv' 
# im Ordner 'Daten' 

# DO-IT-YOURSELF

In [0]:
# Lesen der obersten Reihe der 'Wetterdaten'

# DO-IT-YOURSELF

In [0]:
# Lesen der untersten Reihe der 'Wetterdaten'

# DO-IT-YOURSELF

In [0]:
# Abstrakte Information über die 'Wetterdaten'

# DO-IT-YOURSELF

In [0]:
# Grundlegende Statistik der 'Wetterdaten'

# DO-IT-YOURSELF

Wie wir sehen (wenn alles geklappt hat), liegen hier zu fast jedem Tag seit dem 10.03.2012 bis zum 19.06.2019 Daten zu Niederschlagsmenge (PRCT) und Durchschnitts-Temperatur (TAVG) vor. Das Datumsformat 'DATE' wurde auch nicht nicht ganz korrekt erkannt. Niederschlag und Temperatur liegen im Fließkomma--Format vor.

Wir werden also später:
- Das Datums-Format reparieren.

Wenn wir die Daten mit den Verkehrsdaten zusammenfügen, wird es aber aus der einen oder anderen Tabelle auch fehlende Daten geben. Damit müssen wir irgendwie umgehen, da eine Lineare Regression, wie wir sie vorhaben, fehlenden Daten nicht verarbeiten kann.
Weil wir insgesamt so viele Daten haben können wir Reihen mit fehlenden Daten aber einfach löschen. Die Regression wird's nicht wirklich beeinflussen...

## Strukturieren der Daten *(Preprocessing)*

Nun wollen wir unsere Datenquellen "Verkehrsdaten" und "Wetterdaten" mit "reparierten" und bereinigten Daten (s. Erkenntnisse des vorherigen Abschnitts) in eine neuen Tabelle 'Daten' zusammenbringen. 

Weiterhin nehmen wir an (und werden es später auch sehen), dass weitere Größen eine Rolle spielen:
- Die Tageslänge von Sonnenauf- bis -untergang könnte die Anzahl der Tage beeinflussen.
- Der Umstand, ob ein Tag ein Werktag  ist oder auf ein Wochenende fällt, könnte beeinflussen wieviele Leute Radfahren ("Berufsverkehr" vs. "Freizeitverkehr"). Diese Daten sind nicht in den Tabellen enthalten, wir können sie uns aber aus dem Datum, dass wir ja haben errechnen. 

In [0]:
# Anlegen einer neuen Datenstruktur 'Daten'
Daten = pd.DataFrame()

### Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten

Zunächst formatieren wir die Spalte 'Date' von 'Verkehrsdaten' in ein Format um, dass von als Zeiten interpretiert werden kann:

In [0]:
# Konvertieren der Spalte 'Date' in 'Verkehrsdaten'
# in ein "echtes" Datumsformat
Verkehrsdaten['Date'] = pd.to_datetime(Verkehrsdaten['Date'])

Dann setzen wir den Index der Tabelle 'Verkehrsdaten' auf 'date'. Das ermöglicht das einfache  Aggregieren von Stunden auf Tage und erleichtert das Zusammenfügen mit anderen Tabellen:

In [0]:
# Ersetzen der Index-Spalte mit der Spalte 'Date' aus 'Verkehrsdaten'
Verkehrsdaten = Verkehrsdaten.set_index('Date')

Um Vergleichbarkeit zu den Wetterdaten zu erreichen, aggregieren ("resamplen") wir nun auf summierte Tage (days/"d"):

In [0]:
# Aggregieren und Ersetzen der stündlichen 'Verkehrsdaten' 
# durch tägliche 'Verkehrsdaten'
Verkehrsdaten = Verkehrsdaten.resample('d').sum()

Um zu sehen, ob unsere Aggregation erfolgreich war, guccken wir uns die Daten nochmals an:

In [0]:
# Lesen von Beispielreihen der 'Verkehrsdaten'
Verkehrsdaten.sample(5)

In [0]:
# Abstrakte Information über 'Verkehrsdaten'
Verkehrsdaten.info()

In [0]:
# Grundlegende Statistik der 'Verkehrsdaten'
Verkehrsdaten.describe(include='all').T

Es scheint alles funktioniert zu haben! Daher summieren wir nun die Tagen in beide Verkehrsrichtungen und fügen die Summe einer neuen Spalte "Fahrten" von "Daten" hinzu:

In [0]:
# Übertragen der Summe der Spalten aus den 'Verkehrsdaten'
# in eine (neue) Spalte 'Fahrten' der 'Daten'
Daten['Fahrten'] = Verkehrsdaten['Fremont Bridge East Sidewalk'] + Verkehrsdaten['Fremont Bridge West Sidewalk']

Auch die Index-Struktur mit den Datumsangaben übernehmen wir:

In [0]:
# Benennung des Index der 'Daten' mit 'Datum'
Daten.index = pd.DatetimeIndex(data=Verkehrsdaten.index, name='Datum')

Und gucken und (mal wieder) an, ob alles geklappt hat:

In [0]:
# Lesen von Beispielreihen aus den 'Daten'
Daten.sample(5)

### Ermitteln und Hinzufügen berechneter Daten (Tageslänge und Wochentag)

Wie gesagt, vermuten wir, dass auch sich im Jahresverlauf ändernde Tageslänge eine Rolle beim Aufkommen der Fahrrad-Fahrten spielt. Weiterhin macht es erfahrungsgemäß einen Unterschied, ob ein "Werktag" (hier vereinfacht Montag bis Freitag) ist, oder ob wir Wochenende haben. Zu guter letzt brauchen wir später auch noch einen Zähler für die Tage als Hilfsgröße, weil unser Algorithmus nicht ohne weiteres mit Datums-Angaben umgehen kann.

Statt und auch dafür einen Quell-Datensatz zu suchen, generieren wir ihn einfach selbst, indem wir die gewünschten Größen "Tag", "Tageslaenge" und "ist_Werktag" berechnen.

Fangen wir damit an, dass wir eine neue Datentabelle "Berechnete Größen" mit dem Datums-Index erstellen:

In [0]:
# Anlegen einer neuen Datenstruktur 'Berechnete_Daten'
# mit Übernahme der Index-Struktur von 'Daten'
Berechnete_Daten = pd.DataFrame(index=Daten.index)

Aus dem Datums-Index erzeugen wir nun den "Tag" als neue Spalte in "Berechnete Daten":

In [0]:
# Neue Spalte 'Tag' in 'Berechnete_Daten'
# aus den Zahlenwerten des 'index' (der das Datum enthalt)
Berechnete_Daten['Tag'] = pd.to_numeric(Berechnete_Daten.index)

Wie immer gucken wir uns das Resultat kurz an:

In [0]:
# Lesen von Beispielsreihen aus 'Berechnete Daten'
Berechnete_Daten['Tag'].sample(5)

Was ist denn da passiert?!?

Ach ja, Daten werden insgeheim in Nano-Sekunden seit Neunzehnhundertirgendwas gespeichert. Aber auch kein Problem: das rechnen wir um:

In [0]:
# Umwandeln der Spalte 'Tag' in ganzzahlige Werte
# die einzelnen Tagen entsprechen
Tageslaenge_in_Nanosekunden = 24*60*60*1_000_000_000
Berechnete_Daten['Tag'] = (Berechnete_Daten['Tag'] - Berechnete_Daten['Tag'].min()) \
                        / Tageslaenge_in_Nanosekunden

Und nun alles klar?

In [0]:
# Lesen der ersten Reihen von 'Berechnete Daten'
Berechnete_Daten.head(5)

Nachdem auch das geklappt hat, berechnen wir die Tageslaenge. Dazu brauchen wir eine Formel. Da es auf die aber nicht im Detail angkommt, klappen wir den Code hier mal weg. **Aber bitte die Zelle trotzdem ausführen! Sonst funktioniert sie eben nicht!**

In [0]:
#@title Weggeklappt: Formel zur Bereichnung der Tageslänge anhand des Datums
# Formel zur Berechnung der Tageslänge in Abhängigkeit des
# Datums und des Laengengrades 
# (voreingestellt ist der Längengrad von Seattle)

def Berechne_Tageslaenge(Datum, Laengengrad=47.61):
    
    # Neigung der Erdachse in Grad
    Neigung_erdachse = 23.44
    
    # Wintersonnenwende
    Wintersonnenwende = pd.datetime(2000, 12, 21)
    
    # Tage seit Wintersonnenwende (WSW)
    Zeit_seit_WSW = Datum - Wintersonnenwende
    Tage_seit_WSW = Zeit_seit_WSW.total_seconds() / (24. * 60. * 60.)
    Tage_seit_WSW = Tage_seit_WSW % 365.25
    
    m = 1. - \
        np.tan(np.radians(Laengengrad)) * \
        np.tan(
            np.radians(Neigung_erdachse) * 
            np.cos(Tage_seit_WSW * np.pi / 182.625) 
    )
    
    m = max(0, min(m, 2))
    
    Tageslaenge = 24. * np.degrees(np.arccos(1 - m)) / 180.
    
    return Tageslaenge

Nun erzeugen wir eine Liste mit den Tageslängen und heften diese als neue Spalte "Tageslaenge" an "Berechnete Daten" an:

In [0]:
# Aufbau einer Liste von Tageslaengen und 
# Übernahme in eine neue Spalte 'Tageslaenge'
# in 'Berechnete_Daten'
Tageslaengen = list(map(Berechne_Tageslaenge, Berechnete_Daten.index))
Berechnete_Daten['Tageslaenge'] = Tageslaengen

Was machen wir jetzt? Klar: überprüfen...

In [0]:
# Lesen von Beispielreihen aus 'Berechnete Daten'
Berechnete_Daten.sample(5)

Nun errechnen wir, ob ein Tag ein Werktag (Montag bis Freitag) ist und vergeben dann eine "1" oder eben Wochenende (Samstag, Sonntag) und vergeben dann eine "0". Wir können dazu eine Funktion von pandas nutzen, die Datumsangaben in den Wochentag umrechnet. Montag ist hier "0", Dienstag "1" ... usw. ... bis Sonntag "6". Zum Umrechnen nutzen wir das Teilen ohne Rest mit "//".  

Viel Spaß beim Nachvollzug der Formel! 

In [0]:
# Berechnung, ob ein Tag ein Werktag 
# ist (1) oder nicht (0) und
# Übernahme in eine neue Spalte 'ist_Werktag' von 'Berechnete_Daten'
Berechnete_Daten['ist_Werktag'] = 1 - Berechnete_Daten.index.dayofweek // 5

Ob uns das Resultat recht gibt?

In [0]:
# Lesen von Beispielreihen aus 'Berechnete Daten'
Berechnete_Daten.sample(5)

Es tut es!

Zuletzt nehmen wir nun die Daten und heften die gesammelten Spalten "Tag", "Tageslaenge" und "ist_Werktag" an unsere Tabelle "Daten" an:

In [0]:
# Übernahme von 'Tageslaenge' und 'ist_Werktag'
# aus 'Berechnete_Daten' in die 'Daten'
Daten[['Tag', 'Tageslaenge', 'ist_Werktag']] = Berechnete_Daten[['Tag', 'Tageslaenge', 'ist_Werktag']]

Auch das wir hoffentlich funktioniert haben:

In [0]:
# Lesen von Beispielreihen aus 'Daten'
Daten.sample(5)

### *Do-It-Yourself: Formatieren und Hinzufügen ausgewählter Wetterdaten*

So, nun seid Ihr an der Reihen. Einfach sorgfältig die Aufgabe jeder Zelle angucken, vergleichbaren Code von oben sorgfältig transferieren und rein in die Tasten!

*P.S.: Falls es nicht klappt, darf auch [hier](https://github.com/QuantificAid/hands-on-data-science-example/blob/master/hands-on-data-science-example-solution.ipynb) gespickt werden.* 

In [0]:
# Konvertieren der Spalte 'DATE' in 'Wetterdaten'
# in ein "echtes" Datumsformat
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')

# DO-IT-YOURSELF

In [0]:
# Ersetzen der Index-Spalte mit der Spalte 'DATE' aus 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')

# DO-IT-YOURSELF

In [0]:
# Lesen von Beispielreiehen aus 'Wetterdaten'

# DO-IT-YOURSELF

In [0]:
# Abstrakte Information über 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')

# DO-IT-YOURSELF

In [0]:
# Grundlegende Statistik der 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')

# DO-IT-YOURSELF

In [0]:
# Übernahme der Spalten 'TAVG' (average temperature = durchschnittliche Temperatur)
# und 'PRCP' (precipitation = Niederschlag) in 
# neue Spalten von 'Daten' 'Temperatur' und 'Niederschlag'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')

# DO-IT-YOURSELF (ZWEI ZEILEN)

In [0]:
# Lesen von Beispielreihen aus 'Daten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')

# DO-IT-YOURSELF

## Bereinigung und weitere Exploration der Daten *(Cleansing, Exploration)*

Nachdem wir alle Daten wie gewünscht "zusammengeklebt" haben, können wir nun richtig loslegen und uns die Gemengelage mal gesamthaft und auch grafisch angucken.

Zunächst sichern wir unsere Ausgangsdaten mal, indem wir sie in eine neue Datentabelle "DatenQuelle" kopieren, mit der wir fürderhin weiterarbeiten:

In [0]:
# Kopieren von 'Daten' in eine
# neue Datentabelle 'DatenQuelle'
# um die Daten vor weiterer Veränderung zu schützen
DatenQuelle = Daten.copy()

Da unsere Algorithmen im weiteren mit der Datum-Indexspalte nur auf Umwegen zurecht kommen, erzeugen wir einen neuen Index und ziehen das "Datum" in eine neue Spalte:

In [0]:
# Neue Spalte 'Datum' aus dem 
# Index von DatenQuelle (und
# Erzeugen eines neuen, generischen Indexes)
DatenQuelle.reset_index(drop=False, inplace=True)

Natürlich gucken wir uns wieder das Zwischenergebnis an:

In [0]:
# Lesen von Beispielreihen von 'DatenQuelle'
DatenQuelle.sample(5)

Aus rein optischen Gründen (wir sind ja Nerds) sortieren wir die Spalten etwas um. Zur Sache tut das nichts...

In [0]:
# Reorganisation der Spaltenreihenfolge
DatenQuelle = DatenQuelle[['Datum', 'Tag', 'Fahrten', 'Tageslaenge', 'ist_Werktag', 'Temperatur', 'Niederschlag']]

Jetzt gucken wir mal auf die grundlegende Statistik der Tabelle:

In [0]:
# Grundlegende Statistik von 'DatenQuelle'
DatenQuelle.describe(include='all').T

Wie ein ganzes Stück weiter oben bereits beschrieben, fehlen wohl ein paar Daten in einzelnen Reihen/Spalten. Der "count", der zählt, wieviele Daten in einer Spalte sind, ist bei "Datum" bei 2.432 und bei "Temperatur" "nur" bei 2.252.

Das ist für die meisten Algorithmen des Maschinellen Lernens sehr ungünstig. Da wir aber dennoch ziemlich viele komplette Datensätze zu haben scheinen, können wir es uns leisten, die fehlenden einfach zu löschen:

In [0]:
# Löschen aller Reihen die 
# keine Werte in einer oder mehreren Spalten enthalten
DatenQuelle.dropna(inplace=True)

Jetzt gucken wir uns nochmals die Statistik an:

In [0]:
# Grundlegende Statistik von 'DatenQuelle'
DatenQuelle.describe(include='all').T

Ok, wir haben 2.251 vollständige Datensätze. Damit lässt sich arbeiten!

Um einen besseren Überblick über die Daten zu bekommen, wären grafische Dastellungen nicht schlecht.

Zum Glück geht das - wenn man weiß wie - mit ganz wenig Aufwand! Und schickt ist es auch noch! Und interaktiv, da man mit der Maus über die Grafik fahren kann und sogar die Zahlenwerte der Datenpunkte angezeigt bekommt!

In [0]:
# Erzeugen einer Grafik für die Fahren im zeitlichen Verlauf
alt.Chart(
    data=DatenQuelle, 
    width=600
).mark_point(
    size=2
).encode(
    x='Datum',
    y='Fahrten',
    tooltip=list(DatenQuelle.columns)
)

Wer will da noch Excel nutzen?? 

Wir können  das sogar noch automatisieren, da wir diese Grafik nun zig-mal und mit weiteren Optionen variieren werden. Da das aber dann doch ziemlich technisch ist, klappen wir die Details mal weg...

In [0]:
#@title Weggeklappt: Funktion zur Erzeugung einer Grafik für eine Variable im zeitlichen Verlauf
def Grafik_Verlauf(Abhaengige_Variable='Fahrten', 
                   DatenQuelle=DatenQuelle, 
                   # Variablen für die optionale 
                   # weitere Variation der Grafiken
                   # (wird später benutzt)
                   Glaettungsfenster=None, 
                   Auswahlfilter=None, 
                   bereinigter_Trend=False):
    
    # Falls 'Glaettungsfenster' durch eine positive, ganze Zahl definiert ist,
    # wir ein Liniendiagramm mit über dieser Anzahl von Tagen
    # gemittelten Daten zurückgegeben.
    if Glaettungsfenster:
        
        Grafik_Verlauf = alt.Chart(
            data=DatenQuelle,
            width=600, height=300
        ).mark_line(
            color='orange', size=2
        ).transform_window(
            Gelaettete_Variable='mean('+ Abhaengige_Variable + ')',
            frame=[0, Glaettungsfenster]
        ).encode(
            x=alt.X('Datum:T',
                    axis=alt.Axis(title=None)),
            y=alt.Y('Gelaettete_Variable:Q',
                    axis=alt.Axis(title=None)
                   )
        ).properties(
            title='Zeitlicher Verlauf von ' + Abhaengige_Variable + \
            ' (inkl. ' + str(Glaettungsfenster) + '-Tage-Glaettung)'
        )
      
    # Sonst wird ein Punktdiagramm mit allen Datenpunkten zurückgegeben.
    # Dabei kann ggf. auch noch eine Linie für die Trendgerade gezeichnet
    # werden (wird später genutzt).
    else:
        
        Grafik_Verlauf = alt.Chart(
            data=DatenQuelle,
            width=600, height=300
        ).mark_point(
            size=2
        ).encode(
            x=alt.X('Datum',
                    axis=alt.Axis(title=None)),
            y=alt.Y(Abhaengige_Variable,
                    axis=alt.Axis(title=None)),
            tooltip=list(DatenQuelle.columns)
        ).properties(
            title='Zeitlicher Verlauf von ' + Abhaengige_Variable
        )
        
        # Falls ein Auswahlfilter gegeben ist,
        # kann durch Überstreichen der Daten die Auswahl
        # in verschiedenen Diagrammen hervorgehoben werden.
        if Auswahlfilter:
            
            Grafik_Verlauf = Grafik_Verlauf.encode(
                color=alt.condition(Auswahlfilter,
                                    alt.ColorValue('#1f77b4'), 
                                    alt.ColorValue('lightgrey'))
            ).add_selection(Auswahlfilter)
        
        # Falls eine Trendvariable gegeben ist,
        # wird dem Diagramm eine Trendlinie hinzugefügt
        # (wird später genutzt).
        Trendvariable = 'Trend_' + Abhaengige_Variable + '_iAv_Tag'
        
        if Trendvariable in DatenQuelle.columns:
            
            Grafik_Trend = alt.Chart(
                data=DatenQuelle
            ).mark_line(
                color='red', size=2
            ).encode(
                x=alt.X('Datum'),
                y=alt.Y(Trendvariable)
            )
            
            Grafik_Verlauf = Grafik_Verlauf + Grafik_Trend
        
        if bereinigter_Trend:
          
            bereinigte_Trendvariable = 'Residualer_Trend_' \
            + Abhaengige_Variable + '_iAv_Tag'
            
            if bereinigte_Trendvariable in DatenQuelle.columns:
                            
                Grafik_bereinigter_Trend = alt.Chart(
                    data=DatenQuelle
                    ).mark_line(
                    color='green', size=2
                    ).encode(
                    x=alt.X('Datum'),
                    y=alt.Y(bereinigte_Trendvariable)
                    )
            
                Grafik_Verlauf = Grafik_Verlauf + Grafik_bereinigter_Trend
        
    return Grafik_Verlauf

Jetzt lässt sich das Ganze noch schneller bewerkstelligen;

In [0]:
# Zeigen des zeitlichen Verlaufs von 'Fahrten'
Grafik_Verlauf('Fahrten')

Aber was sehen wir?

Die Daten zeigen eine Saisonalität im Jahresverlauf, sind aber ziemlich gestreut. Vielleicht wird's etwas übersichtlicher, wenn wir die Daten mal jeweils über eine Woche mitteln - auch das lässt unsere Hilfsfunktion zu:

In [0]:
# Zeigen des zeitlichen Verlaufs von 'Fahren' über 7 Tage geglättet
Grafik_Verlauf('Fahrten', Glaettungsfenster=7)

Noch netter wäre es, wenn wir beides übereinander legen könnten...

Und das können wir sehr einfach:

In [0]:
# Zeigen des zeitlichen Verlaufs, sowohl "roh", als auch geglättet
Grafik_Verlauf('Fahrten', Glaettungsfenster=7) + Grafik_Verlauf('Fahrten')

Wir sehen also recht deutlich eine sehr hohe Schwankungsbreite um den geglätteten Wert.

Wenn man über die Grafik fährt und sich interaktiv anguckt, welche Datenpunkte unter bzw. über der "Glättung" liegen, so fällt auf das die darunter sehr oft auf ein Wochenende ("ist_Werktag" = "0") fallen. Interessant... Und gut das wir diese Information in der Tabelle haben und nutzen können.

#### *Do-It-Yourself: Zeigen von Verlaufsgrafiken*

Wer Bock hat, kann hier die Funktion "Grafik_Verlauf" auch mal auf andere Größen der Tabelle anwenden:

In [0]:
# Zeigen des zeitlichen Verlaufs ("roh" und/oder geglättet) für beliebige Spalten aus der "DatenQuelle"

# DO-IT-YOURSELF

Nun sollten wir uns aber auch mal das Verhältnis der Daten untereinander (abseits des "Datums") angucken. Hochtrabend gesprochen: wie sind die Spalten miteinander korreliert.

Pandas hat eine eine einfache Funktion:

In [0]:
# Zeigen der Korrelationen der Datenspalten von "DatenQuelle" untereinander
DatenQuelle.corr()

Wir sehen beispielsweise eine leicht positive Korrelation von Fahrten mit der Tageslänge (nehmen die Fahren tatsächlich zu?).
Und wir sehen eine sehr hohe Korrelation zwischen Tageslaenge und Temperatur. Kann man sich ja denken, dass es im Winter in Seattle dunkler und kälter ist als im Sommer... aber 1:1 ist die Korrelation natürlich auch nicht.

Dennoch: ein Bild sagt den meisten mehr als 1.000 Worte, insbesondere wenn es interaktiv ist:

Das ist schnell gebaut:

In [0]:
# Zeigen einer Streugrafik für Fahren in Abhängigkeit der Tageslänge
alt.Chart(
    data=DatenQuelle,
    width=263
).mark_point(
    size=1
).encode(
    x=alt.X('Tageslaenge',
            scale=alt.Scale(zero=False)),
    y=alt.Y('Fahrten',
            scale=alt.Scale(zero=False)),
    tooltip=list(DatenQuelle.columns)
)

Auch das wollen wir automatisieren, da wir diese Grafik nun auch zig-mal und mit weiteren Optionen genutzt werden wird. Auch das ist ziemlich technisch und auch hier  klappen wir die Details weg...

In [0]:
#@title Weggeklappt: Funktion zur Erzeugung einer Streugrafik 
# für eine abhängige Variable gegenüber einer unabhängigen
def Grafik_Streuung(Unabhaengige_Variable, 
                    Abhaengige_Variable='Fahrten',
                    DatenQuelle=DatenQuelle,
                    # Variablen für die optionale 
                    # weitere Variation der Grafiken
                    # (wird später benutzt)
                    Auswahlfilter=None):
    
    Grafik_Streuung = alt.Chart(
        data=DatenQuelle,
        width=263, height=263
    ).mark_point(
        size=1
    ).encode(
        x=alt.X(Unabhaengige_Variable,
                scale=alt.Scale(zero=False)),
        y=alt.Y(Abhaengige_Variable,
                scale=alt.Scale(zero=False)),
        tooltip=list(DatenQuelle.columns)
    )
    
    # Falls ein Auswahlfilter gegeben ist,
    # kann durch Überstreichen der Daten die Auswahl
    # in verschiedenen Diagrammen hervorgehoben werden.
    
    if Auswahlfilter:
        
        Grafik_Streuung = Grafik_Streuung.encode(
            color=alt.condition(Auswahlfilter,
                                alt.ColorValue('#1f77b4'), alt.ColorValue('lightgrey'))
        ).add_selection(Auswahlfilter)
    
    # Falls eine Trendvariable gegeben ist,
    # wird dem Diagramm eine Trendlinie hinzugefügt
    # (wird später genutzt).
    Trendvariable = 'Trend_' + Abhaengige_Variable + '_iAv_' + Unabhaengige_Variable
    
    if Trendvariable in DatenQuelle.columns:
        
        Grafik_Trend = alt.Chart(
            data=DatenQuelle
        ).mark_line(
            color='red', size=2
        ).encode(
            x=alt.X(Unabhaengige_Variable),
            y=alt.Y(Trendvariable,
                    axis=alt.Axis(title=Abhaengige_Variable + ' (mit Trendlinie)'))
        )
        
        Grafik_Streuung = Grafik_Streuung + Grafik_Trend
    
    return Grafik_Streuung

So nun ganz kurz:

In [0]:
# Zeigen einer Streugrafik von 'Fahrten' in abhängigkeit von 'Tageslänge'
Grafik_Streuung('Tageslaenge', 'Fahrten')

#### *Do-It-Yourself: Zeigen von Streugrafiken*

Auch hier: wer Lust hat, kann hier die Funktion "Grafik_Streuung" auch mal auf andere Größenpaare der Tabelle anwenden:

In [0]:
# Zeigen des der Steuung zweier beliebiger Spalten aus der "DatenQuelle"

# DO-IT-YOURSELF

Zum guten Schluss bauen wir uns mit Hilfe der anderen Hilfsfunktionen eine Funktion zum Zeigen von Übersichtsgrafiken, bei denen wir sogar in jeder Untergrafik einen Bereich von Punkten auswählen können und sehen, wo diese Punkte in den anderen Untergrafiken liegen. Cool, oder? Und hilft ggf. weiter dabei Zusammenhänge zu erkennen.

Der Programmcode dafür ist allerdings wieder etwas technisch und wird wieder "weggeklappt".



In [0]:
#@title Weggeklappt: Funktion zur Erzeugung einer interaktiven Übersichtsgrafik
def Grafik_Uebersicht(Abhaengige_Variable='Fahrten',
                      DatenQuelle=DatenQuelle, 
                      bereinigter_Trend=False):
    
    # Setzen eines Auswahlfilters
    Auswahlfilter = alt.selection(type='interval', resolve='global')
    
    # Erzeugung und Kombination von Verlaufs und Streugrafiken
    # (ggf. auch mit Trendlinien)
    Oben = Grafik_Verlauf(Abhaengige_Variable=Abhaengige_Variable, 
                          DatenQuelle=DatenQuelle, 
                          Glaettungsfenster=7) \
         + Grafik_Verlauf(Abhaengige_Variable=Abhaengige_Variable,
                          DatenQuelle=DatenQuelle,
                          Auswahlfilter=Auswahlfilter, 
                          bereinigter_Trend=bereinigter_Trend)
    
    Links = Grafik_Streuung('Tageslaenge',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,                            
                            Auswahlfilter=Auswahlfilter) \
          & Grafik_Streuung('ist_Werktag',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter)
    
    Rechts = Grafik_Streuung('Temperatur',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter) & \
             Grafik_Streuung('Niederschlag',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter)
    
    Grafik_Uebersicht = Oben & (Links | Rechts)
    
    return Grafik_Uebersicht

In [0]:
# Zeigen einer interaktiven Übersichtgrafik
Grafik_Uebersicht()    

Wir sehen nun ziemlich transparent einige Zusammenhänge:
- Im Jahresverkauf haben die Fahrten eine hohe Saisonalität, mit einer hohen Streuung.
- Mit steigender Tageslänge oder steigender Temperatur, steigt tendenziell die Zahl der Fahrten.
- In der Woche wird tendenziell deutlich mehr gefahren, als am Wochenende
- Mit steigendem Niederschlag wird tendenziell weniger gefahren, wobei es durchaus Tage mit erheblichem Niederschlag gibt, an denen gar nicht so wenig gefahren wird.

Es sieht aus, als ließe sich bereits eine Menge klären, wenn wir diese Tendenzen nur etwas besser beschreiben könnten.

Zum Beispiel, indem wir Geraden durch die Diagramme ziehen?

Geraden? Das kann man doch modellieren! **Hat das nicht mit "Linearer Regression" zu tun?**


Let's go!

## Modellierung der Daten *(Modelling)*

Wir wollen unsere Daten also mit Linearer Regression modellieren. Dazu sollten wir dann aber doch vorab ein bisschen was erläutern:

### Lineare Regression - eine kurze Einführung

Was eine **lineare Regression** ist, ist leicht beschrieben und gut vorstellbar:  
Bei einer linearen Regression legen wir eine Gerade durch eine der Punktwolken, so dass der (quadratische) Abstand zu den Punkten möglichst gering wird. Manchmal hat man das Gefühl, sogar gut sehen zu können, wo diese Gerade etwa liegen müsste.  
Im Ergebnis können wir mit dieser Gerade zu jedem "unabhängigen" Eingangs-Wert (bspw. dem Tag) einen "abhängigen" Ergebnis-Wert (z.B. Anzahl der Fahren) auf der Gerade finden, der einen möglichst geringen Abstand zum echten Ausgangswert des abhängigen Variable hat. Wir können damit mit einer Sicherheit im Rahmen der Abstands-Fehlertoleranz z.B. vorhersagen und wir wissen, ob und wie sich die Anzahl der Fahrten im Laufe der Zeit verändert.

Mathematisch ist das ganze natürlich ein wenig komplex (vor allem falls man keinen Kurs in Linearer Algebra besucht hat oder alles von damals vergessen hat). Es gibt viele Erklärtexte und Videos im Netz dazu.  Wer an dieser Stelle etwas Zeit und insbesondere Lust hat, kann sich ja mal das folgende angucken:  

*Für das weitere nötig ist das allerdings nicht!*


<a href="https://www.youtube.com/watch?v=nk2CQITm_eo" target="_blank"><img src="http://img.youtube.com/vi/nk2CQITm_eo/0.jpg" alt="Video Erklärung Lineare Regression" width="600" height="400" border="0" /></a>

Weniger vorstellbar wird es im Fall einer **multi-linearen Regression**:   

Hier versuchen wir eine Ebene durch eine höherdimensionale Punktwolke zu finden. Beispielsweise könnten wir eine drei-dimensionale Punktwolke mit den "unabhängigen" Eingangs-Variablen Tageslänge und Temperatur und der "abhängigen" Ergebnis-Variable "Fahrten" haben und wollen eine Ebene finden, die möglichst gut reinpasst. Diese erlaubt dann Vorhersagen über die Anzahl der Fahren, wenn wir Temperatur und Tageslänge kennen. Das ganze geht aber auch mit x Dimensionen. Mathematisch ist da kein Unterschied, nur anschaulich vorstellbar ist das dann nicht mehr...  

Zum Glück kann die Programmbibliothek von Scikit-Learn mit sehr wenigen Programmzeilen das Ganze für uns berechnen. Wir machen das mal für Fahrten in Abhängigkeit vom Tag, das wollen wir ja ohnehin untersuchen!

In [0]:
# Kopieren der 'DatenQuelle' in eine 
# neue Datentabelle 'Daten_LR_Modell'
# (um die DatenQuelle nicht zu verändern):
Daten_LR_Modell = DatenQuelle.copy()

# Bestimmen der Variablen
Abhaengige_Variable = DatenQuelle['Fahrten']
Unabhaengige_Variable = DatenQuelle [['Tag']]

# Erzeugen eines noch "leeren" Modells
LR_Modell = LinearRegression().fit(Unabhaengige_Variable, Abhaengige_Variable)

Das war's eigentlich schon! Aber was sagt uns das?  

Wir können damit nun zu jeden Tag den Wert von Fahrten auf der Geraden finden! Und zwar ganz einfach. So zum Beispiel für den Tag mit der Nummer 1_000

In [0]:
# Berechnen der Vorhersagewertes für den Tag 1.000
LR_Modell.predict(np.array([[1_000]]))

Nur weil Scikit-Learn für mehrdimensionale Werte gemacht ist, sieht die eingabe mit diesem "np.array" etwas komisch aus. Aber sonst doch easy, oder?  
Wie verhält sich das nun zum "echten wahren" gemessenen Wert?

In [0]:
# Überprüfen des Modells anhand des tatsächlichen Wertes für Tag 1.000
Daten_LR_Modell[Daten_LR_Modell['Tag'] == 1_000]['Fahrten']

Na nicht ganz so super... Jetzt gucken wir aber mal wie das für alle Tage aussieht und berechnen den "Trend" der Fahren in Abhängigkeit vom Tag erstmal für alle Tage:

In [0]:
# Berechnen des Vorhersagewertes für alle Tage
Daten_LR_Modell['Trend_Fahrten_iAv_Tag'] = LR_Modell.predict(Daten_LR_Modell[['Tag']])

Um das zu veranschaulichen machen wir mal eine Grafik (unsere Funktion 'Grafik_Verlauf' kann das schon ;-)):

In [0]:
# Zeigen der Verlaufsgrafik mit Trendlinie
Grafik_Verlauf(DatenQuelle=Daten_LR_Modell)

Gucken wir uns mal die Statistik dazu an, wofür wir uns zunächst eine Hilffunktion basteln (die nicht verstanden werden muss):

In [0]:
#@title Weggeklappt: Funktion zur Ausgabe der Statistik der Linearen Regression


# Hier nur als Abkürzung um die allgemein formulierte Statistik und 
# weiteren Funktionen erzeugen zu können...
LR_Modell.Residualer_Trend = None
Daten_LR_Modell['Trend'] = Daten_LR_Modell['Trend_Fahrten_iAv_Tag']
Liste_Unabhaengige_Regressionsvariablen = ['Tag']

# Eigentliche Funktion
def Statistik(Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
              Abhaengige_Regressionsvariable='Fahrten', 
              Daten_LR_Modell=Daten_LR_Modell, 
              LR_Modell=LR_Modell):
    
    # Ermittlung der Steigungen aus dem LR_Modell
    Steigung = LR_Modell.coef_
    
    # Errechnung der Fehlergrößen aus den Daten_LR_Modell
    # (da nicht im LR_Modell verfügbar)
    y = Daten_LR_Modell[Abhaengige_Regressionsvariable]
    y_trend = Daten_LR_Modell['Trend']
    X = Daten_LR_Modell[Liste_Unabhaengige_Regressionsvariablen]
    
    var_y = np.sum((y - y_trend) ** 2) / len(y)
    X2 = np.hstack([X, np.ones((X.shape[0], 1))])
    C = var_y * np.linalg.inv(np.dot(X2.T, X2))
    var = C.diagonal()
    
    Fehler = np.sqrt(var[:])
    
    # Ausgabe der Statistikwerte für alle 
    # unabhaengigen Regressionsvariablen
    
    print('Statistik des linearen Regressionsmodells:')
    
    for Zaehler, Unabhaengige_Regressionsvariable \
    in enumerate(Liste_Unabhaengige_Regressionsvariablen):
        
        print('\t{0:.2f} +/- {1:.2f}'.format(Steigung[Zaehler], Fehler[Zaehler]), 
              Abhaengige_Regressionsvariable, 
              'je Einheit', 
              Unabhaengige_Regressionsvariable)
        
    print('')
        
    if LR_Modell.Residualer_Trend:
      
        Abhaengige_Residualvariable = 'Residualer_Trend_' + Abhaengige_Regressionsvariable + '_trendbereinigt_iAv_Tag'
        
        y = Daten_LR_Modell['Trend']
        y_trend = Daten_LR_Modell[Abhaengige_Residualvariable]
        X = Daten_LR_Modell[['Tag']]
        
    
        var_y = np.sum((y - y_trend) ** 2) / len(y)
        X2 = np.hstack([X, np.ones((X.shape[0], 1))])
        C = var_y * np.linalg.inv(np.dot(X2.T, X2))
        var = C.diagonal()
    
        Fehler = np.sqrt(var[:])
        
        print('Nach Bereinigung obiger Variablen:')
        print('\tBereinigt verbleibt eine Veränderung von', 
              Abhaengige_Regressionsvariable, 'i.H.v.', 
              '{0:.2f}'.format(LR_Modell.Residualer_Trend),
             '+/-{0:.2f} je Tag'.format(Fehler[0]))
        print('')
              
    return None
  


In [0]:
# Zeigen der zusammenfassenden Statistik des Modells
Statistik()

Mit den Tagen nehmen die Fahrten also zu, aber die Fehlerspanne ist größer als die Steigung.

Es ist auch kein Wunder, dass die Vorhersage so mies ist: die Daten streuen ja auch wie wahnsinnig...  

**Wir sollten und werden die Einflüsse der anderen Variablen auf die Fahrten untersuchen und eliminieren, um dann mal zu gucken, wie die "trendbereinigte" Abhängigkeit von Fahrten vom Tag aussieht.**

Vorher bauen wir uns aber noch ein paar Hilfsfunktionen, die das ganze Erzeugen von Modellen, Trends und Grafiken automatisieren (diese Hilfsfunktionen sind etwas komplexer um die Automatisierung zu erreichen, müssen nicht verstanden werden und sind daher weggeklappt):

In [0]:
#@title Weggeklappt: Funktion zur Erzeugung eines 'LR_Modells' und einer erweiterten Datentabelle 'Daten_LR_Modell'
def LR_Modell_und_Daten(Liste_Unabhaengige_Regressionsvariablen,
                        Abhaengige_Regressionsvariable='Fahrten',
                        DatenQuelle=DatenQuelle):
    
    # Kopie der DatenQuelle, um diese Daten unverändert zu lassen
    Daten_LR_Modell = DatenQuelle.copy()
    
    
    #### Eigentliche Lineare Regression beginnt hier ####
    
    # Ermittlung der unabhängigen und abhängigen Daten aus der DatenQuelle
    Daten_Unabhaengige_Regressionsvariablen = Daten_LR_Modell[Liste_Unabhaengige_Regressionsvariablen]
    Daten_Abhaengige_Regressionsvariable = Daten_LR_Modell[Abhaengige_Regressionsvariable]
    
    # Ermittlung des LR_Modells
    LR_Modell = LinearRegression(
    ).fit(Daten_Unabhaengige_Regressionsvariablen, 
          Daten_Abhaengige_Regressionsvariable)
    
    # Ermittlung der Trenddaten
    Daten_LR_Modell['Trend'] = LR_Modell.predict(Daten_Unabhaengige_Regressionsvariablen)
    
    #### Eigentliche Lineare Regression beginnt hier ####
    
    
    # Erzeugung weiterer Daten für weitere Analysen und spätere Grafische Darstellung
    Daten_LR_Modell[Abhaengige_Regressionsvariable+'_trendbereinigt']\
    = Daten_LR_Modell[Abhaengige_Regressionsvariable] \
    - Daten_LR_Modell['Trend'] \
    + Daten_LR_Modell['Trend'].mean()
    
    for Unabhaengige_Ceteris_Paribus_Regressionsvariable \
    in Liste_Unabhaengige_Regressionsvariablen:
        
        Ceteris_Paribus_Regressionsdatensatz = pd.DataFrame(index=Daten_LR_Modell.index)
        
        for Unabhaengige_Regressionsvariable in Liste_Unabhaengige_Regressionsvariablen:
            
            if Unabhaengige_Regressionsvariable == Unabhaengige_Ceteris_Paribus_Regressionsvariable:
                
                Ceteris_Paribus_Regressionsdatensatz[Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
                = DatenQuelle[Unabhaengige_Ceteris_Paribus_Regressionsvariable]
                
            else:
                
                Ceteris_Paribus_Regressionsdatensatz[Unabhaengige_Regressionsvariable] \
                = DatenQuelle[Unabhaengige_Regressionsvariable].mean()
                
        Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable \
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
        = LR_Modell.predict(Ceteris_Paribus_Regressionsdatensatz)
        
        Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable + '_trendbereinigt'\
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
        = Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable \
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable].mean()
    
    if not('Tag' in Liste_Unabhaengige_Regressionsvariablen):
    
      Residual_LR_Modell = LinearRegression().fit(
          Daten_LR_Modell[['Tag']],
          Daten_LR_Modell[Abhaengige_Regressionsvariable + '_trendbereinigt']
      )
      
      Daten_LR_Modell['Residualer_Trend_' + Abhaengige_Regressionsvariable + '_trendbereinigt_iAv_Tag'] \
      = Residual_LR_Modell.predict(Daten_LR_Modell[['Tag']])
      
      LR_Modell.Residualer_Trend = Residual_LR_Modell.coef_[0]
      
    else:
      
      LR_Modell.Residualer_Trend = None
      
    return LR_Modell, Daten_LR_Modell

In [0]:
#@title Weggeklappt: Funktion zur automatischen Analyse (Grafiken und Statistikdaten)
def Lineare_Regressionsanalyse(
    Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
    Abhaengige_Regressionsvariable='Fahrten',
    DatenQuelle=DatenQuelle):
  
    # Berechnung von LR_Modell und Daten_LR_Modell  
    LR_Modell, Daten_LR_Modell = LR_Modell_und_Daten(
        Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
        Abhaengige_Regressionsvariable=Abhaengige_Regressionsvariable,
        DatenQuelle=DatenQuelle)
    
    # Erzeugung der Übersichtsgrafiken (normal und trendbereinigt)
    Grafik_Uebersicht_normal = \
    Grafik_Uebersicht(Abhaengige_Variable=Abhaengige_Regressionsvariable, 
                      DatenQuelle=Daten_LR_Modell)
    
    Grafik_Uebersicht_trendbereinigt = \
    Grafik_Uebersicht(Abhaengige_Variable=Abhaengige_Regressionsvariable + '_trendbereinigt', 
                      DatenQuelle=Daten_LR_Modell, bereinigter_Trend=True)
    
    # Ausgabe der Statistik
    Statistik(Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
              Abhaengige_Regressionsvariable=Abhaengige_Regressionsvariable, 
              Daten_LR_Modell=Daten_LR_Modell, LR_Modell=LR_Modell)
    
    return Grafik_Uebersicht_normal & Grafik_Uebersicht_trendbereinigt

### Ein einfaches lineares Modell - Abhängigkeit der Fahrten von der Nummer des Tages

Mit den Hilfsfunktionen können wir vielleicht tiefere Einsichten erzielen, wenn wir erst mal eine Regression zwischen den Fahrten und der Tageslänge bilden.

Den daraus resultierenden Trend können wir dann eliminieren (trendbereinigen) und uns angucken, was für ein "Resttrend" zwischen Fahrten und Tagen übrigbleibt. 

So sieht das Ganze dann aus:

In [0]:
# Zeigen der zusammengefassten Regressionsanalyse auf Basis der Tageslaenge
Lineare_Regressionsanalyse(['Tageslaenge'])

Aha! Die Tageslänge hat also wie erwartet und nun auch quantifiziert einen sehr hohen Einfluss auf die Anzahl der Fahrten! EIne Stunde mehr führt zu fast 300 mehr Radlern auf der Brücke (und das bei eher geringem Fehler...)

Die untere grafische Übersicht zeigt die trendbereinigten Größen und die Zunahme der Fahrten mit dre Anzahl der Tage nach der Trendbereinigung, beträgt etwa 0,1  Personen jeden Tag (oder auf die mehr als 2.000 Tage im Gesamtzeitraum 200 Radler mehr am Tag). Und das bei kleinerem und nun vertretbaren Fehler.

Allerdings ist auch die Streuung der "bereingten Fahrten" im Zeitverlauf nach wie vor groß.

Mal gucken, ob der isoliderte Einfluss der Temperatur ist...

### *Do-It-Yourself: Abhängigkeit der Fahrten von der Temperatur*

Das ist nun Ihr Teil (und das sollte mit Kopieren und Adaptieren von oben einfach sein - spannder ist Ihre Interpretation):

In [0]:
# Zeigen der zusammengefassten Regressionsanalyse auf Basis der Temperatur

# DO-IT-YOURSELF

### Ein multi-lineares Modell - Abhängigkeit der Fahrten von Tageslänge und Temperatur

Unsere Funktion kann auch für mehrere Variablen genutzt werden:

In [0]:
# Zeigen der zusammengefassten Regressionsanalyse auf Basis der Tageslaenge und der Temperatur
Lineare_Regressionsanalyse(['Tageslaenge', 'Temperatur'])

Da Tageslänge und Temperatur, wie bereits erörtert, untereinander recht korreliert sind, ändert sich das Gesamtergebnis nicht fundamental.

Dennoch kann man sehen, dass niedrigere Temperaturen an langen Tagen einen negativeren Einfluss auf die Anzahl der Fahrten haben, als an kurzen. Man sieht das daran, dass die roten Regressionslinien leicht gekippt sind.

Und logisch erscheint das auch: im Sommer friert man eben schneller und verliert leichter die Lust aufs Rad zu steigen (und umgekehr im Winter...)

### *Do-It-Yourself: Abhängigkeit der Fahrten von Niederschlag und 'ist_Werktag'*

Eine etwas seltsamere Kombination ist bestimmt "Niederschlag" und "ist_Werktag".

Probieren Sie es aus! Und versuchen Sie die Ergebnisse zu interpretieren... wenn möglich ;-)

In [0]:
# Zeigen der zusammengefassten Regressionsanalyse auf Basis des Niederschlags und von 'ist_Werktag'

# DO-IT-YOURSELF

### Das vollständige multi-lineare Modell

Im vollständigen Modell untersuchen wir die Auswirkungen von Tageslänge, 'ist_Werktag', Temperatur und Niederschlag auf die Fahren, bereinigen den daraus resultierenden Trend, um nur noch isoliert (im Rahmen unserer Daten) die Auswirkungen der Tage auf die (bereinigten) Fahrten zu untersuchen;

In [0]:
# Zeigen der zusammengefassten Regressionsanalyse auf Basis 
# der Tageslaenge, von 'ist_Werktag', der Temperatur und des Niederschlags
Lineare_Regressionsanalyse(['Tageslaenge', 'ist_Werktag', 'Temperatur', 'Niederschlag'])

Alle Variablen (Tageslaenge, 'ist_Werktag', Temperatur und Niederschlag) haben eine klare Auswirkungen auf die Fahren. Die jeweiligen resultierenden Veränderungen/Steigungen sind deutlich höher als die Fehlerspannen.

Im Rahmen unseres Modell können wir am Ende bestätigen, dass im Gesamtzeitraum die Fahrten zugenommen haben und dies nicht an unterschiedlichen Temperaturen, Tageslängen etc. liegt.

Allerdings ist auch die bereinigte Entwicklung nach wie vor volatil und es könnte Sinn machen, über andere Einflussgrößen nachzudenken (was ist zum Beispiel mit Schneefall und Glätte, was passiert in Ferienzeiten und an Feiertagen, gab es bedeutende Großereignisse, wie sieht das Ganze für verschiedene Zeitabschnitte aus etc. etc.).

Auch könnte es sein, dass ein lineares Modell nicht das Optimale ist. Z.B. sieht die Streuung der Fahrten mit dem Niederschlag immer noch etwas obskur aus.

Bevor man hier einsteigt, sollte man sich allerdings fragen, ob die Aussage an dieser Stelle nicht schon ausreicht. Wenn es "nur" darum geht, zu objektivieren, ob der Fahrradverkehr im Aufwind ist, reicht unsere Analyse vermutlich. Wenn wir tagesgenau den Verkehr über die Brücke prognostizieren wollen, um beispielsweise zielgerichtete Werbeaktionen dort zu machen, eher nicht.

## Zusammenfassung

Wir haben nun den **gesamten Zyklus einer Data Science-Analyse durchlaufen**:

- Wie üblich haben wir einige Zeit auf die Beschaffung und Vorbereitung der Daten verwenden müssen.  
- Dann erst konnten wir die Daten explorieren und erste Hypothesen aufstellen, wobei uns grafische Veranschaulichungen sehr geholfen haben.
- Auf Basis dieser Hypothesen haben wir dann einen Modell-Rahmen (lineare Regression) ausgewählt und unser Modell immer Weiter verfeinert
- **Bis wir zum Schluss Jake van der Plas Aussage von 2014, dass der Fahrradverkehr in Seattle ansteigt bestätigen können!** - auch wenn es bestimmt noch einiges am Modell zu verbessern gäbe.

**Wir hoffen, es hat Spaß gemacht!** Und Sie haben eine kleine Ahnung davon gewonnen, was ein Data Scientist so macht und machen kann.