[![Google Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/QuantificAid/hands-on-data-science-example/blob/master/hands-on-data-science-example.ipynb)

# Data Science zum Mitmachen: Wetter, Radfahrer und mehr...

## Einleitung

Wie wir in der Bastelstrecke von [diy-iot2ds](https://github.com/birds-on-mars/diy-iot2ds) lernen können, ist es gar nicht sooo schwer und aufwendig, Wetterdaten automatisch zu erfassen. Allerdings ist die Analyse der isolierten Daten etwas ... gähn. Um spannendere Dinge zu tun und zu erkennen, muss man schon ein paar verschiedene Daten zusammenbringen - so wird wirkliche Data Science daraus!  

Um zu **veranschaulichen, wie Data Science funktioniert**, haben wir uns von Jake van der Plas, einem Astrophysiker, Data Science-Meister und Python-Guru, inspirieren lassen. Jake hält nicht nur viele Talks zum Thema und hat hervorragende Bücher wie das [Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/) geschrieben, das es übrigens komplett open-source und interaktiv durch- und zu bearbeiten gibt. Er schreibt auch seit längerem einen Blog, in dem er auch immer wieder Methoden anschaulich beschreibt.  

In 2014 hat er dort die Frage gestellt, ob es einen Aufschwung in der Nutzung von Fahrrädern in Seattle gibt. Hier der [Link zum Blog von dunnemals](https://jakevdp.github.io/blog/2014/06/10/is-seattle-really-seeing-an-uptick-in-cycling/).  

**Hier werden öffentlich zugängliche und recht volatile Daten zum (automatisch erfassten) Fahrrad-Verkehr über die Fremont-Brücke in Seatlle mit Wetter- und auch berechneten Daten in Verbindung gebracht, um zu verifizieren, ob es tatsächlich eine Veränderung der Fahrrad-Fahrten im Laufe der Zeit gibt bzw. welchen Einfluss andere Umgebungsdaten haben.** 

Die Antwort von Jake van der Plas in seinem Blog damals war: ja, es gibt einen Zuwachs an Fahrradverkehr.
Jetzt sind wir ein paar Jahre weiter und wir fragen uns daher: ist das immer noch der Fall?  

**Und auch das ist machbar!**  

Google bietet eine kostenlose Umgebung dafür an. Falls noch nicht geschehen, jetzt **bitte einfach oben den Button "open in colab" anklicken** (und nach Studie der Bedingungen von Google diese ggf. akzeptieren, damit die Kiste läuft) - dann wird's interaktiv! 
- **Einen kleinen Teil des Ganzen muss/darf der geneigte Leser dabei selber machen!** 
- Andere Teile/Hilfsfunktionen haben wir "weggeklappt", um das Gesamtverständnis nicht zu behindern.
- Damit alles läuft muss immer, wenn ein kleiner "Play-Button" an der Zelle ist, dieser angeklickt werden, sonst läuft der Programmcode nicht.

## Verwendete Datenquellen

Auf den Fahrradwegen der Fremont-Brücke in Seattle werden mit magnetischen Induktionsschleifen automatisch Fahrräder gezählt. Da [Open-Data](https://de.wikipedia.org/wiki/Open_Data) in den USA auch bei öffentlichen Institutionen recht verbreitet ist, sind diese Daten frei zugänglich. Sie werden [auf dem Open-Data-Portal der Stadt Seattle bereitgestellt](https://data.seattle.gov/Transportation/Fremont-Bridge-Hourly-Bicycle-Counts-by-Month-Octo/65db-xm6k). Die hier im Repository hinterlegten Daten sind vom 04. Juni 2019 und reichen zurück bis 2012.  

So sieht übrigens die Fremont-Brücke in Seattle aus:

![Fremont-Brücke in Seatlle](https://upload.wikimedia.org/wikipedia/commons/thumb/5/50/Seattle_%E2%80%94_Fremont_Bridge_%E2%80%94_%282016-06-12%29%2C_01.jpg/320px-Seattle_%E2%80%94_Fremont_Bridge_%E2%80%94_%282016-06-12%29%2C_01.jpg)  

Auch Wetterdaten aus den USA sind frei zugänglich über das [National Center of Environmental Information](https://www.ncdc.noaa.gov/cdo-web/search?datasetid=GHCND), wo u.a. die Wetterstation des SeaTac Airport in Seattle ausgewählt werden kann (ID der Wetterstation "USW00024233"). Hier haben wir uns die letzten verfügbaren Daten vom 25. Juni 2019 (auch zurück bis 2012) besorgt, aber nicht alle möglichen Datenfelder heruntergeladen, sondern und auf Durchschnittstemperatur und Niederschlag beschränkt.

Die [Daten liegen bereits in diesem Repository](https://github.com/QuantificAid/hands-on-data-science-example/blob/master/Daten/):

In [0]:
Pfad_zu_Daten = 'https://raw.githubusercontent.com/QuantificAid/hands-on-data-science-example/master/Daten/'

## Vorgehen

Auch hier werden wir die üblichen Schritte einer Data Science-Analyse durchlaufen:
- **Laden und erstes Explorieren der Daten** (*Gathering*) verbunden mit einer ersten ganz kurzen ersten Exploration, wie die Daten in der Rohversion aussehen.
- **Strukturieren der Daten** (*Preprocessing*) um die Daten in eine gesamthaft weiterverarbeitbare Form zu bringen.
- **Bereinigung und weitere Exploration der Daten** *(Cleansing, Exploration)*, um die Daten in die finale Form für die Modellbildung zu bringen. Glücklicherweise sind die Daten recht "sauber", was den ansonsten oft sehr mühseligen Teil der Bereinigung sehr kurz macht. Wir werden die Daten aber recht ausgiebig visualisieren.
- Last, but not least **Modellierung der Daten** *(Modelling)*. Hier benutzen wir werden wir eine "einfache" multi-lineare Regression anwenden, um zu prüfen, welcher Einflussfaktor wie (linear) wirkt und welcher Trend sich am Ende für den zeitlichen Verlauf der Fahrrad-Nutzung ergibt. Wie lineare Regression funktioniert wird im entsprechenden Teil erläutert.

## Verwendete Programmbibliotheken

Die Analyse der Daten nehmen wir in der Programmiersprache Python vor, die für sehr vieles geeignet ist, aber auch sehr beliebt für Data Science, Machine Learning und AI ist.

Sie ist nicht nur deshalb in diesen Gebieten so beliebt, weil sie relativ leicht zu lernen und sehr vielseitig ist, sondern auch und insbesondere, weil es viele schlaue Geister in Python sehr coole Programm-Bibliotheken geschrieben haben, die open source bereitstehen, deren enthaltene Objekte, Methoden und Funktionen sofort verwendet werden können und die einem viel Arbeit abnehmen.

Wir laden uns die folgenden Bibliotheken:
- [pandas](https://pandas.pydata.org/) zur effizienten Bearbeitung von Datentabellen
- [NumPy](https://www.numpy.org/) zur schnellen numerischen Bearbeitung von Tabellendaten und Matrizen (wird im Hintergrund auch von pandas verwendet)
- [altair](https://altair-viz.github.io/) zur grafischen und interaktiven Darstellung von Daten und
- [scikit-learn oder auch sklearn](https://scikit-learn.org/stable/), einer elegant programmierten Bibliothek mit vielen Funktionen zum maschinellen Lernen (u.a. der linearen Regression).

In [0]:
#Importieren von Programm-Bibliotheken

# Programm-Bibliothek zur effizienten Bearbeitung von Datentabellen
import pandas as pd

# Programm-Bibliothek zur schnellen numerischen 
# Bearbeitung von Tabellendaten und Matrizen.
import numpy as np

# Programm-Bibliothek zu grafischen und interaktiven 
# Darstellung von Daten
import altair as alt

# Programm-Bibliothek u.a. Lineare Regression
from sklearn.linear_model import LinearRegression

## Laden und erstes Explorieren der Daten *(Gathering, First Exploration)*

Um Daten mit Python (oder einer anderen geeigneten Programmiersprache oder Software) zu analysieren, muss man sie natürlich erst laden. Oft und auch hier haben wir mehrere Datenquellen und Bestandteile, so dass es Sinn macht, sich dabei auch einen allerersten Überblick zu verschaffen, um schon mal zu überlegen, wie man die Daten später zusammenbringen kann.

### Laden und erstes Explorieren der Verkehrsdaten

Die Verkehrsdaten liegen in Form eine "Comma seperated value"-Datei (csv-Datei) vor, in der Tabellendaten sehr einfach gespeichert werden können.
Diese können wir sehr einfach in ein Tabellenobjekt von pandas (einen sogenannten DataFrame) laden und uns mit einfachen Funktionen einen ersten Eindruck verschaffen.. 

In [0]:
# Laden der 'Verkehrsdaten' 
# aus Datei'Fremont_Bridge_Hourly_Bicycle_Counts_by_Month_October_2012_to_present.csv' 
# im Ordner 'Daten'
Verkehrsdaten = pd.read_csv(
    Pfad_zu_Daten + 'Fremont_Bridge_Hourly_Bicycle_Counts_by_Month_October_2012_to_present.csv')

In [4]:
# Lesen der obersten Reihe der 'Verkehrsdaten'
Verkehrsdaten.head()

Unnamed: 0,Date,Fremont Bridge East Sidewalk,Fremont Bridge West Sidewalk
0,05/31/2019 11:00:00 PM,22.0,35.0
1,05/31/2019 10:00:00 PM,29.0,52.0
2,05/31/2019 09:00:00 PM,46.0,57.0
3,05/31/2019 08:00:00 PM,48.0,92.0
4,05/31/2019 07:00:00 PM,97.0,151.0


In [5]:
# Lesen der untersten Reihen der 'Verkehrsdaten'
Verkehrsdaten.tail()

Unnamed: 0,Date,Fremont Bridge East Sidewalk,Fremont Bridge West Sidewalk
58363,10/03/2012 04:00:00 AM,6.0,1.0
58364,10/03/2012 03:00:00 AM,2.0,3.0
58365,10/03/2012 02:00:00 AM,1.0,1.0
58366,10/03/2012 01:00:00 AM,4.0,6.0
58367,10/03/2012 12:00:00 AM,4.0,9.0


In [6]:
# Abstrakte Information über die 'Verkehrsdaten'
Verkehrsdaten.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58368 entries, 0 to 58367
Data columns (total 3 columns):
Date                            58368 non-null object
Fremont Bridge East Sidewalk    58359 non-null float64
Fremont Bridge West Sidewalk    58359 non-null float64
dtypes: float64(2), object(1)
memory usage: 1.3+ MB


In [7]:
# Grundlegende Statistik der 'Verkehrsdaten'
Verkehrsdaten.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Date,58368,58368.0,08/05/2015 07:00:00 AM,1.0,,,,,,,
Fremont Bridge East Sidewalk,58359,,,,52.1382,67.5161,0.0,6.0,28.0,70.0,698.0
Fremont Bridge West Sidewalk,58359,,,,58.9453,85.8879,0.0,7.0,29.0,71.0,745.0


Wie wir sehen, wird der Verkehr in der Datei stündlich und auf beiden Seiten der Brücke/in beiden Fahrrichtungen seit dem 10.03.2012 bis zum 31.05.2019 erfasst. Die Fahrten liegen im float64-Format vor (Fließkommazahlen), während die Datums-Zeilen ('Date') noch nicht als solche erkannt wurden und nur als allgemeines 'object' vorliegen. Insgesamt haben wir zu fast 60.000 Zeitpunkten jeweils zwei Fahrt-Informationen. Das ist mehr Information, als wir brauchen. Uns reichen die Fahrten insgesamt und auch eine Aggregation auf einzelne Tage wird uns genügen.

Wir werden später also:
- Das Datums-Format "reparieren", damit wir damit weiterrechnen können.
- Die Fahrten auf Tage aggregieren.
- Die Fahrten in beide Richtungen zusammenrechnen.


### *Do-It-Yourself: Laden und erstes Explorieren der Wetterdaten*

Nachdem wir im vorherigen Abschnitt gezeigt haben, wie die ganzen Schritte des Ladens und für eine erste Orientierung mit den Verkehrsdaten funktionieren, ist es nun am geneigten Leser dasselbe mit den Wetterdaten in der Datei '1790755.csv' vorzunehmen.

Im Zweifel einfach den Code von oben kopieren und leicht anpassen sollte genügen...

In [0]:
# Lesen der 'Wetterdaten' 
# aus Datei '1790755.csv' 
# im Ordner 'Daten' 
Wetterdaten = pd.read_csv(Pfad_zu_Daten + '1790755.csv')

In [9]:
# Lesen der obersten Reihe der 'Wetterdaten'
Wetterdaten.head()

Unnamed: 0,STATION,DATE,PRCP,TAVG
0,USW00024233,2012-03-10,10.4,
1,USW00024233,2012-03-11,13.7,
2,USW00024233,2012-03-12,19.3,
3,USW00024233,2012-03-13,9.4,
4,USW00024233,2012-03-14,8.6,


In [10]:
# Lesen der untersten Reihe der 'Wetterdaten'
Wetterdaten.tail()

Unnamed: 0,STATION,DATE,PRCP,TAVG
2653,USW00024233,2019-06-15,0.0,16.0
2654,USW00024233,2019-06-16,0.0,16.9
2655,USW00024233,2019-06-17,0.0,17.4
2656,USW00024233,2019-06-18,5.3,17.2
2657,USW00024233,2019-06-19,2.0,16.3


In [11]:
# Abstrakte Information über die 'Wetterdaten'
Wetterdaten.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2658 entries, 0 to 2657
Data columns (total 4 columns):
STATION    2658 non-null object
DATE       2658 non-null object
PRCP       2657 non-null float64
TAVG       2271 non-null float64
dtypes: float64(2), object(2)
memory usage: 83.1+ KB


In [12]:
# Grundlegende Statistik der 'Wetterdaten'
Wetterdaten.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
STATION,2658,1.0,USW00024233,2658.0,,,,,,,
DATE,2658,2658.0,2014-07-30,1.0,,,,,,,
PRCP,2657,,,,2.93075,6.5111,0.0,0.0,0.0,2.8,55.9
TAVG,2271,,,,12.3222,5.91887,-4.4,8.0,12.1,16.9,27.6


Wie wir sehen (wenn alles geklappt hat), liegen hier zu fast jedem Tag seit dem 10.03.2012 bis zum 19.06.2019 Daten zu Niederschlagsmenge (PRCT) und Durchschnitts-Temperatur (TAVG) vor. Das Datumsformat 'DATE' wurde auch nicht nicht ganz korrekt erkannt. Niederschlag und Temperatur liegen im Fließkomma--Format vor.

Wir werden also später:
- Das Datums-Format reparieren.

Wenn wir die Daten mit den Verkehrsdaten zusammenfügen, wird es aber aus der einen oder anderen Tabelle auch fehlende Daten geben. Damit müssen wir irgendwie umgehen, da eine Lineare Regression, wie wir sie vorhaben, fehlenden Daten nicht verarbeiten kann.
Weil wir insgesamt so viele Daten haben können wir Reihen mit fehlenden Daten aber einfach löschen. Die Regression wird's nicht wirklich beeinflussen...

## Strukturieren der Daten *(Preprocessing)*

Nun wollen wir unsere Datenquellen mit "reparierten" und bereinigten Daten (s. Erkenntnisse des vorherigen Abschnitts) in eine neuen Tabelle 'Daten' zusammenbringen. Weiterhin nehmen wir an (und werden es später auch sehen), dass weitere Größen eine Rolle spielen:
- Die Tageslänge von Sonnenauf- bis -untergang könnte die Anzahl der Tage beeinflussen.
- Der Umstand, ob ein Tag ein Werktag  ist oder auf ein Wochenende fällt, könnte beeinflussen wieviele Leute Radfahren ("Berufsverkehr" vs. "Freizeitverkehr"). Diese Daten sind nicht in den Tabellen enthalten, wir können sie uns aber aus dem Datum, dass wir ja haben errechnen. 

In [0]:
# Anlegen einer neuen Datenstruktur 'Daten'
Daten = pd.DataFrame()

### Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten

Zunächst formatieren wir die Spalte 'Date' von 'Verkehrsdaten' in ein Format um, dass von als Zeiten interpretiert werden kann:

In [0]:
# Konvertieren der Spalte 'Date' in 'Verkehrsdaten'
# in ein "echtes" Datumsformat
Verkehrsdaten['Date'] = pd.to_datetime(Verkehrsdaten['Date'])

Dann setzen wir den Index der Tabelle 'Verkehrsdaten' auf 'date'. Das ermöglicht das einfache  Aggregieren von Stunden auf Tage und erleichtert das Zusammenfügen mit anderen Tabellen:

In [0]:
# Ersetzen der Index-Spalte mit der Spalte 'Date' aus 'Verkehrsdaten'
Verkehrsdaten = Verkehrsdaten.set_index('Date')

Um Vergleichbarkeit zu den Wetterdaten zu erreichen, aggregieren ("resamplen") wir nun auf summierte Tage (days/"d"):

In [0]:
# Aggregieren und Ersetzen der stündlichen 'Verkehrsdaten' 
# durch tägliche 'Verkehrsdaten'
Verkehrsdaten = Verkehrsdaten.resample('d').sum()

Um zu sehen, ob unsere Aggregation erfolgreich war, guccken wir uns die Daten nochmals an:

In [17]:
# Lesen von Beispielreihen der 'Verkehrsdaten'
Verkehrsdaten.sample(5)

Unnamed: 0_level_0,Fremont Bridge East Sidewalk,Fremont Bridge West Sidewalk
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-04-20,2342.0,2214.0
2015-05-30,1238.0,1070.0
2013-10-23,1462.0,1622.0
2018-12-30,354.0,394.0
2018-03-15,1430.0,2070.0


In [18]:
# Abstrakte Information über 'Verkehrsdaten'
Verkehrsdaten.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2432 entries, 2012-10-03 to 2019-05-31
Freq: D
Data columns (total 2 columns):
Fremont Bridge East Sidewalk    2432 non-null float64
Fremont Bridge West Sidewalk    2432 non-null float64
dtypes: float64(2)
memory usage: 57.0 KB


In [19]:
# Grundlegende Statistik der 'Verkehrsdaten'
Verkehrsdaten.describe(include='all').T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Fremont Bridge East Sidewalk,2432.0,1251.123355,604.790258,19.0,817.0,1191.0,1695.0,3143.0
Fremont Bridge West Sidewalk,2432.0,1414.469161,758.560427,12.0,869.0,1294.0,1993.25,3752.0


Es scheint alles funktioniert zu haben! Daher summieren wir nun die Tagen in beide Verkehrsrichtungen und fügen die Summe einer neuen Spalte "Fahrten" von "Daten" hinzu:

In [0]:
# Übertragen der Summe der Spalten aus den 'Verkehrsdaten'
# in eine (neue) Spalte 'Fahrten' der 'Daten'
Daten['Fahrten'] = Verkehrsdaten['Fremont Bridge East Sidewalk'] + Verkehrsdaten['Fremont Bridge West Sidewalk']

In [0]:
# Benennung des Index der 'Daten' mit 'Datum'
Daten.index = pd.DatetimeIndex(data=Verkehrsdaten.index, name='Datum')

In [22]:
# Lesen von Beispielreihen aus den 'Daten'
Daten.sample(5)

Unnamed: 0_level_0,Fahrten
Datum,Unnamed: 1_level_1
2017-12-01,2221.0
2013-02-08,2161.0
2014-07-30,5059.0
2014-11-17,2698.0
2018-03-16,3211.0


### Ermitteln und Hinzufügen berechneter Daten (Tageslänge und Wochentag)

In [0]:
# Anlegen einer neuen Datenstruktur 'Berechnete_Daten'
# mit Übernahme der Index-Struktur von 'Daten'
Berechnete_Daten = pd.DataFrame(index=Daten.index)

In [0]:
# Neue Spalte 'Tag' in 'Berechnete_Daten'
# aus den Zahlenwerten des 'index' (der das Datum enthalt)
Berechnete_Daten['Tag'] = pd.to_numeric(Berechnete_Daten.index)

In [25]:
# Lesen von Beispielsreihen aus 'Berechnete Daten'
Berechnete_Daten['Tag'].sample(5)

Datum
2013-06-10    1370822400000000000
2017-08-29    1503964800000000000
2016-05-14    1463184000000000000
2015-05-23    1432339200000000000
2014-11-29    1417219200000000000
Name: Tag, dtype: int64

In [0]:
# Umwandeln der Spalte 'Tag' in ganzzahlige Werte
# die einzelnen Tagen entsprechen
Tageslaenge_in_Nanosekunden = 24*60*60*1_000_000_000
Berechnete_Daten['Tag'] = (Berechnete_Daten['Tag'] - Berechnete_Daten['Tag'].min()) \
                        / Tageslaenge_in_Nanosekunden

In [27]:
# Lesen der ersten Reihen von 'Berechnete Daten'
Berechnete_Daten.head(5)

Unnamed: 0_level_0,Tag
Datum,Unnamed: 1_level_1
2012-10-03,0.0
2012-10-04,1.0
2012-10-05,2.0
2012-10-06,3.0
2012-10-07,4.0


In [0]:
#@title Weggeklappt: Formel zur Bereichnung der Tageslänge anhand des Datums
# Formel zur Berechnung der Tageslänge in Abhängigkeit des
# Datums und des Laengengrades 
# (voreingestellt ist der Längengrad von Seattle)

def Berechne_Tageslaenge(Datum, Laengengrad=47.61):
    
    # Neigung der Erdachse in Grad
    Neigung_erdachse = 23.44
    
    # Wintersonnenwende
    Wintersonnenwende = pd.datetime(2000, 12, 21)
    
    # Tage seit Wintersonnenwende (WSW)
    Zeit_seit_WSW = Datum - Wintersonnenwende
    Tage_seit_WSW = Zeit_seit_WSW.total_seconds() / (24. * 60. * 60.)
    Tage_seit_WSW = Tage_seit_WSW % 365.25
    
    m = 1. - \
        np.tan(np.radians(Laengengrad)) * \
        np.tan(
            np.radians(Neigung_erdachse) * 
            np.cos(Tage_seit_WSW * np.pi / 182.625) 
    )
    
    m = max(0, min(m, 2))
    
    Tageslaenge = 24. * np.degrees(np.arccos(1 - m)) / 180.
    
    return Tageslaenge

In [0]:
# Aufbau einer Liste von Tageslaengen und 
# Übernahme in eine neue Spalte 'Tageslaenge'
# in 'Berechnete_Daten'
Tageslaengen = list(map(Berechne_Tageslaenge, Berechnete_Daten.index))
Berechnete_Daten['Tageslaenge'] = Tageslaengen

In [30]:
# Lesen von Beispielreihen aus 'Berechnete Daten'
Berechnete_Daten.sample(5)

Unnamed: 0_level_0,Tag,Tageslaenge
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-06-23,628.0,15.78024
2014-02-24,509.0,10.462391
2016-07-31,1397.0,14.815264
2014-04-24,568.0,13.860146
2018-02-03,1949.0,9.372343


In [0]:
# Berechnung, ob ein Tag ein Werktag 
# ist (1) oder nicht (0) und
# Übernahme in eine neue Spalte 'ist_Werktag' von 'Berechnete_Daten'
Berechnete_Daten['ist_Werktag'] = 1 - Berechnete_Daten.index.dayofweek // 5

In [32]:
# Lesen von Beispielreihen aus 'Berechnete Daten'
Berechnete_Daten.sample(5)

Unnamed: 0_level_0,Tag,Tageslaenge,ist_Werktag
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2014-11-16,774.0,9.009178,0
2014-08-27,693.0,13.460724,1
2016-07-16,1382.0,15.384078,0
2017-06-04,1705.0,15.573444,0
2017-09-15,1808.0,12.349429,1


In [0]:
# Übernahme von 'Tageslaenge' und 'ist_Werktag'
# aus 'Berechnete_Daten' in die 'Daten'
Daten[['Tag', 'Tageslaenge', 'ist_Werktag']] = Berechnete_Daten[['Tag', 'Tageslaenge', 'ist_Werktag']]

In [34]:
# Lesen von Beispielreihen aus 'Daten'
Daten.sample(5)

Unnamed: 0_level_0,Fahrten,Tag,Tageslaenge,ist_Werktag
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-04-02,2828.0,911.0,12.598593,1
2019-04-02,4461.0,2372.0,12.598593,1
2018-05-04,4088.0,2039.0,14.38006,1
2014-12-30,1500.0,818.0,8.268041,1
2016-01-13,1806.0,1197.0,8.545545,1


### *Do-It-Yourself: Formatieren und Hinzufügen ausgewählter Wetterdaten*

In [0]:
# Konvertieren der Spalte 'DATE' in 'Wetterdaten'
# in ein "echtes" Datumsformat
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Wetterdaten['DATE'] = pd.to_datetime(Wetterdaten['DATE'])

In [0]:
# Ersetzen der Index-Spalte mit der Spalte 'DATE' aus 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Wetterdaten = Wetterdaten.set_index('DATE')

In [37]:
# Lesen von Beispielreiehen aus 'Wetterdaten'
Wetterdaten.sample(5)

Unnamed: 0_level_0,STATION,PRCP,TAVG
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-12-07,USW00024233,0.0,5.6
2019-01-11,USW00024233,0.0,10.3
2015-03-13,USW00024233,2.0,12.9
2013-08-21,USW00024233,0.0,20.6
2013-04-22,USW00024233,0.0,9.3


In [38]:
# Abstrakte Information über 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Wetterdaten.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2658 entries, 2012-03-10 to 2019-06-19
Data columns (total 3 columns):
STATION    2658 non-null object
PRCP       2657 non-null float64
TAVG       2271 non-null float64
dtypes: float64(2), object(1)
memory usage: 83.1+ KB


In [39]:
# Grundlegende Statistik der 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Wetterdaten.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
STATION,2658,1.0,USW00024233,2658.0,,,,,,,
PRCP,2657,,,,2.93075,6.5111,0.0,0.0,0.0,2.8,55.9
TAVG,2271,,,,12.3222,5.91887,-4.4,8.0,12.1,16.9,27.6


In [0]:
# Übernahme der Spalten 'TAVG' (average temperature = durchschnittliche Temperatur)
# und 'PRCP' (precipitation = Niederschlag) in 
# neue Spalten von 'Daten' 'Temperatur' und 'Niederschlag'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Daten['Temperatur'] = Wetterdaten['TAVG']
Daten['Niederschlag'] = Wetterdaten['PRCP']

In [41]:
# Lesen von Beispielreihen aus 'Daten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Daten.sample(5)

Unnamed: 0_level_0,Fahrten,Tag,Tageslaenge,ist_Werktag,Temperatur,Niederschlag
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2016-11-25,967.0,1514.0,8.659391,1,8.3,0.3
2013-02-21,1891.0,141.0,10.31013,1,,0.5
2013-05-20,4649.0,229.0,15.105213,1,13.2,0.0
2016-01-03,444.0,1187.0,8.320386,0,2.8,0.5
2013-07-24,4694.0,294.0,15.11483,1,22.5,0.0


## Bereinigung und weitere Exploration der Daten *(Cleansing, Exploration)*

In [0]:
# Kopieren von 'Daten' in eine
# neue Datentabelle 'DatenQuelle'
# um die Daten vor weiterer Veränderung zu schützen
DatenQuelle = Daten.copy()

In [0]:
# Neue Spalte 'Datum' aus dem 
# Index von DatenQuelle (und
# Erzeugen eines neuen, generischen Indexes)
DatenQuelle.reset_index(drop=False, inplace=True)

In [44]:
# Lesen von Beispielreihen von 'DatenQuelle'
DatenQuelle.sample(5)

Unnamed: 0,Datum,Fahrten,Tag,Tageslaenge,ist_Werktag,Temperatur,Niederschlag
1352,2016-06-16,4319.0,1352.0,15.76139,1,14.3,0.0
2411,2019-05-11,2905.0,2411.0,14.702903,0,22.1,0.0
1272,2016-03-28,3111.0,1272.0,12.349429,1,6.7,0.0
2170,2018-09-12,3856.0,2170.0,12.54008,1,15.1,0.3
171,2013-03-23,1752.0,171.0,12.040493,0,,0.0


In [0]:
# Reorganisation der Spaltenreihenfolge
DatenQuelle = DatenQuelle[['Datum', 'Tag', 'Fahrten', 'Tageslaenge', 'ist_Werktag', 'Temperatur', 'Niederschlag']]

In [46]:
# Grundlegende Statistik von 'DatenQuelle'
DatenQuelle.describe(include='all').T

Unnamed: 0,count,unique,top,freq,first,last,mean,std,min,25%,50%,75%,max
Datum,2432,2432.0,2016-11-14 00:00:00,1.0,2012-10-03 00:00:00,2019-05-31 00:00:00,,,,,,,
Tag,2432,,,,,,1215.5,702.202,0.0,607.75,1215.5,1823.25,2431.0
Fahrten,2432,,,,,,2665.59,1320.02,38.0,1750.0,2499.5,3697.25,6183.0
Tageslaenge,2432,,,,,,11.8816,2.59869,8.21889,9.36066,11.7755,14.4049,15.7811
ist_Werktag,2432,,,,,,0.714638,0.451679,0.0,0.0,1.0,1.0,1.0
Temperatur,2252,,,,,,12.2819,5.92085,-4.4,7.975,11.9,16.9,27.6
Niederschlag,2431,,,,,,3.03756,6.66938,0.0,0.0,0.0,3.0,55.9


In [0]:
# Löschen aller Reihen die 
# keine Werte in einer oder mehreren Spalten enthalten
DatenQuelle.dropna(inplace=True)

In [48]:
# Grundlegende Statistik von 'DatenQuelle'
DatenQuelle.describe(include='all').T

Unnamed: 0,count,unique,top,freq,first,last,mean,std,min,25%,50%,75%,max
Datum,2251,2251.0,2016-11-14 00:00:00,1.0,2013-04-01 00:00:00,2019-05-31 00:00:00,,,,,,,
Tag,2251,,,,,,1305.01,649.964,180.0,742.5,1305.0,1867.5,2431.0
Fahrten,2251,,,,,,2738.65,1326.85,38.0,1806.0,2598.0,3811.5,6183.0
Tageslaenge,2251,,,,,,12.0567,2.59881,8.21889,9.52156,12.1435,14.5627,15.7811
ist_Werktag,2251,,,,,,0.714793,0.451613,0.0,0.0,1.0,1.0,1.0
Temperatur,2251,,,,,,12.2811,5.92203,-4.4,7.95,11.9,16.9,27.6
Niederschlag,2251,,,,,,2.93816,6.57252,0.0,0.0,0.0,2.5,55.9


In [0]:
#@title Weggeklappt: Funktion zur Erzeugung einer Grafik für eine Variable im zeitlichen Verlauf
def Grafik_Verlauf(Abhaengige_Variable='Fahrten', 
                   DatenQuelle=DatenQuelle, 
                   # Variablen für die optionale 
                   # weitere Variation der Grafiken
                   # (wird später benutzt)
                   Glaettungsfenster=None, 
                   Auswahlfilter=None):
    
    # Falls 'Glaettungsfenster' durch eine positive, ganze Zahl definiert ist,
    # wir ein Liniendiagramm mit über dieser Anzahl von Tagen
    # gemittelten Daten zurückgegeben.
    if Glaettungsfenster:
        
        Grafik_Verlauf = alt.Chart(
            data=DatenQuelle,
            width=600, height=300
        ).mark_line(
            color='orange', size=2
        ).transform_window(
            Gelaettete_Variable='mean('+ Abhaengige_Variable + ')',
            frame=[0, Glaettungsfenster]
        ).encode(
            x=alt.X('Datum:T',
                    axis=alt.Axis(title=None)),
            y=alt.Y('Gelaettete_Variable:Q',
                    axis=alt.Axis(title=None)
                   )
        ).properties(
            title='Zeitlicher Verlauf von ' + Abhaengige_Variable + \
            ' (inkl. ' + str(Glaettungsfenster) + '-Tage-Glaettung)'
        )
      
    # Sonst wird ein Punktdiagramm mit allen Datenpunkten zurückgegeben.
    # Dabei kann ggf. auch noch eine Linie für die Trendgerade gezeichnet
    # werden (wird später genutzt).
    else:
        
        Grafik_Verlauf = alt.Chart(
            data=DatenQuelle,
            width=600, height=300
        ).mark_point(
            size=2
        ).encode(
            x=alt.X('Datum',
                    axis=alt.Axis(title=None)),
            y=alt.Y(Abhaengige_Variable,
                    axis=alt.Axis(title=None)),
            tooltip=list(DatenQuelle.columns)
        ).properties(
            title='Zeitlicher Verlauf von ' + Abhaengige_Variable
        )
        
        # Falls ein Auswahlfilter gegeben ist,
        # kann durch Überstreichen der Daten die Auswahl
        # in verschiedenen Diagrammen hervorgehoben werden.
        if Auswahlfilter:
            
            Grafik_Verlauf = Grafik_Verlauf.encode(
                color=alt.condition(Auswahlfilter,
                                    alt.ColorValue('#1f77b4'), 
                                    alt.ColorValue('lightgrey'))
            ).add_selection(Auswahlfilter)
        
        # Falls eine Trendvariable gegeben ist,
        # wird dem Diagramm eine Trendlinie hinzugefügt
        # (wird später genutzt).
        Trendvariable = 'Trend_' + Abhaengige_Variable + '_iAv_Tag'
        
        if Trendvariable in DatenQuelle.columns:
            
            Grafik_Trend = alt.Chart(
                data=DatenQuelle
            ).mark_line(
                color='red', size=2
            ).encode(
                x=alt.X('Datum'),
                y=alt.X(Trendvariable)
            )
            
            Grafik_Verlauf = Grafik_Verlauf + Grafik_Trend
        
    return Grafik_Verlauf

In [50]:
# Zeigen des zeitlichen Verlaufs von 'Fahrten'
Grafik_Verlauf('Fahrten')

In [51]:
# Zeigen des zeitlichen Verlaufs von 'Fahren' über 7 Tage geglättet
Grafik_Verlauf('Fahrten', Glaettungsfenster=7)

In [52]:
# Zeigen des zeitlichen Verlaufs, sowohl "roh", als auch geglättet
Grafik_Verlauf(Glaettungsfenster=7) + Grafik_Verlauf()

In [0]:
#@title Weggeklappt: Funktion zur Erzeugung einer Streugrafik 
# für eine abhängige Variable gegenüber einer unabhängigen
def Grafik_Streuung(Unabhaengige_Variable, 
                    Abhaengige_Variable='Fahrten',
                    DatenQuelle=DatenQuelle,
                    # Variablen für die optionale 
                    # weitere Variation der Grafiken
                    # (wird später benutzt)
                    Auswahlfilter=None):
    
    Grafik_Streuung = alt.Chart(
        data=DatenQuelle,
        width=263, height=263
    ).mark_point(
        size=1
    ).encode(
        x=alt.X(Unabhaengige_Variable,
                scale=alt.Scale(zero=False)),
        y=alt.Y(Abhaengige_Variable,
                scale=alt.Scale(zero=False)),
        tooltip=list(DatenQuelle.columns)
    )
    
    # Falls ein Auswahlfilter gegeben ist,
    # kann durch Überstreichen der Daten die Auswahl
    # in verschiedenen Diagrammen hervorgehoben werden.
    
    if Auswahlfilter:
        
        Grafik_Streuung = Grafik_Streuung.encode(
            color=alt.condition(Auswahlfilter,
                                alt.ColorValue('#1f77b4'), alt.ColorValue('lightgrey'))
        ).add_selection(Auswahlfilter)
    
    # Falls eine Trendvariable gegeben ist,
    # wird dem Diagramm eine Trendlinie hinzugefügt
    # (wird später genutzt).
    Trendvariable = 'Trend_' + Abhaengige_Variable + '_iAv_' + Unabhaengige_Variable
    
    if Trendvariable in DatenQuelle.columns:
        
        Grafik_Trend = alt.Chart(
            data=DatenQuelle
        ).mark_line(
            color='red', size=2
        ).encode(
            x=alt.X(Unabhaengige_Variable),
            y=alt.Y(Trendvariable,
                    axis=alt.Axis(title=Abhaengige_Variable + ' (mit Trendlinie)'))
        )
        
        Grafik_Streuung = Grafik_Streuung + Grafik_Trend
    
    return Grafik_Streuung

In [54]:
# Zeigen einer Streugrafik von 'Fahrten' in abhängigkeit von 'Tageslänge'
Grafik_Streuung('Tageslaenge', 'Fahrten')

In [0]:
#@title Weggeklappt: Funktion zur Erzeugung einer interaktiven Übersichtsgrafik
def Grafik_Uebersicht(Abhaengige_Variable='Fahrten',
                      DatenQuelle=DatenQuelle):
    
    # Setzen eines Auswahlfilters
    Auswahlfilter = alt.selection(type='interval', resolve='global')
    
    # Erzeugung und Kombination von Verlaufs und Streugrafiken
    # (ggf. auch mit Trendlinien)
    Oben = Grafik_Verlauf(Abhaengige_Variable=Abhaengige_Variable, 
                          DatenQuelle=DatenQuelle, 
                          Glaettungsfenster=7) \
         + Grafik_Verlauf(Abhaengige_Variable=Abhaengige_Variable,
                          DatenQuelle=DatenQuelle,
                          Auswahlfilter=Auswahlfilter)
    
    Links = Grafik_Streuung('Tageslaenge',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,                            
                            Auswahlfilter=Auswahlfilter) \
          & Grafik_Streuung('ist_Werktag',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter)
    
    Rechts = Grafik_Streuung('Temperatur',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter) & \
             Grafik_Streuung('Niederschlag',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter)
    
    Grafik_Uebersicht = Oben & (Links | Rechts)
    
    return Grafik_Uebersicht

In [56]:
# Zeigen einer interaktiven Übersichtgrafik
Grafik_Uebersicht()    

## Modellierung der Daten *(Modelling)*

### Lineare Regression - eine kurze Einführung

Was eine **lineare Regression** ist, ist leicht beschrieben und gut vorstellbar:  
Bei einer linearen Regression legen wir eine Gerade durch eine der Punktwolken, so dass der (quadratische) Abstand zu den Punkten möglichst gering wird. Manchmal hat man das Gefühl, sogar gut sehen zu können, wo diese Gerade etwa liegen müsste.  
Im Ergebnis können wir mit dieser Gerade zu jedem "unabhängigen" Eingangs-Wert (bspw. dem Tag) einen "abhängigen" Ergebnis-Wert (z.B. Anzahl der Fahren) auf der Gerade finden, der einen möglichst geringen Abstand zum echten Ausgangswert des abhängigen Variable hat. Wir können damit mit einer Sicherheit im Rahmen der Abstands-Fehlertoleranz z.B. vorhersagen und wir wissen, ob und wie sich die Anzahl der Fahrten im Laufe der Zeit verändert.

Mathematisch ist das ganze natürlich ein wenig komplex (vor allem falls man keinen Kurs in Linearer Algebra besucht hat oder alles von damals vergessen hat). Es gibt viele Erklärtexte und Videos im Netz dazu.  Wer an dieser Stelle etwas Zeit und insbesondere Lust hat, kann sich ja mal das folgende angucken:  

*Für das weitere nötig ist das allerdings nicht!*


<a href="https://www.youtube.com/watch?v=nk2CQITm_eo" target="_blank"><img src="http://img.youtube.com/vi/nk2CQITm_eo/0.jpg" alt="Video Erklärung Lineare Regression" width="600" height="400" border="0" /></a>

Weniger vorstellbar wird es im Fall einer **multi-linearen Regression**:   

Hier versuchen wir eine Ebene durch eine höherdimensionale Punktwolke zu finden. Beispielsweise könnten wir eine drei-dimensionale Punktwolke mit den "unabhängigen" Eingangs-Variablen Tageslänge und Temperatur und der "abhängigen" Ergebnis-Variable "Fahrten" haben und wollen eine Ebene finden, die möglichst gut reinpasst. Diese erlaubt dann Vorhersagen über die Anzahl der Fahren, wenn wir Temperatur und Tageslänge kennen. Das ganze geht aber auch mit x Dimensionen. Mathematisch ist da kein Unterschied, nur anschaulich vorstellbar ist das dann nicht mehr...  

Zum Glück kann die Programmbibliothek von Scikit-Learn mit sehr wenigen Programmzeilen das Ganze für uns berechnen. Wir machen das mal für Fahrten in Abhängigkeit vom Tag, das wollen wir ja ohnehin untersuchen!

In [0]:
# Kopieren der 'DatenQuelle' in eine 
# neue Datentabelle 'Daten_LR_Modell'
# (um die DatenQuelle nicht zu verändern):
Daten_LR_Modell = DatenQuelle.copy()

# Bestimmen der Variablen
Abhaengige_Variable = DatenQuelle['Fahrten']
Unabhaengige_Variable = DatenQuelle [['Tag']]

# Erzeugen eines noch "leeren" Modells
LR_Modell = LinearRegression().fit(Unabhaengige_Variable, Abhaengige_Variable)

Das war's eigentlich schon! Aber was sagt uns das?  

Wir können damit nun zu jeden Tag den Wert von Fahrten auf der Geraden finden! Und zwar ganz einfach. So zum Beispiel für den Tag mit der Nummer 1_000

In [58]:
# Berechnen der Vorhersagewertes für den Tag 1-000
LR_Modell.predict(np.array([[1_000]]))

array([2736.993815])

Nur weil Scikit-Learn für mehrdimensionale Werte gemacht ist, sieht die eingabe mit diesem "np.array" etwas komisch aus. Aber sonst doch easy, oder?  
Wie verhält sich das nun zum "echten wahren" gemessenen Wert?

In [59]:
Daten_LR_Modell[Daten_LR_Modell['Tag'] == 1_000]['Fahrten']

1000    4655.0
Name: Fahrten, dtype: float64

Na nicht ganz so super... Jetzt gucken wir aber mal wie das für alle Tage aussieht und berechnen den "Trend" der Fahren in Abhängigkeit vom Tag erstmal für alle Tage:

In [0]:
Daten_LR_Modell['Trend_Fahrten_iAv_Tag'] = LR_Modell.predict(Daten_LR_Modell[['Tag']])

Um das zu veranschaulichen machen wir mal eine Grafik (unsere Funktion 'Grafik_Verlauf' kann das schon ;-)):

In [61]:
Grafik_Verlauf(DatenQuelle=Daten_LR_Modell)

Gucken wir uns mal die Statistik dazu an, wofür wir uns zunächst eine Hilffunktion basteln (die nicht verstanden werden muss):

In [0]:
#@title Weggeklappt: Funktion zur Ausgabe der Statistik der Linearen Regression


# Hier nur als Abkürzung um die allgemein formulierte Statistik und 
# weiteren Funktionen erzeugen zu können...
Daten_LR_Modell['Trend'] = Daten_LR_Modell['Trend_Fahrten_iAv_Tag']
Liste_Unabhaengige_Regressionsvariablen = ['Tag']

# Eigentliche Funktion
def Statistik(Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
              Abhaengige_Regressionsvariable='Fahrten', 
              Daten_LR_Modell=Daten_LR_Modell, 
              LR_Modell=LR_Modell):
    
    # Ermittlung der Steigungen aus dem LR_Modell
    Steigung = LR_Modell.coef_
    
    # Errechnung der Fehlergrößen aus den Daten_LR_Modell
    # (da nicht im LR_Modell verfügbar)
    y = Daten_LR_Modell[Abhaengige_Regressionsvariable]
    y_trend = Daten_LR_Modell['Trend']
    X = Daten_LR_Modell[Liste_Unabhaengige_Regressionsvariablen]
    
    var_y = np.sum((y - y_trend) ** 2) / len(y)
    X2 = np.hstack([X, np.ones((X.shape[0], 1))])
    C = var_y * np.linalg.inv(np.dot(X2.T, X2))
    var = C.diagonal()
    
    Fehler = np.sqrt(var[:])
    
    # Ausgabe der Statistikwerte für alle 
    # unabhaengigen Regressionsvariablen
    for Zaehler, Unabhaengige_Regressionsvariable \
    in enumerate(Liste_Unabhaengige_Regressionsvariablen):
        
        print('{0:.2f} +/- {1:.2f}'.format(Steigung[Zaehler], Fehler[Zaehler]), 
              Abhaengige_Regressionsvariable, 
              'je Einheit', 
              Unabhaengige_Regressionsvariable)
              
    return None
  


In [63]:
Statistik()

0.01 +/- 0.04 Fahrten je Einheit Tag


Kein Wunder, dass die Vorhersage so mies ist: die Daten streuen ja auch wie wahnsinnig...  

**Wir sollten und werden die Einflüsse der anderen Variablen auf die Fahrten untersuchen und eliminieren, um dann mal zu gucken, wie die "trendbereinigte" Abhängigkeit von Fahrten vom Tag aussieht.**

Vorher bauen wir uns aber noch ein paar Hilfsfunktionen, die das ganze Erzeugen von Modellen, Trends und Grafiken automatisieren (diese Hilfsfunktionen sind etwas komplexer um die Automatisierung zu erreichen, müssen nicht verstanden werden und sind daher weggeklappt):

In [0]:
#@title Weggeklappt: Funktion zur Erzeugung eines 'LR_Modells' und einer erweiterten Datentabelle 'Daten_LR_Modell'
def LR_Modell_und_Daten(Liste_Unabhaengige_Regressionsvariablen,
                        Abhaengige_Regressionsvariable='Fahrten',
                        DatenQuelle=DatenQuelle):
    
    # Kopie der DatenQuelle, um diese Daten unverändert zu lassen
    Daten_LR_Modell = DatenQuelle.copy()
    
    
    #### Eigentliche Lineare Regression beginnt hier ####
    
    # Ermittlung der unabhängigen und abhängigen Daten aus der DatenQuelle
    Daten_Unabhaengige_Regressionsvariablen = Daten_LR_Modell[Liste_Unabhaengige_Regressionsvariablen]
    Daten_Abhaengige_Regressionsvariable = Daten_LR_Modell[Abhaengige_Regressionsvariable]
    
    # Ermittlung des LR_Modells
    LR_Modell = LinearRegression(
    ).fit(Daten_Unabhaengige_Regressionsvariablen, 
          Daten_Abhaengige_Regressionsvariable)
    
    # Ermittlung der Trenddaten
    Daten_LR_Modell['Trend'] = LR_Modell.predict(Daten_Unabhaengige_Regressionsvariablen)
    
    #### Eigentliche Lineare Regression beginnt hier ####
    
    
    # Erzeugung weiterer Daten für weitere Analysen und spätere Grafische Darstellung
    Daten_LR_Modell[Abhaengige_Regressionsvariable+'_trendbereinigt']\
    = Daten_LR_Modell[Abhaengige_Regressionsvariable] \
    - Daten_LR_Modell['Trend'] \
    + Daten_LR_Modell['Trend'].mean()
    
    for Unabhaengige_Ceteris_Paribus_Regressionsvariable \
    in Liste_Unabhaengige_Regressionsvariablen:
        
        Ceteris_Paribus_Regressionsdatensatz = pd.DataFrame(index=Daten_LR_Modell.index)
        
        for Unabhaengige_Regressionsvariable in Liste_Unabhaengige_Regressionsvariablen:
            
            if Unabhaengige_Regressionsvariable == Unabhaengige_Ceteris_Paribus_Regressionsvariable:
                
                Ceteris_Paribus_Regressionsdatensatz[Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
                = DatenQuelle[Unabhaengige_Ceteris_Paribus_Regressionsvariable]
                
            else:
                
                Ceteris_Paribus_Regressionsdatensatz[Unabhaengige_Regressionsvariable] \
                = DatenQuelle[Unabhaengige_Regressionsvariable].mean()
                
        Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable \
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
        = LR_Modell.predict(Ceteris_Paribus_Regressionsdatensatz)
        
        Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable + '_trendbereinigt'\
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
        = Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable \
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable].mean()
        
    
    return LR_Modell, Daten_LR_Modell

In [0]:
#@title Weggeklappt: Funktion zur automatischen Analyse (Grafiken und Statistikdaten)
def Lineare_Regressionsanalyse(
    Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
    Abhaengige_Regressionsvariable='Fahrten',
    DatenQuelle=DatenQuelle):
  
    # Berechnung von LR_Modell und Daten_LR_Modell  
    LR_Modell, Daten_LR_Modell = LR_Modell_und_Daten(
        Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
        Abhaengige_Regressionsvariable=Abhaengige_Regressionsvariable,
        DatenQuelle=DatenQuelle)
    
    # Erzeugung der Übersichtsgrafiken (normal und trendbereinigt)
    Grafik_Uebersicht_normal = \
    Grafik_Uebersicht(Abhaengige_Variable=Abhaengige_Regressionsvariable, 
                      DatenQuelle=Daten_LR_Modell)
    
    Grafik_Uebersicht_trendbereinigt = \
    Grafik_Uebersicht(Abhaengige_Variable=Abhaengige_Regressionsvariable + '_trendbereinigt', 
                      DatenQuelle=Daten_LR_Modell)
    
    # Ausgabe der Statistik
    Statistik(Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
              Abhaengige_Regressionsvariable=Abhaengige_Regressionsvariable, 
              Daten_LR_Modell=Daten_LR_Modell, LR_Modell=LR_Modell)
    
    return Grafik_Uebersicht_normal & Grafik_Uebersicht_trendbereinigt

### Ein einfaches lineares Modell - Abhängigkeit der Fahrten von der Nummer des Tages

In [66]:
Lineare_Regressionsanalyse(['Tageslaenge'])

295.82 +/- 8.77 Fahrten je Einheit Tageslaenge


### *Do-It-Yourself: Abhängigkeit der Fahrten von der Temperatur*

In [67]:
Lineare_Regressionsanalyse(['Temperatur'])

131.11 +/- 3.83 Fahrten je Einheit Temperatur


### Ein multi-lineares Modell - Abhängigkeit der Fahrten von Tageslänge und ist_Werktag

In [68]:
Lineare_Regressionsanalyse(['Tageslaenge', 'ist_Werktag'])

295.59 +/- 5.99 Fahrten je Einheit Tageslaenge
1748.69 +/- 34.48 Fahrten je Einheit ist_Werktag


### *Do-It-Yourself: Abhängigkeit der Fahrten von Temperatur und Niederschlag*

In [69]:
Lineare_Regressionsanalyse(['Temperatur', 'Niederschlag'])

120.22 +/- 3.68 Fahrten je Einheit Temperatur
-54.43 +/- 3.31 Fahrten je Einheit Niederschlag


### Das vollständige multi-lineare Modell

In [71]:
Lineare_Regressionsanalyse(['Tageslaenge', 'ist_Werktag', 'Temperatur', 'Niederschlag'])

135.12 +/- 7.70 Fahrten je Einheit Tageslaenge
1730.96 +/- 28.60 Fahrten je Einheit ist_Werktag
76.11 +/- 3.32 Fahrten je Einheit Temperatur
-46.16 +/- 2.03 Fahrten je Einheit Niederschlag


## Ergebnisse