[![Google Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/QuantificAid/hands-on-data-science-example/blob/master/hands-on-data-science-example.ipynb)

# Data Science zum Mitmachen: Wetter, Radfahrer und mehr...

## Einleitung

Wie wir in der Bastelstrecke von [diy-iot2ds](https://github.com/birds-on-mars/diy-iot2ds) lernen können, ist es gar nicht sooo schwer und aufwendig, Wetterdaten automatisch zu erfassen. Allerdings ist die Analyse der isolierten Daten etwas ... gähn. Um spannendere Dinge zu tun und zu erkennen, muss man schon ein paar verschiedene Daten zusammenbringen - so wird wirkliche Data Science daraus!  

Um zu **veranschaulichen, wie Data Science funktioniert**, haben wir uns von Jake van der Plas, einem Astrophysiker, Data Science-Meister und Python-Guru, inspirieren lassen. Jake hält nicht nur viele Talks zum Thema und hat hervorragende Bücher wie das [Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/) geschrieben, das es übrigens komplett open-source und interaktiv durch- und zu bearbeiten gibt. Er schreibt auch seit längerem einen Blog, in dem er auch immer wieder Methoden anschaulich beschreibt.  

In 2014 hat er dort die Frage gestellt, ob es einen Aufschwung in der Nutzung von Fahrrädern in Seattle gibt. Hier der [Link zum Blog von dunnemals](https://jakevdp.github.io/blog/2014/06/10/is-seattle-really-seeing-an-uptick-in-cycling/).  

**Hier werden öffentlich zugängliche und recht volatile Daten zum (automatisch erfassten) Fahrrad-Verkehr über die Fremont-Brücke in Seatlle mit Wetter- und auch berechneten Daten in Verbindung gebracht, um zu verifizieren, ob es tatsächlich eine Veränderung der Fahrrad-Fahrten im Laufe der Zeit gibt bzw. welchen Einfluss andere Umgebungsdaten haben.** 

Die Antwort von Jake van der Plas in seinem Blog damals war: ja, es gibt einen Zuwachs an Fahrradverkehr.
Jetzt sind wir ein paar Jahre weiter und wir fragen uns daher: ist das immer noch der Fall?  

**Und auch das ist machbar!**  

Google bietet eine kostenlose Umgebung dafür an. Falls noch nicht geschehen, jetzt **bitte einfach oben den Button "open in colab" anklicken** (und nach Studie der Bedingungen von Google diese ggf. akzeptieren, damit die Kiste läuft) - dann wird's interaktiv! 
- **Einen kleinen Teil des Ganzen muss/darf der geneigte Leser dabei selber machen!** 
- Andere Teile/Hilfsfunktionen haben wir "weggeklappt", um das Gesamtverständnis nicht zu behindern.
- Damit alles läuft muss immer, wenn ein kleiner "Play-Button" an der Zelle ist, dieser angeklickt werden, sonst läuft der Programmcode nicht.

## Verwendete Datenquellen

Auf den Fahrradwegen der Fremont-Brücke in Seattle werden mit magnetischen Induktionsschleifen automatisch Fahrräder gezählt. Da [Open-Data](https://de.wikipedia.org/wiki/Open_Data) in den USA auch bei öffentlichen Institutionen recht verbreitet ist, sind diese Daten frei zugänglich. Sie werden [auf dem Open-Data-Portal der Stadt Seattle bereitgestellt](https://data.seattle.gov/Transportation/Fremont-Bridge-Hourly-Bicycle-Counts-by-Month-Octo/65db-xm6k). Die hier im Repository hinterlegten Daten sind vom 04. Juni 2019 und reichen zurück bis 2012.  

So sieht übrigens die Fremont-Brücke in Seattle aus:

![Fremont-Brücke in Seatlle](https://upload.wikimedia.org/wikipedia/commons/thumb/5/50/Seattle_%E2%80%94_Fremont_Bridge_%E2%80%94_%282016-06-12%29%2C_01.jpg/320px-Seattle_%E2%80%94_Fremont_Bridge_%E2%80%94_%282016-06-12%29%2C_01.jpg)  

Auch Wetterdaten aus den USA sind frei zugänglich über das [National Center of Environmental Information](://www.ncdc.noaa.gov/cdo-web/search?datasetid=GHCND), wo u.a. die Wetterstation des SeaTac Airport in Seattle ausgewählt werden kann (ID der Wetterstation "USW00024233"). Hier haben wir uns die letzten verfügbaren Daten vom 25. Juni 2019 (auch zurück bis 2012) besorgt.

Die [Daten liegen bereits in diesem Repository](https://github.com/QuantificAid/hands-on-data-science-example/blob/master/Daten/):

In [0]:
Pfad_zu_Daten = 'https://raw.githubusercontent.com/QuantificAid/hands-on-data-science-example/master/Daten/'

## Vorgehen

Auch hier werden wir die üblichen Schritte einer Data Science-Analyse durchlaufen:
- **Laden und erstes Explorieren der Daten** (*Gathering*) verbunden mit einer ersten ganz kurzen ersten Exploration, wie die Daten in der Rohversion aussehen.
- **Strukturieren der Daten** (*Preprocessing*) um die Daten in eine gesamthaft weiterverarbeitbare Form zu bringen.
- **Bereinigung und weitere Exploration der Daten** *(Cleansing, Exploration)*, um die Daten in die finale Form für die Modellbildung zu bringen. Glücklicherweise sind die Daten recht "sauber", was den ansonsten oft sehr mühseligen Teil der Bereinigung sehr kurz macht. Wir werden die Daten aber recht ausgiebig visualisieren.
- Last, but not least **Modellierung der Daten** *(Modelling)*. Hier benutzen wir werden wir eine "einfache" multi-lineare Regression anwenden, um zu prüfen, welcher Einflussfaktor wie (linear) wirkt und welcher Trend sich am Ende für den zeitlichen Verlauf der Fahrrad-Nutzung ergibt. Wie lineare Regression funktioniert wird im entsprechenden Teil erläutert.

## Verwendete Programmbibliotheken

Die Analyse der Daten nehmen wir in der Programmiersprache Python vor, die für sehr vieles geeignet ist, aber auch sehr beliebt für Data Science, Machine Learning und AI ist.

Sie ist nicht nur deshalb in diesen Gebieten so beliebt, weil sie relativ leicht zu lernen und sehr vielseitig ist, sondern auch und insbesondere, weil es viele schlaue Geister in Python sehr coole Programm-Bibliotheken geschrieben haben, die open source bereitstehen, deren enthaltene Objekte, Methoden und Funktionen sofort verwendet werden können und die einem viel Arbeit abnehmen.

Wir laden uns die folgenden Bibliotheken:
- [pandas](https://pandas.pydata.org/) zur effizienten Bearbeitung von Datentabellen
- [NumPy](https://www.numpy.org/) zur schnellen numerischen Bearbeitung von Tabellendaten und Matrizen (wird im Hintergrund auch von pandas verwendet)
- [altair](https://altair-viz.github.io/) zur grafischen und interaktiven Darstellung von Daten und
- [scikit-learn oder auch sklearn](https://scikit-learn.org/stable/), einer elegant programmierten Bibliothek mit vielen Funktionen zum maschinellen Lernen (u.a. der linearen Regression).

In [0]:
#Importieren von Programm-Bibliotheken

# Programm-Bibliothek zur effizienten Bearbeitung von Datentabellen
import pandas as pd

# Programm-Bibliothek zur schnellen numerischen 
# Bearbeitung von Tabellendaten und Matrizen.
import numpy as np

# Programm-Bibliothek zu grafischen und interaktiven 
# Darstellung von Daten
import altair as alt

# Programm-Bibliothek u.a. Lineare Regression
from sklearn.linear_model import LinearRegression

## Laden und erstes Explorieren der Daten *(Gathering, First Exploration)*

Um Daten mit Python (oder einer anderen geeigneten Programmiersprache oder Software) zu analysieren, muss man sie natürlich erst laden. Oft und auch hier haben wir mehrere Datenquellen und Bestandteile, so dass es Sinn macht, sich dabei auch einen allerersten Überblick zu verschaffen, um schon mal zu überlegen, wie man die Daten später zusammenbringen kann.

### Laden und erstes Explorieren der Verkehrsdaten

Die Verkehrsdaten liegen in Form eine "Comma seperated value"-Datei (csv-Datei) vor, in der Tabellendaten sehr einfach gespeichert werden können.
Diese können wir sehr einfach in ein Tabellenobjekt von pandas (einen sogenannten DataFrame) laden und uns mit einfachen Funktionen einen ersten Eindruck verschaffen.. 

In [0]:
# Laden der 'Verkehrsdaten' 
# aus Datei'Fremont_Bridge_Hourly_Bicycle_Counts_by_Month_October_2012_to_present.csv' 
# im Ordner 'Daten'
Verkehrsdaten = pd.read_csv(
    Pfad_zu_Daten + 'Fremont_Bridge_Hourly_Bicycle_Counts_by_Month_October_2012_to_present.csv')

In [69]:
# Lesen der obersten Reihe der 'Verkehrsdaten'
Verkehrsdaten.head()

Unnamed: 0,Date,Fremont Bridge East Sidewalk,Fremont Bridge West Sidewalk
0,05/31/2019 11:00:00 PM,22.0,35.0
1,05/31/2019 10:00:00 PM,29.0,52.0
2,05/31/2019 09:00:00 PM,46.0,57.0
3,05/31/2019 08:00:00 PM,48.0,92.0
4,05/31/2019 07:00:00 PM,97.0,151.0


In [70]:
# Lesen der untersten Reihen der 'Verkehrsdaten'
Verkehrsdaten.tail()

Unnamed: 0,Date,Fremont Bridge East Sidewalk,Fremont Bridge West Sidewalk
58363,10/03/2012 04:00:00 AM,6.0,1.0
58364,10/03/2012 03:00:00 AM,2.0,3.0
58365,10/03/2012 02:00:00 AM,1.0,1.0
58366,10/03/2012 01:00:00 AM,4.0,6.0
58367,10/03/2012 12:00:00 AM,4.0,9.0


In [71]:
# Abstrakte Information über die 'Verkehrsdaten'
Verkehrsdaten.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58368 entries, 0 to 58367
Data columns (total 3 columns):
Date                            58368 non-null object
Fremont Bridge East Sidewalk    58359 non-null float64
Fremont Bridge West Sidewalk    58359 non-null float64
dtypes: float64(2), object(1)
memory usage: 1.3+ MB


In [72]:
# Grundlegende Statistik der 'Verkehrsdaten'
Verkehrsdaten.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Date,58368,58368.0,01/31/2019 08:00:00 AM,1.0,,,,,,,
Fremont Bridge East Sidewalk,58359,,,,52.1382,67.5161,0.0,6.0,28.0,70.0,698.0
Fremont Bridge West Sidewalk,58359,,,,58.9453,85.8879,0.0,7.0,29.0,71.0,745.0


Wie wir sehen, wird der Verkehr stündlich und auf beiden Seiten der Brücke/in beiden Fahrrichtungen erfasst. Die Fahrten liegen im float64-Format vor (Fließkommazahlen), während die Datums-Zeilen ('Date') noch nicht als solche erkannt wurden und nur als allgemeines 'object' vorliegen. Insgesamt haben wir zu fast 60.000 Zeitpunkten jeweils zwei Fahrt-Informationen. Das ist mehr Information, als wir brauchen. Uns reichen die Fahrten insgesamt und auch eine Aggregation auf einzelne Tage wird uns genügen.

Wir werden später also:
- Das Datums-Format "reparieren", damit wir damit weiterrechnen können.
- Die Fahrten auf Tage aggregieren.
- Die Fahrten in beide Richtungen zusammenrechnen.


### *Do-It-Yourself: Laden und erstes Explorieren der Wetterdaten*

Nachdem wir im vorherigen Abschnitt gezeigt haben, wie die ganzen Schritte des Ladens und für eine erste Orientierung mit den Verkehrsdaten funktionieren, ist es nun am geneigten Leser dasselbe mit den Wetterdaten in der Datei '1786640.csv' vorzunehmen.

Im Zweifel einfach den Code von oben kopieren und leicht anpassen sollte genügen...

In [0]:
# Lesen der 'Wetterdaten' 
# aus Datei '178440.csv' 
# im Ordner 'Daten' 
Wetterdaten = pd.read_csv(Pfad_zu_Daten + '1786440.csv')

In [12]:
# Lesen der obersten Reihe der 'Wetterdaten'
Wetterdaten.head()

Unnamed: 0,STATION,NAME,DATE,AWND,PGTM,PRCP,SNOW,SNWD,TAVG,TMAX,TMIN,WDF2,WDF5,WSF2,WSF5,WT01,WT02,WT03,WT04,WT05,WT08,WT09,WT13,WT14,WT16,WT18,WT22
0,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2012-10-03,7.3,,0.0,0.0,0.0,,18.9,7.8,10.0,20.0,10.3,12.5,,,,,,,,,,,,
1,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2012-10-04,6.5,,0.0,0.0,0.0,,18.9,8.3,20.0,20.0,9.4,11.2,,,,,,,,,,,,
2,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2012-10-05,5.7,,0.0,0.0,0.0,,21.7,8.9,360.0,360.0,8.0,9.8,,,,,,,,,,,,
3,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2012-10-06,5.1,,0.0,0.0,0.0,,23.9,7.8,20.0,20.0,7.6,9.4,,,,,,,,,,,,
4,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2012-10-07,1.3,,0.0,0.0,0.0,,23.9,7.8,30.0,10.0,5.4,6.3,,,,,,,,,,,,


In [13]:
# Lesen der untersten Reihe der 'Wetterdaten'
Wetterdaten.tail()

Unnamed: 0,STATION,NAME,DATE,AWND,PGTM,PRCP,SNOW,SNWD,TAVG,TMAX,TMIN,WDF2,WDF5,WSF2,WSF5,WT01,WT02,WT03,WT04,WT05,WT08,WT09,WT13,WT14,WT16,WT18,WT22
2431,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2019-05-31,2.2,,0.0,0.0,0.0,17.1,24.4,12.2,290.0,20.0,4.0,5.8,1.0,1.0,,,,1.0,,,,,,
2432,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2019-06-01,2.7,,0.0,0.0,0.0,16.4,24.4,11.7,30.0,30.0,6.7,8.1,1.0,,,,,1.0,,,,,,
2433,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2019-06-02,3.1,,0.0,0.0,0.0,17.5,23.9,11.1,220.0,240.0,6.3,7.6,,,,,,,,,,,,
2434,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2019-06-03,3.3,,0.0,0.0,0.0,15.6,20.6,11.7,20.0,20.0,7.6,8.9,,,,,,,,,,,,
2435,USW00024233,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2019-06-04,2.4,,0.0,0.0,0.0,15.8,22.2,11.1,250.0,270.0,5.4,6.7,,,,,,,,,,,,


In [14]:
# Abstrakte Information über die 'Wetterdaten'
Wetterdaten.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2436 entries, 0 to 2435
Data columns (total 27 columns):
STATION    2436 non-null object
NAME       2436 non-null object
DATE       2436 non-null object
AWND       2435 non-null float64
PGTM       52 non-null float64
PRCP       2435 non-null float64
SNOW       2435 non-null float64
SNWD       2435 non-null float64
TAVG       2256 non-null float64
TMAX       2435 non-null float64
TMIN       2435 non-null float64
WDF2       2435 non-null float64
WDF5       2415 non-null float64
WSF2       2435 non-null float64
WSF5       2415 non-null float64
WT01       1050 non-null float64
WT02       123 non-null float64
WT03       17 non-null float64
WT04       2 non-null float64
WT05       3 non-null float64
WT08       83 non-null float64
WT09       1 non-null float64
WT13       104 non-null float64
WT14       19 non-null float64
WT16       129 non-null float64
WT18       6 non-null float64
WT22       9 non-null float64
dtypes: float64(24), object(3)


In [0]:
Wir sehen, dass hier für jeden Tag

In [15]:
# Grundlegende Statistik der 'Wetterdaten'
Wetterdaten.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
STATION,2436,1.0,USW00024233,2436.0,,,,,,,
NAME,2436,1.0,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2436.0,,,,,,,
DATE,2436,2436.0,2016-02-07,1.0,,,,,,,
AWND,2435,,,,3.40234,1.38279,0.4,2.4,3.2,4.3,9.5
PGTM,52,,,,1413.48,728.946,2.0,1030.75,1440.5,1996.25,2357.0
PRCP,2435,,,,3.03257,6.66503,0.0,0.0,0.0,3.0,55.9
SNOW,2435,,,,0.434086,6.34253,0.0,0.0,0.0,0.0,163.0
SNWD,2435,,,,0.708419,8.77461,0.0,0.0,0.0,0.0,180.0
TAVG,2256,,,,12.2891,5.91813,-4.4,8.0,11.9,16.9,27.6
TMAX,2435,,,,16.3255,7.40495,-1.6,10.6,15.6,21.7,35.6


## Strukturieren der Daten *(Preprocessing)*

In [0]:
# Anlegen einer neuen Datenstruktur 'Daten'
Daten = pd.DataFrame()

### Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten

Zunächst formatieren wir die Spalte 'Date' von 'verkehrsdaten' in ein Format um, dass von 'pandas' als Zeiten interpretiert werden kann.

In [0]:
# Konvertieren der Spalte 'Date' in 'Verkehrsdaten'
# in ein "echtes" Datumsformat
Verkehrsdaten['Date'] = pd.to_datetime(Verkehrsdaten['Date'])

Dann setzen wir den Index der Tabelle 'verkehrsdaten' auf 'date'

In [0]:
# Ersetzen der Index-Spalte mit der Spalte 'Date' aus 'Verkehrsdaten'
Verkehrsdaten = Verkehrsdaten.set_index('Date')

Um Vergleichbarkeit zu den Wetterdaten zu erreichen, aggregieren wir 

In [0]:
# Aggregieren und Ersetzen der stündlichen 'Verkehrsdaten' 
# durch tägliche 'Verkehrsdaten'
Verkehrsdaten = Verkehrsdaten.resample('d').sum()

In [20]:
# Lesen von Beispielreihen der 'Verkehrsdaten'
Verkehrsdaten.sample(5)

Unnamed: 0_level_0,Fremont Bridge East Sidewalk,Fremont Bridge West Sidewalk
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2017-05-24,1949.0,2586.0
2017-03-15,786.0,1035.0
2019-04-18,1019.0,1648.0
2014-03-24,1843.0,1793.0
2018-01-18,892.0,1377.0


In [21]:
# Abstrakte Information über 'Verkehrsdaten'
Verkehrsdaten.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2432 entries, 2012-10-03 to 2019-05-31
Freq: D
Data columns (total 2 columns):
Fremont Bridge East Sidewalk    2432 non-null float64
Fremont Bridge West Sidewalk    2432 non-null float64
dtypes: float64(2)
memory usage: 57.0 KB


In [22]:
# Grundlegende Statistik der 'Verkehrsdaten'
Verkehrsdaten.describe(include='all').T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Fremont Bridge East Sidewalk,2432.0,1251.123355,604.790258,19.0,817.0,1191.0,1695.0,3143.0
Fremont Bridge West Sidewalk,2432.0,1414.469161,758.560427,12.0,869.0,1294.0,1993.25,3752.0


In [0]:
# Übertragen der Summe der Spalten aus den 'Verkehrsdaten'
# in eine (neue) Spalte 'Fahrten' der 'Daten'
Daten['Fahrten'] = Verkehrsdaten['Fremont Bridge East Sidewalk'] + Verkehrsdaten['Fremont Bridge West Sidewalk']

In [0]:
# Benennung des Index der 'Daten' mit 'Datum'
Daten.index = pd.DatetimeIndex(data=Verkehrsdaten.index, name='Datum')

In [25]:
# Lesen von Beispielreihen aus den 'Daten'
Daten.sample(5)

Unnamed: 0_level_0,Fahrten
Datum,Unnamed: 1_level_1
2015-05-29,4548.0
2018-03-07,2973.0
2017-12-27,997.0
2014-05-09,3036.0
2018-07-26,5140.0


### Ermitteln und Hinzufügen berechneter Daten (Tageslänge und Wochentag)

In [0]:
# Anlegen einer neuen Datenstruktur 'Berechnete_Daten'
# mit Übernahme der Index-Struktur von 'Daten'
Berechnete_Daten = pd.DataFrame(index=Daten.index)

In [0]:
# Neue Spalte 'Tag' in 'Berechnete_Daten'
# aus den Zahlenwerten des 'index' (der das Datum enthalt)
Berechnete_Daten['Tag'] = pd.to_numeric(Berechnete_Daten.index)

In [28]:
# Lesen von Beispielsreihen aus 'Berechnete Daten'
Berechnete_Daten['Tag'].sample(5)

Datum
2015-06-24    1435104000000000000
2016-02-05    1454630400000000000
2018-05-25    1527206400000000000
2014-04-02    1396396800000000000
2018-12-08    1544227200000000000
Name: Tag, dtype: int64

In [0]:
# Umwandeln der Spalte 'Tag' in ganzzahlige Werte
# die einzelnen Tagen entsprechen
Tageslaenge_in_Nanosekunden = 24*60*60*1_000_000_000
Berechnete_Daten['Tag'] = (Berechnete_Daten['Tag'] - Berechnete_Daten['Tag'].min()) \
                        / Tageslaenge_in_Nanosekunden

In [30]:
# Lesen der ersten Reihen von 'Berechnete Daten'
Berechnete_Daten.head(5)

Unnamed: 0_level_0,Tag
Datum,Unnamed: 1_level_1
2012-10-03,0.0
2012-10-04,1.0
2012-10-05,2.0
2012-10-06,3.0
2012-10-07,4.0


In [0]:
# Formel zur Berechnung der Tageslänge in Abhängigkeit des
# Datums und des Laengengrades 
# (voreingestellt ist der Längengrad von Seattle)

def Berechne_Tageslaenge(Datum, Laengengrad=47.61):
    
    # Neigung der Erdachse in Grad
    Neigung_erdachse = 23.44
    
    # Wintersonnenwende
    Wintersonnenwende = pd.datetime(2000, 12, 21)
    
    # Tage seit Wintersonnenwende (WSW)
    Zeit_seit_WSW = Datum - Wintersonnenwende
    Tage_seit_WSW = Zeit_seit_WSW.total_seconds() / (24. * 60. * 60.)
    Tage_seit_WSW = Tage_seit_WSW % 365.25
    
    m = 1. - \
        np.tan(np.radians(Laengengrad)) * \
        np.tan(
            np.radians(Neigung_erdachse) * 
            np.cos(Tage_seit_WSW * np.pi / 182.625) 
    )
    
    m = max(0, min(m, 2))
    
    Tageslaenge = 24. * np.degrees(np.arccos(1 - m)) / 180.
    
    return Tageslaenge

In [0]:
# Aufbau einer Liste von Tageslaengen und 
# Übernahme in eine neue Spalte 'Tageslaenge'
# in 'Berechnete_Daten'
Tageslaengen = list(map(Berechne_Tageslaenge, Berechnete_Daten.index))
Berechnete_Daten['Tageslaenge'] = Tageslaengen

In [33]:
# Lesen von Beispielreihen aus 'Berechnete Daten'
Berechnete_Daten.sample(5)

Unnamed: 0_level_0,Tag,Tageslaenge
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1
2017-12-15,1899.0,8.245532
2014-02-10,495.0,9.714047
2016-11-03,1492.0,9.576636
2017-11-28,1882.0,8.574437
2014-04-16,560.0,13.418591


In [0]:
# Berechnung, ob ein Tag ein Werktag 
# ist (1) oder nicht (0) und
# Übernahme in eine neue Spalte 'ist_Werktag' von 'Berechnete_Daten'
Berechnete_Daten['ist_Werktag'] = 1 - Berechnete_Daten.index.dayofweek // 5

In [35]:
# Lesen von Beispielreihen aus 'Berechnete Daten'
Berechnete_Daten.sample(5)

Unnamed: 0_level_0,Tag,Tageslaenge,ist_Werktag
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015-11-24,1147.0,8.717494,1
2017-12-04,1888.0,8.418,1
2017-04-17,1657.0,13.488737,1
2014-08-14,680.0,14.164343,1
2013-06-04,244.0,15.573444,1


In [0]:
# Übernahme von 'Tageslaenge' und 'ist_Werktag'
# aus 'Berechnete_Daten' in die 'Daten'
Daten[['Tag', 'Tageslaenge', 'ist_Werktag']] = Berechnete_Daten[['Tag', 'Tageslaenge', 'ist_Werktag']]

In [37]:
# Lesen von Beispielreihen aus 'Daten'
Daten.sample(5)

Unnamed: 0_level_0,Fahrten,Tag,Tageslaenge,ist_Werktag
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-04-13,2487.0,1653.0,13.263023,1
2015-05-10,1958.0,949.0,14.656796,0
2018-09-07,3912.0,2165.0,12.831706,1
2016-03-27,446.0,1271.0,12.290651,0
2016-11-05,439.0,1494.0,9.479207,0


### *Do-It-Yourself: Formatieren und Hinzufügen ausgewählter Wetterdaten*

In [0]:
# Konvertieren der Spalte 'DATE' in 'Wetterdaten'
# in ein "echtes" Datumsformat
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Wetterdaten['DATE'] = pd.to_datetime(Wetterdaten['DATE'])

In [0]:
# Ersetzen der Index-Spalte mit der Spalte 'DATE' aus 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Wetterdaten = Wetterdaten.set_index('DATE')

In [40]:
# Abstrakte Information über 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Wetterdaten.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2436 entries, 2012-10-03 to 2019-06-04
Data columns (total 26 columns):
STATION    2436 non-null object
NAME       2436 non-null object
AWND       2435 non-null float64
PGTM       52 non-null float64
PRCP       2435 non-null float64
SNOW       2435 non-null float64
SNWD       2435 non-null float64
TAVG       2256 non-null float64
TMAX       2435 non-null float64
TMIN       2435 non-null float64
WDF2       2435 non-null float64
WDF5       2415 non-null float64
WSF2       2435 non-null float64
WSF5       2415 non-null float64
WT01       1050 non-null float64
WT02       123 non-null float64
WT03       17 non-null float64
WT04       2 non-null float64
WT05       3 non-null float64
WT08       83 non-null float64
WT09       1 non-null float64
WT13       104 non-null float64
WT14       19 non-null float64
WT16       129 non-null float64
WT18       6 non-null float64
WT22       9 non-null float64
dtypes: float64(24), object(2)
memory usage: 

In [41]:
# Grundlegende Statistik der 'Wetterdaten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Wetterdaten.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
STATION,2436,1.0,USW00024233,2436.0,,,,,,,
NAME,2436,1.0,"SEATTLE TACOMA INTERNATIONAL AIRPORT, WA US",2436.0,,,,,,,
AWND,2435,,,,3.40234,1.38279,0.4,2.4,3.2,4.3,9.5
PGTM,52,,,,1413.48,728.946,2.0,1030.75,1440.5,1996.25,2357.0
PRCP,2435,,,,3.03257,6.66503,0.0,0.0,0.0,3.0,55.9
SNOW,2435,,,,0.434086,6.34253,0.0,0.0,0.0,0.0,163.0
SNWD,2435,,,,0.708419,8.77461,0.0,0.0,0.0,0.0,180.0
TAVG,2256,,,,12.2891,5.91813,-4.4,8.0,11.9,16.9,27.6
TMAX,2435,,,,16.3255,7.40495,-1.6,10.6,15.6,21.7,35.6
TMIN,2435,,,,8.1037,5.00329,-7.1,4.4,8.3,12.2,20.6


In [0]:
# Übernahme der Spalten 'TAVG' (average temperature = durchschnittliche Temperatur)
# und 'PRCP' (precipitation = Niederschlag) in 
# neue Spalten von 'Daten' 'Temperatur' und 'Niederschlag'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Daten['Temperatur'] = Wetterdaten['TAVG']
Daten['Niederschlag'] = Wetterdaten['PRCP']

In [43]:
# Lesen von Beispielreihen aus 'Daten'
# (vgl. 'Formattieren und Aggregieren und Hinzufügen der Verkehrsdaten')
Daten.sample(5)

Unnamed: 0_level_0,Fahrten,Tag,Tageslaenge,ist_Werktag,Temperatur,Niederschlag
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2013-10-27,778.0,389.0,9.946565,0,9.9,1.8
2015-02-03,2334.0,853.0,9.360658,1,8.8,1.3
2018-12-21,1912.0,2270.0,8.219065,1,4.9,0.0
2016-08-12,3873.0,1409.0,14.241451,1,23.2,0.0
2015-04-07,3048.0,916.0,12.889703,1,9.7,0.5


## Bereinigung und weitere Exploration der Daten *(Cleansing, Exploration)*

In [44]:
# Kopieren von 'Daten' in eine
# neue Datentabelle 'DatenQuelle'
# um die Daten vor weiterer Veränderung zu schützen
DatenQuelle = Daten.copy()
DatenQuelle.sample()

Unnamed: 0_level_0,Fahrten,Tag,Tageslaenge,ist_Werktag,Temperatur,Niederschlag
Datum,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-05-11,2905.0,2411.0,14.702903,0,22.1,0.0


In [0]:
# Neue Spalte 'Datum' aus dem 
# Index von DatenQuelle (und
# Erzeugen eines neuen, generischen Indexes)
DatenQuelle.reset_index(drop=False, inplace=True)

In [46]:
# Lesen von Beispielreihen von 'DatenQuelle'
DatenQuelle.sample(5)

Unnamed: 0,Datum,Fahrten,Tag,Tageslaenge,ist_Werktag,Temperatur,Niederschlag
1937,2018-01-22,2811.0,1937.0,8.861369,1,6.1,9.1
325,2013-08-24,2030.0,325.0,13.614003,0,19.4,0.0
2053,2018-05-18,5238.0,2053.0,15.016272,1,14.2,0.0
8,2012-10-11,3047.0,8.0,10.815345,1,,0.0
1938,2018-01-23,1976.0,1938.0,8.899615,1,5.7,22.4


In [0]:
# Reorganisation der Spaltenreihenfolge
DatenQuelle = DatenQuelle[['Datum', 'Tag', 'Fahrten', 'Tageslaenge', 'ist_Werktag', 'Temperatur', 'Niederschlag']]

In [48]:
# Grundlegende Statistik von 'DatenQuelle'
DatenQuelle.describe(include='all').T

Unnamed: 0,count,unique,top,freq,first,last,mean,std,min,25%,50%,75%,max
Datum,2432,2432.0,2016-11-14 00:00:00,1.0,2012-10-03 00:00:00,2019-05-31 00:00:00,,,,,,,
Tag,2432,,,,,,1215.5,702.202,0.0,607.75,1215.5,1823.25,2431.0
Fahrten,2432,,,,,,2665.59,1320.02,38.0,1750.0,2499.5,3697.25,6183.0
Tageslaenge,2432,,,,,,11.8816,2.59869,8.21889,9.36066,11.7755,14.4049,15.7811
ist_Werktag,2432,,,,,,0.714638,0.451679,0.0,0.0,1.0,1.0,1.0
Temperatur,2252,,,,,,12.2819,5.92085,-4.4,7.975,11.9,16.9,27.6
Niederschlag,2431,,,,,,3.03756,6.66938,0.0,0.0,0.0,3.0,55.9


In [0]:
# Löschen aller Reihen die 
# keine Werte in einer oder mehreren Spalten enthalten
DatenQuelle.dropna(inplace=True)

In [50]:
# Grundlegende Statistik von 'DatenQuelle'
DatenQuelle.describe(include='all').T

Unnamed: 0,count,unique,top,freq,first,last,mean,std,min,25%,50%,75%,max
Datum,2251,2251.0,2016-11-14 00:00:00,1.0,2013-04-01 00:00:00,2019-05-31 00:00:00,,,,,,,
Tag,2251,,,,,,1305.01,649.964,180.0,742.5,1305.0,1867.5,2431.0
Fahrten,2251,,,,,,2738.65,1326.85,38.0,1806.0,2598.0,3811.5,6183.0
Tageslaenge,2251,,,,,,12.0567,2.59881,8.21889,9.52156,12.1435,14.5627,15.7811
ist_Werktag,2251,,,,,,0.714793,0.451613,0.0,0.0,1.0,1.0,1.0
Temperatur,2251,,,,,,12.2811,5.92203,-4.4,7.95,11.9,16.9,27.6
Niederschlag,2251,,,,,,2.93816,6.57252,0.0,0.0,0.0,2.5,55.9


In [0]:
#@title Funktion zur Erzeugung einer Grafik für eine Variable im zeitlichen Verlauf
def Grafik_Verlauf(Abhaengige_Variable='Fahrten', 
                   DatenQuelle=DatenQuelle, 
                   # Variablen für die optionale 
                   # weitere Variation der Grafiken
                   # (wird später benutzt)
                   Glaettungsfenster=None, 
                   Auswahlfilter=None):
    
    if Glaettungsfenster:
        
        Grafik_Verlauf = alt.Chart(
            data=DatenQuelle,
            width=600, height=300
        ).mark_line(
            color='orange', size=2
        ).transform_window(
            Gelaettete_Variable='mean('+ Abhaengige_Variable + ')',
            frame=[0, Glaettungsfenster]
        ).encode(
            x=alt.X('Datum:T',
                    axis=alt.Axis(title=None)),
            y=alt.Y('Gelaettete_Variable:Q',
                    axis=alt.Axis(title=None)
                   )
        ).properties(
            title='Zeitlicher Verlauf von ' + Abhaengige_Variable + \
            ' (inkl. ' + str(Glaettungsfenster) + '-Tage-Glaettung)'
        )
        
    else:
        
        Grafik_Verlauf = alt.Chart(
            data=DatenQuelle,
            width=600, height=300
        ).mark_point(
            size=2
        ).encode(
            x=alt.X('Datum',
                    axis=alt.Axis(title=None)),
            y=alt.Y(Abhaengige_Variable,
                    axis=alt.Axis(title=None)),
            tooltip=list(DatenQuelle.columns)
        ).properties(
            title='Zeitlicher Verlauf von ' + Abhaengige_Variable
        )
        
        if Auswahlfilter:
            
            Grafik_Verlauf = Grafik_Verlauf.encode(
                color=alt.condition(Auswahlfilter,
                                    alt.ColorValue('#1f77b4'), 
                                    alt.ColorValue('lightgrey'))
            ).add_selection(Auswahlfilter)
            
        Trendvariable = 'Trend_' + Abhaengige_Variable + '_iAv_Tag'
        
        if Trendvariable in DatenQuelle.columns:
            
            Grafik_Trend = alt.Chart(
                data=DatenQuelle
            ).mark_line(
                color='red', size=2
            ).encode(
                x=alt.X('Datum'),
                y=alt.X(Trendvariable)
            )
            
            Grafik_Verlauf = Grafik_Verlauf + Grafik_Trend
        
    return Grafik_Verlauf

In [52]:
Grafik_Verlauf()

In [59]:
Grafik_Verlauf(Glaettungsfenster=7)

In [60]:
Grafik_Verlauf(Glaettungsfenster=7) + Grafik_Verlauf()

In [0]:
def Grafik_Streuung(Unabhaengige_Variable, 
                    Abhaengige_Variable='Fahrten',
                    DatenQuelle=DatenQuelle,
                    Auswahlfilter=None):
    
    Grafik_Streuung = alt.Chart(
        data=DatenQuelle,
        width=263, height=263
    ).mark_point(
        size=1
    ).encode(
        x=alt.X(Unabhaengige_Variable,
                scale=alt.Scale(zero=False)),
        y=alt.Y(Abhaengige_Variable,
                scale=alt.Scale(zero=False)),
        tooltip=list(DatenQuelle.columns)
    )
    
    if Auswahlfilter:
        
        Grafik_Streuung = Grafik_Streuung.encode(
            color=alt.condition(Auswahlfilter,
                                alt.ColorValue('#1f77b4'), alt.ColorValue('lightgrey'))
        ).add_selection(Auswahlfilter)
        
    Trendvariable = 'Trend_' + Abhaengige_Variable + '_iAv_' + Unabhaengige_Variable
    
    if Trendvariable in DatenQuelle.columns:
        
        Grafik_Trend = alt.Chart(
            data=DatenQuelle
        ).mark_line(
            color='red', size=2
        ).encode(
            x=alt.X(Unabhaengige_Variable),
            y=alt.Y(Trendvariable,
                    axis=alt.Axis(title=Abhaengige_Variable + ' (mit Trendlinie)'))
        )
        
        Grafik_Streuung = Grafik_Streuung + Grafik_Trend
    
    return Grafik_Streuung

In [0]:
Grafik_Streuung('Tageslaenge')

In [0]:
def Grafik_Uebersicht(Abhaengige_Variable='Fahrten',
                      DatenQuelle=DatenQuelle):
    
    Auswahlfilter = alt.selection(type='interval', resolve='global')
    
    Oben = Grafik_Verlauf(Abhaengige_Variable=Abhaengige_Variable, 
                          DatenQuelle=DatenQuelle, 
                          Glaettungsfenster=7) \
         + Grafik_Verlauf(Abhaengige_Variable=Abhaengige_Variable,
                          DatenQuelle=DatenQuelle,
                          Auswahlfilter=Auswahlfilter)
    
    Links = Grafik_Streuung('Tageslaenge',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,                            
                            Auswahlfilter=Auswahlfilter) \
          & Grafik_Streuung('ist_Werktag',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter)
    
    Rechts = Grafik_Streuung('Temperatur',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter) & \
             Grafik_Streuung('Niederschlag',
                            Abhaengige_Variable=Abhaengige_Variable, 
                            DatenQuelle=DatenQuelle,
                            Auswahlfilter=Auswahlfilter)
    
    Grafik_Uebersicht = Oben & (Links | Rechts)
    
    return Grafik_Uebersicht

In [0]:
Grafik_Uebersicht()    

## Modellierung der Daten *(Modelling)*

### Lineare Regression - eine kurze Einführung

In [0]:

<a href="https://www.youtube.com/watch?v=nk2CQITm_eo" target="_blank"><img src="http://img.youtube.com/vi/nk2CQITm_eo/0.jpg" 
alt="IMAGE ALT TEXT HERE" width="600" height="400" border="0" /></a>

In [0]:
def LR_Modell_und_Daten(Liste_Unabhaengige_Regressionsvariablen,
                        Abhaengige_Regressionsvariable='Fahrten',
                        DatenQuelle=DatenQuelle):
    
    Daten_LR_Modell = DatenQuelle.copy()
    
    Daten_Unabhaengige_Regressionsvariablen = Daten_LR_Modell[Liste_Unabhaengige_Regressionsvariablen]
    Daten_Abhaengige_Regressionsvariable = Daten_LR_Modell[Abhaengige_Regressionsvariable]
    
    LR_Modell = LinearRegression(
    ).fit(Daten_Unabhaengige_Regressionsvariablen, 
          Daten_Abhaengige_Regressionsvariable)
    
    Daten_LR_Modell['Trend'] = LR_Modell.predict(Daten_Unabhaengige_Regressionsvariablen)
    
    Daten_LR_Modell[Abhaengige_Regressionsvariable+'_trendbereinigt']\
    = Daten_LR_Modell[Abhaengige_Regressionsvariable] \
    - Daten_LR_Modell['Trend'] \
    + Daten_LR_Modell['Trend'].mean()
    
    for Unabhaengige_Ceteris_Paribus_Regressionsvariable \
    in Liste_Unabhaengige_Regressionsvariablen:
        
        Ceteris_Paribus_Regressionsdatensatz = pd.DataFrame(index=Daten_LR_Modell.index)
        
        for Unabhaengige_Regressionsvariable in Liste_Unabhaengige_Regressionsvariablen:
            
            if Unabhaengige_Regressionsvariable == Unabhaengige_Ceteris_Paribus_Regressionsvariable:
                
                Ceteris_Paribus_Regressionsdatensatz[Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
                = DatenQuelle[Unabhaengige_Ceteris_Paribus_Regressionsvariable]
                
            else:
                
                Ceteris_Paribus_Regressionsdatensatz[Unabhaengige_Regressionsvariable] \
                = DatenQuelle[Unabhaengige_Regressionsvariable].mean()
                
        Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable \
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
        = LR_Modell.predict(Ceteris_Paribus_Regressionsdatensatz)
        
        Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable + '_trendbereinigt'\
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable] \
        = Daten_LR_Modell['Trend_' + Abhaengige_Regressionsvariable \
                        + '_iAv_'+ Unabhaengige_Ceteris_Paribus_Regressionsvariable].mean()
        
    
    return LR_Modell, Daten_LR_Modell

### Ein einfaches lineares Modell - Abhängigkeit der Fahrten von der Nummer des Tages

In [0]:
Liste_Unabhaengige_Regressionsvariablen = [
    'Tag',
]

LR_Modell, Daten_LR_Modell = LR_Modell_und_Daten(
    Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
    Abhaengige_Regressionsvariable='Fahrten',
    DatenQuelle=DatenQuelle)

In [0]:
Daten_LR_Modell.sample(5)

In [0]:
Grafik_Uebersicht(Abhaengige_Variable='Fahrten', 
                  DatenQuelle=Daten_LR_Modell)

In [0]:
Grafik_Uebersicht(Abhaengige_Variable='Fahrten_trendbereinigt', 
                  DatenQuelle=Daten_LR_Modell)

In [0]:
def Statistik(Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
              Abhaengige_Regressionsvariable='Fahrten', 
              Daten_LR_Modell=Daten_LR_Modell, 
              LR_Modell=LR_Modell):
    
    Steigung = LR_Modell.coef_
    
    y = Daten_LR_Modell[Abhaengige_Regressionsvariable]
    y_trend = Daten_LR_Modell['Trend']
    X = Daten_LR_Modell[Liste_Unabhaengige_Regressionsvariablen]
    
    var_y = np.sum((y - y_trend) ** 2) / len(y)
    X2 = np.hstack([X, np.ones((X.shape[0], 1))])
    C = var_y * np.linalg.inv(np.dot(X2.T, X2))
    var = C.diagonal()
    
    Fehler = np.sqrt(var[:])
    
    for Zaehler, Unabhaengige_Regressionsvariable \
    in enumerate(Liste_Unabhaengige_Regressionsvariablen):
        
        print('{0:.2f} +/- {1:.2f}'.format(Steigung[Zaehler], Fehler[Zaehler]), 
              Abhaengige_Regressionsvariable, 
              'je Einheit', 
              Unabhaengige_Regressionsvariable)
              
    return None

In [0]:
Statistik(Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen, 
          Abhaengige_Regressionsvariable='Fahrten', 
          Daten_LR_Modell=Daten_LR_Modell, 
          LR_Modell=LR_Modell)

In [0]:
def Lineare_Regressionsanalyse(
    Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
    Abhaengige_Regressionsvariable='Fahrten',
    DatenQuelle=DatenQuelle):
    
    LR_Modell, Daten_LR_Modell = LR_Modell_und_Daten(
        Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
        Abhaengige_Regressionsvariable=Abhaengige_Regressionsvariable,
        DatenQuelle=DatenQuelle)
    
    Grafik_Uebersicht_normal = \
    Grafik_Uebersicht(Abhaengige_Variable=Abhaengige_Regressionsvariable, 
                      DatenQuelle=Daten_LR_Modell)
    
    Grafik_Uebersicht_trendbereinigt = \
    Grafik_Uebersicht(Abhaengige_Variable=Abhaengige_Regressionsvariable + '_trendbereinigt', 
                      DatenQuelle=Daten_LR_Modell)
    
    Statistik(Liste_Unabhaengige_Regressionsvariablen=Liste_Unabhaengige_Regressionsvariablen,
              Abhaengige_Regressionsvariable=Abhaengige_Regressionsvariable, 
              Daten_LR_Modell=Daten_LR_Modell, LR_Modell=LR_Modell)
    
    return Grafik_Uebersicht_normal & Grafik_Uebersicht_trendbereinigt

In [0]:
Lineare_Regressionsanalyse(['Tag'])

### *Do-It-Yourself: Abhängigkeit der Fahrten von der Temperatur*

In [0]:
Lineare_Regressionsanalyse(['Temperatur'])

### Ein multi-lineares Modell - Abhängigkeit der Fahrten von Tageslänge und ist_Werktag

In [0]:
Lineare_Regressionsanalyse(['Tageslaenge', 'ist_Werktag'])

### *Do-It-Yourself: Abhängigkeit der Fahrten von Temperatur und Niederschlag*

### Das vollständige multi-lineare Modell

In [0]:
Lineare_Regressionsanalyse(['Tageslaenge', 'ist_Werktag', 'Temperatur', 'Niederschlag'])

In [0]:
Lineare_Regressionsanalyse(['Tageslaenge', 'ist_Werktag', 'Temperatur', 'Niederschlag', 'Tag'])

## Ergebnisse