# Viele Dateien

**Inhalt:** Massenverarbeitung von gescrapten Zeitreihen

**Nötige Skills:** Daten explorieren, Time+Date Basics

**Lernziele:**
- Pandas in Kombination mit Scraping
- Öffnen und zusammenfügen von vielen Dateien (Glob)
- Umstrukturierung von Dataframes (Pivot)
- Plotting Level 4 (Small Multiples)

## Das Beispiel

Wir interessieren uns in diesem Notebook für Krypto-Coins.

Die Webseite https://coinmarketcap.com/ führt Marktdaten zu den hundert wichtigsten Coins auf.

Mit einem einfachen Scraper werden wir diese Daten beschaffen.

Der Pfad zum Projektordner heisst `dataprojects/Krypto/`.

Zu jeder Kryptowährung haben wir ein csv-Datenfile im Unterordner `data/`.

## Vorbereitung

In [1]:
import pandas as pd

In [2]:
import numpy as np

In [3]:
import re

In [4]:
import glob

In [5]:
%matplotlib inline

## Daten laden

**In diesem Teil hat es einige neue Funktionen drin, die wir noch nicht kennen. Sie können sich einfach durchklicken.**

### Einlesen 1: ein einzelnes File

Zu jeder Kryptowährung gibt es eine Datei mit den Kursdaten. Wir laden testweise eines davon:

In [6]:
path = 'dataprojects/Krypto/'

In [7]:
df = pd.read_csv(path + 'data/Bitcoin.csv')

In [8]:
df.head(2)

Unnamed: 0,date,open,high,low,close,volume,marketcap
0,"Oct 12, 2019",8315.66,8415.24,8313.34,8336.56,14532641605,149965767624
1,"Oct 11, 2019",8585.26,8721.78,8316.18,8321.76,19604381101,149685618275


Das DF ist 366 Einträge lang (da zu 365 + 1 Tagen Daten vorliegen)

In [9]:
len(df)

366

Theoretisch könnten wir diesen Code jetzt für jede der 100 Währungen manuell wiederholen.

Doch das ist umständlich, wir wollen automatisch alle Währungen laden.

### Einlesen 2: Alle Files auf einmal

**Schritt 1: Liste von Dateinamen erstellen**

Wir starten damit, dass wir das Verzeichnis durchsuchen, in dem alle Kryptowährungs-Daten abgelegt sind.

Dazu benutzen wir `glob`, ein praktisches Tool aus der Standard Library: https://docs.python.org/3/library/glob.html

In [10]:
filenames = glob.glob(path + 'data/*.csv')

In [11]:
len(filenames)

100

Wir haben nun eine Liste von allen Dateinamen. Die ersten zwei Einträge sind:

In [12]:
filenames[0:2]

['dataprojects/Krypto/data/BitCapitalVendor.csv',
 'dataprojects/Krypto/data/XMax.csv']

**Schritt 2: Liste von Dataframes anhand der Dateinamen**

Nun lesen wir jede einzelne Datei aus der Liste ein - und zwar in eine **Liste von Dataframes**.

Diese Liste nennen wir `dfs[]`. Sie wird 100 Einträge haben, jedes davon ein Dataframe.

In [13]:
dfs = []

In [14]:
my_list = [3,5,8]

In [15]:
my_list

[3, 5, 8]

In [16]:
[item * 3 for item in my_list]

[9, 15, 24]

Zum Einlesen benutzen wir list comprehension...

In [17]:
dfs = [pd.read_csv(filename) for filename in filenames]

In [18]:
my_names = ['Michael', 'Paul', 'Simon']

[item+'a' for item in my_names]

['Michaela', 'Paula', 'Simona']

**Schritt 3: Zu jedem Dataframe den Währungsnamen hinzufügen**

Die einzelnen Dataframes in der Liste enthalten die Marktdaten. Doch sie enthalten selbst keine Information darüber, zu welcher Kryptowährung die Daten gehören. Wir führen zu dem Zweck in jedes Dataframe noch eine zusätzliche Spalte hinzu mit dem Namen der Währung. 

Praktisch ist zu diesem Zweck die Python-Funktion `zip()`. Sie fügt zwei separate Listen – hier: die Dataframes und die Dateinamen – wie ein Reissverschluss zusammen, so dass wir gleich durch beide aufs Mal loopen können.

In [19]:
for df, filename in zip(dfs, filenames):
    df['currency'] = filename
    df['currency'] = df['currency'].str.extract('/data/(.+).csv')

In [20]:
dfs[0].head(2)

Unnamed: 0,date,open,high,low,close,volume,marketcap,currency
0,"Oct 12, 2019",0.042286,0.043125,0.040426,0.040929,1173745,36475731,BitCapitalVendor
1,"Oct 11, 2019",0.043115,0.04317,0.040623,0.042298,1173758,37695631,BitCapitalVendor


**Schritt 4: Die DFs untereinander in ein einziges DF reihen**

Nun fügen wir alle Dataframes zu einem einzigen, sehr langen Dataframe zusammen.

Dazu benutzen wir die Funktion `pd.concat()`: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html

In [21]:
df_all = pd.concat(dfs, ignore_index=True)

Das resultierende DF ist nun 100x länger als die einzelnen zuvor:

In [22]:
df_all.shape

(34567, 8)

In [23]:
df_all.head(2)

Unnamed: 0,date,open,high,low,close,volume,marketcap,currency
0,"Oct 12, 2019",0.042286,0.043125,0.040426,0.040929,1173745,36475731,BitCapitalVendor
1,"Oct 11, 2019",0.043115,0.04317,0.040623,0.042298,1173758,37695631,BitCapitalVendor


In [24]:
df_all.tail(2)

Unnamed: 0,date,open,high,low,close,volume,marketcap,currency
34565,"Oct 13, 2018",0.174794,0.177004,0.173345,0.176677,3610690,177118564,Bytom
34566,"Oct 12, 2018",0.167734,0.177526,0.165599,0.174445,19126300,174880986,Bytom


In [25]:
df_all.dtypes

date          object
open         float64
high         float64
low          float64
close        float64
volume        object
marketcap     object
currency      object
dtype: object

Wir haben nun ein ellenlanges Dataframe. What next?

### Daten arrangieren

Das hängt davon ab, was wir mit den Daten genau tun wollen.

Eine Option wäre: die verschiedenen Währungen miteinander zu vergleichen. Und zwar anhand der Schlusskurse.

Dazu müssen wir das Dataframe leicht umstellen, mit `pivot()`: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot.html

In [26]:
df_pivoted = df_all.pivot(index='date', columns='currency', values='close')


Mit `pivot()` haben wir folgendes gemacht:
- Statt im "Long"-Format sind die Daten nun im "Wide"-Format
- Das heisst in diesem Fall: Wir haben es anhand der Währungen rearrangiert (`columns='currency'`)
- Die Währungen stehen jetzt nicht mehr *untereinander*, sondern *nebeneinander*
- Die Info, die wir für jede Währung ausgewählt haben, ist der Schlusskurs `values='Close'`)
- Das DF ist jetzt wieder nur noch 366 Zeilen lang.
- Index jeder Zeile ist ein Datum (`index='date'`)

In [27]:
df_pivoted.shape

(366, 100)

In [31]:
df_pivoted.head(3)

currency,0x,ABBC Coin,Aeternity,Algorand,Ardor,Augur,Aurora,Basic Attenti...,Binance Coin,BitCapitalVendor,...,VeChain,Verge,Waves,XMax,XRP,ZB,Zcash,Zcoin,Zilliqa,aelf
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2019-04-01,0.33306,0.174615,0.535463,,0.082073,15.81,0.013118,0.284441,17.95,0.020534,...,0.006285,0.007409,2.89,0.000213,0.312747,0.356519,62.42,7.8,0.020646,0.186018
2019-04-02,0.376557,0.187213,0.588288,,0.087155,17.62,0.014222,0.321107,19.79,0.02099,...,0.007243,0.008337,3.09,0.000262,0.351499,0.340334,69.94,8.27,0.02251,0.197836
2019-04-03,0.354311,0.199514,0.618482,,0.08719,19.88,0.013433,0.286875,18.75,0.019601,...,0.007324,0.00854,2.89,0.000246,0.342234,0.339856,69.03,8.37,0.022189,0.197425


Nun verfügen wir über einen Index, bei dem eine Zeile jeweils einem einzigartigen Zeitpunkt entspricht.

Wir verschönern die Indexspalte noch etwas:

In [32]:
df_pivoted.index =pd.to_datetime(df_pivoted.index)

In [33]:
df_pivoted.head()

currency,0x,ABBC Coin,Aeternity,Algorand,Ardor,Augur,Aurora,Basic Attenti...,Binance Coin,BitCapitalVendor,...,VeChain,Verge,Waves,XMax,XRP,ZB,Zcash,Zcoin,Zilliqa,aelf
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2019-04-01,0.33306,0.174615,0.535463,,0.082073,15.81,0.013118,0.284441,17.95,0.020534,...,0.006285,0.007409,2.89,0.000213,0.312747,0.356519,62.42,7.8,0.020646,0.186018
2019-04-02,0.376557,0.187213,0.588288,,0.087155,17.62,0.014222,0.321107,19.79,0.02099,...,0.007243,0.008337,3.09,0.000262,0.351499,0.340334,69.94,8.27,0.02251,0.197836
2019-04-03,0.354311,0.199514,0.618482,,0.08719,19.88,0.013433,0.286875,18.75,0.019601,...,0.007324,0.00854,2.89,0.000246,0.342234,0.339856,69.03,8.37,0.022189,0.197425
2019-04-04,0.336743,0.18827,0.619473,,0.086993,19.31,0.012403,0.284135,19.14,0.01967,...,0.007242,0.008634,2.8,0.000242,0.332513,0.329379,67.29,8.4,0.022738,0.224177
2019-04-05,0.358358,0.184969,0.642781,,0.088702,19.69,0.018812,0.308017,19.45,0.023826,...,0.007517,0.008997,2.9,0.000263,0.361803,0.337334,72.11,8.74,0.024953,0.225978


Wir haben nun ein sauber formatiertes Dataframe mit hundert Spalten, die für jede Kryptowährung, sofern sie zum betreffenden Zeitpunkt existierte, einen Handelskurs enthält.

**Grossartig! Wir sind damit bereit für die Datenanalyse. Ab hier sind Sie an der Reihe...**

## Analyse

### Vorbereitung

Remember: Mit welchem Typ von Daten haben wir es hier zu tun...?

... genau: mit einer Zeitreihe.

Um damit zu arbeiten, müssen wir den Text in der Indexspalte in ein echtes Datum umwandeln.

Und wir müssen den Datums-Index aufsteigend sortieren.

Die nächste Frage ist: Wie vergleichen wir diese Kurse? Was sagt es aus, wenn eine Währung an einem bestimmten Tag zu 0,1976 USD gehandelt wurde und eine andere zu 18,66 USD?

### Vergleichbarkeit herstellen

Diverse Dinge würden sich hier anbieten:
- zB `pct_change()` um die Veränderungen in den Kursen zu analysieren
- oder eine indexierte Zeitreihe, die an einem bestimmten Tag bei 100 beginnt

Wir wählen die zweite Variante. Und speichern dazu die erste Zeile separat ab.

Dann teilen wir jede einzelne Zeile im Dataframe durch die erste Zeile. Und speichern als neues DF ab.

Das neue Dataframe müsste nun indexiert auf 100 sein: Alle Währungen starten am gleichen Punkt.

Stimmt das wirklich? Schauen Sie sich die ersten fünf Zeilen an, um sicher zu sein...

### Auswertung

Anhand der letzten Reihe können wir ablesen, wie viel eine Währung in den 366 Tagen an Wert gewonnen oder verloren hat.

Zeigen Sie die letzte Reihe an und speichern sie in einer neuen Series.

Welche zehn Kryptowährungen haben am meisten Wert gewonnen?

Welche haben am meisten Wert verloren?

### Plots

Erstellen Sie einen einfachen Linienplot mit den relativen Kursen aller Währungen (Start bei 100).

Wow, das sind ziemlich viele Linien! Beschränken wir uns mal auf zehn Kryptowährungen statt hundert.

Wir finden dazu eine Liste, die wir praktischerweise von unserem Scraper noch auf die Seite gelegt haben...

... sie ist gespeichert unter: `dataprojects/Krypto/currencies.csv`.

Laden Sie die Datei und zeigen Sie die ersten zehn Zeilen an.

Speichern Sie die ersten zehn Einträge der Spalte "name" separat ab.

Sie können die Spalten im Dataframe mit den relativen Kursen nun anhand dieser Liste filtern.

Plotten Sie nun ausschliesslich die Entwicklung der zehn ausgewählten Währungen.

Was fällt Ihnen auf?

In [None]:
# 

# Plotting Level 4

**Hier geht es wieder gemütlicher zu und her - Sie können sich durchklicken und müssen nichts programmieren.**

Inhalt dieser Plotting-Lektion:

- Wir lernen, wie "Small Multiples" geht
- Wir sehen, wie man die matplotlib-Funktionen direkt benutzen kann.

Dazu importieren wir erstmal ein paar Libraries...

In [None]:
import matplotlib.pyplot as plt

In [None]:
import matplotlib.dates as mdates
import matplotlib.ticker as ticker

... und laden eine Datei, welche das Ergebnis der bisherigen Übung enthält (die relativen Kurse aller Währungen).

In [None]:
# df_pivoted_100.to_csv(path + 'Close_indexed_to_100.csv')

In [None]:
df_relative = pd.read_csv(path + 'Close_indexed_to_100.csv', index_col=0)
df_relative.index = pd.to_datetime(df_relative.index)

### Ein Plot

Starten wir zuerst mal mit einem Plots: Bitcoin.

Technisch gesehen besteht jede Matplotlib-/Pandas-Grafik aus zwei Dingen:
1. Eine "figure", also eine Abbildung, gewissermassen das Blatt Papier
1. Ein "subplot", also der einzelne Plot selbst, pro "Papier" können es auch mehrere sein

In [None]:
# Wir erstellen beide Dinge in einem Atemzug: figure und subplot
fig, ax = plt.subplots(figsize=(10,6))

# Und füllen den Plot jetzt mit Inhalt:
df_relative['Bitcoin'].plot(title="Bitcoin", ax=ax)

### Zwei Plots

Als nächstes Plotten wir zwei Währungen auf derselben Figure: Bitcoin und Ethereum.

Wir müssen uns dazu erneut zwei Dinge basteln:
1. Eine "figure", also eine Abbildung
1. Diverse "subplots" für die jeweiligen Währungen

Dazu formatieren wir jetzt die x-Achse etwas speziell.

In [None]:
# Zuerst kreieren wir nur die Figure
fig = plt.figure(figsize=(12,3))

# Danach die einzelnen Subplots
ax1 = fig.add_subplot(1, 2, 1) # total 1 Zeile, total 2 Spalten, Subplot Nr. 1
ax2 = fig.add_subplot(1, 2, 2) # total 1 Zeile, total 2 Spalten, Subplot Nr. 2

# Und schliesslich füllen wir die Subplots mit Inhalt
df_relative['Bitcoin'].plot(title="Bitcoin", ax=ax1)
df_relative['Ethereum'].plot(title="Ethereum", ax=ax2)

# Hier formatieren wir die x-Achse für Plot 1
ax1.xaxis.set_major_locator(mdates.MonthLocator())
ax1.xaxis.set_major_formatter(mdates.DateFormatter('%m'))
ax1.xaxis.set_minor_locator(ticker.NullLocator())

# Hier formatieren wir die x-Achse für Plot 2
ax2.xaxis.set_major_locator(mdates.MonthLocator())
ax2.xaxis.set_major_formatter(mdates.DateFormatter('%m'))
ax2.xaxis.set_minor_locator(ticker.NullLocator())

Einige Angaben dazu, wie man Zeitachsen formatieren kann, gibt es hier:
- TickLocators: https://matplotlib.org/examples/ticks_and_spines/tick-locators.html
- TickFormatters: https://matplotlib.org/gallery/ticks_and_spines/tick-formatters.html

### Sehr viele Plots

Nun plotten wir sämtliche Währungen, die keine "NaN"-Werte enthalten, auf einmal.

Dazu isolieren wir erst kurz die letzte Zeile.

In [None]:
s_last = df_relative.iloc[-1]

Wie viele Währungen sind nicht "NaN"?

In [None]:
anzahl_charts = s_last.notnull().sum()
anzahl_charts

Wir sortieren unsere Liste der Währungen anhand der letzten Zeile etwas:

In [None]:
sortierte_waehrungen = s_last[s_last.notnull()].sort_values(ascending=False)
sortierte_waehrungen.head(2)

Und wiederholen dann wiederum dasselbe Vorgehen wie vorher.

In [None]:
# Eine Abbildung, die gross genug ist
fig = plt.figure(figsize=(15,18))

# Und nun, für jede einzelne Währung einen Subplot:
for i, waehrung in enumerate(sortierte_waehrungen.index):
    
    # einen Subplot kreieren ... ()
    ax = fig.add_subplot(11, 8, i + 1)

    # ... und mit Inhalt füllen
    df_pivoted_100[waehrung].plot(title=waehrung, ax=ax)
    
    # Auf Ticks verzichten wir hier ganz
    ax.xaxis.set_major_locator(ticker.NullLocator())
    ax.xaxis.set_minor_locator(ticker.NullLocator())

Falls wir zusätzlich noch wollen, dass jeder Plot dieselbe y-Achse hat:

In [None]:
# Eine Abbildung, die gross genug ist
fig = plt.figure(figsize=(15,18))

# Und nun, für jede einzelne Währung:
for i, waehrung in enumerate(sortierte_waehrungen.index):
    
    # einen Subplot kreieren ...
    ax = fig.add_subplot(11, 8, i + 1)

    # ... und mit Inhalt füllen
    df_pivoted_100[waehrung].plot(title=waehrung, ax=ax)
    
    # Auf Ticks verzichten wir hier ganz
    ax.xaxis.set_major_locator(ticker.NullLocator())
    ax.xaxis.set_minor_locator(ticker.NullLocator())
    
    # Hier setzen wir eine einheitliche y-Achse (und schalten sie aus)
    ax.set_ylim([0, 2500])
    ax.yaxis.set_major_locator(ticker.NullLocator())

### Aber es geht auch einfacher...

Ha! Nachdem wir nun alles Manuell zusammengebastelt haben, mit Matplotlib, hier die gute Nachricht:

*Wir können das mit wenigen Codezeilen auch direkt aus der Pandas-Plot()-Funktion haben :-)*

Die entscheidenden Parameter in der `plot()`-Funktion sind hier:
- `subplots=True` (zeichnet small multiples statt alles nur auf einem Chart)
- `sharey=True` (alle Subplots sollen dieselbe y-Achse verwenden)

In [None]:
axes = df_pivoted_100[sortierte_waehrungen.index].plot(subplots=True,layout=(11, 8), sharey=True, figsize=(15,18))

axes[0,0].xaxis.set_major_locator(ticker.NullLocator())
axes[0,0].xaxis.set_minor_locator(ticker.NullLocator())

# Übung

**In dieser letzten Sektion haben Sie nochmals Gelegenheit, alles zu üben – Daten arrangieren, analysieren, plotten**

Hier schauen wir uns nicht mehr die Handelskurse, sondern die Handelsvolumen an! Also: Wie viel von den einzelnen Kryptowährungen an einem bestimmten Tag gekfauft und verkauft wurde (gemessen in USD).

Schauen Sie sich nochmals das Dataframe `df_all` an, das wir im Verlauf des Notebooks erstellt haben - es enthält alle Informationen, die wir brauchen, ist aber noch relativ unstrukturiert.

In [None]:
df_all.head(2)

Welche Spalte interessiert uns? Müssen wir noch etwas daran machen?

### Daten arrangieren

Unternehmen Sie die nötigen Schritte, um mit der Spalte arbeiten zu können. Sie sollten am Ende eine Spalte haben, die nicht mehr als Object, sondern als Float formatiert ist.

Tipp: Speichern Sie alle Modifikationen in einer neuen Spalte ab, damit das Original unverändert bleibt.

Nun wollen wir die Daten umgliedern:
- Für jedes Datum wollen wir eine Zeile
- Für jede Kryptowährung eine Spalte
- Wir interessieren uns für die Handelsvolumen

Formatieren Sie die Werte in der Index-Spalte als Datetime-Objekte und sortieren Sie das Dataframe nach Datum.

### Analyse

Wir machen in dieser Sektion einige einfache Auswertungen und repetieren einige Befehle, u.a. aus dem Time Series Sheet.

**Top-10**: Welches waren, im Schnitt, die zehn meistgehandelten Währungen? Liste und Chart.

Welches waren die zehn Währungen, bei denen das Volumen in absoluten Zahlen am meisten geschwankt ist? (Standardabweichung)

Sieht so aus, als wären es dieselben zehn Währungen.

Können wir angeben, welche von ihnen relativ die grössten Schwankungen hatten, also im Vergleich zum Handelsvolumen?

**Bitcoin vs Ethereum**

Erstellen Sie einen Chart mit dem wöchentlichen Umsatztotal von Bitcoin und Ethereum!

Tipp: Resampling benutzen!

In welchem der letzten 12 Monate wurde insgesamt am meisten mit Bitcoin gehandelt? Mit Ethereum?

Wie viel Bitcoin und Ethereum wird im Durchschnitt an den sieben Wochentagen gehandelt? Barchart.

**Small Multiples**: Hier erstellen wir einen Plot, ähnlich wie oben

Kreieren Sie zuerst eine Liste von Währungen:
- Alle Währungen, die am letzten Handelstag einen Eintrag haben
- Sortiert in absteigender Reihenfolge nach dem Handelsvolumen
- Wir wählen nur die zehn grössten aus

Und jetzt: Small Multiples plotten! Überlegen Sie sich:
- Wie viele Subplots braucht es, wie sollen sie angeordnet sein?
- Wie gross muss die Abbildung insgesamt sein?
- Was ist eine sinnvolle Einstellung für die Y-Achse?

Alternative syntax dafür: