# Finance Project

In diesem Datenprojekt werden wir uns auf die Analyse von Aktienpreise konzentrieren. Denkt dabei daran, dass es hier primär um die Visualisierungs- und Analysefähigkeiten geht, nicht daraum verlässliche Finanzanalysen durchzuführen.

**Achtung**: Dieses Projekt wird eine große Herausforderung weil es eine Menge neuer Konzepte einführt, die ihr selbst recherchieren müsst. Nichtsdestotrotz werden wir die notwendigen Hinweise geben. Dabei sei es jedem freigestellt parallel ins Lösungsnotebook oder das Video-Material zu schauen und dieses Projekt als "Walkthrough" zu lösen.

Wir werden uns nun also Bankaktien anschauen und wie sie sich seit der Finanzkrise bis Anfang 2016 entwickelt haben.

## Data

In dieser Sektion werden wir lernen, wie wir mit Pandas direkt Daten aus Google Finance lesen können.

Zuerst müssen wir demnach einige Imports machen, welche im Rahmen dieses Projektes gegeben sind.

*Hinweis: Zum korrekten Auslesen der Finanzdaten müssen wir noch den [pandas-datareader](https://github.com/pydata/pandas-datareader) installieren:*

    conda install pandas-datareader

### Imports

In [1]:
# pip install pandas_datareader
from pandas_datareader import data, wb
import pandas as pd
import numpy as np
from datetime import datetime
%matplotlib inline


# show full output
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

### Daten

Wir können die Daten durch verwendung des *Pandas Datareader* erhalten. Dieser liefert uns Aktieninformationen zu den folgenden Banken:

* Bank of America
* CitiGroup
* Goldman Sachs
* JPMorgan Chase
* Morgan Stanley
* Wells Fargo

**Finde nun heraus, wie du die Aktiendaten vom 5 Jahren zurück bis heute für jede dieser Banken erhälst. Erstelle dazu für jede Bank einen eigenen DataFrame. Die Namen dieser DataFrames sollen dem Ticker Symbol (z.B.: BAC für Bank of America) entsprechen. Das alles benötigt einige Schritte:**

1. Nutze `datetime`, um Start und Ende Objekte zu erstellen. 
 **Achtung die Parameter für start und end haben leider in der   aktuellen pandas-datareader Version einen Bug**
2. Finde das Ticker Symbol für jede Bank heraus.
3. Finde heraus, wie du den datareader nutzen kannst, um die Informationen zu erhalten.

**Nutze diese [Dokumentationsseite](http://pandas.pydata.org/pandas-docs/stable/ecosystem.html) für Hinweise und Tipps. Es sollte dabei nur um das richtige Ersetzen bestimmter Daten gehen. Nutze "Stooq.com" als Quelle. Zum Beispiel:**

    # Bank of America
    # Achtung die Parameter für start und end haben leider in der aktuellen pandas-datareader Version einen Bug. 
    # und werden nicht angewendet
    BAC = data.DataReader("BAC","stooq",start,end)

In [2]:
BAC1 = data.DataReader(name="BAC", data_source="stooq")
banks = pd.read_pickle('..\..\..\data\\all_banks')

banks.head()
# banks.tail()

# banks.index
# banks.columns
# banks.info()
# banks.plot()
# BAC.plot()

Bank Ticker,BAC,BAC,BAC,BAC,BAC,C,C,C,C,C,...,MS,MS,MS,MS,MS,WFC,WFC,WFC,WFC,WFC
Stock Info,Open,High,Low,Close,Volume,Open,High,Low,Close,Volume,...,Open,High,Low,Close,Volume,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2006-01-03,46.92,47.18,46.15,47.08,16296700,490.0,493.8,481.1,492.9,1537660,...,57.17,58.49,56.74,58.31,5377000,31.6,31.98,31.2,31.9,11016400
2006-01-04,47.0,47.24,46.45,46.58,17757900,488.6,491.0,483.5,483.8,1871020,...,58.7,59.28,58.35,58.35,7977800,31.8,31.82,31.36,31.53,10871000
2006-01-05,46.58,46.83,46.32,46.64,14970900,484.4,487.8,484.0,486.2,1143160,...,58.55,58.59,58.02,58.51,5778000,31.5,31.56,31.31,31.5,10158000
2006-01-06,46.8,46.91,46.35,46.57,12599800,488.8,489.0,482.0,486.2,1370250,...,58.77,58.85,58.05,58.57,6889800,31.58,31.78,31.38,31.68,8403800
2006-01-09,46.72,46.97,46.36,46.6,15620000,486.0,487.4,483.0,483.9,1680740,...,58.63,59.29,58.62,59.19,4144500,31.68,31.82,31.56,31.68,5619600


In [3]:
banks_cols = banks.columns
bank_set = set([x[0] for x in banks_cols])

start = datetime(2007, 1, 1)
end = datetime(2012, 12, 31)

# Bank of America - BAC
BAC = banks["BAC"]

BAC2 = data.DataReader(name="BAC", data_source="stooq", start=start, end=end)

# CitiGroup
C = banks["C"]

# Goldman Sachs 
GS = banks["GS"]

# JPMorgan Chase 
JPM = banks["JPM"]

# Morgan Stanley
MS = banks["MS"]

# Wells Fargo
WFC = banks["WFC"]

**Erstelle eine Liste der Ticker Symbole (als String) in alphabetischer Reihenfolge. Nenne diese Liste "tickers".**

In [4]:
tickers = list(bank_set)
tickers.sort()
tickers

['BAC', 'C', 'GS', 'JPM', 'MS', 'WFC']

**Nutze `pd.concat`, um die einzelnen DataFrames zu einem Banken-DataFrame namens "bank_stocks" zusammenzufassen. Setze dabei das Keys (dt. Schlüssel) Argument gleich der tickers-Liste.**

*Hinweis: Achte auf die Achse auf die du `concat` anwendest.*

In [5]:
bank_stocks = pd.concat([BAC, C, GS, JPM, MS, WFC], axis=1, keys=tickers)

# bank_stocks.head()
# bank_stocks.info()
# bank_stocks.index
# bank_stocks.columns

**Definiere die Spalten namen (bereits vorausgefüllt).**

In [6]:
bank_stocks.columns.names = ["Bank Ticker", "Stock Info"]

**Schaue dir den head des bank_stocks DataFrame an.**

In [7]:
bank_stocks.head()

Bank Ticker,BAC,BAC,BAC,BAC,BAC,C,C,C,C,C,...,MS,MS,MS,MS,MS,WFC,WFC,WFC,WFC,WFC
Stock Info,Open,High,Low,Close,Volume,Open,High,Low,Close,Volume,...,Open,High,Low,Close,Volume,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2006-01-03,46.92,47.18,46.15,47.08,16296700,490.0,493.8,481.1,492.9,1537660,...,57.17,58.49,56.74,58.31,5377000,31.6,31.98,31.2,31.9,11016400
2006-01-04,47.0,47.24,46.45,46.58,17757900,488.6,491.0,483.5,483.8,1871020,...,58.7,59.28,58.35,58.35,7977800,31.8,31.82,31.36,31.53,10871000
2006-01-05,46.58,46.83,46.32,46.64,14970900,484.4,487.8,484.0,486.2,1143160,...,58.55,58.59,58.02,58.51,5778000,31.5,31.56,31.31,31.5,10158000
2006-01-06,46.8,46.91,46.35,46.57,12599800,488.8,489.0,482.0,486.2,1370250,...,58.77,58.85,58.05,58.57,6889800,31.58,31.78,31.38,31.68,8403800
2006-01-09,46.72,46.97,46.36,46.6,15620000,486.0,487.4,483.0,483.9,1680740,...,58.63,59.29,58.62,59.19,4144500,31.68,31.82,31.56,31.68,5619600


## Explorative Datenanalyse

Lasst uns die Daten etwas untersuchen! Doch bevor wir damit loslegen ermutige ich euch, das [Multi-Level Indexing](http://pandas.pydata.org/pandas-docs/stable/advanced.html) und die [Nutzung von .xs](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.xs.html) genauer anzuschauen.

**Was ist der maximale Kurs zum Handelsschluss (en. close price) für jede der Banken in unserer gesamten Zeitperiode?**

In [8]:
bank_stocks.columns
bank_stocks.index
bank_stocks.xs(key="Close", axis='columns', level="Stock Info")
bank_stocks.xs(key="Close", axis='columns', level="Stock Info").max()

MultiIndex([('BAC',   'Open'),
            ('BAC',   'High'),
            ('BAC',    'Low'),
            ('BAC',  'Close'),
            ('BAC', 'Volume'),
            (  'C',   'Open'),
            (  'C',   'High'),
            (  'C',    'Low'),
            (  'C',  'Close'),
            (  'C', 'Volume'),
            ( 'GS',   'Open'),
            ( 'GS',   'High'),
            ( 'GS',    'Low'),
            ( 'GS',  'Close'),
            ( 'GS', 'Volume'),
            ('JPM',   'Open'),
            ('JPM',   'High'),
            ('JPM',    'Low'),
            ('JPM',  'Close'),
            ('JPM', 'Volume'),
            ( 'MS',   'Open'),
            ( 'MS',   'High'),
            ( 'MS',    'Low'),
            ( 'MS',  'Close'),
            ( 'MS', 'Volume'),
            ('WFC',   'Open'),
            ('WFC',   'High'),
            ('WFC',    'Low'),
            ('WFC',  'Close'),
            ('WFC', 'Volume')],
           names=['Bank Ticker', 'Stock Info'])

DatetimeIndex(['2006-01-03', '2006-01-04', '2006-01-05', '2006-01-06',
               '2006-01-09', '2006-01-10', '2006-01-11', '2006-01-12',
               '2006-01-13', '2006-01-17',
               ...
               '2015-12-17', '2015-12-18', '2015-12-21', '2015-12-22',
               '2015-12-23', '2015-12-24', '2015-12-28', '2015-12-29',
               '2015-12-30', '2015-12-31'],
              dtype='datetime64[ns]', name='Date', length=2517, freq=None)

Bank Ticker,BAC,C,GS,JPM,MS,WFC
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2006-01-03,47.08,492.90,128.87,40.19,58.31,31.90
2006-01-04,46.58,483.80,127.09,39.62,58.35,31.53
2006-01-05,46.64,486.20,127.04,39.74,58.51,31.50
2006-01-06,46.57,486.20,128.84,40.02,58.57,31.68
2006-01-09,46.60,483.90,130.39,40.67,59.19,31.68
...,...,...,...,...,...,...
2015-12-24,17.27,52.71,182.47,66.60,32.48,54.82
2015-12-28,17.13,52.38,181.62,66.38,32.17,54.68
2015-12-29,17.28,52.98,183.53,67.07,32.55,55.29
2015-12-30,17.05,52.30,182.01,66.59,32.23,54.89


Bank Ticker
BAC     54.90
C      564.10
GS     247.92
JPM     70.08
MS      89.30
WFC     58.52
dtype: float64

**Erstelle einen neuen leeren DataFrame namens "returns" (dt. Rendite). Dieser DataFrame wird die Renditen für die Aktien der Banken beinhalten. Renditen sind typischerweise wie folgt definiert:**

$$r_t = \frac{p_t - p_{t-1}}{p_{t-1}} = \frac{p_t}{p_{t-1}} - 1$$

In [9]:
returns = pd.DataFrame()

**Wir können nun Pandas `pct_change()` Methode auf den Schlusskurs anwenden, um eine Spalte zu erzeugen, die die Renditen beinhaltet. Erstelle dazu eine `for` Schleife, die für jeden Bank Aktienticker diese Renditenspalte erzeugt und sie in unseren returns DataFrame schreibt.**

**Erstelle jetzt ein `pairplot` mit Seaborn vom returns DataFrame. Welche Aktien stechen heraus? Woran könnte das liegen?**

In [10]:
#returns[1:]


Hintergrundinformationen zum Crash der Citigroup Aktie gibts [hier](https://en.wikipedia.org/wiki/Citigroup#November_2008.2C_Collapse_.26_US_Government_Intervention_.28part_of_the_Global_Financial_Crisis.29).

Man sieht außerdem einen enormen Crash im Wert der Aktien (was wir bei den Visualisierungen später noch tun werden).

**Unter Verwendung des return DataFrame: finde heraus an welchem Tag die jeweiligen Banken die besten und schlechtesten Eintagesrenditen hatten. Dabei sollte dir auffallen, dass 4 der Banken ihren schlechtesten am selben Tag hatte. Was passierte an diesem Tag?**

**Dabei sollte aufgefallen sein, dass der größte Einbruch und Gewinn der Citigroup nahe zusammen liegen. Ist etwas signifikantes passiert?**

[Citigroup had a stock split.](https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=citigroup+stock+2011+may)

**Betrachte jetzt die Standardabweichung der Renditen. Welche Aktie würdest du demnach als die riskanteste über den gesamten Zeitraum hinweg bezeichnen? Welche würdest du als riskanteste im Jahr 2016 bezeichnen?**

**Erstelle ein `distplot` mit Seaborn für die Renditen von Morgan Stranley in 2016.**

**Erstelle ein `distplot` mit Seaborn für die Renditen der CitiGroup in 2015.**

## Mehr Visualisierungen

Der folgende Teil dieses Projekts dreht sich komplett um Visualisierungen.  Nutze dabei eine Library deiner Wahl, oder mehrere. Ziel ist es, die abgebildeten Visualisierungen nachzustellen. Wähle zwischen Seaborn, Matplotlib, Plotly, Cufflinks oder einfach Pandas.

### Importe

In [11]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style('whitegrid')
% matplotlib inline

import cufflinks as cf
cf.go_offline()

UsageError: Line magic function `%` not found.


**Erstelle ein Liniendiagramm, das die Tagesschlusspreise für jede Bank für die gesamte Zeitperiode zeigt.**

*Hinweis: Eine `for` Schleife oder .xs können funktionieren.*

In [None]:
# Plotly

### Laufender Durchschnitt

Lasst uns den laufenden Durchschnitt für diese Aktien im Jahr 2008 berechnen.

**Zeichne den laufenden 30-Tages-Durchschnitt gegen den Tagesschlusspreis für die Bank of America im Jahr 2008.**

**Erstelle eine `heatmap` der Korrelation zwischen den Schlusspreisen der Banken.**

**Optional: Nutze die `clustermap` aus Seaborn, um die Korrelationen zu clustern.**

# Gut gemacht!
