<p style="text-align: center; font-size: 300%"> Einführung in die Programmierung mit Python </p>
<img src="img/logo.svg" alt="LOGO" style="display:block; margin-left: auto; margin-right: auto; width: 30%;">

## Syllabus
1. Python installieren; Jupyter Notebooks
2. Grundlagen: Arithmethik, Variablen und Datentypen
3. Methoden; Listen; Bedingte Anweisungen
4. Schleifen
5. Benutzerdefinierte Funktionen
6. **Datenaufbereitung und Grafische Darstellungen**

# Python-Pakete
* Der Funktionsumfang von Python lässt sich mit sogenannten *Paketen* erweitern.
* Viele davon sind in Anaconda bereits vorinstalliert. Wir müssen sie nur laden (*importieren*):

In [None]:
import numpy  # Paket für numerische Berechnungen. Siehe optionales Notebook

Nun kann man Funktionen aus dem Paket wie folgt verwenden:

In [None]:
numpy.mean([1, 2, 3])

Um sich Tipparbeit zu ersparen, kann man beim Import einen Kurznamen angeben. Dieser ist willkürlich, aber für häufig genutzte Pakete haben sich Konventionen ergeben, z.B. `np` für numpy:

In [None]:
import numpy as np
np.mean([1, 2, 3])

Es ist auch möglich, bestimmte Funktionen aus einem Paket zu importieren, so dass man sie direkt verwenden kann:

In [None]:
from numpy import mean
mean([1, 2, 3])

### Pandas Dataframes
#### Einführung in Pandas
* `pandas` (von *p*anel *d*ata) ist eines der wichtigsten Pakete ([Benutzerhandbuch](http://pandas.pydata.org/pandas-docs/stable/overview.html)).
* Es bietet eine Reihe von Datenstrukturen (*series*, *dataframes* und *panels*), die für die Speicherung von Beobachtungsdaten entwickelt wurden, sowie leistungsstarke Methoden zur Manipulation (*munging* oder *wrangling*) dieser Daten.
* Es wird üblicherweise als `pd` importiert:

In [None]:
import pandas as pd

* Pandas ist unglaublich leistungsfähig; wir werden hier nur die Oberfläche ankratzen. In der Praxis sind LLMs nützlich, um jeweils die richtige Syntax zu finden.

#### Series
* Eine Pandas `Series` ist im Wesentlichen ähnlich einer Liste (genauer einem NumPy-Array), jedoch nicht unbedingt mit Ganzzahlen indiziert.

In [None]:
pop = pd.Series([5.7, 82.7, 17.0], name='Bevölkerung'); pop  # der beschreibende Name ist optional

* Der Unterschied ist, dass der Index beliebig sein kann, nicht nur eine Liste von Ganzzahlen:

In [None]:
pop.index=['DK', 'DE', 'NL']

* Der Index kann für die Indizierung verwendet werden (offensichtlich...):

In [None]:
pop['NL']

* Der Index bleibt bei Operationen an einer `Series` erhalten:

In [None]:
gdp = pd.Series([3494.898, 769.930], name='Nominales BIP in Milliarden USD', index=['DE', 'NL']); gdp

In [None]:
gdp / pop

* Ein Vorteil von `Series` im Vergleich zu Listen (bzw. NumPy-Arrays) ist, dass sie mit fehlenden Daten umgehen können, die als `NaN` (Not A Number) dargestellt werden.

#### Dataframes

* Ein `DataFrame` ist eine Sammlung von `Series` mit einem gemeinsamen Index (der die Zeilen beschriftet).

In [None]:
data = pd.concat([gdp, pop], axis=1, sort=False); data  # zwei Series zu einem DataFrame zusammenführen.

* Spalten werden durch Spaltennamen indiziert:

In [None]:
data.columns

In [None]:
data['Bevölkerung']  # data.Bevölkerung funktioniert auch

* Zeilen werden mit der Methode `loc` indiziert:

In [None]:
data.loc['NL']

* Im Gegensatz zu Arrays können Dataframes Spalten mit unterschiedlichen Datentypen haben.
* Es gibt verschiedene Möglichkeiten, Spalten hinzuzufügen. Eine davon ist, einfach einer neuen Spalte zuzuweisen:

In [None]:
data['Sprache'] = ['Deutsch', 'Niederländisch', 'Dänisch']  # eine neue Spalte aus einer Liste hinzufügen

* Um Zeilen hinzuzufügen, verwenden Sie `loc` oder `concat`:

In [None]:
print(data.loc["DE"])
data.loc['AT'] = [386.4, 8.7, 'Deutsch']  # eine Zeile mit dem Index 'AT' hinzufügen.
s = pd.DataFrame([[511.0, 9.9, 'Schwedisch']], index=['SE'], columns=data.columns)
data = pd.concat([data, s])  # eine Zeile durch Anhängen eines weiteren Dataframes hinzufügen. Kann Duplikate erzeugen.
data

* Die Methode `dropna` kann verwendet werden, um Zeilen mit fehlenden Werten zu löschen:

In [None]:
data = data.dropna(); data

* Nützliche Methoden zur Gewinnung von Zusammenfassungsinformationen über einen Dataframe sind `mean`, `std`, `info`, `describe`, `head` und `tail`.

In [None]:
data.describe()

In [None]:
data.head() # zeigt die ersten paar Zeilen; data.tail zeigt die letzten paar

* Um einen Dataframe als CSV-Datei auf der Festplatte zu speichern, verwenden Sie

In [None]:
data.to_csv('myfile.csv') # to_excel existiert ebenfalls.

* Um Daten in einen Dataframe zu laden, verwenden Sie `pd.read_csv`:

In [None]:
pd.read_csv('myfile.csv', index_col=0)

In [None]:
import os
os.remove('myfile.csv') # aufräumen

Normalerweise erstellen Sie Dataframes nicht von Grund auf; sie entstehen eher durch das Abrufen von Daten aus einer Quelle. Zum Beispiel kann das Paket yfinance Daten direkt von Yahoo Finance herunterladen.

In [None]:
# !pip install yfinance
import yfinance as yf
from datetime import datetime, timedelta
end_date = datetime.now()
start_date = end_date - timedelta(days=5*365)  # siehe unten
nvda_data = yf.download('NVDA', start=start_date, end=end_date)
nvda_data.head()

## Plotten
Pandas kann direkt zum Plotten verwendet werden. Erweiterte Funktionen erfordern `matplotlib` (mehr dazu unten).

In [None]:
nvda_data.Close.plot()

* Erweitertes Plotten erfordert die Bibliothek `matplotlib` ([Benutzerhandbuch](https://matplotlib.org/users/index.html)), die von den Plotting-Funktionen von Matlab&reg; inspiriert ist.
* Die Haupt-Plotting-Funktionen befinden sich im Modul `pyplot`. Es wird üblicherweise importiert als

In [None]:
import matplotlib.pyplot as plt

`matplotlib` ermöglicht es uns, den obigen Plot zu customizen:

In [None]:
nvda_data.Close.plot()
plt.xlabel("Date")
plt.ylabel("Price")
plt.gcf().autofmt_xdate()
plt.show()

* Die Bibliothek `seaborn` ([Benutzerhandbuch](https://seaborn.pydata.org/tutorial.html)) bietet statistische Visualisierungen auf höherem Niveau:

In [None]:
# !pip install seaborn
import seaborn as sns
sns.set_style("whitegrid")  # Kosmetik
sns.set_palette("viridis")  # Kosmetik

returns = nvda_data.Close.pct_change()  # Tagesrenditen

sns.histplot(data=returns, bins=30, kde=True, stat="density", alpha=0.6)
plt.title("Distribution of Returns", fontsize=14, pad=15)
plt.xlabel("Value", fontsize=12)
plt.ylabel("Density", fontsize=12)
plt.tight_layout()
plt.show()

* Ich werde hier nur eine kurze Einführung in matplotlib geben. Das grundlegende Objekt in matplotlib ist eine `Figure`, in der sich `Subplots` (oder `Axes`) befinden.
* Um eine neue Figure zu erstellen, einen Axis hinzuzufügen und darauf zu plotten:

In [None]:
# mit dem Inline-Backend müssen diese im selben Cell sein.
fig = plt.figure(figsize=(6,3)) # eine neue leere Figure erstellen. Größe ist optional.
ax1 = fig.add_subplot(121) # Layout: (1x2). ax1 ist der obere linke
ax2 = fig.add_subplot(122)
ax1.plot(range(10))
ax2.plot(range(10, 0, -1));

* Standardmäßig plottet matplotlib in den aktuellen Axis und erstellt einen (sowie eine Figure), falls nötig. Mit der Bequemlichkeitsmethode `subplot` können wir dasselbe erreichen, ohne explizit auf Figures und Axes zu verweisen:

In [None]:
plt.subplot(121)
plt.plot(range(10))
plt.subplot(122) 
plt.plot(range(10, 0, -1));

* Um zwei Vektoren $x$ und $y$ gegeneinander zu plotten:

In [None]:
import numpy as np
x = np.linspace(-10, 10, 100)
y = x**2
plt.plot(x,y,'r--') # gestrichelte rote Linie
plt.xlabel('$x$') # Mathematische (LaTeX) Gleichungen können durch Einschließen in $$ eingefügt werden.
plt.ylabel('$y$')
plt.title('Eine Parabel')
plt.legend(['$f(x)$']) # erwartet eine Liste von Strings
plt.xlim(xmin=-8, xmax=8); # Achsengrenzen
# plt.savefig('filename.pdf') # den Plot auf der Festplatte speichern

### Ein fortgeschrittenes Beispiel: Quantile der Normalverteilung

In [None]:
from matplotlib.patches import Polygon
import scipy.stats as stats
a, b, c = -5, 5, stats.norm.ppf(0.05)
x = np.linspace(a, b, 500)
y = stats.norm.pdf(x)
fig = plt.figure(figsize=(7, 5))
ax = fig.add_subplot(111)
plt.plot(x, y, 'b', linewidth=2)
plt.ylim(ymin=0)
plt.xlim(xmin=a, xmax=b)
Ix = np.linspace(a, c)
Iy = stats.norm.pdf(Ix)
verts = [(a, 0)] + list(zip(Ix, Iy)) + [(c, 0)]
poly = Polygon(verts, facecolor='0.7', edgecolor='0.5')
ax.add_patch(poly)
ax.annotate(
            '2.5%', xy=(-2, 0.025), xytext=(-3, 0.1),
            arrowprops=dict(width=.5),
            )
plt.xlabel('$x$')
plt.ylabel('$f(x)$')
ax.set_xticks([c, 0])
ax.set_xticklabels(['$-1.96$', '0'])
ax.set_yticks([])
plt.savefig('img/var.svg')
plt.close()

<img src="img/var.svg" alt="VaR" style="display:block; margin-left: auto; margin-right: auto; width: 80%;">

## Arbeiten mit Zeitreihen
### Datentypen

* Es gibt verschiedene Datentypen in Python zur Darstellung von Zeiten und Daten.
* Der grundlegendste ist `datetime` aus dem gleichnamigen Paket:

In [None]:
from datetime import datetime
datetime.today()

* `datetime`-Objekte können aus Strings mit `strptime` und einem Format-Spezifizierer erstellt werden:

In [None]:
datetime.strptime('2017-03-31', '%Y-%m-%d')

* Pandas verwendet `Timestamps` anstelle von `datetime`-Objekten. Im Gegensatz zu Timestamps speichern sie Frequenz- und Zeitzoneninformationen. Die beiden können größtenteils austauschbar verwendet werden.

In [None]:
pd.Timestamp('2017-03-31')

* Eine Zeitreihe ist eine `Series` mit einem speziellen Index, genannt `DatetimeIndex`; im Wesentlichen ein Array von `Timestamp`s.
* Sie kann mit der Funktion `date_range` erstellt werden.

In [None]:
import numpy as np
myindex = pd.date_range(end=pd.Timestamp.today(), normalize=True, periods=100, freq='B')
P = 20 + np.random.randn(100).cumsum()  # einige Aktienkurse erfinden.
aapl = pd.Series(P, name="AAPL", index=myindex)
aapl.tail()

* Zur Vereinfachung erlaubt Pandas die Indizierung von Zeitreihen mit Datumsstrings:

In [None]:
aapl['4/11/2025']

# Empfohlene Lektüre
* https://python-course.eu/numerical-programming/ 23-28, 32-34

# Hausaufgaben

https://github.com/guipsamora/pandas_exercises/tree/master/01_Getting_%26_Knowing_Your_Data/Chipotle (Nur bis Aufgabe 12. Zusätzlich: Visualisieren Sie die Verteilung der Artikelpreise mit Seaborn und/oder Matplotlib)