### Dataframe

Umfangreiche Zusatzfunktionen können durch das Einbinden von *packages* genutzt werden - diese kannst Du dir wie Apps vorstellen. Die Packages können meist recht einfach heruntergeladen und installiert werden:

`pip install PACKAGENAME`

auf dem Jupyterhub muss das (falls das Package noch nicht installiert wurde, das sollte bei den hier gestellten Aufgaben nicht der Fall sein) folgendermaßen gelöst werden: `pip install PACKAGENAME --user`

Das dient hier nur zur Information und sollte bei den Standardbibliotheken, die in diesem Kurs verwendet werden nicht notwendig sein.

### Dataframe
Um gut und effizient mit Daten arbeiten zu können, binden wir jetzt das Paket *Pandas* ein.

`import PACKAGENAME as KURZNAME`

Methoden im Package werden dann mit KURZNAME.METHODE aufgerufen.

Hier zum Beispiel *pd.DataFrame*

In [None]:
import pandas as pd

In [None]:
d = {'Alice':[1,6,1], 'Bob':[3,2,8], 'John':[7,7,7]}

Jetzt können wir das Dictionary *d* in einen sogenannten DataFrame umwandeln, der dann in Tabellenform angezeigt wird und gut bearbeitet werden kann. Es ist empfehlenswert, Daten immer im DataFrame-Format zu verwenden.

In [None]:
df1=pd.DataFrame(d)

In [None]:
df1

In [None]:
df2=pd.DataFrame({'Zeit':[0,1,2,3,4,5,6,7,8,9,10],'Ort':[0,5,2,8,4,6,7,9,12,15,7]})
df2

Auf die einzelnen Spalten kann man jetzt einfach mit dem Spaltennamen zugreifen:

In [None]:
df2['Ort']

Auf die Elemente der hier ausgegebenen Liste kann man wieder mit der Zahl der Zeile zugreifen:

In [None]:
df2['Ort'][3]

Eine Zeile im DataFrame wählt man mit dem *.iloc* Befehl aus:

In [None]:
df2.iloc[3]

In vielen Fällen kann man noch einfacher auf eine Spalte zugreifen, indem man den Spaltennamen direkt mit einem Punkt an den Namen des Dataframes hängt:

In [None]:
df2.Ort

### Mehr zu Datenstrukturen in Python:
https://docs.python.org/3/tutorial/datastructures.html

## Einlesen von Daten aus externen Quellen

### Einlesen von *.csv*-Dateien
Messdaten werden in der Regel als *.csv*-Dateien abgespeichert - das sind Textdateien, in denen die Werte tabellarisch abgespeichert sind, die Trennung wird durch Kommas realisiert.

So sieht der Datensatz in Excel aus: 
![grafik.png](attachment:grafik.png)
So als .csv-Datei:
![grafik-2.png](attachment:grafik-2.png)

Das Einlesen der Datei als DataFrame realisieren wir wieder mit der Pandas-Bibliothek:

In [None]:
df3=pd.read_csv('data/csv1.csv')
df3

Häufig sind die Spalten in der .csv-Datei auch durch andere Trennzeichen getrennt, hier Beispielsweise ein Semicolon:
![grafik.png](attachment:grafik.png)
Dann kann man das Trennzeichen explizit angeben.

In [None]:
df4=pd.read_csv('data/csv2.csv')
df4

In [None]:
df4=pd.read_csv('data/csv2.csv',sep=';')
df4

Falls über der Zeile mit den Spaltenbezeichnungen unnötige Informationen stehen, die Pandas verwirren, kann man diese mit dem `skiprows`-Befehl ausklammern.

In [None]:
df5=pd.read_csv('data/csv3.csv',sep=';')
df5

In [None]:
df5=pd.read_csv('data/csv3.csv',sep=';', skiprows=1)
df5

### Einlesen von *.xlsx*-Dateien
Manchmal hat man es auch mit Dateien im Excel-Format zu tun - auch diese lassen sich leicht importieren:

In [None]:
df6=pd.read_excel('data/csv1.xlsx')
df6

### Direktes Einlesen von Dateien aus dem Internet
Es können Daten direkt aus dem Internet geladen werden - dazu muss nur die URL einer eintsprechenden Datei bekannt sein.

In [None]:
df7=pd.read_csv('http://winterolympicsmedals.com/medals.csv')
df7

## 2.3 Visualisierung von Daten
Eine der häufigsten Aufgaben ist die Visualieiserung von Daten. Daraus werden Zusammenhänge und Gesetzmäßigkeiten ersichtlich und man erhält einen Überblick über die Daten.

Visualisierungen in Python realisiert man am einfachsten und häufigsten mit der Bibliothek *Matplotlib* - bzw. der Unterbibliothek *Pyplot*.

In [None]:
from matplotlib import pyplot as plt
#alternativ genauso möglich:
import matplotlib.pyplot as plt

In [None]:
df2=pd.read_csv('data/csv1.csv')
df2

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik
plt.scatter(df2['Zeit'],df2['Ort']) #Punkte werden einzeln gezeichnet

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik
plt.plot(df2['Zeit'],df2['Ort'])    #Punkte werden mit geraden Linien verbunden

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik
plt.bar(df2['Zeit'],df2['Ort'])     #Balkendiagramm

Im Folgenden werden weitere wichtige Elemente wie Überschriften, Achsenbezeichnungen und Legenden hinzugefügt.

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik
plt.plot(df2['Zeit'],df2['Ort'])    #Punkte werden mit geraden Linien verbunden
plt.xlabel('Zeit in s')             #Achsenbeschriftung
plt.ylabel('Ort in m')
plt.title('Ort-Zeit-Diagramm')      #Diagrammtitel

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik
plt.plot(df2['Zeit'],df2['Ort'],label='Wegmessung')    #Punkte werden mit geraden Linien verbunden
plt.xlabel('Zeit in s')             #Achsenbeschriftung
plt.ylabel('Ort in m')
plt.legend()                        #Legende
plt.title('Ort-Zeit-Diagramm')      #Diagrammtitel

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik
plt.plot(df2['Zeit'],df2['Ort'], color='red' ,linestyle='--', label='Wegmessung')    #Punkte werden mit geraden Linien verbunden
plt.xlabel('Zeit in s')             #Achsenbeschriftung
plt.ylabel('Ort in m')
plt.legend()                        #Legende
plt.title('Ort-Zeit-Diagramm')      #Diagrammtitel

Jetzt speichern wir diese Grafik noch ab:

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik
plt.plot(df2['Zeit'],df2['Ort'], color='red' ,linestyle='--', label='Wegmessung')    #Punkte werden mit geraden Linien verbunden
plt.xlabel('Zeit in s')             #Achsenbeschriftung
plt.ylabel('Ort in m')
plt.legend()                        #Legende
plt.title('Ort-Zeit-Diagramm')      #Diagrammtitel
plt.savefig('figure1.png')          #Speichern der Grafik

Die Grafik ist jeztt in dem Ordner abgespeichert, in dem auch das Skript gespeichert ist.

Weitere etwas auffälligere Stile für die Darstellung als Beispiele: (ergoogelbar beispielsweise durch "*pyplot styles*"):
https://tonysyu.github.io/raw_content/matplotlib-style-gallery/gallery.html

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik

plt.style.use('ggplot') #change style

plt.plot(df2['Zeit'],df2['Ort'], color='red' ,linestyle='--', label='Wegmessung')    #Punkte werden mit geraden Linien verbunden
plt.xlabel('Zeit in s')             #Achsenbeschriftung
plt.ylabel('Ort in m')
plt.legend()                        #Legende
plt.title('Ort-Zeit-Diagramm')      #Diagrammtitel

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik

plt.style.use('seaborn-dark') #change style

plt.plot(df2['Zeit'],df2['Ort'], color='red' ,linestyle='--', label='Wegmessung')    #Punkte werden mit geraden Linien verbunden
plt.xlabel('Zeit in s')             #Achsenbeschriftung
plt.ylabel('Ort in m')
plt.legend()                        #Legende
plt.title('Ort-Zeit-Diagramm')      #Diagrammtitel

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik

plt.style.use('seaborn-talk') #change style

plt.plot(df2['Zeit'],df2['Ort'], color='red' ,linestyle='--', label='Wegmessung')    #Punkte werden mit geraden Linien verbunden
plt.xlabel('Zeit in s')             #Achsenbeschriftung
plt.ylabel('Ort in m')
plt.legend()                        #Legende
plt.title('Ort-Zeit-Diagramm')      #Diagrammtitel

In [None]:
fig = plt.figure()                  #öffnet eine neue Grafik

plt.style.use('dark_background') #change style

plt.plot(df2['Zeit'],df2['Ort'], color='red' ,linestyle='--', label='Wegmessung')    #Punkte werden mit geraden Linien verbunden
plt.xlabel('Zeit in s')             #Achsenbeschriftung
plt.ylabel('Ort in m')
plt.legend()                        #Legende
plt.title('Ort-Zeit-Diagramm')      #Diagrammtitel

Die Möglichkeiten für die Erstellung von schönen Grafiken sind praktisch unbegrenzt, es ist auch mit sehr wenig Aufwand möglich, Abbildungen wie die Folgende zu erzeugen:
![grafik.png](attachment:grafik.png)

Für weitere Informationen zu den Möglichkeiten und Parametern:

https://matplotlib.org/stable/tutorials/introductory/pyplot.html

https://matplotlib.org/stable/tutorials/index.html

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf

Eine ***tolle Übersicht*** über besondere und besonders schöne Grafiken und Plot-Typen ist hier zusammengestellt: 

https://www.machinelearningplus.com/plots/top-50-matplotlib-visualizations-the-master-plots-python/

Einen Überblick über unterschiedliche Visualisierungstypen inklusive Hinweisen wann welche Visualisierung hilfreich ist und mit Codebeispielen ist hier zu finden:

https://www.data-to-viz.com/

https://www.python-graph-gallery.com/



## Filtern von Daten
Häufig interessieren nur bestimmte Teile der Daten, beispielsweise alle Einträge, die in der Spalte 1 einen Wert größer als 3 haben.

Betrachte dazu insbesondere **12 Data Filtering**

In [None]:
df1

In [None]:
df1['Spaltenbezeichnung1']>3

In [None]:
df_gefiltert=df1[df1['Spaltenbezeichnung1']>3]
df_gefiltert

Wir fügen zum DataFrame df2 eine Spalte 'Cat' mit Kategorien hinzu und filtern dann nach Kategorie 'c':

In [None]:
df2

In [None]:
df2['Cat']=['a','a','b','b','b','b','a','a','c','c','c']

In [None]:
df2

In [None]:
df2[df2['Cat']=='c']

Noch ein sinnvolleres Beispiel: Wir filtern die Medaillen-Daten nach Deutschen Weibllichen Skimeisterinnen, die seit 2000 eine Medaille gewonnen haben:

In [None]:
df7

In [None]:
df7[(df7['Sport']=='Skiing') & (df7['Year']>=2000) & (df7['NOC']=='GER') & (df7['Event gender']=='W')]

Wie viele Goldmedaillen haben die USA ab 1960 erhalten?

Wie viele Frauen waren unter den Gewinner*innen?

## Einfache Berechnungen
Für numerische Berechnungen steht das Paket *numpy* zur Verfügung.

Mit Python können insbesondere statistische Auswertungen und Berechnungen mit großen Mengen an Daten leicht realisiert werden.

In [None]:
import numpy as np

Die meist verwendete Datenstruktur: *arrays*

Dieser können als Vektor bzw. Matrix interpretiert werden.

`np.array(LISTE)`

In [None]:
a=[1,2,3,123,5]
a

In [None]:
b=np.array(a)
b

In [None]:
B=np.array([[1,2,3,4],[5,6,7,8]])
B

In [None]:
#Mittelwert
np.mean(b)

In [None]:
#Minimum / Maxium
np.min()
np.max()


In [None]:
#Mathematische Funktionen
np.sqrt()
np.log()
...