# Woche 06 - Dictionary und Pandas 

Bisher haben wir zum Speichern der Daten die Datentypen Liste und NumPy-Array kennengelernt. Beide haben einen Index, der implizit definiert wird. Damit ist gemeint, dass dieser Index automatisch erzeugt wird und wir keinen Einfluss darauf haben. Der implizite Index ist eine Folge von Integern beginnend mit 0, also 0,1,2, usw. . In diesem Kapitel beschäftigen wir uns mit einem neuen Datentyp, dem sogenannten Dictionary, das einen expliziten Index hat. Für den Zugriff auf Tabellen wie beispielsweise in Excel mit statistischen Auswertungmöglichkeiten, gibt es das Modul Pandas. Dieses Modul wird uns den Rest der Vorlesung begleiten, in diesem Kapitel erfolgt die Einführung.

Inhalt dieses Jupyter Notebooks:
* Dictionary
* Modul Pandas
    * eindimensionale Datenreihen Series
        * Erzeugung von Series-Objekten
        * Zugriff auf Elemente von Series-Objekten
        * statistische Kennzahlen 
    * zweidimensionale Datensammlungen (=Tabellen) DataFrame
        * Erzeugung von DataFrame-Objekten
        * Zugriff auf Elemente von DataFrame-Objekten
        * statistische Kennzahlen


## Datentyp Dictionary

Die Datentypen, die wir bisher kennengelernt haben, sind sogenannte sequentielle Container. Sie haben einen Index (hier implizit definiert von 0, 1, 2, ...), der geordnet ist. Die Werte, die an diesen Stellen in der Liste oder im NumPy-Array stehen, müssen dabei nicht geordnet sein. Sie müssen ja noch nicht einmal anordbar sein, wie das folgende Beispiel zeigt.


In [None]:
# generation of list and display of its content
example_list = [4.5, -2.1, 'text']
for i in range(3):
    print('Index {} enthält Wert {}'.format(i, liste[i]))

In [None]:
# direct comparison between 1st and 2nd element is valid
4.5 < -2.1

In [None]:
# direct comparison between 2nd and 3rd element is not valid
-2.1 < 'text'

Die Anordnung des Index ist nett, aber nicht immer notwendig. Stattdessen wäre es manchmal interessanter, einen expliziten Index zu haben, der auch nicht immer eine ganze Zahl sein muss. Beispielsweise könnten wir eine Farbtabelle aufbauen wollen, in der standardisierte Namen von Farben ihre Hex-Werte zugeordnet werden, siehe z.B. hier: https://www.farb-tabelle.de/de/farbtabelle.htm 

Farbname | Hex-Wert 
---------|----------
DeepSkyBlue | #00BFFF
LightBlue | #ADD8E6
MediumBlue | #0000CD

Mit den uns bisher bekannten Datentypen könnten wir zwei Listen erzeugen. Und wenn wir dann wissen wollen, wie die Farbe eines bestimmten Hex-Wertes, könnten wir den Index des Hex-Wertes ermitteln und diesen Index in die Liste mit den Farbennamen einsetzen, um so die beiden Listen miteinander zu verknüpfen.

In [None]:
hexwerte  = ['#00BFFF', '#ADD8E6', '#0000CD']
farbnamen = ['DeepSkyBlue', 'LightBlue', 'MediumBlue']

# Suche den Index der Farbe #0000CD
anzahl_farben = len(farbnamen)
for i in range(anzahl_farben):
    if hexwerte[i] == '#0000CD':
        gesuchter_index = i
        break
print('Der gesuchte Index ist : ', gesuchter_index)

# Setze den gefundenen Index in die Liste der Farbnamen ein
print('Der gesuchte Farbname ist: ', farbnamen[gesuchter_index])


Um solche Zuordnungen leichter umsetzen zu können, gibt es den Datentyp Dictionary, in Python gekennzeichnet als `dict`. Initialisiert werden Dictionaries durch geschweifte Klammern: { }. Danch wird der Index explizit aufgezählt und mit einem Dopelpunkt kommt der dazugehörige Wert dahinter. Der Zugriff erfolgt dann aber wieder mit den eckigen Klammern `[ ]`.

Bemerkung: Bei einem expliziten Index spricht man meist von einem Schlüssel. Das Dictionary enthält also Schlüssel-Werte-Paare, auf Englisch key-value-items. 

Unsere Farbtabelle könnte folgendermaßen implementiert werden:

In [None]:
farbtabelle = {'#00BFFF' : 'DeepSkyBlue', '#ADD8E6' : 'LightBlue', '#0000CD' : 'MediumBlue'}

print(farbtabelle['#0000CD'])

**Mini-Übung**   
Erzeugen Sie ein Dictionary, bei dem die deutschen Vokalbeln Hund, Katze und Maus der Index/Schlüssel sind und die englischen Begriffe dog, cat und mouse die Werte sind. Geben Sie anschließend den Wert für Katze aus.

In [None]:
# Hier Ihr Code:



## Pandas

Pandas ist eine Bibliothek zur Verarbeitung und Analyse von Daten in Form von Tabellen und Zeitreihen. Die beiden grundlegenden Datenstrukturen sind `Series` und `DataFrame` für Datenreihen und Tabellen.

Um das Modul pandas benutzen zu können, müssen wir es zunächst importieren. Es ist üblich, dabei dem Modul eine Abkürzung zu geben, damit wir nicht immer pandas schreiben müssen, wenn wir eine Funktion aus dem pandas-Modul benutzen.

In [None]:
import pandas as pd # kürze das Modul pandas als pd ab, um Schreibarbeit zu sparen

## Series - Datenreihen

Die Pandas-Datenstruktur **Series** speichert eine Datenreihe ab, in der Mathematik würde man von einem Vektor sprechen. Ein Series-Objekt kann auch als einzelne Spalte einer Tabelle betrachtet werden. Erzeugt werden kann eine Series beispielsweise direkt aus einer Liste.

### Erzeugung von Pandas-Series-Objekten und Attribute

In [None]:
alter = pd.Series([25, 22, 43, 37])
alter

Im Gegensatz zum einem Numpy-Array ist der Index von Pandas-Objekten besonders wichtig. Hier ist der Index implizit definiert, weil wir bei der Initialisierung des Objektes ``alter`` keine weiteren Angaben gemacht haben. Daher hat der Python-Interpreter einfach ganze Zahlen von 0 bis 3 für den Index verwendet. 

Man kann aber auch explizit einen Index angegeben, d.h. wir haben die Vorteile des NumPy-Arrays mit den Vorteilen des Dictionaries kombiniert :-)

In [None]:
alter = pd.Series([25, 22, 43, 30], index=["Alice", "Bob", "Charlie", "Dora"])
alter

Zusätzlich enthält die Datenstruktur noch ein Attribut, den Datentyp der gespeicherten Werte. Auf dieses Attribut kann mit dem Punktoperator zugegegriffen werden.

In [None]:
alter.dtype

**Mini-Übung**   
Erzeugen Sie ein Series-Objekt mit den Wochentagen als Index und der Anzahl der Vorlesungs/Übungs-Stunden an diesem Wochentag.

In [None]:
# Hier Ihr Code:



Für die Initialisierung des Series-Objektes werden üblicherweise diese drei Möglichkeiten genutzt:
* Liste
* Numpy-Array
* Dictionary

Die erste Art der Initialisierung haben wir schon kennengelernt, nämlich die Erzeugung mit einer Liste. Nun schauen wir uns noch die verbleibenden zwei Arten an. Wir erzeugen zunächst ein numpy-Array und konstruieren damit dann ein Series-Objekt.

In [None]:
import numpy as np

x_array = np.array([np.pi, 2*np.pi, 3*np.pi, 4*np.pi])
x_series = pd.Series(x_array, index=['1mal', '2mal', '3mal', '4mal'])

x_series

**Mini-Übung**   
Erzeugen Sie ein Series-Objekt mit den Wochentagen als Index und der Anzahl der Vorlesungs-/Übungsstunden an diesem Wochentag. Verwenden Sie diesmal ein NumPy-Array.

In [None]:
# Hier Ihr Code:



Nun verwenden wir ein Dictionary. Die Verwendung des Dictionaries hat den Vorteil, dass die Schlüssel direkt als Index wiederverwertet und somit ein expliziter Index vorliegt.

In [None]:
d_dictionary = {'1mal': np.pi, '2mal': 2*np.pi, '3mal': 3*np.pi, '4mal': 4*np.pi}
d_series = pd.Series(d_dictionary)

d_series

**Mini-Übung**   
Erzeugen Sie ein Series-Objekt mit den Wochentagen als Index und der Anzahl der Vorlesungs-/Übungsstunden an diesem Wochentag. Verwenden Sie diesmal ein Dictionary.


In [None]:
# Hier Ihr Code:



Neben dem Attribut ``.dtype`` hat ein Series-Objekt noch weitere Attribute, um die Eigenschaften zu beschreiben. Am wichtigsten sind der Index ``.index`` und die rohen Daten, also Werte der Datenreihe ``.value``.

In [None]:
d_series.index

In [None]:
d_series.values

In [None]:
d_series

**Mini-Übung**   
Erzeugen Sie ein Pandas-Series-Objekt mit den Monaten als Index und der Anzahl der Tage in diesem Monat als Daten.

In [None]:
# Hier Ihr Code:



### Zugriff auf Zellen mit loc

Im Folgenden betrachten wir verschiedene Möglichkeiten, um auf die Werte in einer Zelle zuzugreifen. Wir werden uns vier Möglichkeiten ansehen:
* Zugriff auf eine einzelne Zeile, indem ein Index spezifiziert wird
* Zugriff auf mehrere Zeilen, indem eine Liste von Indizes übergeben wird
* Zugriff auf mehrere zusammenhängende Zeilen, indem ein Slice von Indizes übergeben wird
* Zugriff auf mehrere Zeilen, indem eine Liste mit True/False übergeben wird.

In [None]:
alter = pd.Series([25, 22, 43, 30], index=["Alice", "Bob", "Charlie", "Dora"])
alter

Zunächst greifen wir eine einzelne Zeile heraus. Dazu benutzen wir das Attribut ``.loc`` und spezifizieren mit eckigen Klammern den Index der Zeile, also ``.loc[index]``. Anders als bei den folgenden drei Zugriffsmöglichkeiten, wird nur der Wert der Daten in der Zeile zurückgeliefert, nicht aber der dazugehörige Index.

In [None]:
alter.loc['Alice']

In [None]:
alter.loc['Dora']

Nun erzeugen wir eine Liste von Indizes. Danach können wir aus dem Pandas-Series-Objekt per ``.loc[liste]`` auf mehrere Zeilen zugreifen. 

In [None]:
frauen  = ['Alice', 'Dora']
alter.loc[frauen]


**Mini-Übung:**   
Erzeugen Sie analog zu dem obigen Beispiel eine Liste der Männer und geben Sie das Alter der Männer aus.

In [None]:
# Hier Ihr Code



Als dritte Möglichkeit betrachten wir einen Slice, also das Herausschneiden eines zusammenhängenden Stückes aus dem Pandas-Series-Objekt. Dazu spezifizieren wir den Start- und den stoppindex mit einem Doppelpunkt dazwischen, also ``.loc[startindex : stoppindex]``. Das Herausschneiden von zusammenhängenden Teilobjekten wird auch als **Slicing** bezeichnet.

In [None]:
alter.loc['Bob': 'Dora']

Als letzte Möglichkeit, um auf Zeilen in dem Pandas-Series-Objekt zuzugreifen, betrachten wir die Übergabe eine Liste mit True/False-Werten.

In [None]:
filter = [True, False, False, True]
alter.loc[filter]

Letztere Möglichkeit wird vor allem dazu genutzt, Daten nach Eigenschaften zu filtern. Ein simpler Vergleich des Pandas-Series-Objektes beispielsweie erzeugt solche True/False-Objekte, die dann in einem zweiten Schritt genutzt werden können, um das Pandas-Series-Objekt zu filtern. 

In [None]:
filter = alter < 28
alter.loc[filter]

Nachdem wir nun gelernt haben, wie auf einzelne Element des Pandas-Series-Objektes zugegriffen wird, können wir Daten auch manipulieren. Beispielsweise ist Charlie gar nicht 43 Jahre alt, sondern nur 42. Wir weisen dem Objekt ``alter`` für den Index ``'Charlie'``einen neuen Wert zu:

In [None]:
alter.loc['Charlie'] = 42
alter

Oder wir wählen alle Frauen aus und machen sie drei Jahre jünger ;-)

In [None]:
print(alter)
alter.loc[ ['Alice', 'Dora']] = alter.loc[ ['Alice', 'Dora']] - 3
alter

### Einfache statistische Informationen zu Pandas-Series-Objekten bestimmen

Pandas ist ein Modul zur statistischen Auswertung von Daten. Daher ermöglicht es in einfacher Weise, die wichtigsten statistischen Informationen auszuwerten. Im Folgenden schauen wir uns

* Summe ``.sum()``
* Mittelwert ``.mean()``
* Standardabweichung ``.std()``
* Zusammenfassung ``.describe()``
* Plots (diskrete und kontinuierliche Daten) ``.plot(kind='line')`` und ``.plot(kind='bar')`` 

an.

Wie Sie sicherlich vermuten, berechnet die Methode ``.sum()`` die Summe aller Einträge im Pandas-Series-Objekt. Gehen wir davon aus, dass die Einträge in dem Objekt ``alter`` nun

```
Alice   28
Bob     22
Charlie 42
Dora    33
````

lauten. Dann ist die Summe $28 + 22 + 42 + 33 = 125$. Der Mittelwert ``.mean()`` ist die Summe geteilt durch die Anzahl der Einträge, also $m = 125/4 = 31.25$. Die Standardabweichung gibt an, wie stark die einzelnen Werte vom Mittelwert abweichen. Die mathematische Formel zur Berechnung der Standardabweichung lautet:

$$\sigma = \frac{1}{N-1} \sqrt{\sum_{i=0}^{N} (x_i - m)^2}.$$

Somit ist die Standardabweichung in unserem Beispiel $\sigma = \sqrt{\frac{1}{3} \left( (28-31.25)^2 + (22-31.25)^2 + (42-31.25)^2 + (33-31.25)^2 \right)} = 8.4606...$ .

Durch den Aufruf der Methode ``.describe()`` erhalten Sie eine Übersicht über die wichtigsten statistischen Kennwerte des Pandas-Series-Objektes.

Kommen wir noch zu den Plots. Mit einem Plots ist die Visualisierung einer Datenreihe gemeint. Wenn die Daten kontinuierlich sind, werden die Datenpunkte üblicherweise mit einer Linie verbunden. Mit kontinuierlich ist gemeint, dass man beispielsweise jede Sekunde eine Messung der Temperatur durchführt, aber zwischen den Sekunden ist die Temperatur ja nicht verschwunden. Zwischen $t = 2 s$ und $t = 3 s$ liegt eigentlich $t = 2.5 s$. Wir nehmen an, dass zwischen dem Zeitpunkt $t = 2 s$ und $t = 3 s$ die Temperatur linear verläuft und dürfen deshlab im Plot die Datenpunkt mit einer Linie verbinden. Anders ist es bei diskreten Daten. Zwischen dem Alter von Alice und dem Alter von Bob liegt nichts dazwischen. Daher können diese Datenpunkte auch nicht mit einer Linie verbunden werden. Daher werden diskrete Daten als Balkendiagramme visualisiert. Die Plots werden mit der Methode ``.plot()`` erzeugt. Standardmäßig ist der Linienplot voreingestellt, also eigentlich die Option ``.plot(kind='line')``. Diskrete Daten mit Balkendiagrammen werden mit der Methode ``.plot(kind='bar')`` erzeugt.  



In [None]:
summe = alter.sum()
mittelwert = alter.mean()
stndardabweichung = alter.std()

print('Die Summe ist ', summe)
print('Der Mittelwert ist ', mittelwert)
print('Die Standardabweichung ist ', stndardabweichung)
print('Zusammenfassung: ', alter.describe())

alter.plot(kind='bar')


**Mini-Übung (10 min):** 

Die folgende Tabelle zeigt die Einwohnerzahlen der deutschen Bundesländer in Millionen Einwohner. 

```
Baden-Württemberg       11.07
Bayern                  13.077
Berlin                  3.645
Brandenburg             2.512
Bremen                  0.683
Hamburg                 1.841
Hessen                  6.266
Mecklenburg-Vorpommern  1.61
Niedersachsen           7.982
Nordrhein-Westfalen     17.933
Rheinland-Pfalz         4.085
Saarland                0.991
Sachsen                 4.078
Sachsen-Anhalt          2.208
Schleswig-Holstein      2.897
Thüringen               2.143
```

1. Erzeugen Sie ein passendes Pandas-Series-Objekt.
2. Berechnen Sie die wichtigsten statistischen Informationen wie Summe, Mittelwert, Standardabweichung und plotten Sie die Daten.
3. Wie viele Bundesländer liegen über dem Mittelwert? Filtern Sie dazu die Tabelle und lassen Sie die gefilterte Tabelle ausgeben.
4. Recherchieren Sie im Internet, wie man das Pandas-Series-Objekt nach der Einwohnerzahl sortiert -- vom kleinsten zum größten Bundesland.

In [None]:
# Hier Ihr Code



## DataFrames

Ein DataFrame-Objekt entspricht einer Tabelle, wie man sie beispielsweise von Excel, LibreOffice oder Numbers kennt. Sowohl Zeile als auch Spalten sind normalerweise indiziert. Typischerweise werden die Daten in der Tabelle zeilenweise angeordnet. Damit ist gemeint, dass jede Zeile einen Datensatz darstellt und in den Spalten die Daten zu den Parametern sind.

Ein DataFrame kann direkt über mehrere Pandas-Series-Objekte oder verschachtelte Listen/Dictionaries erzeugt werden. Im Folgenden betrachten wir die beiden Möglichkeiten

* Erzeugung eines DataFrame-Objektes aus einem Numpy-Array
* Erzeugung eines DataFrame-Objektes aus einem Dictionary von Series-Objekten

In der Praxis am häufigsten ist jedoch der Fall, dass das Pandas-DataFrame-Objekt aus einer Datei importiert wird.

Fangen  wir also mit der ersten Möglichkeit an. Wir nutzen ein zweidimensionales Numpy-Array und fügen einen Index für die Zeilen und einen Index für die Spalten hinzu. Damit es nicht zu Verwechslungen bei den Bezeichnungen kommt, wird der Index für die Spalten als **columns** bezeichnet.

In [None]:
daten_array = np.random.randn(5,3)
daten = pd.DataFrame(daten_array, index= ['Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag'], columns=['x', 'y', 'z'])

daten


Nun betrachten wir die zweite Art, ein Pandas-DataFrame-Objekt zu erzeugen. Dazu brauchen wir aber erst einmal zwei Pandas-Series-Objekte.

In [None]:
alter = pd.Series({"Alice" : 25, "Bob" : 22, "Charlie" : 43, "Dora" : 30})
stadt = pd.Series({"Alice" : "Mannheim", "Bob" : "Frankfurt", "Charlie" : "Ludwigshafen", "Dora" : "Kaiserslautern"})

print(alter)
print(stadt)

Wir möchten jetzt eine Tabelle erzeugen, bei der die Namen Alice, Bob, Charlie und Dora die Indizes sind. In der ersten Spalte soll das Alter dieser Personen stehen, in der zweiten Spalte ihre Wohnorte. Wir generieren als erstes ein Dictionary und initialisieren das Pandas-DataFrame-Objekt dann mit diesem Dictionary.

In [None]:
personen_dictionary = {'Alter': alter, 'Wohnort': stadt}
personen = pd.DataFrame(personen_dictionary)

personen

Was passiert eigentlich, wenn die Indizes vom ersten Series-Objekt nicht mit den Indizes des zweiten Series-Objektes zusammenpassen? 

In [None]:
alter = pd.Series({"Alice" : 25, "Bob" : 22, "Dora" : 30, "Emil": 43})
stadt = pd.Series({"Alice" : "Mannheim", "Bob" : "Frankfurt", "Charlie" : "Ludwigshafen", "Dora" : "Kaiserslautern"})

print(alter)
print(stadt)

In [None]:
personen = pd.DataFrame({'Alter': alter, 'Wohnort': stadt})
personen

``NaN`` ist in der Informatik die Abkürzung für **Not a Number** und wird immer dann verwendet, wenn ein Wert nicht definiert ist. NaNs werden uns noch sehr häufig beschäftigen, da es regelmäßig vorkommt, dass Daten fehlen und das Fehlen der Daten durch ``NaN`` angezeigt wird.

Wie können wir nun die fehlenden Werte berichtigen? Wie bei den Pandas-Serien-Objekten können wir über das Attribut ``.loc[]`` auf Zellen des Pandas-DataFrame-Objektes zugreifen.

In [None]:
personen.loc['Charlie', 'Alter'] = 43
personen

In [None]:
personen.loc['Emil', 'Wohnort'] = 'Darmstadt'
personen

Auch der lesende Zugriff erfolgt analog zu den Zugriffsmöglichkeiten bei Pandas-Series-Objekten.

In [None]:
tmp = personen.loc['Charlie', 'Wohnort']
print(tmp)

Auf einen zusammenhängenden Bereich wird durch Slicing zugegriffen. Dabei kann das Slicing für die Zeilen (index), die Spalten (columns) oder beides benutzt werden.

In [None]:
tmp = personen.loc['Bob' : 'Dora', 'Alter']
print(tmp)

In [None]:
tmp = personen.loc['Bob', 'Alter':'Wohnort']
print(tmp)

Beim Slicing können wir den Startwert oder den Stoppwerrt oder beides weglassen. Wenn wir den  Startwert weglassen, fängt der Slice von vorne an. Lassen wir den Stoppert weg, geht der Slice bis zum Ende. Das nutzen wir, um auf eine ganze Spalte zuzugreifen:


In [None]:
tmp = personen.loc[ 'Bob' , :]
print(tmp)

Sollen dahingegen mehrere Zellen gleichzeitig ausgewählt werden, die nicht zusammenhängen, benutzt man Listen. Wiederum können die Listen für den index oder die columns oder beides gemischt spezifiziert werden.

In [None]:
tmp = personen.loc[ ['Bob', 'Dora','Emil'] , 'Alter']
print(tmp)

Als nächstes fügen wir unserer Personen-Tabelle eine neue Spalte hinzu. In der neuen Spalte soll die Note der letzten Klausur stehen. Dazu erzeugen wir zunächst wieder einmal ein Pandas-Series-Objekt. Danach weisen wir das Series-Objekt dem DataFrame-Objekt spalten weise zu, indem wir den neuen Namen dem ``.loc``-Attribut mitgeben.


In [None]:
note = pd.Series({'Alice': 1.3, 'Bob': 3.7, 'Charlie': 2.0, 'Dora': 1.7, 'Emil': 5.0})
note


In [None]:
personen.loc[:, 'Note'] = note
personen

**Mini-Übung**   

Der folgende Datensatz stammt von Kaggle, siehe https://www.kaggle.com/rajatrc1705/bundesliga-top-7-teams-offensive-stats?select=bundesliga_top7_offensive.csv . Er enthält die Spielerdaten zu den Top7-Fußballvereinen der Bundesligasaison 2020/21. Laden Sie ihn mit dem Befehl

> data = pd.read_csv('part06_data/bundesliga_top7_offensive.csv', index_col=0)

Zur Information, die Spaltennamen sind : Name, Club, Nationality, Position, Age, Matches, Starts, Mins, Goals, Assists, Penalty_Goals, Penalty_Attempted, xG, xA, Yellow_Cards, Red_Cards.

* Zeigen Sie zunächst den Inhalt der eingelesenen Daten an. Benutzten Sie dazu den Befehl
> data.head(10)
um die ersten 10 Zeilen anzuzeigen.

* Anschließend zeigen Sie das Alter aller Eintracht Frankfurt Spieler an. Der Index beginnt bei Kevin Trapp und endet Ragnar Ache, die Spalte heißt 'Age'.

* Zuletzt zeigen Sie die roten und gelben Karten von Maximilian Arnold an.

In [None]:
# Hier Ihr Code



### Statistische Kennzahlen eines Pandas-DataFrame-Objektes

Analog zu den statistischen Kennzahlen bei Series-Objekten gibt auch hier einige Methoden zur Beschreibung des Datensatzes. Wir beschäftigen uns im Folgenden mit

* ``.info()``
* ``.describe()``
* ``.sum()``
* ``.mean()``
* ``.std()``
* ``.min()``
* ``.max()``
* ``.plot(kind='line')``
* ``.plot(kind='bar)``

In [None]:
alter = pd.Series({"Alice" : 25, "Bob" : 22, "Charlie": 19, "Dora" : 30, "Emil": 43})
stadt = pd.Series({"Alice" : "Mannheim", "Bob" : "Frankfurt", "Charlie" : "Ludwigshafen", "Dora" : "Kaiserslautern", "Emil": "Darmstadt"})
note  = pd.Series({'Alice': 1.3, 'Bob': 3.7, 'Charlie': 2.0, 'Dora': 1.7, 'Emil': 5.0})

personen = pd.DataFrame({'Alter': alter, 'Wohnort': stadt, 'Note': note})
personen

In [None]:
personen.info()

In [None]:
personen.describe()

In [None]:
personen.sum()

In [None]:
personen.mean()

In [None]:
personen.std()

In [None]:
personen.min()

In [None]:
personen.max()

In [None]:
personen.plot(kind='bar')

In [None]:
personen.plot(kind='line')

**Mini-Übung:**   

Laden Sie - falls nicht schon geschehen - den Datensatz zu den Top7 der Fußball-Bundesliga 2020/21. Beantworten Sie folgende Fragen:

* Welcher Spieler war in dieser Saison der jüngste und wie heißt er?
* Bei welchem Verein spielt der älteste Spieler?
* Filtern Sie den Datensatz nach einem der Vereine ('Bayern Munich', 'Borussia Dortmund', 'RB Leipzig', 'Wolfsburg', 'Eintracht Frankfurt', 'Bayer Leverkusen', 'Union Berlin').
* Lassen Sie sich die Infos dieses Vereines ausgeben. Wie viele Spieler spielten in diesem Verein?
* Wer hat die meisten Minuten gespielt? Sortieren Sie das DataFrame-Objekt nach der Anzahl der Minuten und visualisieren Sie die Minuten pro Spieler sortiert.
* Visualisieren Sie die Anzahl der Tore? Linienplot oder Barplot?
* Was ist das mittlere Alter der Spieler?

In [None]:
# Hier Ihr Code



# Aufgaben


<div class="alert alert-block alert-success">
<b>Aufgabe 6.1: Quadratzahlen </b> 

Erzeugen Sie ein Pandas-Series-Objekt mit den Zahlen von 1 bis 100 als Index und den Quadratzahlen von 1 bis 100 als Daten. Würden Sie als Initialisierungsmethode ein Dictionary verwenden?
</div>

<div class="alert alert-block alert-success">
<b>Aufgabe 6.2: Ergebnisse Bundesliga 2020/21 </b> 

Recherchieren Sie im Internet nach den Ergebnissen der Fußball-Bundesliga (Männer) der Spielsaison 2020/21. Erzeugen Sie ein Pandas-Series-Objekt mit den Vereinsnamen als Index und den Punkten als Daten. Welche Initialisierungsmethode Liste, Numpy-Array oder Dictionary bietet sich hier an?
    
1. Berechnen Sie den Mittelwert und die Standardabweichung der Punkte.
2. Plotten Sie die Punkte -- Linienplot oder Balkendiagramm?
3. Filtern Sie alle Vereine heraus, die echt weniger (<) als 40 Punkte erzielt haben .
    * Welch Vereine sind dies?
    * Wie findet man heraus, wie viele Vereine es sind?
    * Berechnen Sie die Summe der Punkte dieser Vereine.
    * Berechnen Sie die Summe der Punkte der Top3-Vereine, wer hat mehr Punkte erzielt?
</div>

<div class="alert alert-block alert-success">
<b>Aufgabe 6.3: Bundestagswahlen Hessen </b> 

Auf der Internetseite https://statistik.hessen.de/zahlen-fakten/wahlen/tabellen finden Sie eine Tabelle mit den Ergebnissen der "Bundestagswahlen in Hessen 1949 — 2017". Laden Sie die Excel-Tabelle herunter und erzeugen Sie ein Pandas-Series-Objekt mit dem Index Datum und den Werten Wahlbeteiligung.

Beantworten Sie folgende Fragen:
* Wie viele Bundestagswahlen haben stattgefunden?
* Wie hoch war bisher die durchschnittliche Wahlbeteiligung?
* In welchem Jahr war die Wahlbeteiligung am niedrigsten? Tipp: Recherchieren Sie im Internet nach der Methode ``.min()`` und filtern Sie das Datenobjekt.
* Visualisieren Sie die Wahlbeteiligung. Gibt es einen Trend?
</div>

<div class="alert alert-block alert-success">
<b>Aufgabe 6.4: Beschäftigung im Maschinenbau </b> 

Und hier die nächste Statistik (Quelle: https://de.statista.com/statistik/daten/studie/30821/umfrage/beschaeftigte-im-maschinenbau-in-deutschland-seit-1991/#professional). Die Tabelle zeigt die Anzahl der Beschäftigten pro 1000 Personen im Maschinenbau (Deutschland) für die Jahre 1991 bis 2020. 
    
```
1991	1386
1992	1219
1993	1065
1994	946
1995	934
1996	897
1997	891
1998	899
1999	889
2000	899
2001	901
2002	899
2003	874
2004	866
2005	864
2006	885
2007	935
2008	945
2009	939
2010	908
2011	948
2012	971
2013	986
2014	1004
2015	1009
2016	1008
2017	1032
2018	1065
2019	1063
2020	1019
```

1. Erzeugen Sie ein Pandas-Series-Objekt mit dem Jahr als Index und der Anzahl der Beschäftigten als Daten.
2. Korrigieren Sie die Anzahl der Beschäftigten, indem sie diese mit 1000 multiplizieren. 
3. Ermitteln Sie die wichtigsten statsitischen Eigenschaften (Mittelwert, Standardabweichung, Minimum, Maximum).
4. Plotten Sie die Daten. Gibt es einen Trend?
5. Der Plot zeigt einen Knick, ein Jahr mit einem kurzen Einbruch der Beschäftigtenzahlen. Suchen Sie den Knick in der Grafik. Was könnte diesen kurzen Einbruch bei den Beschäftigtenzahlen erklären?
6. Hätten Sie Maschinenbau studiert, wenn Sie in dem Jahr ihrer Geburt oder Anfang der 1990er das erste Semester gehabt hätten?

Weitere Details finden sich in der Broschüre "Maschinenbau in Zahl und Bild 2021" vom VDMA:
https://www.vdma.org/documents/34570/6128644/Maschinenbau%20in%20Zahl%20und%20Bild%202021.pdf/43a31467-dc91-1bd9-41ee-97413c4e769d

   
</div>