<a href="https://colab.research.google.com/github/AlexKressner/KI_Logistik_Python/blob/main/G1_Pandas_Data_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Einführung Pandas](#einführung_pandas)
    1. [DataFrames](#dataframes)
    2. [Erste Methoden zur Datenexploration](#exploration)
    3. [Sortieren](#sortieren)
    4. [Subsetting](#subsetting)
    5. [Neue Spalten](#neue_spalte)
2. [Aggregation von Daten](#aggregation)
    1. [Erste deskriptive Parameter & Summierung](#parameter)
    1. [Zählen](#zaehlen)
    1. [Gruppierungen und Aggregationen](#gruppierung)
    1. [Pivottabellen](#pivot)

# Übungsaufgaben
- [Erste Exploration DataFrame - Fifa World Cup](#aufgabe_exploration)
- [Sortieren und Subsetting - Fifa World Cup](#subset_sort)
- [Statistische Parameter & Summen - Fifa World Cup](#parameter_summen)
- [Aggregationen - Verkaufszahlen Walmart](#walmart)

# 1 Einführung Pandas <a class="anchor" id="einführung_pandas"></a>
Pandas ist eines der weltweit bekanntesten Packages für Python und wird zur Lösung diverser Aufgaben im Bereich der Datenverarbeitung eingesetzt - von der Datenmanipulation bis hin zu ausgefeilten Datenanalysen. Wir beschäftigen uns intensiv mit dem Konzept des DataFrames, wie man diesen zum Zwecker Datenanalyse erstellt, filtert, transformiert etc. Wir werden dabei immer wieder auf realte Datensätze zurückgreifen und auch bereits erste Visualisierungen erzeugen.

## 1.1 DataFrames <a class="anchor" id="dataframes"></a>
In einem DataFrame speichern Sie tabellarische Daten, die Sie anschließend mit diversen Methoden transformieren können. Das folgende Beispiel erzeugt einen DataFrame aus zwei Listen. Die erste Liste enthält Teile der aktuellen Tabelle der 1. Fussballbundesliga. Es handelt sich um eine Liste aus Listen. Jede Liste in der Liste `tabelle` stellt einen Tabelleneintrag (Zeile) mit den zugehörigen Daten dar. Die Liste `spalten_namen` enthält - wie der Name bereits sagt - die Spaltennamen der Tabelle.

In [None]:
# import pandas
import pandas as pd

In [None]:
tabelle = [
    [1, "Bayern", 28, 21, 3, 4, 85, 29, 56, 66],
    [2, "Dortmund", 28, 18, 3, 7, 68, 42, 26, 57],
    [3, "Leverkusen", 28, 15, 6, 7, 68, 42, 26, 51],
    [4, "RB Leipzig", 28, 14, 6, 8, 61, 31, 30, 48],
    [5, "Freiburg", 28, 12, 9, 7, 44, 33, 11, 45],
    [6, "Hoffenheim", 28, 13, 5, 10, 50, 42, 8, 44],
]

In [None]:
spalten_namen = [
    "Rang", "Mannschaft", "Spiele", "Siege", 
    "Unentschieden", "Niederlagen", 
    "Tore_+", "Tore_-", "Tordifferenz", 
    "Punkte"
]

Nachfolgend erzeugen wir den DataFrame, der die Bundesligatabelle darstellt. 

In [None]:
tabelle = pd.DataFrame(tabelle, columns=spalten_namen)
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44


Wir können einen DataFrame auch mit entsprechenden Methodenaufrufen in seine einzelnen konstitutiven Komponente zerlegen ("Attributen"):

In [None]:
tabelle.values

array([[1, 'Bayern', 28, 21, 3, 4, 85, 29, 56, 66],
       [2, 'Dortmund', 28, 18, 3, 7, 68, 42, 26, 57],
       [3, 'Leverkusen', 28, 15, 6, 7, 68, 42, 26, 51],
       [4, 'RB Leipzig', 28, 14, 6, 8, 61, 31, 30, 48],
       [5, 'Freiburg', 28, 12, 9, 7, 44, 33, 11, 45],
       [6, 'Hoffenheim', 28, 13, 5, 10, 50, 42, 8, 44]], dtype=object)

In [None]:
tabelle.columns

Index(['Rang', 'Mannschaft', 'Spiele', 'Siege', 'Unentschieden', 'Niederlagen',
       'Tore_+', 'Tore_-', 'Tordifferenz', 'Punkte'],
      dtype='object')

In [None]:
tabelle.index

RangeIndex(start=0, stop=6, step=1)

## 1.2 Erste Methoden zur Datenexploration <a class="anchor" id="exploration"></a>
Für die erste Exploration von Daten in einem pandas DataFrame stehen viele nützliche Methoden zur Verfügung. Sie können sich eine Übersicht verschaffen, wenn Sie in einer Code-Zelle den DataFrame `tabelle` eingeben und anschließend einen Punkt (`.`) setzen. Mit der Eingabe `tabelle.` werden Ihnen automatisch alle verfügbaren Funktionen angezeigt.

In [None]:
# Gibt Ihnen den "Kopf" des DataFrames zurück, d.h. die ersten 5 Zeilen
tabelle.head()

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45


In [None]:
# Zeigt Ihnen Informationen zu den einzelnen Spalten
tabelle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Rang           6 non-null      int64 
 1   Mannschaft     6 non-null      object
 2   Spiele         6 non-null      int64 
 3   Siege          6 non-null      int64 
 4   Unentschieden  6 non-null      int64 
 5   Niederlagen    6 non-null      int64 
 6   Tore_+         6 non-null      int64 
 7   Tore_-         6 non-null      int64 
 8   Tordifferenz   6 non-null      int64 
 9   Punkte         6 non-null      int64 
dtypes: int64(9), object(1)
memory usage: 608.0+ bytes


**Frage:** Was machen die folgenden beiden Funktionen?

In [None]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44


In [None]:
tabelle.shape

(6, 10)

In [None]:
tabelle.describe()

Unnamed: 0,Rang,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
count,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0
mean,3.5,28.0,15.5,5.333333,7.166667,62.666667,36.5,26.166667,51.833333
std,1.870829,0.0,3.391165,2.250926,1.94079,14.610499,6.156298,17.116269,8.376555
min,1.0,28.0,12.0,3.0,4.0,44.0,29.0,8.0,44.0
25%,2.25,28.0,13.25,3.5,7.0,52.75,31.5,14.75,45.75
50%,3.5,28.0,14.5,5.5,7.0,64.5,37.5,26.0,49.5
75%,4.75,28.0,17.25,6.0,7.75,68.0,42.0,29.0,55.5
max,6.0,28.0,21.0,9.0,10.0,85.0,42.0,56.0,66.0


### Aufgabe: Erste Exploration DataFrame <a class="anchor" id="aufgabe_exploration"></a>
Für die Aufgabe laden wir zunächst einen Teil des [Fifa World Cup](https://www.kaggle.com/datasets/abecklas/fifa-world-cup) Datensatzes aus einer csv-Datei. Wenden Sie anschließend die zuvor eingeführten Methoden auf den neuen DataFrame an, um sich ein erstes Bild zu den Daten zu verschaffen.

Sie müssen zunächst Ihren persönlichen Google-Drive Account laden. Dies gelingt wie folgt: Sie müssen entsprechende Berechtigungen genehmigen. Weitere Hinweise dazu [hier](https://colab.research.google.com/notebooks/io.ipynb#scrollTo=XDg9OBaYqRMd)

In [None]:
import pandas as pd

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
data = pd.read_csv("/content/drive/MyDrive/WorldCupMatches.txt")
data.dropna(inplace=True)

In [None]:
data.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA


## 1.3 Sortieren <a class="anchor" id="sortieren"></a>
Mit der Methode `sort_values` können Sie DataFrames nach Belieben sortieren.

In [None]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44


In [None]:
tabelle.sort_values("Unentschieden")

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
5,6,Hoffenheim,28,13,5,10,50,42,8,44
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45


**Frage**: Sie sehen, dass die Methode `sort_values` die Werte einer Spalte aufsteigend sortiert. Wie können Sie die Werte absteigend sortieren?

In [None]:
tabelle.sort_values("Tore_+", ascending=False)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
5,6,Hoffenheim,28,13,5,10,50,42,8,44
4,5,Freiburg,28,12,9,7,44,33,11,45


In [None]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
5,6,Hoffenheim,28,13,5,10,50,42,8,44
4,5,Freiburg,28,12,9,7,44,33,11,45


Mit der Funktion `sort_values` können Sie einen DataFrame auch nach mehreren Spalten sortieren. **Frage**: Bitte erläutern Sie nach welcher Systematik die Sortierung im unten gezeigten Beispiel erfolgt!

In [None]:
tabelle.sort_values(["Unentschieden","Tordifferenz"])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,28,18,3,7,68,42,26,57
0,1,Bayern,28,21,3,4,85,29,56,66
5,6,Hoffenheim,28,13,5,10,50,42,8,44
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45


Für den Fall, dass die Sortierung nach mehreren Spalten erfolgen soll, kann ebenfalls individuell für jede Spalte eine Sortierungsvorschrift definiert werden.

In [None]:
tabelle.sort_values(["Unentschieden","Tore_+"], ascending=[True,False])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
5,6,Hoffenheim,28,13,5,10,50,42,8,44
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45


## 1.4 Subsetting <a class="anchor" id="subsetting"></a>
Mit "Subsetting" können Sie Teile eines DataFrames "ausschneiden"!

### Subsetting von Spalten

In [None]:
tabelle.head(2)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57


In [None]:
tabelle.columns

Index(['Rang', 'Mannschaft', 'Spiele', 'Siege', 'Unentschieden', 'Niederlagen',
       'Tore_+', 'Tore_-', 'Tordifferenz', 'Punkte'],
      dtype='object')

In [None]:
# Einzelne Spalte - Variante 1
tabelle["Tordifferenz"]

0    56
1    26
2    26
3    30
5     8
4    11
Name: Tordifferenz, dtype: int64

In [None]:
# Einzelne Spalte - Variante 2
tabelle.Tordifferenz

4    11
5     8
3    30
1    26
2    26
0    56
Name: Tordifferenz, dtype: int64

In [None]:
# Mehrere Spalten
tabelle[["Mannschaft", "Tore_+", "Tordifferenz"]]

Unnamed: 0,Mannschaft,Tore_+,Tordifferenz
4,Freiburg,44,11
5,Hoffenheim,50,8
3,RB Leipzig,61,30
1,Dortmund,68,26
2,Leverkusen,68,26
0,Bayern,85,56


### Subsetting von Zeilen

Sie können einzelne Zeilen eines Pandas Dataframes in ähnlicher Weise wie Listen über die Verwendung von Indizes slicen. Hierzu ein kurzes Beispiel:

In [None]:
tabelle[1:]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44


Sie haben die Möglichkeit auf die Werte einer Spalte direkt logische Operationen anzuwenden. Im Ergebnis erhalten Sie nur die Zeilen des DataFrames, die die definierte Bedingung erfüllen. Mit der Anweisung `tabelle["Tore_+"]>65` wird beispielweise für jeden Eintrag in der Spalte `Tore_+` geprüft, ob der entsprechende Wert größer `65` ist. Die Rückgabewerte dieser Prüfung sind zunächst boolsche Werte und geben an, ob die Bedingung wahr oder falsch ist.

In [None]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44


In [None]:
tabelle["Tore_+"]>65

0     True
1     True
2     True
3    False
4    False
5    False
Name: Tore_+, dtype: bool

Das Ergebnis der obigen Prüfung können Sie nun zum Filtern des DataFrames wie folgt einsetzen:

In [None]:
tabelle[tabelle["Tore_+"]>65]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51


Es gibt verschiedene **logische Operatoren**, die Sie für die Filterung von Data Frames verwenden können:
- `>`: größer (`tabelle[tabelle["Tore_+"]>65]`)
- `>=`: größer gleich (`tabelle[tabelle["Tore_+"]>=65]`)
- `<`: kleiner (`tabelle[tabelle["Tore_+"]<65]`)
- `<=`: kleiner gleich (`tabelle[tabelle["Tore_+"]<=65]`)
- `==`: gleich (`tabelle[tabelle["Tore_+"]==65]`)
- `!=`: ungleich (`tabelle[tabelle["Tore_+"]!=65]`)

**Frage:** Wie filtern Sie auf die Mannschaft `Dortmund`?

In [None]:
# nur Dortmund
tabelle[tabelle["Mannschaft"]=="Dortmund"]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,28,18,3,7,68,42,26,57


In [None]:
# alle Mannschaften außer Dortmund
tabelle[tabelle["Mannschaft"]!="Dortmund"]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44
3,4,RB Leipzig,28,14,6,8,61,31,30,48
2,3,Leverkusen,28,15,6,7,68,42,26,51
0,1,Bayern,28,21,3,4,85,29,56,66


Sie haben zudem die Möglichkeit einen Dataframe nach mehreren Bedingungen zu filtern. Möchten Sie beispielsweise nur Mannschaften haben, die mehr als 65 Tore geschossen und gleichzeitig nicht mehr als 4 Unentschieden haben, braucht es folgende Anweisung:

In [None]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44
3,4,RB Leipzig,28,14,6,8,61,31,30,48
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
0,1,Bayern,28,21,3,4,85,29,56,66


In [None]:
# "&" ist das logische "UND"
tabelle[(tabelle["Tore_+"]>65) & (tabelle["Unentschieden"]<=4)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,28,18,3,7,68,42,26,57
0,1,Bayern,28,21,3,4,85,29,56,66


**Frage:** Was ist der Rückgabewert der folgenden Anweisung und welche Bedeutung hat das Zeichen `|`?

```Python
tabelle[(tabelle["Tore_+"]>65) | (tabelle["Tordifferenz"]>=30)]
```

In [None]:
tabelle[(tabelle["Tore_+"]>65) | (tabelle["Tordifferenz"]>=30)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
3,4,RB Leipzig,28,14,6,8,61,31,30,48
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
0,1,Bayern,28,21,3,4,85,29,56,66


Eine weitere sehr nützliche Methode für das Subsetting ist `.isin([])`. Möchten Sie beispielsweise nach den Mannschaften `Hoffenheim` und `Leverkusen` filtern, gelingt dies wie folgt:

In [None]:
tabelle[tabelle["Mannschaft"].isin(["Hoffenheim","Leverkusen"])]

### Aufgabe: Sortieren und Subsetting <a class="anchor" id="subset_sort"></a>

Wir betrachten erneut den Fifa World Cup Datensatz - wir hatten diesen bereits zuvor geladen und unter der Variablen `data` als DataFrame gespeichert. Bitte bearbeiten Sie die folgenden Aufgaben:
1. Wählen Sie aus dem DataFrame die Spalten `"Referee"`, `"Assistant 1"` und `"Assistant 2"` aus. 
1. Sortieren Sie die Spiele absteigend nach der Zuschaueranzahl. Welches war das Spiel mit den meisten Zuschauern? 
1. Filtern Sie den DataFrame auf alle Spiele mit Zuschauern zwischen 35.000 und 36.000 Zuschauern.
1. Wie viele Spiele zwischen 35.000 und 36.000 Zuschauern gab es in der Historie? Sie können dazu z.B. die Funktion `shape` oder `len` nutzen. Geben Sie zudem an, in welchen Städten (Spalte `City`) diese Spiele stattgefunden haben. Dabei hilft Ihnen die Methode `unique()`.
1. Filtern Sie den DataFrame auf die Spiele, bei denen entweder Deutschland (Kürzel: `FRG` & `GER`) oder England (Kürzel: `ENG`) teilgenommen haben.
1. Filtern Sie den DataFrame auf die Spiele, bei denen Deutschland gegen England gespielt hat.

In [None]:
# Aufgabe1
data[["Referee", "Assistant 1", "Assistant 2"]].head()

Unnamed: 0,Referee,Assistant 1,Assistant 2
0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA)
1,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI)
2,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA)
3,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU)
4,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU)


In [None]:
# Aufgabe2
data.sort_values("Attendance", ascending=False).head(1)[["Home Team Name","Away Team Name"]]

Unnamed: 0,Home Team Name,Away Team Name
74,Uruguay,Brazil


In [None]:
# Aufgabe3
data1 = data[
     (data["Attendance"]>=35000) & 
     (data["Attendance"]<=36000)
     ]
data1.head(2)

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
28,1934.0,31 May 1934 - 16:30,Quarter-finals,Giovanni Berta,Florence,Italy,1.0,1.0,Spain,,35000.0,0.0,0.0,BAERT Louis (BEL),ZENISEK Bohumil (TCH),IVANCSICS Mihaly (HUN),418.0,1122.0,ITA,ESP
31,1934.0,03 Jun 1934 - 16:30,Semi-finals,San Siro,Milan,Italy,1.0,0.0,Austria,,35000.0,1.0,0.0,EKLIND Ivan (SWE),BAERT Louis (BEL),ZENISEK Bohumil (TCH),3492.0,1107.0,ITA,AUT


In [None]:
f"Es gabe {data1.shape[0]} Spiele, die die Bedingungen erfüllen!"

'Es gabe 25 Spiele, die die Bedingungen erfüllen!'

In [None]:
# Aufgabe4
# Variante 1
data1.City.unique()
data1["City"].unique()

# Variante 2
pd.unique(data1.City)

array(['Florence ', 'Milan ', 'Lausanne ', 'Cordoba ', 'Mar Del Plata ',
       'Mendoza ', 'Malaga ', 'Guadalajara ', 'Queretaro ', 'Cagliari ',
       'Udine ', 'Verona ', 'Nantes ', 'Ibaraki ', 'Sapporo ',
       'Polokwane ', 'Tshwane/Pretoria '], dtype=object)

In [None]:
# Aufgabe5

data[
     (data["Home Team Initials"].isin(["FRG","GER","ENG"])) |
     (data["Away Team Initials"].isin(["FRG","GER","ENG"]))
].shape

(165, 20)

In [None]:
# Aufgabe 6
data[
     (data["Home Team Initials"].isin(["FRG","GER","ENG"])) &
     (data["Away Team Initials"].isin(["FRG","GER","ENG"]))
].shape

(5, 20)

## 1.5 Hinzufügen neuer Spalten <a class="anchor" id="neue_spalte"></a>

**Neue Spalte mit Wert:** Wir erzeugen einen neuen DataFrame `df` und fügen eine neue Spalte ein, die in jeder Zeile immer den gleichen Wert hat:

In [None]:
df = pd.DataFrame([[1,1,1],[2,2,2],[3,3,3]], columns=["Spalte1","Spalte2","Spalte3"])
df

Unnamed: 0,Spalte1,Spalte2,Spalte3
0,1,1,1
1,2,2,2
2,3,3,3


In [None]:
df["Spalte6"]=5
df

Unnamed: 0,Spalte1,Spalte2,Spalte3,Spalte5,Spalte6
0,1,1,1,5,5
1,2,2,2,5,5
2,3,3,3,5,5


**Neue Spalte mit berechneten Werten:** Wir können beliebige arithmetische Operationen auf Spalten (mit numerischen Werten) anwenden und daraus neue Spalten erzeugen.

In [None]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44


In [None]:
# Variante 1
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/28

# Variante 2 (besser)
tabelle["Gegentore_pro_Spiel"] = tabelle["Tore_-"]/tabelle["Spiele"]
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Bayern,28,21,3,4,85,29,56,66,3.035714,1.035714
1,2,Dortmund,28,18,3,7,68,42,26,57,2.428571,1.5
2,3,Leverkusen,28,15,6,7,68,42,26,51,2.428571,1.5
3,4,RB Leipzig,28,14,6,8,61,31,30,48,2.178571,1.107143
4,5,Freiburg,28,12,9,7,44,33,11,45,1.571429,1.178571
5,6,Hoffenheim,28,13,5,10,50,42,8,44,1.785714,1.5


In [None]:
# Berechnung Tordifferenz
tabelle["Tore_+"] - tabelle["Tore_-"]

0    56
1    26
2    26
3    30
4    11
5     8
dtype: int64

**Frage:** Wie fügen Sie eine neue Spalte ein, die für jede Mannschaft die Gegentore pro Spiel darstellt?

In [None]:
tabelle["Gegentore_pro_Spiel"] = tabelle["Tore_-"]/tabelle["Spiele"]
tabelle.head(1)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Bayern,28,21,3,4,85,29,56,66,3.035714,1.035714


# 2 Aggregation von Daten <a class="anchor" id="aggregation"></a>

## 2.1 Erste deskriptive Parameter & Summierung <a class="anchor" id="parameter"></a>

In [None]:
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel
0,1,Bayern,28,21,3,4,85,29,56,66,3.035714,1.035714
1,2,Dortmund,28,18,3,7,68,42,26,57,2.428571,1.5
2,3,Leverkusen,28,15,6,7,68,42,26,51,2.428571,1.5
3,4,RB Leipzig,28,14,6,8,61,31,30,48,2.178571,1.107143
4,5,Freiburg,28,12,9,7,44,33,11,45,1.571429,1.178571
5,6,Hoffenheim,28,13,5,10,50,42,8,44,1.785714,1.5


In [None]:
# Mittelwert
tabelle["Tore_+"].mean()

62.666666666666664

In [None]:
# Median
tabelle["Tore_+"].median()

64.5

In [None]:
tabelle["Tore_+"].sort_values()

4    44
5    50
3    61
1    68
2    68
0    85
Name: Tore_+, dtype: int64

In [None]:
# Standardsabweichung
tabelle["Tore_+"].std()

Es besteht die Möglichkeit, dass Sie Methoden zur Berechnung von statistischen Parametern auf mehrere Spalten gleichzeitig anwenden:

Berechnung des Mittelwertes für die beiden Spalten `Tore_+` und `Tore_-`:

In [None]:
tabelle[["Tore_+","Tore_-", "Tordifferenz"]].mean()

Tore_+          62.666667
Tore_-          36.500000
Tordifferenz    26.166667
dtype: float64

Die Anzahl aller geschossenen Tore berechnet Ihnen die Methode `sum()`:

In [None]:
tabelle["Tore_+"].sum()

376

**Frage:** Was macht die Funktion `cumsum`? Sehen Sie sich dazu die Ausgabe in der unteren Code-Zellen genauer an.

In [None]:
tabelle["cumsum"] = tabelle["Tore_+"].cumsum()
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum
0,1,Bayern,28,21,3,4,85,29,56,66,3.035714,1.035714,85
1,2,Dortmund,28,18,3,7,68,42,26,57,2.428571,1.5,153
2,3,Leverkusen,28,15,6,7,68,42,26,51,2.428571,1.5,221
3,4,RB Leipzig,28,14,6,8,61,31,30,48,2.178571,1.107143,282
4,5,Freiburg,28,12,9,7,44,33,11,45,1.571429,1.178571,326
5,6,Hoffenheim,28,13,5,10,50,42,8,44,1.785714,1.5,376


**Frage**: Wie lassen sich die kummulativen Häufigkeiten als Prozent darstellen? Denken Sie nochmals an den Abschnitt, in dem wir beliebige arithmetische Operationen für einzelne Spalten durchgeführt haben!

In [None]:
tabelle["cumsum"] = 100 * tabelle["Tore_+"].cumsum()/ tabelle["Tore_+"].sum()
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,Gegentore_pro_Spiel,cumsum
0,1,Bayern,28,21,3,4,85,29,56,66,3.035714,1.035714,22.606383
1,2,Dortmund,28,18,3,7,68,42,26,57,2.428571,1.5,40.691489
2,3,Leverkusen,28,15,6,7,68,42,26,51,2.428571,1.5,58.776596
3,4,RB Leipzig,28,14,6,8,61,31,30,48,2.178571,1.107143,75.0
4,5,Freiburg,28,12,9,7,44,33,11,45,1.571429,1.178571,86.702128
5,6,Hoffenheim,28,13,5,10,50,42,8,44,1.785714,1.5,100.0


### Aufgabe: Parameter und Summen - Fifa World Cup <a class="anchor" id="parameter_summen"></a>

Wir betrachten erneut die Daten zur Fussballweltmeisterschaft und laden diese wie folgt:

In [None]:
df = pd.read_csv("/content/drive/MyDrive/WorldCupMatches.txt")
# Transformation der Spalten in passende Datentypen mit der Funktion ".astype", Numpy-Datentypen unter https://www.w3schools.com/python/numpy/numpy_data_types.asp
df = df.astype({"Datetime": "M", "RoundID": "O", "MatchID": "O"}, errors='raise') 
df.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,1930-07-13 15:00:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,1930-07-13 15:00:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,1930-07-14 12:45:00,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,1930-07-14 14:50:00,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,1930-07-15 16:00:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA


Bitte bearbeiten Sie die folgenden Aufgaben:
1. In welchem Jahreszeitraum wurden die Daten zu den verschiedenen Fussballweltmeisterschaften erhoben? 
1. Was ist die durchschnittliche Zuschauerzahl bei einem Weltmeisterschaftsspiel?
1. Welches war das Spiel mit den meisten/ wenigsten Zuschauern? Nutzen Sie hierzu die `max()` und `min()` Methoden!
1. Wie viele Menschen haben im Erhebungszeitraum Spiele einer Fussballweltmeisterschaft gesehen? Nutzen Sie die `sum()` Methode!
1. Fügen Sie eine neue Spalte ein, die die Anzahl der geschossenen Tore bei jedem Weltmeisterschaftsspiel berechnet! Schauen Sie sich dazu nochmals das Kapitel zum Einfügen neuer Spalten an!
1. Welches ist das Spiel mit den meisten Toren?
1. Wie viele Tore fallen im Schnitt bei einem Spiel der Fussballweltmeisterschaft?
1. Fallen in einem Spiel im Mittel mehr Tore in der ersten oder zweiten Halbzeit?


In [None]:
#Aufgabe 1
df["Year"].min(), df["Year"].max()

(1930.0, 2014.0)

In [None]:
zeitraum = df["Year"].max() - df["Year"].min()
f"Die Daten erstrecken sich über einen Zeitraum von {zeitraum} Jahren!"

'Die Daten erstrecken sich über einen Zeitraum von 84.0 Jahren!'

In [None]:
# Aufgabe 2
df["Attendance"].mean()

45164.8

In [None]:
# Aufgabe 3
# Variante 1
df["Attendance"].min(), df["Attendance"].max()

(2000.0, 173850.0)

In [None]:
df[df["Attendance"]==2000.0]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
9,1930.0,1930-07-19 12:50:00,Group 1,Estadio Centenario,Montevideo,Chile,1.0,0.0,France,,2000.0,0.0,0.0,TEJADA Anibal (URU),LOMBARDI Domingo (URU),REGO Gilberto (BRA),201.0,1094.0,CHI,FRA


In [None]:
df[df["Attendance"]==173850.0]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
74,1950.0,1950-07-16 15:00:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Uruguay,2.0,1.0,Brazil,,173850.0,0.0,0.0,READER George (ENG),ELLIS Arthur (ENG),MITCHELL George (SCO),209.0,1190.0,URU,BRA


In [None]:
# Aufgabe 3
# Variante 2
df[df["Attendance"]==df["Attendance"].min()]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
9,1930.0,1930-07-19 12:50:00,Group 1,Estadio Centenario,Montevideo,Chile,1.0,0.0,France,,2000.0,0.0,0.0,TEJADA Anibal (URU),LOMBARDI Domingo (URU),REGO Gilberto (BRA),201.0,1094.0,CHI,FRA


In [None]:
df[df["Attendance"]==df["Attendance"].max()]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
74,1950.0,1950-07-16 15:00:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Uruguay,2.0,1.0,Brazil,,173850.0,0.0,0.0,READER George (ENG),ELLIS Arthur (ENG),MITCHELL George (SCO),209.0,1190.0,URU,BRA


In [None]:
# Aufgabe 3
# Variante 3
df[(df["Attendance"]==df["Attendance"].min()) | (df["Attendance"]==df["Attendance"].max())]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
9,1930.0,1930-07-19 12:50:00,Group 1,Estadio Centenario,Montevideo,Chile,1.0,0.0,France,,2000.0,0.0,0.0,TEJADA Anibal (URU),LOMBARDI Domingo (URU),REGO Gilberto (BRA),201.0,1094.0,CHI,FRA
74,1950.0,1950-07-16 15:00:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Uruguay,2.0,1.0,Brazil,,173850.0,0.0,0.0,READER George (ENG),ELLIS Arthur (ENG),MITCHELL George (SCO),209.0,1190.0,URU,BRA


In [None]:
# Aufgabe4
df["Attendance"].sum()

38390080.0

In [None]:
# Aufgabe5
df["Goals_scored"] = df["Home Team Goals"] + df["Away Team Goals"]

df.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,...,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials,Goals_scored
0,1930.0,1930-07-13 15:00:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,...,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX,5.0
1,1930.0,1930-07-13 15:00:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,...,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL,3.0
2,1930.0,1930-07-14 12:45:00,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,...,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA,3.0
3,1930.0,1930-07-14 14:50:00,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,...,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER,4.0
4,1930.0,1930-07-15 16:00:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,...,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA,1.0


In [None]:
# Aufgabe 6
# Variante1
df[df["Goals_scored"]==max(df["Goals_scored"])]
# Variante2
df[df["Goals_scored"]==df["Goals_scored"].max()]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,...,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials,Goals_scored
94,1954.0,1954-06-26 17:00:00,Quarter-finals,La Pontaise,Lausanne,Austria,7.0,5.0,Switzerland,,...,5.0,4.0,FAULTLESS Charlie (SCO),ASENSI Manuel (ESP),SCHMETZER Emil (FRG),212.0,1237.0,AUT,SUI,12.0


In [None]:
#Aufgabe 7
f'Im Schnitt fallen pro Spiel {round(df["Goals_scored"].mean(), ndigits=1)} Tore!'

'Im Schnitt fallen pro Spiel 2.8 Tore!'

In [None]:
df.columns

Index(['Year', 'Datetime', 'Stage', 'Stadium', 'City', 'Home Team Name',
       'Home Team Goals', 'Away Team Goals', 'Away Team Name',
       'Win conditions', 'Attendance', 'Half-time Home Goals',
       'Half-time Away Goals', 'Referee', 'Assistant 1', 'Assistant 2',
       'RoundID', 'MatchID', 'Home Team Initials', 'Away Team Initials',
       'Goals_scored'],
      dtype='object')

In [None]:
# Aufgabe 8
df["Tore_Halbzeit_1"] = df["Half-time Home Goals"] + df["Half-time Away Goals"]
df["Tore_Halbzeit_1"].mean()

1.1373239436619718

In [None]:
df["Tore_Halbzeit_2"] = df["Goals_scored"] - df["Tore_Halbzeit_1"]
df["Tore_Halbzeit_2"].mean()

1.6960093896713615

## 2.2 Zählen <a class="anchor" id="zaehlen"></a>
Wir bleiben beim Fifa World Cup Datensatz. Enthalten Spalten kategoriale Werte interessiert man sich z.B. dafür, wie häufig eine Kategorie auftritt. Pandas stellt dafür die Funktion `value_counts` bereit:

In [None]:
df["City"].value_counts()

Mexico City        23
Montevideo         18
Rio De Janeiro     18
Guadalajara        17
Johannesburg       15
                   ..
Eskilstuna          1
Orebro              1
Reims               1
Antibes             1
Lille               1
Name: City, Length: 151, dtype: int64

**Frage:** Was macht die Parameter `normalize` und `ascending` in der Funktion `value_counts`?

In [None]:
df["City"].value_counts(normalize=False, ascending=False) 

Mexico City        23
Montevideo         18
Rio De Janeiro     18
Guadalajara        17
Johannesburg       15
                   ..
Eskilstuna          1
Orebro              1
Reims               1
Antibes             1
Lille               1
Name: City, Length: 151, dtype: int64

## 2.3 Gruppierungen und Aggregationen <a class="anchor" id="gruppierung"></a>

Wenn wir uns erneut mit dem Fifa World Cup Datensatz beschäftigen, könnten wir uns dafür interessieren, wie viele Zuschauer im Mittel bei einem Spiel einer jeden Mannschaft anwesend waren - für den Fall, dass die Mannschaft ein Heimspiel hatte. Mit den bisherigen Methoden können wir dies bereits berechnen, hier am Beispiel der deutschen, englischen und französischen Nationalmannschaft:

In [None]:
zuschauer_de = df[df["Home Team Initials"].isin(["FRG","GER"])]
zuschauer_it = df[df["Home Team Initials"] == "ITA"]
zuschauer_fr = df[df["Home Team Initials"] == "FRA"]

In [None]:
zuschauer_de.head()

In [None]:
zuschauer_de_mean = zuschauer_de["Attendance"].mean()
zuschauer_it_mean = zuschauer_it["Attendance"].mean()
zuschauer_fr_mean = zuschauer_fr["Attendance"].mean()
zuschauer_de_mean, zuschauer_it_mean, zuschauer_fr_mean

(49478.88, 48515.82456140351, 41870.67741935484)

Wie Sie erkennen, ist diese Art der Berechnung bei einer Vielzahl von Mannschaften extrem mühsam. Pandas stellt glücklicherweise Methoden bereit, die Ihnen die Arbeit enorm erleichtern, insbesondere die `groupby` Funktion.

Wir können beispielsweise die mittlere Anzahl von Zuschauern je Mannschaft berechnen (für den Fall eines Heimspiels), wenn wir zunächst die Daten nach Mannschaft gruppieren (`df.groupby("Home Team Initials")`), dann nur die Anzahl der Zuschauer weiter betrachten (`df.groupby("Home Team Initials")["Attendance"]`) und abschließend je Mannschaft den Mittelwert der Zuschauer berechnen:

In [None]:
df.groupby("Home Team Initials")["Attendance"].mean()

Home Team Initials
ALG    25602.666667
ANG    45000.000000
ARG    53981.981481
AUS    39464.666667
AUT    31415.538462
           ...     
URU    47569.750000
USA    43862.666667
WAL     2823.000000
YUG    25391.352941
ZAI    31600.000000
Name: Attendance, Length: 77, dtype: float64

In [None]:
# Mit Sortierung
zuschauer_team = df.groupby("Home Team Initials")["Attendance"].mean().sort_values(ascending=False)
zuschauer_team

Home Team Initials
UKR    72000.00
CAN    65500.00
ECU    65402.75
BOL    63089.00
TRI    62959.00
         ...   
PRK    22128.00
PER    19498.20
TCH    16637.10
CUB     7500.00
WAL     2823.00
Name: Attendance, Length: 77, dtype: float64

Sie haben die Möglichkeit mit der Funktion `groupby` auch Gruppierungen auf mehrere Spalten durchzuführen. Zum Beispiel können wir für jede Mannschaftspaarung die durchschnittliche Anzahl von Zuschauern berechnen:

In [None]:
paarungen = df.groupby(["Home Team Initials","Away Team Initials"])["Attendance"].mean()
paarungen

Home Team Initials  Away Team Initials
ALG                 AUT                   22000.0
                    CHI                   16000.0
                    ESP                   23980.0
                    NIR                   22000.0
                    RUS                   39311.0
                                           ...   
YUG                 UAE                   27833.0
                    URU                    8829.0
                    ZAI                   31700.0
ZAI                 BRA                   36200.0
                    SCO                   27000.0
Name: Attendance, Length: 661, dtype: float64

**Frage:** Welches sind die Mannschaftspaarungen mit den meisten und wenigsten Zuschauern? Verwenden Sie dazu die `sort_values` Methode!

In [None]:
paarungen.sort_values()

Home Team Initials  Away Team Initials
CHI                 FRA                     2000.0
ROU                 PER                     2549.0
WAL                 HUN                     2823.0
SUI                 MEX                     3580.0
TUR                 KOR                     4000.0
                                            ...   
MEX                 URS                   107160.0
                    BEL                   108192.0
                    PAR                   114600.0
URU                 BRA                   173850.0
GER                 ALG                        NaN
Name: Attendance, Length: 661, dtype: float64

Mithilfe der Methode `agg` können Sie gleichzeitig mehrere Aggregationsfunktionen berechnen lassen. Dazu übergeben Sie an die Funktion `agg` eine Liste, die die relevanten Funktionen als String enthält:

In [None]:
df.groupby("Home Team Initials")["Attendance"].agg(["min","mean","max"]).head()

Unnamed: 0_level_0,min,mean,max
Home Team Initials,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ALG,16000.0,25602.666667,39311.0
ANG,45000.0,45000.0,45000.0
ARG,7134.0,53981.981481,114600.0
AUS,17400.0,39464.666667,53300.0
AUT,16000.0,31415.538462,41424.0


### Aufgabe: Aggregation - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Sie erhalten einen Datensatz der Einzelhandelskette Walmart (Auszug aus diesem [Datensatz](https://www.kaggle.com/competitions/walmart-recruiting-store-sales-forecasting/data)). Dieser enthält Verkaufszahlen für jeden Laden (`store`) mit seinen verschiedenen Kategorien (`department`), z.B. Gemüse oder Tiefkühlware. Die wöchentlichen Verkaufszahlen (`weekly_sales`) sind in Dollar angegeben. Der jeweilige Freitag einer Woche ist über die Spalte `date` gekennzeichnet. Die Spalten `is_holiday`, `temperature_c`, `fuel_price_usd_per_l`und `unemployment` enthalten weitere Informationen, die für diese Woche aufgenommen wurden und vermutlich einen Einfluss auf die Verkaufszahlen haben. Wir laden zunächst wieder die Daten:

In [None]:
df = pd.read_csv("/content/drive/MyDrive/KI_LOG_mit_PYTHON/sales_data.txt", index_col=0)
# Löschen der Spalte "type". "inplace=True" ist gleichbedeutend mit "df = df.drop(columns=["type"])"
df.drop(columns=["type"], inplace=True)
# Transformation der Datentypen
df = df.astype({"store":"O", "department":"O", "date":"M"})
df.head()

Unnamed: 0,store,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. In welchem Zeitraum wurden die Daten erhoben?
1. Welchen Gesamtumsatz hat Walmart im Betrachtungszeitraum realisiert? 
1. Berechnen Sie für jeden Store die Gesamtumsätze im Betrachtungszeitraum! Nutzen Sie die `groupby` und anschließend die `sum` Methode!
1. Was ist der durchschnittliche wöchentliche Umsatz eines Stores? Bitte stellen Sie dies für jeden Store dar. Sie können auf der Lösung zur Aufgabe zuvor aufbauen. Nutzen Sie zusätzlich die `mean` Funktion!
1. Erstellen Sie eine Pivottabelle, die die durchschnitllichen wöchentlichen Umsätze je Store zeigt und dabei unterscheidet, ob in der Woche Ferientage lagen oder eben nicht! Nutzen Sie dafür die Methode!
1. Fügen Sie eine neue Spalte ein, die angibt, ob der Kraftstoffpreis pro Liter in einer Woche größer gleich 0.9 Dollar war. Erzeugen Sie anschließend eine Pivottabelle, die die Verkaufszahlen in Abhängigkeit des Kraftstoffpreises - kleiner 0.9 Dollar vs. größer gleich 0.9 Dollar - wiedergibt!
1. Wie können Sie das Ergebnis aus der vorherigen Aufgabe in einer csv-Datei speichern?

In [None]:
# Aufgabe1
df["date"].max(), df["date"].min()

(Timestamp('2012-10-26 00:00:00'), Timestamp('2010-02-05 00:00:00'))

In [None]:
# Aufgabe2
df["weekly_sales"].sum()

256894718.89999998

In [None]:
# Aufgabe3
df.groupby("store")["weekly_sales"].sum().sort_values(ascending=False)

store
14    26889842.67
20    25828317.41
2     23786139.34
4     23540414.45
13    23431368.47
10    23178403.89
27    21786727.24
6     19275700.71
1     18828144.55
19    18057339.37
31    16179249.68
39    16113071.12
Name: weekly_sales, dtype: float64

In [None]:
#Aufgabe4
df.groupby("store")["weekly_sales"].mean().sort_values(ascending=False)

store
14    30384.003017
20    28382.766385
2     26517.435162
4     26126.986071
10    25696.678370
13    25664.149474
27    24207.474711
6     21561.186477
1     20896.941787
19    19930.838157
39    18414.938423
31    18178.932225
Name: weekly_sales, dtype: float64

In [None]:
#Aufgabe5
df.groupby(["store","is_holiday"])["weekly_sales"].mean()

store  is_holiday
1      False         20962.474477
       True           1280.823333
2      False         26601.621409
       True           1429.933333
4      False         26270.158984
       True            470.400000
6      False         21606.366267
       True           1411.000000
10     False         25751.980533
       True            810.705000
13     False         25719.082843
       True            642.000000
14     False         30486.986939
       True            106.730000
19     False         20107.698263
       True             78.291250
20     False         28507.329338
       True            169.257500
27     False         24308.986250
       True           1468.890000
31     False         18218.964200
       True            404.735000
39     False         18498.700528
       True            175.740000
Name: weekly_sales, dtype: float64

In [None]:
# Aufgabe6
# Schritt1 - neue Spalte
df["Spritpreis_>0.9"] = df["fuel_price_usd_per_l"] >= 0.9
# Schritt - Gruppierung (aggregiert)
df.groupby("Spritpreis_>0.9")["weekly_sales"].mean()
# Schritt - Gruppierung (je Store)
df.groupby(["store","Spritpreis_>0.9"])["weekly_sales"].mean()

store  Spritpreis_>0.9
1      False              21145.588215
       True                7143.686250
2      False              26844.761106
       True                 152.818182
4      False              26447.636607
       True                 183.442727
6      False              21900.659818
       True                 222.862143
10     False              25924.280548
       True                 262.135000
13     False              26031.049344
       True                 263.389231
14     False              31444.211392
       True                 168.064333
19     False              20653.368043
       True                 196.740625
20     False              29543.365561
       True                 205.997500
27     False              25002.604237
       True                 326.170690
31     False              18342.856871
       True                 106.240000
39     False              18689.587019
       True                 203.623846
Name: weekly_sales, dtype: float64

In [None]:
# 3. Export
daten_export.to_csv(path)

In [None]:
drive.flush_and_unmount()