<a href="https://colab.research.google.com/github/AlexKressner/Logistik_Data_Analyst/blob/main/G1_Pandas_Data_Analysis_part1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Übersicht
1. [Einführung Pandas](#einführung_pandas)
    1. [DataFrames](#dataframes)
    2. [Erste Methoden zur Datenexploration](#exploration)
    3. [Sortieren](#sortieren)
    4. [Subsetting](#subsetting)
    5. [Neue Spalten](#neue_spalte)
2. [Aggregation von Daten](#aggregation)
    1. [Erste deskriptive Parameter & Summierung](#parameter)
    1. [Zählen](#zaehlen)
    1. [Gruppierungen und Aggregationen](#gruppierung)
    1. [Pivottabellen](#pivot)

# Übungsaufgaben
- [Erste Exploration DataFrame - Fifa World Cup](#aufgabe_exploration)
- [Sortieren und Subsetting - Fifa World Cup](#subset_sort)
- [Statistische Parameter & Summen - Fifa World Cup](#parameter_summen)
- [Aggregationen - Verkaufszahlen Walmart](#walmart)

# 1. Einführung Pandas <a class="anchor" id="einführung_pandas"></a>
Pandas ist eines der weltweit bekanntesten Packages für Python und wird zur Lösung diverser Aufgaben im Bereich der Datenverarbeitung eingesetzt - von der Datenmanipulation bis hin zu ausgefeilten Datenanalysen. Wir beschäftigen uns intensiv mit dem Konzept des DataFrames, wie man diesen zum Zwecker Datenanalyse erstellt, filtert, transformiert etc. Wir werden dabei immer wieder auf realte Datensätze zurückgreifen und auch bereits erste Visualisierungen erzeugen.

## 1.1 DataFrames <a class="anchor" id="dataframes"></a>
In einem DataFrame speichern Sie tabellarische Daten, die Sie anschließend mit diversen Methoden transformieren können. Das folgende Beispiel erzeugt einen DataFrame aus zwei Listen. Die erste Liste enthält Teile der aktuellen Tabelle der 1. Fussballbundesliga. Es handelt sich um eine Liste aus Listen. Jede Liste in der Liste `tabelle` stellt einen Tabelleneintrag (Zeile) mit den zugehörigen Daten dar. Die Liste `spalten_namen` enthält - wie der Name bereits sagt - die Spaltennamen der Tabelle.

In [2]:
# import pandas
import pandas as pd

In [3]:
tabelle = [
    [1, "Bayern", 28, 21, 3, 4, 85, 29, 56, 66],
    [2, "Dortmund", 28, 18, 3, 7, 68, 42, 26, 57],
    [3, "Leverkusen", 28, 15, 6, 7, 68, 42, 26, 51],
    [4, "RB Leipzig", 28, 14, 6, 8, 61, 31, 30, 48],
    [5, "Freiburg", 28, 12, 9, 7, 44, 33, 11, 45],
    [6, "Hoffenheim", 28, 13, 5, 10, 50, 42, 8, 44],
]

In [4]:
spalten_namen = [
    "Rang", "Mannschaft", "Spiele", "Siege", 
    "Unentschieden", "Niederlagen", 
    "Tore_+", "Tore_-", "Tordifferenz", 
    "Punkte"
]

Nachfolgend erzeugen wir den DataFrame, der die Bundesligatabelle darstellt. 

In [5]:
tabelle = pd.DataFrame(tabelle, columns=spalten_namen)
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44


Wir können einen DataFrame auch mit entsprechenden Methodenaufrufen in seine einzelnen konstitutiven Komponente zerlegen ("Attributen"):

In [6]:
tabelle.values

array([[1, 'Bayern', 28, 21, 3, 4, 85, 29, 56, 66],
       [2, 'Dortmund', 28, 18, 3, 7, 68, 42, 26, 57],
       [3, 'Leverkusen', 28, 15, 6, 7, 68, 42, 26, 51],
       [4, 'RB Leipzig', 28, 14, 6, 8, 61, 31, 30, 48],
       [5, 'Freiburg', 28, 12, 9, 7, 44, 33, 11, 45],
       [6, 'Hoffenheim', 28, 13, 5, 10, 50, 42, 8, 44]], dtype=object)

In [7]:
tabelle.columns

Index(['Rang', 'Mannschaft', 'Spiele', 'Siege', 'Unentschieden', 'Niederlagen',
       'Tore_+', 'Tore_-', 'Tordifferenz', 'Punkte'],
      dtype='object')

In [8]:
tabelle.index

RangeIndex(start=0, stop=6, step=1)

## 1.2 Erste Methoden zur Datenexploration <a class="anchor" id="exploration"></a>
Für die erste Exploration von Daten in einem pandas DataFrame stehen viele nützliche Methoden zur Verfügung. Sie können sich eine Übersicht verschaffen, wenn Sie in einer Code-Zelle den DataFrame `tabelle` eingeben und anschließend einen Punkt (`.`) setzen. Mit der Eingabe `tabelle.` werden Ihnen automatisch alle verfügbaren Funktionen angezeigt.

In [9]:
# Gibt Ihnen den "Kopf" des DataFrames zurück, d.h. die ersten 5 Zeilen
tabelle.head()

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
4,5,Freiburg,28,12,9,7,44,33,11,45


In [10]:
# Zeigt Ihnen Informationen zu den einzelnen Spalten
tabelle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Rang           6 non-null      int64 
 1   Mannschaft     6 non-null      object
 2   Spiele         6 non-null      int64 
 3   Siege          6 non-null      int64 
 4   Unentschieden  6 non-null      int64 
 5   Niederlagen    6 non-null      int64 
 6   Tore_+         6 non-null      int64 
 7   Tore_-         6 non-null      int64 
 8   Tordifferenz   6 non-null      int64 
 9   Punkte         6 non-null      int64 
dtypes: int64(9), object(1)
memory usage: 608.0+ bytes


**Frage:** Was machen die folgenden beiden Funktionen?

In [11]:
tabelle.shape

(6, 10)

In [12]:
tabelle.describe()

Unnamed: 0,Rang,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
count,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0,6.0
mean,3.5,28.0,15.5,5.333333,7.166667,62.666667,36.5,26.166667,51.833333
std,1.870829,0.0,3.391165,2.250926,1.94079,14.610499,6.156298,17.116269,8.376555
min,1.0,28.0,12.0,3.0,4.0,44.0,29.0,8.0,44.0
25%,2.25,28.0,13.25,3.5,7.0,52.75,31.5,14.75,45.75
50%,3.5,28.0,14.5,5.5,7.0,64.5,37.5,26.0,49.5
75%,4.75,28.0,17.25,6.0,7.75,68.0,42.0,29.0,55.5
max,6.0,28.0,21.0,9.0,10.0,85.0,42.0,56.0,66.0


### Aufgabe: Erste Exploration DataFrame <a class="anchor" id="aufgabe_exploration"></a>
Für die Aufgabe laden wir zunächst einen Teil des [Fifa World Cup](https://www.kaggle.com/datasets/abecklas/fifa-world-cup) Datensatzes aus einer csv-Datei. Wenden Sie anschließend die zuvor eingeführten Methoden auf den neuen DataFrame an, um sich ein erstes Bild zu den Daten zu verschaffen.

Sie müssen zunächst Ihren persönlichen Google-Drive Account laden. Dies gelingt wie folgt: Sie müssen entsprechende Berechtigungen genehmigen. Weitere Hinweise dazu [hier](https://colab.research.google.com/notebooks/io.ipynb#scrollTo=XDg9OBaYqRMd)

In [13]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [14]:
# Bitte passen Sie den Dateipfad für sich an, d.h. "content/drive/<IHR PERSÖNLICHER PFAD/WorldCupMatches.csv>"
data = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/WorldCupMatches.csv")
data.dropna(inplace=True)

In [15]:
data.describe()

Unnamed: 0,Year,Home Team Goals,Away Team Goals,Attendance,Half-time Home Goals,Half-time Away Goals,RoundID,MatchID
count,850.0,850.0,850.0,850.0,850.0,850.0,850.0,850.0
mean,1985.021176,1.810588,1.022353,45164.8,0.710588,0.429412,10686260.0,60784890.0
std,22.431301,1.612125,1.088853,23485.249247,0.937885,0.691752,27323590.0,110580500.0
min,1930.0,0.0,0.0,2000.0,0.0,0.0,201.0,25.0
25%,1970.0,1.0,0.0,30000.0,0.0,0.0,262.0,1188.25
50%,1990.0,2.0,1.0,41579.5,0.0,0.0,337.0,2184.0
75%,2002.0,3.0,2.0,61374.5,1.0,1.0,249722.0,43950060.0
max,2014.0,10.0,7.0,173850.0,6.0,5.0,97410600.0,300186500.0


## 1.3 Sortieren <a class="anchor" id="sortieren"></a>
Mit der Methode `sort_values` können Sie DataFrames nach Belieben sortieren.

In [16]:
tabelle.sort_values("Tore_+")

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
4,5,Freiburg,28,12,9,7,44,33,11,45
5,6,Hoffenheim,28,13,5,10,50,42,8,44
3,4,RB Leipzig,28,14,6,8,61,31,30,48
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
0,1,Bayern,28,21,3,4,85,29,56,66


**Frage**: Sie sehen, dass die Methode `sort_values` die Werte einer Spalte aufsteigend sortiert. Wie können Sie die Werte absteigend sortieren?

In [17]:
tabelle.sort_values("Tore_+",ascending=False)

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48
5,6,Hoffenheim,28,13,5,10,50,42,8,44
4,5,Freiburg,28,12,9,7,44,33,11,45


Mit der Funktion `sort_values` können Sie einen DataFrame auch nach mehreren Spalten sortieren. **Frage**: Bitte erläutern Sie nach welcher Systematik die Sortierung im unten gezeigten Beispiel erfolgt!

In [18]:
tabelle.sort_values(["Unentschieden","Tore_+"])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,28,18,3,7,68,42,26,57
0,1,Bayern,28,21,3,4,85,29,56,66
5,6,Hoffenheim,28,13,5,10,50,42,8,44
3,4,RB Leipzig,28,14,6,8,61,31,30,48
2,3,Leverkusen,28,15,6,7,68,42,26,51
4,5,Freiburg,28,12,9,7,44,33,11,45


Für den Fall, dass die Sortierung nach mehreren Spalten erfolgen soll, kann ebenfalls individuell für jede Spalte eine Sortierungsvorschrift definiert werden.

In [19]:
tabelle.sort_values(["Unentschieden","Tordifferenz"], ascending=[True,False])

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
5,6,Hoffenheim,28,13,5,10,50,42,8,44
3,4,RB Leipzig,28,14,6,8,61,31,30,48
2,3,Leverkusen,28,15,6,7,68,42,26,51
4,5,Freiburg,28,12,9,7,44,33,11,45


## 1.4 Subsetting <a class="anchor" id="subsetting"></a>
Mit "Subsetting" können Sie Teile eines DataFrames "ausschneiden"!

### Subsetting von Spalten

In [20]:
# Einzelne Spalte - Variante 1
tabelle["Mannschaft"]

0        Bayern
1      Dortmund
2    Leverkusen
3    RB Leipzig
4      Freiburg
5    Hoffenheim
Name: Mannschaft, dtype: object

In [21]:
# Einzelne Spalte - Variante 2
tabelle.Mannschaft

0        Bayern
1      Dortmund
2    Leverkusen
3    RB Leipzig
4      Freiburg
5    Hoffenheim
Name: Mannschaft, dtype: object

**Frage:** Wie zeigen Sie nur die ersten drei Mannschaften an? Wie zeigen Sie nur die letzte Mannschaft an?

In [22]:
# Mehrere Spalten
tabelle[["Mannschaft", "Tore_+"]]

# oder
spalten_namen = ["Mannschaft", "Tore_+"]
tabelle[spalten_namen]

Unnamed: 0,Mannschaft,Tore_+
0,Bayern,85
1,Dortmund,68
2,Leverkusen,68
3,RB Leipzig,61
4,Freiburg,44
5,Hoffenheim,50


So wie zuvor können Sie erneut nach einzelnen Zeilen des DataFrames filtern. Wir werden uns nachfolgend und in einem späteren Kapitel noch intensiver damit befassen.

In [23]:
tabelle[["Mannschaft","Tordifferenz"]][3:4]

Unnamed: 0,Mannschaft,Tordifferenz
3,RB Leipzig,30


### Subsetting von Zeilen

Sie haben die Möglichkeit auf die Werte einer Spalte direkt logische Operationen anzuwenden. Im Ergebnis erhalten Sie nur die Zeilen des DataFrames, die die definierte Bedingung erfüllen. Mit der Anweisung `tabelle["Tore_+"]>65` wird beispielweise für jeden Eintrag in der Spalte `Tore_+` geprüft, ob der entsprechende Wert größer `65` ist. Die Rückgabewerte dieser Prüfung sind zunächst boolsche Werte und geben an, ob die Bedingung wahr oder falsch ist.

In [24]:
tabelle["Tore_+"]

0    85
1    68
2    68
3    61
4    44
5    50
Name: Tore_+, dtype: int64

In [25]:
tabelle["Tore_+"]>65

0     True
1     True
2     True
3    False
4    False
5    False
Name: Tore_+, dtype: bool

Das Ergebnis der obigen Prüfung können Sie nun zum Filtern des DataFrames wie folgt einsetzen:

In [26]:
tabelle[tabelle["Tore_+"]>60]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48


**Frage:** Wie filtern Sie auf die Mannschaft `Dortmund`?

">": größer
">=": größer gleich
"<": kleiner
"<=": kleiner gleich
"==": ist gleich

In [27]:
tabelle[tabelle["Mannschaft"]=="Dortmund"]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,28,18,3,7,68,42,26,57


Sie haben zudem die Möglichkeit einen Dataframe nach mehreren Bedingungen zu filtern. Möchten Sie beispielsweise nur Mannschaften haben, die mehr als 65 Tore geschossen und gleichzeitig nicht mehr als 4 Unentschieden haben, braucht es folgende Anweisung:

In [28]:
# "&" ist das logische "UND"
tabelle[(tabelle["Tore_+"]>65) & (tabelle["Unentschieden"]<=4)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57


In [29]:
tabelle[(tabelle["Mannschaft"]=="Dortmund") | (tabelle["Mannschaft"]=="Leverkusen") ]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51


**Frage:** Was ist der Rückgabewert der folgenden Anweisung und welche Bedeutung hat das Zeichen `|`?

```Python
tabelle[(tabelle["Tore_+"]>65) | (tabelle["Tordifferenz"]>=30)]
```

In [30]:
tabelle[(tabelle["Tore_+"]>65) | (tabelle["Tordifferenz"]>=30)]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
0,1,Bayern,28,21,3,4,85,29,56,66
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51
3,4,RB Leipzig,28,14,6,8,61,31,30,48


Eine weitere sehr nützliche Methode für das Subsetting ist `.isin([])`. Möchten Sie beispielsweise nach den Mannschaften `Hoffenheim` und `Leverkusen` filtern, gelingt dies wie folgt:

In [31]:
tabelle[tabelle["Mannschaft"].isin(["Dortmund","Leverkusen"])]

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte
1,2,Dortmund,28,18,3,7,68,42,26,57
2,3,Leverkusen,28,15,6,7,68,42,26,51


### Aufgabe: Sortieren und Subsetting <a class="anchor" id="subset_sort"></a>

Wir betrachten erneut den Fifa World Cup Datensatz - wir hatten diesen bereits zuvor geladen und unter der Variablen `data` als DataFrame gespeichert. Bitte bearbeiten Sie die folgenden Aufgaben:
1. Wählen Sie aus dem DataFrame die Spalten `"Referee"`, `"Assistant 1"` und `"Assistant 2"` aus. 
1. Sortieren Sie die Spiele absteigend nach der Zuschaueranzahl. Welches war das Spiel mit den meisten Zuschauern? 
1. Filtern Sie den DataFrame auf alle Spiele mit Zuschauern zwischen 35.000 und 36.000 Zuschauern.
1. Wie viele Spiele zwischen 35.000 und 36.000 Zuschauern gab es in der Historie? Sie können dazu z.B. die Funktion `shape` oder `len` nutzen. Geben Sie zudem an, in welchen Städten (Spalte `City`) diese Spiele stattgefunden haben. Dabei hilft Ihnen die Methode `unique()`.
1. Filtern Sie den DataFrame auf die Spiele, bei denen entweder Deutschland (Kürzel: `FRG` & `GER`) oder England (Kürzel: `ENG`) teilgenommen haben.
1. Filtern Sie den DataFrame auf die Spiele, bei denen Deutschland gegen England gespielt hat.

In [32]:
# Frage1:
data[["Referee", "Assistant 1", "Assistant 2"]].shape

(850, 3)

In [33]:
# Frage2:
data.sort_values("Attendance", ascending=False).head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
74,1950.0,16 Jul 1950 - 15:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Uruguay,2.0,1.0,Brazil,,173850.0,0.0,0.0,READER George (ENG),ELLIS Arthur (ENG),MITCHELL George (SCO),209.0,1190.0,URU,BRA
71,1950.0,13 Jul 1950 - 15:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Brazil,6.0,1.0,Spain,,152772.0,3.0,0.0,LEAFE Reginald (ENG),MITCHELL George (SCO),DA COSTA VIEIRA Jose (POR),209.0,1186.0,BRA,ESP
63,1950.0,01 Jul 1950 - 15:00,Group 1,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Brazil,2.0,0.0,Yugoslavia,,142429.0,1.0,0.0,GRIFFITHS Benjamin (WAL),BERANEK Alois (AUT),DA COSTA VIEIRA Jose (POR),208.0,1191.0,BRA,YUG
70,1950.0,09 Jul 1950 - 15:00,Group 6,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Brazil,7.0,1.0,Sweden,,138886.0,3.0,0.0,ELLIS Arthur (ENG),GARCIA Prudencio (USA),DE LA SALLE Charles (FRA),209.0,1189.0,BRA,SWE
379,1986.0,07 Jun 1986 - 12:00,Group B,Estadio Azteca,Mexico City,Mexico,1.0,1.0,Paraguay,,114600.0,1.0,0.0,COURTNEY George (ENG),FREDRIKSSON Erik (SWE),IGNA Ioan (ROU),308.0,680.0,MEX,PAR


In [34]:
# Frage 3:
data[(data["Attendance"]>=35000) & (data["Attendance"]<=36000)].sort_values("Attendance").head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
28,1934.0,31 May 1934 - 16:30,Quarter-finals,Giovanni Berta,Florence,Italy,1.0,1.0,Spain,,35000.0,0.0,0.0,BAERT Louis (BEL),ZENISEK Bohumil (TCH),IVANCSICS Mihaly (HUN),418.0,1122.0,ITA,ESP
31,1934.0,03 Jun 1934 - 16:30,Semi-finals,San Siro,Milan,Italy,1.0,0.0,Austria,,35000.0,1.0,0.0,EKLIND Ivan (SWE),BAERT Louis (BEL),ZENISEK Bohumil (TCH),3492.0,1107.0,ITA,AUT
94,1954.0,26 Jun 1954 - 17:00,Quarter-finals,La Pontaise,Lausanne,Austria,7.0,5.0,Switzerland,,35000.0,5.0,4.0,FAULTLESS Charlie (SCO),ASENSI Manuel (ESP),SCHMETZER Emil (FRG),212.0,1237.0,AUT,SUI
293,1978.0,11 Jun 1978 - 16:45,Group 4,San Martin,Mendoza,Scotland,3.0,2.0,Netherlands,,35130.0,1.0,1.0,LINEMAYR Erich (AUT),PALOTAI Karoly (HUN),SEOUDI Hedi (TUN),278.0,2395.0,SCO,NED
290,1978.0,11 Jun 1978 - 13:45,Group 3,Estadio Jos� Mar�a Minella,Mar Del Plata,Brazil,1.0,0.0,Austria,,35221.0,1.0,0.0,WURTZ Robert (FRA),BOUZO Farouk (SYR),GEBREYESUS DIFUE Tesfaye (ERI),278.0,2215.0,BRA,AUT


Wie viele Spiele zwischen 35.000 und 36.000 Zuschauern gab es in der Historie? Sie können dazu z.B. die Funktion shape oder len nutzen. Geben Sie zudem an, in welchen Städten (Spalte City) diese Spiele stattgefunden haben. Dabei hilft Ihnen die Methode unique().

In [35]:
# Frage 4 - Teil 1:
len(data[(data["Attendance"]>=35000) & (data["Attendance"]<=36000)])
data[(data["Attendance"]>=35000) & (data["Attendance"]<=36000)].shape

(25, 20)

In [36]:
# Frage 4 - Teil 2:

# Variante 1: 
pd.unique(data[(data["Attendance"]>=35000) & (data["Attendance"]<=36000)]["City"])

# Variante 2:
data[(data["Attendance"]>=35000) & (data["Attendance"]<=36000)]["City"].unique()

array(['Florence ', 'Milan ', 'Lausanne ', 'Cordoba ', 'Mar Del Plata ',
       'Mendoza ', 'Malaga ', 'Guadalajara ', 'Queretaro ', 'Cagliari ',
       'Udine ', 'Verona ', 'Nantes ', 'Ibaraki ', 'Sapporo ',
       'Polokwane ', 'Tshwane/Pretoria '], dtype=object)

In [37]:
# Anzahl der verschiedene Spielstätten über "nunique()":
data[(data["Attendance"]>=35000) & (data["Attendance"]<=36000)]["City"].nunique()

17

## 1.5 Hinzufügen neuer Spalten <a class="anchor" id="neue_spalte"></a>

**Neue Spalte mit Wert:** Wir erzeugen einen neuen DataFrame `df` und fügen eine neue Spalte ein, die in jeder Zeile immer den gleichen Wert hat:

In [38]:
df = pd.DataFrame([[1,1,1],[2,2,2],[3,3,3]], columns=["Spalte1","Spalte2","Spalte3"])
df

Unnamed: 0,Spalte1,Spalte2,Spalte3
0,1,1,1
1,2,2,2
2,3,3,3


In [39]:
# Einfügen der neuen Spalte
df["Spalte4"]=4
df

Unnamed: 0,Spalte1,Spalte2,Spalte3,Spalte4
0,1,1,1,4
1,2,2,2,4
2,3,3,3,4


**Neue Spalte mit berechneten Werten:** Wir können beliebige arithmetische Operationen auf Spalten (mit numerischen Werten) anwenden und daraus neue Spalten erzeugen.

In [40]:
# Variante 1
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/28

# Variante 2 (besser)
tabelle["Tore_pro_Spiel"] = tabelle["Tore_+"]/tabelle["Spiele"]
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel
0,1,Bayern,28,21,3,4,85,29,56,66,3.035714
1,2,Dortmund,28,18,3,7,68,42,26,57,2.428571
2,3,Leverkusen,28,15,6,7,68,42,26,51,2.428571
3,4,RB Leipzig,28,14,6,8,61,31,30,48,2.178571
4,5,Freiburg,28,12,9,7,44,33,11,45,1.571429
5,6,Hoffenheim,28,13,5,10,50,42,8,44,1.785714


**Frage:** Wie fügen Sie eine neue Spalte ein, die für jede Mannschaft die Gegentore pro Spiel darstellt?

# 2. Aggregation von Daten <a class="anchor" id="aggregation"></a>

## 2.1 Erste deskriptive Parameter & Summierung <a class="anchor" id="parameter"></a>

In [41]:
# Mittelwert
tabelle["Tore_+"].mean()

62.666666666666664

In [42]:
# Median
tabelle["Tore_+"].median()

64.5

In [43]:
# Standardsabweichung
tabelle["Tore_+"].std()

14.610498508492674

Es besteht die Möglichkeit, dass Sie Methoden zur Berechnung von statistischen Parametern auf mehrere Spalten gleichzeitig anwenden:

Berechnung des Mittelwertes für die beiden Spalten `Tore_+` und `Tore_-`:

In [44]:
tabelle[["Tore_+","Tore_-"]].mean()

Tore_+    62.666667
Tore_-    36.500000
dtype: float64

Die Anzahl aller geschossenen Tore berechnet Ihnen die Methode `sum()`:

In [45]:
tabelle["Tore_+"].sum()

376

**Frage:** Was macht die Funktion `cumsum`? Sehen Sie sich dazu die Ausgabe in der unteren Code-Zellen genauer an.

In [46]:
tabelle["cumsum"] = tabelle["Tore_+"].cumsum()
tabelle

Unnamed: 0,Rang,Mannschaft,Spiele,Siege,Unentschieden,Niederlagen,Tore_+,Tore_-,Tordifferenz,Punkte,Tore_pro_Spiel,cumsum
0,1,Bayern,28,21,3,4,85,29,56,66,3.035714,85
1,2,Dortmund,28,18,3,7,68,42,26,57,2.428571,153
2,3,Leverkusen,28,15,6,7,68,42,26,51,2.428571,221
3,4,RB Leipzig,28,14,6,8,61,31,30,48,2.178571,282
4,5,Freiburg,28,12,9,7,44,33,11,45,1.571429,326
5,6,Hoffenheim,28,13,5,10,50,42,8,44,1.785714,376


**Frage**: Wie lassen sich die kummulativen Häufigkeiten asl Prozent darstellen? Denken Sie nochmals an den Abschnitt, in dem wir beliebige arithmetische Operationen für einzelne Spalten durchgeführt haben!

### Aufgabe: Parameter und Summen - Fifa World Cup <a class="anchor" id="parameter_summen"></a>

Wir betrachten erneut die Daten zur Fussballweltmeisterschaft und laden diese wie folgt:

In [47]:
df = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/WorldCupMatches.csv")
# Transformation der Spalten in passende Datentypen mit der Funktion ".astype", Numpy-Datentypen unter https://www.w3schools.com/python/numpy/numpy_data_types.asp
df = df.astype({"Datetime": "M", "RoundID": "O", "MatchID": "O"}, errors='raise') 
df.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,1930-07-13 15:00:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,1930-07-13 15:00:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,1930-07-14 12:45:00,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,1930-07-14 14:50:00,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,1930-07-15 16:00:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA


Außerdem verschaffen wir uns mit der Methode `describe()` zunächst einmal einen Überblick zu den Daten:

In [48]:
df.describe()

Unnamed: 0,Year,Home Team Goals,Away Team Goals,Attendance,Half-time Home Goals,Half-time Away Goals
count,852.0,852.0,852.0,850.0,852.0,852.0
mean,1985.089202,1.811033,1.0223,45164.8,0.70892,0.428404
std,22.448825,1.610255,1.087573,23485.249247,0.937414,0.691252
min,1930.0,0.0,0.0,2000.0,0.0,0.0
25%,1970.0,1.0,0.0,30000.0,0.0,0.0
50%,1990.0,2.0,1.0,41579.5,0.0,0.0
75%,2002.0,3.0,2.0,61374.5,1.0,1.0
max,2014.0,10.0,7.0,173850.0,6.0,5.0


Bitte bearbeiten Sie die folgenden Aufgaben:
1. In welchem Jahreszeitraum wurden die Daten zu den verschiedenen Fussballweltermeisterschaften erhoben? 
1. Was ist die durchschnittliche Zuschauerzahl bei einem Weltmeisterschaftsspiel?
1. Welches war das Spiel mit den meisten/ wenigsten Zuschauern? Nutzen Sie hierzu die `max()` und `min()` Methoden!
1. Wie viele Menschen haben im Erhebungszeitraum Spiele einer Fussballweltmeisterschaft gesehen? Nutzen Sie die `sum()` Methode!
1. Fügen Sie eine neue Spalte ein, die die Anzahl der geschossenen Tore bei jedem Weltmeisterschaftsspiel berechnet! Schauen Sie sich dazu nochmals das Kapitel zum Einfügen neuer Spalten an!
1. Welches ist das Spiel mit den meisten Toren?
1. Wie viele Tore fallen im Schnitt bei einem Spiel der Fussballweltmeisterschaft?
1. Fallen in einem Spiel im Mittel mehr Spiele in der ersten oder zweiten Halbzeit?


### 2.2 Zählen <a class="anchor" id="zaehlen"></a>
Wir bleiben beim Fifa World Cup Datensatz. Enthalten Spalten kategoriale Werte interessiert man sich z.B. dafür, wie häufig eine Kategorie auftritt. Pandas stellt dafür die Funktion `value_counts` bereit:

In [49]:
df["City"].value_counts()

Mexico City        23
Montevideo         18
Rio De Janeiro     18
Guadalajara        17
Johannesburg       15
                   ..
Eskilstuna          1
Orebro              1
Reims               1
Antibes             1
Lille               1
Name: City, Length: 151, dtype: int64

**Frage:** Was macht der Parameter `normalize` und `ascending` in der Funktion `value_counts`?

### 2.3 Gruppierungen und Aggregationen <a class="anchor" id="gruppierung"></a>

Wenn wir uns erneut mit dem Fifa World Cup Datensatz beschäftigen, könnten wir uns dafür interessieren, wie viele Zuschauer im Mittel bei einem Spiel einer jeden Mannschaft anwesend waren - für den Fall, dass die Mannschaft ein Heimspiel hatte. Mit den bisherigen Methoden können wir dies bereits berechnen, hier am Beispiel der deutschen, englischen und französischen Nationalmannschaft:

In [50]:
zuschauer_de = df[df["Home Team Initials"].isin(["FRG","GER"])]
zuschauer_it = df[df["Home Team Initials"] == "ITA"]
zuschauer_fr = df[df["Home Team Initials"] == "FRA"]

In [51]:
zuschauer_de_mean = zuschauer_de["Attendance"].mean()
zuschauer_it_mean = zuschauer_it["Attendance"].mean()
zuschauer_fr_mean = zuschauer_fr["Attendance"].mean()
zuschauer_de_mean, zuschauer_it_mean, zuschauer_fr_mean

(49478.88, 48515.82456140351, 41870.67741935484)

Wie Sie erkennen, ist diese Art der Berechnung bei einer Vielzahl von Mannschaften extrem mühsam. Pandas stellt glücklicherweise Methoden bereit, die Ihnen die Arbeit enorm erleichtern, insbesondere die `groupby` Funktion.

Wir können beispielsweise die mittlere Anzahl von Zuschauern je Mannschaft berechnen (für den Fall eines Heimspiels), wenn wir zunächst die Daten nach Mannschaft gruppieren (`df.groupby("Home Team Initials")`), dann nur die Anzahl der Zuschauer weiter betrachten (`df.groupby("Home Team Initials")["Attendance"]`) und abschließend je Mannschaft den Mittelwert der Zuschauer berechnen:

In [52]:
df.groupby("Home Team Initials")["Attendance"].mean()

Home Team Initials
ALG    25602.666667
ANG    45000.000000
ARG    53981.981481
AUS    39464.666667
AUT    31415.538462
           ...     
URU    47569.750000
USA    43862.666667
WAL     2823.000000
YUG    25391.352941
ZAI    31600.000000
Name: Attendance, Length: 77, dtype: float64

In [53]:
# Mit Sortierung
zuschauer_team = df.groupby("Home Team Initials")["Attendance"].mean().sort_values(ascending=False)
zuschauer_team

Home Team Initials
UKR    72000.00
CAN    65500.00
ECU    65402.75
BOL    63089.00
TRI    62959.00
         ...   
PRK    22128.00
PER    19498.20
TCH    16637.10
CUB     7500.00
WAL     2823.00
Name: Attendance, Length: 77, dtype: float64

Sie haben die Möglichkeit mit der Funktion `groupby` auch Gruppierungen auf mehrere Spalten durchzuführen. Zum Beispiel können wir für jede Mannschaftspaarung die durchschnittliche Anzahl von Zuschauern berechnen:

In [54]:
paarungen = df.groupby(["Home Team Initials","Away Team Initials"])["Attendance"].mean()
paarungen

Home Team Initials  Away Team Initials
ALG                 AUT                   22000.0
                    CHI                   16000.0
                    ESP                   23980.0
                    NIR                   22000.0
                    RUS                   39311.0
                                           ...   
YUG                 UAE                   27833.0
                    URU                    8829.0
                    ZAI                   31700.0
ZAI                 BRA                   36200.0
                    SCO                   27000.0
Name: Attendance, Length: 661, dtype: float64

**Frage:** Welches sind die Mannschaftspaarungen mit den meisten und wenigsten Zuschauern? Verwenden Sie dazu die `sort_values` Methode!

Mithilfe der Methode `agg` können Sie gleichzeitig mehrere Aggregationsfunktionen berechnen lassen. Dazu übergeben Sie an die Funktion `agg` eine Liste, die die relevanten Funktionen als String enthält:

In [58]:
df.groupby("Home Team Initials")["Attendance"].agg(["min","mean","max"])

Unnamed: 0_level_0,min,mean,max
Home Team Initials,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ALG,16000.0,25602.666667,39311.0
ANG,45000.0,45000.000000,45000.0
ARG,7134.0,53981.981481,114600.0
AUS,17400.0,39464.666667,53300.0
AUT,16000.0,31415.538462,41424.0
...,...,...,...
URU,5284.0,47569.750000,173850.0
USA,10151.0,43862.666667,93869.0
WAL,2823.0,2823.000000,2823.0
YUG,7167.0,25391.352941,67385.0


## Exkurs: Export von DataFrames
Genauso wie Sie Daten aus Dateien in einen DataFrame einlesen können - z.B. aus csv-Dateien über `pd.read_csv()` - können Sie natürlich auch Dateien aus DataFrames erzeugen (csv, xlsx, etc.). Mit der Funktion `DataFrame.to_csv()` schreiben Sie den DataFrame in eine csv. Bitte denken Sie daran, dass Sie `DataFrame` durch die von Ihnen genutzte Variable ersetzen. Hierzu ein kleines Bespiel anhand der Fifa World Cup Datensatzes - später noch mehr zum Lesen und Schreiben von Daten:

**1. Überlegung:** In welches [Verzeichnis](https://de.wikipedia.org/wiki/Verzeichnisstruktur) möchte ich meine Datei schreiben? Der "Weg" zum Verzeichnis heißt Pfad! 

In [88]:
path = "/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/"

In [89]:
path

'/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/'

**2. Überlegung:** Unter welchem Namen und in welchem Format möchte ich die Datei abspeichern?

In [90]:
file_name = "spiele_auswertungen.csv"

**3. Export DataFrame:** Sie speichern nun die Kennzahlen zu den einzelnen Teams in einer Variablen. Anschließend verwenden Sie die Funktion `DataFrame.to_csv()` und übergeben den gesamten Dateipfad als Argument! 

In [91]:
data = df.groupby("Home Team Initials")["Attendance"].agg(["min","mean","max"])

In [92]:
file_path = path + file_name
file_path

'/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/spiele_auswertungen.csv'

In [93]:
data.to_csv(file_path)

### 2.4 Pivottabellen <a class="anchor" id="pivot"></a>
Sie kennen vermutlich Pivottabellen aus Excel. Diese lassen sich auch sehr leicht in pandas erzeugen. Dazu verwenden wir die Methode `pivot_table`. Die Ergebnisse sind analog zu denen aus den vorherigen Abschnitten, wenn wir `groupby` mit entsprechenden Aggreagationsmethoden aufrufen. Die Darstellung unterscheidet sich allerdings ein wenig.

In [94]:
# Mittelwert der Zuschauer für jede Mannschaft, wenn diese die Heimmannschaft war
df.pivot_table(values="Attendance", index="Home Team Initials", aggfunc="mean")

Unnamed: 0_level_0,Attendance
Home Team Initials,Unnamed: 1_level_1
ALG,25602.666667
ANG,45000.000000
ARG,53981.981481
AUS,39464.666667
AUT,31415.538462
...,...
URU,47569.750000
USA,43862.666667
WAL,2823.000000
YUG,25391.352941


In [95]:
# Min, Max und Mittelwert der Zuschauer für jede Mannschaft, wenn diese die Heimmannschaft war
df.pivot_table(values="Attendance", index="Home Team Initials", aggfunc=["min","mean","max"])

Unnamed: 0_level_0,min,mean,max
Unnamed: 0_level_1,Attendance,Attendance,Attendance
Home Team Initials,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
ALG,16000.0,25602.666667,39311.0
ANG,45000.0,45000.000000,45000.0
ARG,7134.0,53981.981481,114600.0
AUS,17400.0,39464.666667,53300.0
AUT,16000.0,31415.538462,41424.0
...,...,...,...
URU,5284.0,47569.750000,173850.0
USA,10151.0,43862.666667,93869.0
WAL,2823.0,2823.000000,2823.0
YUG,7167.0,25391.352941,67385.0


In [96]:
# Min, Max und Mittelwert der Zuschauer für jede Mannschaftspaarung
df.pivot_table(values="Attendance", 
               index="Home Team Initials", 
               aggfunc="mean",
               columns="Away Team Initials",
               fill_value=0,
               margins=True
              )

Away Team Initials,ALG,ANG,ARG,AUS,AUT,BEL,BIH,BOL,BRA,BUL,...,TUR,UAE,UKR,URS,URU,USA,WAL,YUG,ZAI,All
Home Team Initials,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
ALG,0.000000,0,0.000000,0.000000,22000.0,0.00,0.0,0.0,0.000000,0.000000,...,0.000,0,0,0.000000,0.0,0.000000,0.00,0.00,0,25602.666667
ANG,0.000000,0,0.000000,0.000000,0.0,0.00,0.0,0.0,0.000000,0.000000,...,0.000,0,0,0.000000,0.0,0.000000,0.00,0.00,0,45000.000000
ARG,0.000000,0,0.000000,0.000000,0.0,86650.50,74738.0,0.0,40242.000000,45377.333333,...,0.000,0,0,55759.000000,26000.0,72886.000000,0.00,0.00,0,53981.981481
AUS,0.000000,0,0.000000,0.000000,0.0,0.00,0.0,0.0,0.000000,0.000000,...,0.000,0,0,0.000000,0.0,0.000000,0.00,0.00,0,39464.666667
AUT,0.000000,0,0.000000,0.000000,0.0,0.00,0.0,0.0,0.000000,0.000000,...,0.000,0,0,0.000000,32000.0,34857.000000,0.00,0.00,0,31415.538462
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
USA,35827.000000,0,0.000000,0.000000,0.0,18346.00,0.0,0.0,0.000000,0.000000,...,0.000,0,0,0.000000,0.0,0.000000,0.00,35500.00,0,43862.666667
WAL,0.000000,0,0.000000,0.000000,0.0,0.00,0.0,0.0,0.000000,0.000000,...,0.000,0,0,0.000000,0.0,0.000000,0.00,0.00,0,2823.000000
YUG,0.000000,0,38971.000000,0.000000,0.0,0.00,0.0,18306.0,24059.000000,0.000000,...,0.000,27833,0,0.000000,8829.0,0.000000,0.00,0.00,31700,25391.352941
ZAI,0.000000,0,0.000000,0.000000,0.0,0.00,0.0,0.0,36200.000000,0.000000,...,0.000,0,0,0.000000,0.0,0.000000,0.00,0.00,0,31600.000000


### Aufgabe: Aggregation - Verkaufszahlen Walmart <a class="anchor" id="walmart"></a>

Sie erhalten einen Datensatz der Einzelhandelskette Walmart (Auszug aus diesem [Datensatz](https://www.kaggle.com/competitions/walmart-recruiting-store-sales-forecasting/data)). Dieser enthält Verkaufszahlen für jeden Laden (`store`) mit seinen verschiedenen Kategorien (`department`), z.B. Gemüse oder Tiefkühlware. Die wöchentlichen Verkaufszahlen (`weekly_sales`) sind in Dollar angegeben. Der jeweilige Freitag einer Woche ist über die Spalte `date` gekennzeichnet. Die Spalten `is_holiday`, `temperature_c`, `fuel_price_usd_per_l`und `unemployment` enthalten weitere Informationen, die für diese Woche aufgenommen wurden und vermutlich einen Einfluss auf die Verkaufszahlen haben. Wir laden zunächst wieder die Daten:

In [98]:
df = pd.read_csv("/content/drive/MyDrive/Logistik_Business_Analyst/Grundlagen_Datenverarbeitung_mit_Pandas/sales_data.txt", index_col=0)
# Löschen der Spalte "type". "inplace=True" ist gleichbedeutend mit "df = df.drop(columns=["type"])"
df.drop(columns=["type"], inplace=True)
# Transformation der Datentypen
df = df.astype({"store":"O", "department":"O", "date":"M"})
df.head()

Unnamed: 0,store,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


Bitte berarbeiten Sie nun die folgenden Aufgaben:
1. In welchem Zeitraum wurden die Daten erhoben?
1. Welchen Gesamtumsatz hat Walmart im Betrachtungszeitraum realisiert? 
1. Berechnen Sie für jeden Store die Gesamtumsätze im Betrachtungszeitraum! Nutzen Sie die `groupby` und anschließend die `sum` Methode!
1. Was ist der durchschnittliche Gesamtumsatz eines Stores? Sie können auf der Lösung zur Aufgabe zuvor aufbauen. Nutzen Sie zusätzlich die `mean` Funktion!
1. Erstellen Sie eine Pivottabelle, die die wöchentlichen Umsätze zeigt und dabei unterscheidet, ob in der Woche Ferientage lagen oder eben nicht! Nutzen Sie dafür die Methode `pivot_table`!
1. Fügen Sie eine neue Spalte ein, die angibt, ob der Kraftstoffpreis pro Liter in einer Woche größer gleich 0.9 Dollar war. Erzeugen Sie anschließend eine Pivottabelle, die die Verkaufszahlen in Abhängigkeit des Kraftstoffpreises - kleiner 0.9 Dollar vs. größer gleich 0.9 Dollar - wiedergibt!
1. Wie können Sie das Ergebnis aus der vorherigen Aufgabe in einer csv-Datei speichern?

In [None]:
drive.flush_and_unmount()