# Pandas

Pandas (Python Data Analysis Library) ist eine Open-Source-Bibliothek, die es ermöglicht, Daten in Python zu manipulieren und zu analysieren. Sie baut 
auf NumPy auf und bietet Datenstrukturen und Funktionen, mit denen Sie Daten in Python effizient und benutzerfreundlich verarbeiten können.

In [None]:
%pip install -q otter-grader

import pandas as pd
import numpy as np
import otter

grader = otter.Notebook("pandas.ipynb")
%matplotlib inline

## Series

Eine Series ist ein eindimensionales Array-ähnliches Objekt, das eine Sequenz von Werten und eine zugehörige Sequenz von Indizes enthält. Sie können eine Series aus einer Liste oder einem NumPy-Array erstellen, für weitere Informationen siehe [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html). Zusätzlich zu den Werten in der Series können Sie auch die Indizes festlegen, die standardmäßig von 0 bis N-1 (wobei N die Anzahl der Werte ist) laufen. Diese Indices können auch als Label verwendet werden, um auf die Werte zuzugreifen.

**Aufgabe 1:** Erstellen eine Series `my_first_series` mit den Werten 1, 3, 5, 7, 9 und den Indizes a, b, c, d, e. Weisen Sie den Wert der Series under dem Index `c` der Variable `my_first_series_c` zu.

In [None]:
my_first_series = pd.Series(..., index=...)
my_first_series_c = my_first_series[...]

In [None]:
grader.check("q1")

**Aufgabe 2:** Für die meisten Operationen funktionieren Series wie NumPy-Arrays. Im Folgenden werden die Series `series_a` und `series_b` definiert. Addieren Sie die beiden Series und weisen Sie das Ergebnis der Variable `series_sum_ab` zu.

**Hinweis**: Die Summe der beiden Series entspricht der Summe der Werte **an den gleichen Indizes**. Falls die Series unterschiedliche Indizes haben, wird das Ergebnis `NaN` sein und die Länge der Series entspricht Summe der Längen der beiden Series.

Bilden Sie die Summe der beiden Series `series_a` und `series_c` und weisen Sie das Ergebnis der Variable `series_sum_ac` zu.



In [None]:
series_a = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
series_b = pd.Series([6, 23, 11, 100], index=['a', 'b', 'c', 'd'])
series_c = pd.Series([6, 23, 11, 100], index=['x1', 'x2', 'x3', 'x4'])

series_sum_ab = ...
series_sum_ac = ...

print(series_sum_ab)
print(series_sum_ac)

In [None]:
grader.check("q2")

**Aufgabe 2a:** Die Series haben eine Menge von Methoden, die auf sie angewendet werden können. Verwenden Sie die Methode `sum` um die Elemente der Series `series_a1` zu summieren und weisen Sie das Ergebnis der Variable `series_a1_sum` zu. Berechnen Sie den Durchschnitt der Werte in der Series `series_a1` und weisen Sie das Ergebnis der Variable `series_a1_mean` zu.

**Hint**: Die Methode `sum` ist eine Funktion, die auf die Series angewendet wird. Die Methode `mean` berechnet den Durchschnitt der Werte in der Series.

```python
some_series = pd.Series([1, 2, 3, 4, 5])
print(series_a.sum()) # Gibt 15 aus
print(series_a.mean()) # Gibt 3 aus
```

In [None]:
series_a1 = pd.Series([101, 2332, 312, 40])

series_a1_sum = ...
series_a1_mean = ...

In [None]:
grader.check("q2a")

## DataFrame

Der DataFrame ist eine zweidimensionale Datenstruktur, die Daten in tabellarischer Form darstellt. Sie können einen DataFrame als eine Gruppe von Series betrachten, die dieselben Indizes teilen. Ein DataFrame hat sowohl Zeilen- als auch Spaltenindizes. Sie können einen DataFrame aus einem Dictionary von gleich langen Listen oder Arrays erstellen, für weitere Informationen siehe [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).

**Aufgabe 3:** Erstellen Sie einen DataFrame `customers` mit den Spalten `name`, `age` und `city` und den Werten 'Tom', 'Jane', 'Alice', 'Tom', `age` 34, 28, 56, 34 und `city` 'Seattle', 'San Francisco', 'Seattle', 'New York'.

In [None]:
customers = pd.DataFrame({
    'name': ['Tom', 'Jane', ..., 'Tom'],
    'age': [34, 28, ...],
    'city': ['Seattle', 'San Francisco', ...]
})
customers

In [None]:
grader.check("q3")

**Aufgabe 4:** In dieser Aufgabe wird der DataFrame `sales` definiert. Er enthält die Spalten `sales_mar`, `sales_apr`, `sales_may`. Die Zeilen entsprechen den Verkäufen von Produktenklassen in den Monaten März, April und Mai.

Berechnen Sie die Summe aller Verkäufe nach Monat. In diesem Beispiel heißt das die Spaltensummen zu berechnen. Weisen Sie das Ergebnis der Variable `sales_by_month` zu.

Berechnen Sie die Summe aller Verkäufe nach Produktklasse. In diesem Beispiel heißt das die Zeilensummen zu berechnen. Weisen Sie das Ergebnis der Variable `sales_by_product` zu.

**Hinweis:** Sie können die Methode `sum()` verwenden, um die Summe aller Werte in einem DataFrame zu berechnen. Diese Methode hat einen optionalen Parameter `axis`, der angibt, ob die Summe über die Zeilen oder Spalten berechnet werden soll. Der Wert 0 entspricht der Summe über die Zeilen, der Wert 1 entspricht der Summe über die Spalten.

```python
some_dataframe = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
print(some_dataframe.sum(axis=0)) # Gibt a 6, b 15 aus
print(some_dataframe.sum(axis=1)) # Gibt 5, 7, 9 aus
```


In [None]:
sales = pd.DataFrame({
    'sales_mar': [5, 7, 3, 1, 8],
    'sales_apr': [4, 3, 7, 6, 9],
    'sales_may': [8, 7, 4, 3, 2]    
}, index=['Beer', 'Wine', 'Whiskey', 'Vodka', 'Tequila'])
sales_by_month = sales.sum(axis=...)
sales_by_product = sales.sum(...)

In [None]:
grader.check("q4")

In den folgenden Aufgaben werden wir mit einem Datensatz arbeiten, der Information über die [Gehälter von Mitarbeitern der Stadt San Francisco enthält](https://www.kaggle.com/datasets/kaggle/sf-salaries).

- `id` (numeric): Die Identifikationsnummer des Mitarbeiters
- `EmployeeName` (string): Der Name des Mitarbeiters
- `JobTitle` (string): Die Bezeichnung der Stelle
- `BasePay` (numeric): Das Grundgehalt des Mitarbeiters
- `OvertimePay` (numeric): Das Überstundengehalt des Mitarbeiters
- `OtherPay` (numeric): Sonstige Zahlungen an den Mitarbeiter
- `Benefits` (numeric): Die Leistungen des Mitarbeiters
- `TotalPay` (numeric): Das Gesamtgehalt des Mitarbeiters
- `TotalPayBenefits` (numeric): Das Gesamtgehalt einschließlich der Leistungen
- `Year` (numeric): Das Jahr, in dem das Gehalt gezahlt wurde

In [None]:
salaries = pd.read_csv('https://github.com/febse/data/raw/main/econ/Salaries.csv')
salaries.head()

**Aufgabe 5:** Benutzen Sie den Datensatz `salaries` und berechnen Sie die folgenden Zusammenfassungen der Daten:

- Wie viele Mitarbeiter umfasst der Datensatz? Speichern Sie das Ergebnis unter der Variable `number_of_employees`.
- Wie hoch ist das durchschnittliche Grundgehalt (`BasePay`)? Speichern Sie das Ergebnis unter der Variable `average_base_pay`.
- Wie hoch ist das größte Überstundengehalt (`OvertimePay`)? Speichern Sie das Ergebnis unter der Variable `max_overtime_pay`.
- Was ist der Name des Mitarbeiters mit dem größten Gesamtgehalt (`TotalPay`)? Speichern Sie das Ergebnis unter der Variable `employee_with_max_total_pay`.

**Hinweise**: Benutzen Sie die Eigenshaft `shape` um die Anzahl der Zeilen zu berechnen.

- Die Methode `mean` berechnet den Durchschnitt der Werte in einer Series.
- Die Methode `max` gibt den größten Wert in einer Series zurück.
- Die Methode `idxmax` gibt den Index des größten Wertes in einer Series zurück.

Sie können auf die Spalten eines DataFrame wie auf die Elemente eines Dictionarys zugreifen. Zum Beispiel:

```python
some_dataframe = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
print(some_dataframe['a']) # Gibt 1, 2, 3 aus
```

Sie können auf die Indices einer Series wie auf die Elemente einer Liste zugreifen. Zum Beispiel:

```python
some_series = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(some_series['a']) # Gibt 1 aus
```

In [None]:
number_of_employees = ...
average_base_pay = ...
average_base_pay = ...
max_overtime_pay = ...
employee_with_max_total_pay = salaries["EmployeeName"][...]

In [None]:
grader.check("q5")

**Aufgabe 6**: Benutzen Sie den Datensatz `salaries`, um die folgenden Fragen zu beantworten:

- Wie viele verschiedene Stellenbezeichnungen (`JobTitle`) gibt es? Speichern Sie das Ergebnis unter der Variable `number_of_job_titles`.
- Wie viele Mitarbeiter haben die Stellenbezeichnung `Transit Operator`? Speichern Sie das Ergebnis unter der Variable `number_of_transit_operators`.
- Was für eine Stelle (`JobTitle`) hat der Mitarbeiter mit dem Namen "JOANNE HAYES-WHITE"? Speichern Sie das Ergebnis unter der Variable `job_title_of_joanne`.
- Welche sind die drei häufigsten Stellenbezeichnungen? Speichern Sie das Ergebnis unter der Variable `top_3_job_titles`.

**Hinweise**: Die Methode `nunique` gibt die Anzahl der eindeutigen Werte in einer Series zurück.

Sie können ein Teil eines DataFrames auswählen, indem Sie einen Filter andwenden. Zum Beispiel:

```python
some_dataframe = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
print(some_dataframe[some_dataframe['a'] > 1]) # Gibt 2, 3 aus
```

Sie können auf die Daten einer Series mit der Eigenschaft `values` zugreifen. Zum Beispiel:

```python
some_series = pd.Series([1, 2, 3])
print(some_series.values) # Gibt [1, 2, 3] aus
```

Sie können die Methode `value_counts` verwenden, um die Anzahl der eindeutigen Werte in einer Series zu zählen. Zum Beispiel:

```python
some_series = pd.Series(['a', 'b', 'a', 'c', 'a', 'b'])
print(some_series.value_counts()) # Gibt a 3, b 2, c 1 aus
```

Sie können die Methode `head` verwenden, um die ersten n Zeilen eines DataFrames/einer Series anzuzeigen. Zum Beispiel:

```python
some_series = pd.Series([1, 8, 3, 4, 5])
print(some_series.head(2)) # Gibt 1, 8 aus
```


In [None]:
number_of_job_title = salaries[...].nunique...
number_of_transit_operators = ...[salaries[...] == ...].shape[...]
job_title_of_joanne = salaries[...][salaries[...] == ...].values[0]
top_3_job_titles = salaries[...].value_counts().head(...)

In [None]:
grader.check("q6")

**Aufgabe 7**: Benutzen Sie den Datensatz `salaries`, um die folgenden Fragen zu beantworten:

- Wie hoch waren die Gesamtzahlungen (`TotalPay`) im Jahr 2011? Speichern Sie das Ergebnis unter der Variable `total_pay_2011`.
- Wie hoch waren die durchschnittlichen Gesamtleistungen (`TotalPay`) für die Stellenbezeichnung `Transit Operator` im Jahr 2013? Speichern Sie das Ergebnis unter der Variable `average_pay_transit_operator_2013`.
- Wie hoch waren die Gesamtzahlungen (`TotalPay`) nach Jahren? Speichern Sie das Ergebnis unter der Variable `total_pay_by_year`.
- Welche Stellenbezeichnungen (`JobTitle`) hatten die höchsten Gesamtzahlungen (`TotalPay`) im Jahr 2012? Speichern Sie das Ergebnis unter der Variable `job_title_with_max_total_pay_2012`.

**Hinweise**: Sie können die Methode `groupby` verwenden, um die Daten in einem DataFrame zu gruppieren. Zum Beispiel:

```python
some_dataframe = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
print(some_dataframe.groupby('a').sum()) # Gibt 
#   b   c
#a       
#1  9  15
#2  6   9
# aus
```


In [None]:
total_pay_2011 = salaries[salaries['Year'] == ...][...].sum()
average_pay_transit_operator_2013 = salaries[(salaries['Year'] == ...) & (... == 'Transit Operator')][...].mean()
total_pay_by_year = salaries.groupby(...)[...].sum()
job_title_with_max_total_pay_2012 = salaries[salaries['Year'] == ...].groupby(...)[...].sum().idxmax()

In [None]:
total_pay_by_year

In [None]:
grader.check("q7")