# Tabellendaten auslesen

Nachdem wir eigene Datenstrukturen erstellt haben, wenden wir uns nun der Arbeit mit existierenden Datensätzen zu. Dabei lernen wir, wie man Daten lädt, gezielt Informationen extrahiert und vorhandene Tabellen effizient bearbeitet, um aussagekräftige Analysen zu ermöglichen.

Mit `pandas` lassen sich Daten direkt aus dem Internet laden. Dazu verwendet man die Funktion `pd.read_csv()`, die **CSV-Dateien** (Comma Separated Values) einlesen kann. Gibt man dieser Funktion eine **URL** als `string`, lädt `pandas` die Datei direkt von dort und erstellt ein `DataFrame`.

:::{admonition} Aufgabe 1.1
Laden Sie den Trinkgeld-Datensatz (URL: 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv') als `DataFrame` unter dem Namen `Trinkgeld`.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown

Verwenden Sie `pd.read_csv()`, um die Daten von der angegebenen URL zu laden. Stellen Sie sicher, dass die URL als `string` übergeben wird.
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
import pandas as pd

url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv'
Trinkgeld = pd.read_csv(url)

print(Trinkgeld)
```
:::

Der geladene Datensatz enthält Informationen über Restaurantbesuche. Jede Zeile steht für einen Besuch und enthält unter anderem:
- die Rechnungssumme (total_bill)
- das Trinkgeld (tip)
- das Geschlecht der Bedienung (sex)
- ob geraucht wurde (smoker)
- den Wochentag und die Uhrzeit
- die Anzahl der Gäste

`DataFrame.head()` zeigt die ersten fünf Zeilen eines DataFrames an. Optional kann man in Klammern angeben, wie viele Zeilen man sehen möchte (z. B. `df.head(10)`). Vor dem Punkt muss der Name des `DataFrames` stehen.

:::{admonition} Aufgabe 1.2
Versuchen Sie ein Gefühl für den Datensatz zu bekommen, indem Sie sich die ersten sieben Zeilen ausgeben lassen. 
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown
Nutzen Sie `DataFrame.head()`.
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
Trinkgeld.head(7)
```
:::

### Daten extrahieren 

In einem `DataFrame` können Sie gezielt einzelne Spalten oder mehrere **Spalten gleichzeitig extrahieren**. Spalten entsprechen dabei inhaltlich den Merkmalen, also den Variablen, die in einer Datentabelle erfasst wurden – zum Beispiel `'total_bill'`, `'tip'` oder `'sex'`.

Eine einzelne Spalte wählen Sie über ihren Spaltennamen in eckigen Klammern aus, z.B. `Trinkgeld['tip']`. Mehrere Spalten gleichzeitig ruft man mit einer Liste von Spaltennamen auf, z.B. `Trinkgeld[['tip','size']]`

:::{admonition} Aufgabe 1.3
Extrahieren Sie die Spalten `'total_bill'` und `'tip'` und speichern diese als neuen DataFrame namens `rechnung_und_trinkgeld` ab.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown

Mehrere Spalten wählt man mit einer Liste von Spaltennamen in doppelten eckigen Klammern aus: `Trinkgeld[[...]]`.
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
rechnung_und_trinkgeld = Trinkgeld[['total_bill', 'tip']]
rechnung_und_trinkgeld.head()
```
:::

Neben einzelnen Spalten können Sie auch gezielt einzelne Zeilen oder Gruppen von **Zeilen extrahieren**. Dazu nutzen Sie ihren Indexwert. Standardmäßig haben `DataFrames` einen numerischen Index, der bei 0 beginnt. Wenn Sie z. B. die erste Zeile von `Trinkgeld` anzeigen möchten, schreiben Sie `Trinkgeld.loc[0]`. Mehrere Zeilen lassen sich mit einer Liste von Indexwerten extrahieren, z. B. `Trinkgeld.loc[[0, 2, 4]]`. Auch ein ganzer Zeilenbereich kann mit einem Slice angegeben werden, z. B. `Trinkgeld.loc[0:4]`.

:::{admonition} Aufgabe 1.4
Extrahieren Sie die fünfte und sechste Zeile.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown

Nutzen Sie `Trinkgeld.loc[Index]`. Denken Sie daran, dass die Indixierung in `Python` bei 0 startet. 
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
Trinkgeld.loc[4:5]

print(Trinkgeld.loc[4:5])
```
:::

Wenn Sie gleichzeitig **Zeilen und Spalten extrahieren** möchten, kombinieren Sie beide Auswahlkriterien in eckigen Klammern, z. B. `Trinkgeld.loc[0:2, ["total_bill", "tip"]]`.

:::{admonition} Aufgabe 1.5
Extrahieren Sie die Zeilen 3 bis 11 und die Spalten `total_bill` und `size` aus.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown
Nutzen Sie `.loc[start:end, [Spaltenliste]]`.
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
Trinkgeld.loc[2:10, ['total_bill', 'size']]

print(Trinkgeld.loc[2:10, ['total_bill', 'size']])
```
:::

Neben der Auswahl nach Position oder Name lassen sich auch gezielt **Zeilen mit bestimmten Eigenschaften extrahieren**. Dabei formulieren Sie Bedingungen innerhalb der eckigen Klammern `[]`. Wenn Sie z. B. alle Zeilen anzeigen möchten, bei denen eine Frau bedient hat, schreiben Sie:

In [None]:
bedient_von_frau = Trinkgeld[Trinkgeld['sex'] == 'Female']
print(bedient_von_frau.head())

Bei solchen **kategorischen Bedingungen** (z. B. `== 'Female'`) gibt `pandas` automatisch nur die passenden Zeilen zurück.

Genauso können Sie numerische Bedingungen formulieren, z. B. um alle Rechnungen über 30 Dollar zu extrahieren:

In [None]:
hohe_rechnungen = Trinkgeld[Trinkgeld['total_bill'] > 30]
print(hohe_rechnungen.head())

Sie können auch mehrere Bedingungen kombinieren, z. B. mit & (und) oder | (oder). Dabei muss jede Teilbedingung in Klammern stehen.

In [None]:
hohe_rechnungen_und_bedient_von_frau =  Trinkgeld[(Trinkgeld['total_bill'] > 30) & (Trinkgeld['sex'] == 'Female')]
print(hohe_rechnungen_und_bedient_von_frau.head())

:::{admonition} Aufgabe 1.6
Filtern Sie alle Gäste, die in einem Raucherbereich saßen, und speichern die Daten als neuen DataFrame namens `raucher` ab.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown

Auch hier verwenden Sie eine Bedingung – diesmal auf die Spalte `'smoker'`.
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
raucher = Trinkgeld[Trinkgeld['smoker'] == 'Yes']
print(raucher.head())
```
:::

:::{admonition} Aufgabe 1.7
Extrahieren Sie alle Zeilen, in denen entweder geraucht wurde oder das Trinkgeld über 6 $ lag. Speichern Sie diese in einem neuen DataFrame namens `rauch_oder_viel_trinkgeld`.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown

Verwenden Sie den Operator `|` und setzen Sie jede Bedingung in Klammern.
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
rauch_oder_viel_trinkgeld = Trinkgeld[(Trinkgeld['smoker'] == 'Yes') | (Trinkgeld['tip'] > 6)]
print(rauch_oder_viel_trinkgeld.head())
```
:::

### Daten bearbeiten

In einem `DataFrame` können Sie ganz einfach Rechenoperationen mit den Werten einzelner Spalten durchführen, z. B. `DataFrame['Differenz'] = DataFrame['Spalte1'] - DataFrame['Spalte2']`. Dabei funktioniert jede Rechenoperation elementweise – das heißt, sie wird automatisch auf jeden Wert der Spalte angewendet.

:::{admonition} Aufgabe 2.1
Der Euro-Wechselkurs beträgt aktuell 0.92. Rechnen Sie den Rechnungsbetrag (`total_bill`) und das Trinkgeld (`tip`) in Euro um und speichern Sie das Ergebnis jeweils in einer neuen Spalte.
:::

In [None]:
# Ihr Code 

You can also use . notation to create a new column in a table using the syntax:

tbl.newVar = newColumn

:::{admonition} Aufgabe 2.2
Berechnen Sie für jede Zeile das Verhältnis von `tip` zur `total_bill` und speichern Sie das Ergebnis in einer neuen Spalte namens `tip_ratio`.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown

Sie können zwei Spalten direkt miteinander verrechnen, zum Beispiel durch Division: `DataFrame['neue_spalte'] = DataFrame['Spalte1'] / DataFrame['Spalte2']`
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
Trinkgeld['tip_ratio'] = Trinkgeld['tip'] / Trinkgeld['total_bill']
print(Trinkgeld[['total_bill', 'tip', 'tip_ratio']].head())
```
:::

:::{admonition} Aufgabe 2.3
Erstellen Sie eine neue Spalte namens `grosszuegig`, die angibt, ob das Trinkgeld mehr als 15 % der Gesamtrechnung beträgt. In dieser Spalte soll für jede Zeile entweder True oder False stehen – je nachdem, ob die Bedingung erfüllt ist.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown

Logische Bedingungen zwischen Spalten können direkt formuliert werden: `DataFrame['neue_spalte'] = DataFrame['spalte'] > 10`
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
Trinkgeld['grosszuegig'] = Trinkgeld['tip_ratio'] > 0.15
print(Trinkgeld[['total_bill', 'tip', 'tip_ratio', 'grosszuegig']].head())
```
:::

In `pandas` lassen sich numerische Spalten sehr einfach auswerten, ohne dass man selbst durch die Werte iterieren muss. Stattdessen stellt `pandas` dafür eingebaute Funktionen zur Verfügung, wie etwa `.mean()` für den Mittelwert oder `.sum()` für die Summe.

Solche Funktionen können direkt auf numerische Spalten angewendet werden. Dadurch erhält man auf einfache Weise Kennzahlen wie Minimum, Maximum, Mittelwert oder Standardabweichung.

In [None]:
# Durchschnittliches Trinkgeld aller Gäste
durchschnitt = Trinkgeld['tip'].mean()
print(f"Durchschnittliches Trinkgeld: {durchschnitt:.2f} $")

Die folgende Tabelle zeigt Ihnen einige der wichtigsten Funktionen, mit denen Sie numerische Spalten schnell auswerten können.

| Funktion     | Beschreibung                       | Beispiel                  |
| ------------ | ---------------------------------- | ------------------------- |
| `mean()`     | Mittelwert                         | `DataFrame['Spalte'].mean()`     |
| `median()`   | Median (Zentralwert)               | `DataFrame['Spalte'].median()`   |
| `sum()`      | Summe aller Werte                  | `DataFrame['Spalte'].sum()`      |
| `min()`      | Kleinster Wert                     | `DataFrame['Spalte'].min()`      |
| `max()`      | Größter Wert                       | `DataFrame['Spalte'].max()`      |
| `std()`      | Standardabweichung                 | `DataFrame['Spalte'].std()`      |
| `var()`      | Varianz                            | `DataFrame['Spalte'].var()`      |
| `count()`    | Anzahl gültiger Werte (ohne `NaN`) | `DataFrame['Spalte'].count()`    |


:::{admonition} Aufgabe 2.4
Vergleichen Sie das durchschnittliche Trinkgeld von Gästen, die von einer Frau bedient wurden, mit dem von Gästen, die von einem Mann bedient wurden. Wer gibt im Schnitt mehr?
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown

Filtern Sie mit einer Bedingung auf die Spalte `'sex'`, z. B. `Trinkgeld[Trinkgeld['sex'] == 'Female']`, und wenden Sie `.mean()` auf die Spalte `tip` an.
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
frau = Trinkgeld[Trinkgeld['sex'] == 'Female']['tip'].mean()
mann = Trinkgeld[Trinkgeld['sex'] == 'Male']['tip'].mean()

print("Durchschnitt Trinkgeld – Frau bedient:", frau)
print("Durchschnitt Trinkgeld – Mann bedient:", mann)
```
:::

:::{admonition} Aufgabe 2.5
Finden Sie heraus, wie hoch das größte gegebene Trinkgeld war. Ermitteln Sie außerdem, zu welchem Rechnungsbetrag und an welchem Wochentag es gegeben wurde.
:::

In [None]:
# Ihr Code 


:::{admonition} Hinweis
:class: note dropdown
Nutzen Sie `.max()` auf die Spalte `tip`, um den höchsten Wert zu finden. Verwenden Sie anschließend eine Filterbedingung, um die entsprechende Zeile anzuzeigen.
:::

:::{admonition} Lösung
:class: tip dropdown

``` python
max_tip = Trinkgeld['tip'].max()
spender = Trinkgeld[Trinkgeld['tip'] == max_tip]

print("Größtes Trinkgeld:", max_tip)
print(spender[['total_bill', 'day']])
```
:::