In [None]:
%%HTML
<style>
    body {
        --vscode-font-family: "CMU Sans Serif"
    }
</style>

In [None]:
from IPython.display import display, clear_output, HTML
import time

def countdown_timer(minutes):
    total_seconds = minutes * 60
    for seconds in range(total_seconds, 0, -1):
        mins, secs = divmod(seconds, 60)
        time_str = f"{mins:02}'{secs:02}''"
        clear_output(wait=True)
        # HTML with styling
        display(HTML(f'<div style="font-size: 24px; color: blue; font-weight: bold;">Time remaining: {time_str}</div>'))
        time.sleep(1)
    clear_output(wait=True)
    # Final message with different styling
    display(HTML('<div style="font-size: 24px; color: green; font-weight: bold;">Time\'s up!</div>'))

<div style="text-align: center;">
    <img src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" style="width: 500px;">
</div>

<div style="text-align: center;">
    <img src="https://preview.redd.it/anyone-knows-where-this-comes-from-v0-qntrcv0walxc1.png?auto=webp&s=e6ea1f53405b160be57d251c243f2aac9f97d6ee" style="width: 500px;">
    <figcaption style="font-size: 0.8em;"> <code>pandas</code> has nothing to do with pandas: instead, the name is derived from the term "panel data",  as well as a play on the phrase "Python data analysis".<br> <code>pandas</code> hat nichts mit Pandas zu tun: Der Name leitet sich von dem Begriff "panel data" ab und ist eine Anspielung auf den Ausdruck "Python-Datenanalyse".</figcaption>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

In the previous lecture, we explored how to plot and fit data using NumPy. In that approach, we generated NumPy arrays on the fly to create the axes for our plots. 

However, in many real-world scenarios, data comes from external files rather than being generated programmatically. 

While NumPy provides methods to read files, transforming data into **`pandas` DataFrames** offers significantly more power and convenience. 

For this reason, today we will focus on working with `pandas`, a versatile tool for handling and analyzing external datasets.

`pandas` is a Python library that provides easy-to-use data structures and data analysis tools, making it ideal for handling and analyzing large datasets efficiently.

`pandas` loads data into DataFrames (`df`), which you can think of as Excel sheets.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

In der vorangegangenen Vorlesung haben wir untersucht, wie man Daten mit NumPy darstellt und anpasst. Bei diesem Ansatz haben wir NumPy-Arrays on the fly generiert, um die Achsen für unsere Diagramme zu erstellen.

In vielen realen Szenarien kommen die Daten jedoch aus externen Dateien und werden nicht programmatisch generiert.

NumPy bietet zwar Methoden zum Lesen von Dateien, aber die Umwandlung von Daten in **`pandas` DataFrames** bietet wesentlich mehr Leistung und Komfort.

Aus diesem Grund werden wir uns heute auf die Arbeit mit `pandas` konzentrieren, einem vielseitigen Werkzeug für den Umgang mit und die Analyse von externen Datensätzen.

`pandas` ist eine Python-Bibliothek, die einfach zu verwendende Datenstrukturen und Datenanalysewerkzeuge bereitstellt und sich damit ideal für die effiziente Handhabung und Analyse großer Datensätze eignet.

`pandas` lädt Daten in Datenrahmen (`df`), die man sich wie Excel-Tabellen vorstellen kann.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" style="width: 400px;">
</div>

<div style="text-align: center;">
    <img src="https://upload.wikimedia.org/wikipedia/commons/9/9c/Pandas_dataframe.png" style="width: 700px;">
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

There are many differences between `pandas` and Excel, but the most practical ones are the following:

- Excel is a visual tool, which makes it easy to click a button that abstracts the function behind what you want to accomplish. To achieve the same function in `pandas`, you need to write a command. This setup is ideal for automating tasks instead of pointing and clicking all the time!

- Any operation you perform in Excel changes your spreadsheet and, indeed, your data. Data in `pandas` is <i>persistent</i>, meaning you can perform operations on copies of your data while preserving the raw dataset.

- You might not have noticed so far, but Excel is not designed to handle large datasets and complex operations. At some point in your career, Excel will crash when trying to load your data.
        

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Es gibt viele Unterschiede zwischen `pandas` und Excel, aber die praktischsten sind die folgenden:

- Excel ist ein visuelles Werkzeug, das es einfach macht, auf eine Schaltfläche zu klicken, die die Funktion hinter dem, was man erreichen will, abstrahiert. Um die gleiche Funktion in `pandas` zu erreichen, müssen Sie einen Befehl schreiben. Dieser Aufbau ist ideal, um Aufgaben zu automatisieren, anstatt ständig auf eine Schaltfläche zu zeigen und zu klicken!

- Jede Operation, die Sie in Excel durchführen, verändert Ihr Tabellenblatt und damit auch Ihre Daten. Daten in `pandas` sind <i>beständig</i>, d.h. Sie können Operationen an Kopien Ihrer Daten durchführen, während der Rohdatensatz erhalten bleibt.

- Sie haben es vielleicht noch nicht bemerkt, aber Excel ist nicht dafür ausgelegt, große Datensätze und komplexe Operationen zu verarbeiten. Irgendwann in Ihrer Karriere wird Excel beim Versuch, Ihre Daten zu laden, abstürzen.
        
</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

In summary, Excel may appear easy, but it is very tedious and, most importantly, not reliable. 

`pandas` may seem complicated at first, but it greatly simplifies and enhances data handling and analysis.

To use `pandas`, we import it. The community agreed alias for `pandas` is `pd`:

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Zusammenfassend lässt sich sagen, dass Excel zwar einfach erscheint, aber sehr mühsam und vor allem nicht zuverlässig ist. 

`pandas` mag auf den ersten Blick kompliziert erscheinen, aber es vereinfacht und verbessert die Datenverarbeitung und -analyse erheblich.

Um `pandas` zu verwenden, importieren wir es. Der von der Gemeinschaft vereinbarte Alias für `pandas` ist `pd`:

</div>
</div>

In [None]:
import pandas as pd

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

The key `pandas` data structures are *Series* and *DataFrame*, representing a one-dimensional sequence of values and a data table, respectively.

A DataFrame has two axes:

- Axis 0 (rows): This refers to the vertical direction, i.e., across the rows. Operations along axis 0 work on individual rows.

- Axis 1 (columns): This refers to the horizontal direction, i.e., across the columns. Operations along axis 1 work on individual columns.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Die wichtigsten `pandas`-Datenstrukturen sind *Series* und *DataFrame*, die eine eindimensionale Folge von Werten bzw. eine Datentabelle darstellen.

Ein DataFrame hat zwei Achsen:

- Achse 0 (Zeilen): Dies bezieht sich auf die vertikale Richtung, d. h. über die Zeilen. Operationen entlang der Achse 0 wirken auf einzelne Zeilen.

- Achse 1 (Spalten): Dies bezieht sich auf die horizontale Richtung, d. h. über die Spalten. Operationen entlang der Achse 1 wirken sich auf einzelne Spalten aus.

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Reading data 

There are various methods to create a DataFrame or Series in Python, but in practice, we typically won’t be manually generating data from scratch. Instead, we’ll often be working with pre-existing datasets.


</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

## Daten lesen 

Es gibt verschiedene Methoden, um einen DataFrame oder eine Serie in Python zu erstellen, aber in der Praxis werden wir in der Regel nicht manuell Daten von Grund auf neu erzeugen. Stattdessen werden wir oft mit bereits vorhandenen Datensätzen arbeiten.


</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Data can come in a wide variety of formats, each suited to different use cases. 

All of these formats can be easily loaded into `pandas` using the appropriate `pd.read_` command.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Daten können in einer Vielzahl von Formaten vorliegen, die jeweils für unterschiedliche Anwendungsfälle geeignet sind.

Alle diese Formate können mit dem entsprechenden `pd.read_`-Befehl leicht in `pandas` geladen werden.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg" style="width: 700px;">
</div>

| Command               | File Type               | 
|-----------------------|-------------------------|
| `pd.read_csv()`        | CSV                     | 
| `pd.read_excel()`      | Excel (XLS, XLSX)       | 
| `pd.read_json()`       | JSON                    | 
| `pd.read_html()`       | HTML                    | 
| `pd.read_sql()`        | SQL                     | 
| `pd.read_sql_query()`  | SQL Query               | 
| `pd.read_sql_table()`  | SQL Table               | 
| `pd.read_pickle()`     | Pickle                  | 
| `pd.read_feather()`    | Feather                 | 
| `pd.read_parquet()`    | Parquet                 | 
| `pd.read_orc()`        | ORC                     | 
| `pd.read_sas()`        | SAS                     | 
| `pd.read_spss()`       | SPSS                    | 
| `pd.read_stata()`      | Stata                   | 
| `pd.read_table()`      | General Delimited Text  | 
| `pd.read_fwf()`        | Fixed-Width Text        | 
| `pd.read_clipboard()`  | Clipboard               | 
| `pd.read_hdf()`        | HDF5                    | 

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

#### Reading an Excel file (if we must)

I know what you're thinking: "Every dataset I've ever seen or created was made in Excel." 

Opening an Excel file is straightforward, and in this section, we'll show you even how to make small adjustments to clean up unwanted comments that don’t belong in a spreadsheet.<sup>*</sup>

The Excel file `bond-lengths.xlsx` contains data on the bond lengths, vibrational constants and dissociation energies of some diatomic molecules. 

The single sheet is named "Diatomics". 
Column A contains the molecular formula; the first row (row `0`!) is a title, and the second row contains the column names. 

There is also a footer of two lines.

<sup>*</sup> <span style="font-size: 0.8em;">There is a prevalent tendency to use worksheets like notebook pages, where tabular data is often intermixed with comments, footnotes, and plots. While this may appear convenient at first, it results in disorganized data that can be difficult to clean up. For this reason, plain CSV files are a superior option. As mentioned in the first lecture, if you require a digital notebook, you should consider using Jupyter *notebooks*.</span>


</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Lesen einer Excel-Datei (wenn es sein muss)

Ich weiß, was Sie jetzt denken: "Jeder Datensatz, den ich je gesehen oder erstellt habe, wurde in Excel erstellt."

Das Öffnen einer Excel-Datei ist ganz einfach, und in diesem Abschnitt zeigen wir Ihnen sogar, wie Sie kleine Anpassungen vornehmen können, um unerwünschte Kommentare zu entfernen, die nicht in ein Arbeitsblatt gehören.

Die Excel-Datei `bond-lengths.xlsx` enthält Daten zu den Bindungslängen, Schwingungskonstanten und Dissoziationsenergien einiger zweiatomiger Moleküle.

Das einzelne Blatt trägt den Namen "Diatomeen".
Spalte A enthält die Molekülformel; die erste Zeile (Zeile `0`!) ist ein Titel, und die zweite Zeile enthält die Spaltennamen.

Außerdem gibt es eine Fußzeile mit zwei Zeilen.

<sup>*</sup> <span style="font-size: 0.8em;">Es gibt eine weit verbreitete Tendenz, Arbeitsblätter wie Notizbuchseiten zu verwenden, in denen tabellarische Daten oft mit Kommentaren, Fußnoten und Diagrammen vermischt sind. Dies mag auf den ersten Blick bequem erscheinen, führt aber zu unübersichtlichen Daten, die schwer zu bereinigen sind. Aus diesem Grund sind einfache CSV-Dateien die bessere Wahl. Wie in der ersten Vorlesung erwähnt, sollten Sie, wenn Sie ein digitales Notizbuch benötigen, die Verwendung von Jupyter *Notebooks* in Betracht ziehen.</span>

</div>
</div>

<div style="text-align: center;">
    <img src="https://scipython.com/static/media/2/examples/E9/xlsx-screenshot.png" style="width: 700px;">
</div>

In [None]:
bond_lenghts = pd.read_excel('datasets/bond-lengths.xlsx',      # the file we want to open
                             skipfooter=2,                      # ignore the last two lines of the sheet
                             header=1,                          # take the column names from the second row
                             )
bond_lenghts


<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

A more refined set of commands:

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Ein verfeinerter Satz von Befehlen:

</div>
</div>

In [None]:
bond_lenghts = pd.read_excel('datasets/bond-lengths.xlsx',      # the file we want to open
                             index_col=0,                       # use molecule names as index labels
                             skipfooter=2,                      # ignore the last two lines of the sheet
                             header=1,                          # take the column names from the second row
                             usecols='A:E',                     # use Excel columns labeled A-E (optional)
                             sheet_name='Diatomics'             # take data from this sheet (in case there are several)
                             )

bond_lenghts

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

#### Reading a CSV file

One of the simplest and most common formats is the CSV (Comma-Separated Values) file. 

A CSV file is essentially a plain text file where each line represents a row of data, and the values in each row are separated by commas. 

When opened, a CSV file presents data in a straightforward, table-like format that looks something like this:

```
Name, Age, City
Alice, 30, New York
Bob, 25, London
Charlie, 35, Paris
```

This basic structure makes CSV files widely used for storing and sharing tabular data across platforms, especially when working with spreadsheet applications or databases. 

Although CSV files are simple, they can still hold complex datasets, making them a powerful starting point for analysis with libraries like `pandas` in Python.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Lesen einer CSV-Datei

Eines der einfachsten und gängigsten Formate ist die CSV-Datei (Comma-Separated Values).

Eine CSV-Datei ist im Wesentlichen eine reine Textdatei, bei der jede Zeile eine Datenzeile darstellt und die Werte in jeder Zeile durch Kommas getrennt sind.

Beim Öffnen einer CSV-Datei werden die Daten in einem einfachen, tabellenartigen Format dargestellt, das etwa so aussieht:

```
Name, Alter, Stadt
Alice, 30, New York
Bob, 25, London
Charlie, 35, Paris
```

Aufgrund dieser Grundstruktur werden CSV-Dateien häufig für die Speicherung und den Austausch von Tabellendaten auf verschiedenen Plattformen verwendet, insbesondere bei der Arbeit mit Tabellenkalkulationsprogrammen oder Datenbanken.

Obwohl CSV-Dateien einfach sind, können sie dennoch komplexe Datensätze enthalten, was sie zu einem leistungsstarken Ausgangspunkt für Analysen mit Bibliotheken wie `pandas` in Python macht.
</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

We'll use the `pd.read_csv()` function to read the data into a DataFrame.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Wir verwenden die Funktion `pd.read_csv()`, um die Daten in einen DataFrame zu lesen.

</div>
</div>

In [None]:
wine_reviews = pd.read_csv('datasets/wine_reviews_sample.csv')

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

###  First inspection 

Let's look at it:

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

### Erste Inspektion 

Schauen wir es uns an:
</div>
</div>

In [None]:
wine_reviews

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

When calling the DataFrame, `pandas` displays a brief summary, showing the first 5 and last 5 rows along with an overview. 

This includes the total number of rows and columns, in this case, 15093 rows and 11 columns.

In addition to the summary provided when calling the DataFrame, `pandas` offers specific methods for quickly inspecting data:

1. `head()` returns the first few rows of the DataFrame, with 5 rows being the default. It's useful for getting a quick look at the beginning of the dataset. You can pass an argument to specify a different number of rows, for example, `df.head(10)` would display the first 10 rows.

   ```python
   df.head()  # Displays the first 5 rows
   ```

2. `tail()` returns the last few rows of the DataFrame, with the default being 5 rows. This helps you check the data at the end of the dataset. You can also specify how many rows to display by passing a number, like `df.tail(10)` for the last 10 rows.

   ```python
   df.tail()  # Displays the last 5 rows
   ```

3. `shape` provides the dimensions of the DataFrame in the form of a tuple: `(number_of_rows, number_of_columns)`. It's useful when you want to know the size of your dataset at a glance. For example, `df.shape` would return `(15093, 11)` for a DataFrame with 150,930 rows and 11 columns.

   ```python
   df.shape  # Outputs (150930, 11)
   ```

4. A check on how `pandas` interpreted each of the column data types can be done by requesting the `dtypes` attribute:

   ```python
   df.dtypes 
   ```

5. `df.columns` gives you access to the column names of a DataFrame, allowing you to view or change them as needed.

   ```python
   df.columns                                               # Returns the column names
   df.columns = ['new_name1', 'new_name2', 'new_name3']     # Renames columns
   ```

</div>
<div style="width: 48%; line-height: 1.4;color: grey;">

Beim Aufruf des DataFrame zeigt `pandas` eine kurze Zusammenfassung mit den ersten 5 und den letzten 5 Zeilen sowie eine Übersicht an.

Dazu gehört auch die Gesamtzahl der Zeilen und Spalten, in diesem Fall 15093 Zeilen und 11 Spalten.

Zusätzlich bietet `pandas` spezielle Methoden für die schnelle Inspektion von Daten:

1. `head()` gibt die ersten paar Zeilen des DataFrame zurück, wobei 5 Zeilen der Standard sind. Es ist nützlich, um einen schnellen Blick auf den Anfang des Datensatzes zu werfen. Sie können ein Argument übergeben, um eine andere Anzahl von Zeilen anzugeben, z. B. würde `df.head(10)` die ersten 10 Zeilen anzeigen.

   ```python
   df.head() # Zeigt die ersten 5 Zeilen an
   ```

2. `tail()` gibt die letzten Zeilen des DataFrame zurück, wobei die Vorgabe 5 Zeilen sind. Dies hilft Ihnen, die Daten am Ende des Datensatzes zu überprüfen. Sie können auch angeben, wie viele Zeilen angezeigt werden sollen, indem Sie eine Zahl übergeben, z. B. `df.tail(10)` für die letzten 10 Zeilen.

   ```python
   df.tail() # Zeigt die letzten 5 Zeilen an
   ```

3. `shape` liefert die Dimensionen des DataFrame in Form eines Tupels: `(Anzahl_der_Zeilen, Anzahl_der_Spalten)`. Es ist nützlich, wenn Sie die Größe Ihres Datensatzes auf einen Blick erkennen wollen. Zum Beispiel würde `df.shape` `(15093, 11)` für einen DataFrame mit 150.930 Zeilen und 11 Spalten zurückgeben.

   ```python
   df.shape # Outputs (150930, 11)
   ```

4. Eine Überprüfung, wie `pandas` die einzelnen Datentypen der Spalten interpretiert hat, kann durch Abfrage des Attributs `dtypes` erfolgen:

   ```python
   df.dtypes
   ```

5. Mit "df.columns" können Sie auf die Spaltennamen eines DataFrame zugreifen und sie bei Bedarf anzeigen oder ändern:

   ```python
   df.columns # Liefert die Spaltennamen
   df.columns = ['neuer_name1', 'neuer_name2', 'neuer_name3'] # Benennt Spalten um
   ```
</div>
</div>

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

#### Exercise

Use the commands we've just covered to display the column names, the first 15 rows, the last 15 rows, the dimensions, and the data types of the `wine_reviews` dataset.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Übung

Verwenden Sie die soeben behandelten Befehle, um die Spaltennamen, die ersten 15 Zeilen, die letzten 15 Zeilen, die Abmessungen und die Datentypen des Datensatzes `wine_reviews` anzuzeigen.

</div>
</div>

In [None]:
#countdown
countdown_timer(5)

In [None]:
wine_reviews.dtypes

In [None]:
wine_reviews.columns

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Data types

Data types provide insight into how the data is stored internally. For example, `float64` represents a 64-bit floating point number, while `int64` refers to a 64-bit integer.

An important thing to note, as seen clearly here, is that columns containing only strings are not assigned a specific string type. Instead, they are classified as `object` type.

You can easily convert a column from one data type to another, as long as the conversion is valid, using the `astype()` function.

For instance, you can convert the `points` column from its current `int64` data type to `float64` like this:
</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Datentypen

Datentypen geben Aufschluss darüber, wie die Daten intern gespeichert werden. `float64` steht zum Beispiel für eine 64-Bit-Gleitkommazahl, während `int64` sich auf eine 64-Bit-Ganzzahl bezieht.

Wichtig ist, wie hier deutlich zu sehen, dass Spalten, die nur Zeichenketten enthalten, kein bestimmter Zeichenkettentyp zugewiesen wird. Stattdessen werden sie als object`-Typ klassifiziert.

Sie können eine Spalte leicht von einem Datentyp in einen anderen umwandeln, solange die Umwandlung gültig ist, indem Sie die Funktion `astype()` verwenden.

So können Sie beispielsweise die Spalte `points` von ihrem derzeitigen Datentyp `int64` in `float64` umwandeln:
</div>
</div>

In [None]:
wine_reviews['points'].astype('float64')

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

#### Missing values

Entries with missing values are represented by `NaN`, which stands for "Not a Number." Due to technical reasons, these `NaN` values are always of the `float64` data type, regardless of the original data type of the column.

`NaN` values aren't inherently problematic, but certain operations (like divisions) or statistical analyses can produce errors or yield skewed results when missing values are involved.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Datentypen

Einträge mit fehlenden Werten werden durch `NaN` dargestellt, was für "Not a Number" steht. Aus technischen Gründen haben diese `NaN`-Werte immer den Datentyp `float64`, unabhängig vom ursprünglichen Datentyp der Spalte.

`NaN`-Werte sind an sich nicht problematisch, aber bestimmte Operationen (z. B. Divisionen) oder statistische Analysen können zu Fehlern führen oder verzerrte Ergebnisse liefern, wenn fehlende Werte beteiligt sind.
</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

`pandas` provides several built-in methods to handle missing values in DataFrames and Series. 

- The `isnull()` and `notnull()` methods are used to detect missing values in a DataFrame or Series. They return a boolean mask indicating where `NaN` values are present (`True` for `NaN`, `False` otherwise).

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

`pandas` bietet mehrere integrierte Methoden zur Behandlung fehlender Werte in DataFrames und Reihen.

- Die Methoden `isnull()` und `notnull()` werden verwendet, um fehlende Werte in einem DataFrame oder einer Serie zu erkennen. Sie geben eine boolesche Maske zurück, die angibt, wo `NaN`-Werte vorhanden sind (`True` für `NaN`, sonst `False`).
</div>
</div>

```python
df.isnull()                     # Returns a DataFrame of booleans indicating NaN locations

df[df['column_name'].isnull()]  # Returns rows where 'column_name' is NaN

df.notnull()                    # Returns a DataFrame of booleans indicating non-NaN locations
```

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

- The `dropna()` method is used to remove rows or columns that contain `NaN` values. This is useful if you want to exclude missing data from your analysis entirely.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

- Die Methode `dropna()` wird verwendet, um Zeilen oder Spalten zu entfernen, die `NaN`-Werte enthalten. Dies ist nützlich, wenn Sie fehlende Daten vollständig aus Ihrer Analyse ausschließen möchten.

</div>
</div>

```python
df.dropna()                               # Removes rows with at least one NaN

df.dropna(axis=1)                         # Removes columns with at least one NaN

df.dropna(subset=['column1', 'column2'])  # Removes rows with NaN in the specified columns

```

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

- The `fillna()` method is used to replace `NaN` values with a specified value or by following certain strategies (such as forward filling or backward filling).

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

- Die Methode `fillna()` wird verwendet, um `NaN`-Werte durch einen bestimmten Wert oder durch bestimmte Strategien (wie "forward filling" oder "backward filling") zu ersetzen.

</div>
</div>

```python
df['column_name'].fillna(0)                          # Replaces NaN with `0` in a specific column

df['column_name'].fillna('Unknown')                  # Replaces NaN with the string Unknown in a specific column

df['column_name'].fillna(df['column_name'].mean())   # Fill with the mean, median, or mode (of the column)
df['column_name'].fillna(df['column_name'].median())
df['column_name'].fillna(df['column_name'].mode())
```

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Exercise

1. The `isnull()` function returns a DataFrame of boolean values (`True` for missing values and `False` for non-missing values). To count how many `NaN` values there are in each column, you can sum the boolean values because `True` is treated as `1` and `False` as `0` in `pandas`. By summing the result of `isnull()` for each column, you'll get the total count of missing values. Count how many missing values there are in each column using `isnull()`. 

2. Remove all rows where the `region_2` column has missing values.

3. Replace all missing values in the `price` column with the median price.

4. Fill missing values in the `points` column with the mean value of the column.

5. What are the most common wine-producing regions? Count the occurrences of each value in the `region_1` column. Since this field often has missing data, replace any `NaN` values with 'Unknown' before counting.


</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Übung

1. Die Funktion "isnull()" gibt einen DataFrame mit booleschen Werten zurück (`True` für fehlende Werte und `False` für nicht fehlende Werte). Um zu zählen, wie viele `NaN`-Werte es in jeder Spalte gibt, kann man die booleschen Werte summieren, da `True` als `1` und `False` als `0` in `pandas` behandelt wird. Wenn Sie das Ergebnis von `isnull()` für jede Spalte addieren, erhalten Sie die Gesamtzahl der fehlenden Werte. Zählen Sie mit `isnull()`, wie viele fehlende Werte es in jeder Spalte gibt.

2. Entfernen Sie alle Zeilen, in denen die Spalte `region_1` fehlende Werte enthält.

3. Ersetze alle fehlenden Werte in der Spalte `Preis` durch den Medianpreis.

4. Fülle fehlende Werte in der Spalte `points` mit dem Mittelwert der Spalte auf.

5. Welches sind die häufigsten Weinbauregionen? Zählen Sie die Häufigkeit der einzelnen Werte in der Spalte "Region_1". Da in diesem Feld häufig Daten fehlen, ersetzen Sie vor der Zählung alle "NaN"-Werte durch "Unbekannt".

</div>
</div>

In [None]:
countdown_timer(30)

In [None]:
wine_reviews = pd.read_csv('datasets/wine_reviews_sample.csv')

#### Solution

1. **Task**: Count how many missing values there are in each column using `isnull()`.

   ```python
   wine_reviews.isnull().sum()
   ```

2. **Task**: Remove all rows where the `region_2` column has missing values.

   ```python
   wine_reviews.dropna(subset=['region_2'], inplace=True)
   ```

3. **Task**: Replace all missing values in the `price` column with the median price.

   ```python
   median_price = wine_reviews['price'].median()
   wine_reviews['price'].fillna(median_price)
   ```

4. **Task**: Fill missing values in the `points` column with the mean value of the column.

   ```python
   mean_points = wine_reviews['points'].mean()
   wine_reviews['points'].fillna(mean_points)
   ```

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Indexing (yes, again) 

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

## Indizierung (ja, schon wieder) 

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

### Selecting specific columns

Just as we can access dictionary values using their keys, we can access the columns of a DataFrame using the `[]` indexing operator.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

### Auswahl von bestimmten Spalten

Genauso wie wir auf Wörterbuchwerte über ihre Schlüssel zugreifen können, können wir auf die Spalten eines DataFrame mit dem Indizierungsoperator `[]` zugreifen.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/03_subset_columns.svg" style="height: 150px;">
</div>

In [None]:
wine_reviews['country']

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

To select multiple columns, use a list of column names within the selection brackets `[]`.

The inner square brackets define a Python list with column names, whereas the outer brackets are used to select the data from a pandas DataFrame as seen in the previous example.
</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Um mehrere Spalten auszuwählen, verwenden Sie eine Liste von Spaltennamen innerhalb der Auswahlklammern `[]`.

Die inneren eckigen Klammern definieren eine Python-Liste mit Spaltennamen, während die äußeren Klammern verwendet werden, um die Daten aus einem Pandas DataFrame auszuwählen, wie im vorherigen Beispiel zu sehen.

</div>
</div>

In [None]:
wine_reviews[['country','province']]

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

#### Exercise

Select the `description` column from the `wine_reviews` dataset and assign the result to a variable called `desc`.

What type of object is `desc`? If you're not sure, you can check by calling Python's `type` function: `type(desc)`.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Übung

Wählen Sie die Spalte `description` aus dem Datensatz `wine_reviews` aus und weisen Sie das Ergebnis einer Variablen namens `desc` zu.

Welcher Typ von Objekt ist `desc`? Wenn Sie sich nicht sicher sind, können Sie das mit der Python-Funktion `type` überprüfen: `type(desc)`.

</div>
</div>

In [None]:
countdown_timer(5)

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

### Filtering specific rows

To select rows based on a conditional expression, use a condition inside the selection brackets `[]`.

Only rows for which the condition is True will be displayed.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

### Auswahl von bestimmten Spalten

Um Zeilen auf der Grundlage eines bedingten Ausdrucks auszuwählen, verwenden Sie eine Bedingung innerhalb der Auswahlklammern `[]`.

Es werden nur Zeilen angezeigt, für die die Bedingung wahr ist.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg" style="height: 150px;">
</div>

In [None]:
# Display only the rows where country is Italy

wine_reviews[wine_reviews['country'] == 'Italy']

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

When combining multiple conditional statements, each condition must be surrounded by parentheses `()`. Moreover, you can not use `or`/`and` but need to use the `or` operator `|` and the `and` operator `&`.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Bei der Kombination mehrerer bedingter Anweisungen muss jede Bedingung von Klammern `()` umgeben sein. Außerdem können Sie nicht `oder`/`und` verwenden, sondern müssen den `oder`-Operator `|` und den `und`-Operator `&` verwenden.

</div>
</div>

In [None]:
# Display only the rows where country is Italy

wine_reviews[(wine_reviews['country'] == 'Italy') | (wine_reviews['country'] == 'France')]

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Alternative: `df.query()`

There is a more compact way to attain the same result.

`df.query()` allows you to refer to column names directly *without using brackets and quotes* and with `and` and `or` operators. 

It’s cleaner when filtering based on multiple conditions or column names with spaces.

However, it is less versatile and less flexible than the previous syntax.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Alternative: `df.query()`

Es gibt einen kompakteren Weg, um das gleiche Ergebnis zu erzielen.

Mit `df.query()` können Sie direkt auf Spaltennamen verweisen *ohne Klammern und Anführungszeichen* und mit den Operatoren `und` und `oder`.

Das ist sauberer, wenn man auf der Grundlage mehrerer Bedingungen oder Spaltennamen mit Leerzeichen filtert.

Allerdings ist sie weniger vielseitig und weniger flexibel als die vorherige Syntax.

</div>
</div>

In [None]:
wine_reviews.query('country == "Italy" or country == "France"')

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

In terms of data structures, a DataFrame column is a Series, which is similar to a list. 

Therefore, it’s no surprise that we can use the indexing operator `[]` again to isolate specific elements within that column.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

In Bezug auf die Datenstrukturen ist eine DataFrame-Spalte eine Reihe, die einer Liste ähnlich ist.

Daher ist es keine Überraschung, dass wir den Indexierungsoperator `[]` wieder verwenden können, um bestimmte Elemente innerhalb dieser Spalte zu isolieren.

</div>
</div>

In [None]:
wine_reviews['country'][0]

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

### Selecting specific rows *and* columns

In this case, a subset of both rows and columns is made in one go and just using selection brackets `[]` is not sufficient anymore. 

The `loc`/`iloc` operators are required in front of the selection brackets `[]`. 

When using `loc`/`iloc`, the part before the comma is the rows you want, and the part after the comma is the columns you want to select.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

### Auswahl bestimmter Zeilen *und* Spalten

In diesem Fall wird eine Teilmenge von sowohl Zeilen als auch Spalten in einem Durchgang ausgewählt, und die Verwendung von Auswahlklammern `[]` ist nicht mehr ausreichend.

Die Operatoren `loc`/`iloc` werden vor den Auswahlklammern `[]` benötigt.

Bei der Verwendung von `loc`/`iloc` steht der Teil vor dem Komma für die gewünschten Zeilen und der Teil nach dem Komma für die Spalten, die Sie auswählen möchten.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg" style="height: 150px;">
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

These are specialized `pandas` operators designed for more advanced indexing operations:

- `iloc`: Allows you to access data by integer positions (row/column indices).

- `loc`: Allows you to access data by labels (row/column names).

For more complex data manipulation tasks, such as filtering by conditions, selecting specific rows or columns, or slicing data based on both row and column labels, `loc` and `iloc` are the preferred methods to use. They offer greater flexibility and control over how you work with DataFrames.

</div>
<div style="width: 48%; line-height: 1.3; color: grey;">

Dies sind spezialisierte `pandas`-Operatoren, die für fortgeschrittene Indizierungsoperationen entwickelt wurden:

- `iloc`: Ermöglicht den Zugriff auf Daten über ganzzahlige Positionen (Zeilen/Spalten-Indizes).
- `loc`: Ermöglicht den Zugriff auf Daten über Bezeichnungen (Zeilen/Spaltennamen).

Für komplexere Datenmanipulationsaufgaben, wie z. B. das Filtern nach Bedingungen, die Auswahl bestimmter Zeilen oder Spalten oder das Aufteilen von Daten auf Grundlage von Zeilen- und Spaltenbeschriftungen, sind `loc` und `iloc` die bevorzugten Methoden. Sie bieten mehr Flexibilität und Kontrolle bei der Arbeit mit DataFrames.

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

### Label-based selection: `loc` 

The `loc` function in `pandas` is used for **label-based indexing**, which allows you to select rows and columns from a DataFrame using their labels or index names. 

`loc` works with the actual names of rows and columns, making it more intuitive when dealing with labeled data.

**Row and Column Selection by Label**: You can use `loc` to access data by row and column labels. The second index (if present) identifies the column(s).

The first index identifies one or more rows by the index name or list of names.

For example, `df.loc['row_label']` selects the row with the specified label, and `df.loc[:, 'column_label']` selects the column by name.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

### Etikettenbasierte Auswahl: `loc` 

`loc` wird für die **Label-basierte Indizierung** verwendet, die es erlaubt, Zeilen und Spalten aus einem DataFrame anhand ihrer Labels oder Indexnamen auszuwählen.

`loc` arbeitet mit den tatsächlichen Namen von Zeilen und Spalten, was es intuitiver macht, wenn man mit beschrifteten Daten arbeitet.

**Zeilen- und Spaltenauswahl nach Bezeichnung**: Sie können "loc" verwenden, um auf Daten über Zeilen- und Spaltenbezeichnungen zuzugreifen. Der zweite Index (falls vorhanden) identifiziert die Spalte(n).

Der erste Index identifiziert eine oder mehrere Zeilen durch den Indexnamen oder eine Liste von Namen.

Zum Beispiel wählt `df.loc['row_label']` die Zeile mit der angegebenen Bezeichnung aus, und `df.loc[:, 'column_label']` wählt die Spalte nach dem Namen aus.
</div>
</div>

In [None]:
# To access the first row of the dataset:

wine_reviews.loc[0]

In [None]:
# This is an equivalent to access the first row of the dataset:

wine_reviews.loc[0, :]

In [None]:
# Accessing Multiple Rows:

wine_reviews.loc[0:2]

In [None]:
# Accessing a Single Column:

wine_reviews.loc[:, 'country']

In [None]:
# Accessing Multiple Columns:

wine_reviews.loc[:, ['country', 'points']]

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

**Single Element Selection**: You can retrieve a single value by specifying both the row and column labels. For instance, `df.loc['row_label', 'column_label']` retrieves the specific element from that row and column.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

**Einzelne Elementauswahl**: Sie können einen einzelnen Wert abrufen, indem Sie sowohl die Zeilen- als auch die Spaltenbezeichnung angeben. Zum Beispiel ruft `df.loc['row_label', 'column_label']` das spezifische Element aus dieser Zeile und Spalte ab.

</div>
</div>

In [None]:
# Accessing a Specific Element:

wine_reviews.loc[0, 'points']

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

**Boolean Indexing**: One of the most powerful features of `loc` is the ability to filter rows based on conditions. You can pass a boolean array or condition to `loc` to select rows that meet a specific criterion. For example, `df.loc[df['Age'] > 30]`  selects rows where the `Age` column is greater than 30.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

**Boolesche Indizierung**: Eine der mächtigsten Funktionen von `loc` ist die Möglichkeit, Zeilen anhand von Bedingungen zu filtern. Sie können ein boolesches Array oder eine Bedingung an `loc` übergeben, um Zeilen auszuwählen, die ein bestimmtes Kriterium erfüllen. Zum Beispiel wählt `df.loc[df['Alter'] > 30]` die Zeilen aus, in denen die Spalte `Alter` größer als 30 ist.

</div>
</div>

In [None]:
# Filtering Rows by Condition:

wine_reviews.loc[wine_reviews['points'] >= 90]

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Boolean indexing with *multiple conditions* allows you to filter a DataFrame based on multiple criteria. 

You combine conditions using logical operators like `&` (`and`), `|` (`or`), and `~` (`not`).

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Die boolesche Indizierung mit *Mehrfachbedingungen* ermöglicht es Ihnen, einen DataFrame nach mehreren Kriterien zu filtern.

Sie kombinieren Bedingungen mit logischen Operatoren wie `&` (`and`), `|` (`or`), und `~` (`not`).

</div>
</div>

In [None]:
# Filtering Rows by Multiple Conditions:
# Pay attention to parentheses

wine_reviews.loc[(wine_reviews['points'] >= 90) & (wine_reviews['price'] >= 300)]

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

#### Exercise

1. Filter all wines from Italy.

2. Select all wines from Napa Valley with a score of 95 or higher.

3. Get all columns for the first 10 rows of French wines.

4. Select specific columns (`country`, `points`, `price`) for wines with 90+ points.

5. Get all wines with a price of over $100 and display only `variety` and `winery`.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Übung

1. Filtern Sie alle Weine aus Italien.

2. Wählen Sie alle Weine aus Napa Valley mit einer Bewertung von 95 oder höher.

3. Ermitteln Sie alle Spalten für die ersten 10 Zeilen der französischen Weine.

4. Wählen Sie bestimmte Spalten (`country`, `points`, `price`) für Weine mit 90+ Punkten.

5. Erhalten Sie alle Weine mit einem Preis von über $100 und zeigen Sie nur `variety` und `winery` an.

</div>
</div>

In [None]:
countdown_timer(10)

#### Solution

1. **Filter all wines from Italy**:
   - Use `loc` to select all rows where the `country` column is labeled as "Italy".
   ```python
   italian_wines = df.loc[df['country'] == 'Italy']
   ```

2. **Select all wines from Napa Valley with a score of 95 or higher**:
   - Filter wines by region (`region_1`) and their `points` column.
   ```python
   napa_top_wines = df.loc[(df['region_1'] == 'Napa Valley') & (df['points'] >= 95)]
   ```

3. **Get all columns for the first 10 rows of French wines**:
   - Use `loc` to select all columns from the first 10 rows where the `country` is "France".
   ```python
   french_wines = df.loc[df['country'] == 'France'].head(10)
   ```

4. **Select specific columns (`country`, `points`, `price`) for wines with 90+ points**:
   - Use `loc` to filter wines with high points and show specific columns.
   ```python
   high_point_wines = df.loc[df['points'] >= 90, ['country', 'points', 'price']]
   ```

5. **Get all wines with a price of over $100 and display only `variety` and `winery`**:
   - Use `loc` to filter by price and select specific columns.
   ```python
   expensive_wines = df.loc[df['price'] > 100, ['variety', 'winery']]
   ```

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Alternative: `df.query()` (again)

Again, we can attain the same result with the help of `df.query()`:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

#### Alternative: `df.query()` (erneut)

Auch hier können wir das gleiche Ergebnis mit Hilfe von `df.query()` erreichen:

</div>
</div>

In [None]:
wine_reviews.query('points >= 90 and price >= 300')

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Exercise

1. Find all wines from California priced under $50:
   - Use `query` to filter by `province` and `price`.

2. Select wines from France with a score above 90 and price between $20 and $100:
   - Use `query` to filter by multiple conditions.

3. Find all wines with a variety of "Pinot Noir" and a score of 95 or higher:
   - Use `query` to filter by `variety` and `points`.

4. Get wines from Oregon with a score between 90 and 95:
   - Use `query` to filter by region and points range.

5. Filter wines from Napa Valley that cost more than $200:
   - Use `query` to find high-end wines from a specific region.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Übung

1. Finden Sie alle Weine aus Kalifornien mit einem Preis unter $50:
   - Verwenden Sie `query`, um nach `province` und `price` zu filtern.

2. Wählen Sie Weine aus Frankreich mit einer Punktzahl über 90 und einem Preis zwischen $20 und $100:
   - Verwenden Sie `query`, um nach mehreren Bedingungen zu filtern.

3. Finden Sie alle Weine mit der Sorte "Pinot Noir" und einer Punktzahl von 95 oder höher:
   - Verwenden Sie `query`, um nach `variety` und `points` zu filtern.

4. Finden Sie Weine aus Oregon mit einer Punktzahl zwischen 90 und 95:
   - Verwenden Sie `query`, um nach Region und Punktzahl zu filtern.

5. Filtern Sie Weine aus dem Napa Valley, die mehr als 200 $ kosten:
   - Verwenden Sie `query`, um Spitzenweine aus einer bestimmten Region zu finden.

</div>
</div>

### Solution

1. **Find all wines from California priced under $50**:
   - Use `query` to filter by `province` and `price`.
   ```python
   affordable_california_wines = df.query('province == "California" and price < 50')
   ```

2. **Select wines from France with a score above 90 and price between $20 and $100**:
   - Use `query` to filter by multiple conditions.
   ```python
   french_high_score_wines = df.query('country == "France" and points > 90 and 20 <= price <= 100')
   ```

3. **Find all wines with a variety of "Pinot Noir" and a score of 95 or higher**:
   - Use `query` to filter by `variety` and `points`.
   ```python
   top_pinot_noir = df.query('variety == "Pinot Noir" and points >= 95')
   ```

4. **Get wines from Oregon with a score between 90 and 95**:
   - Use `query` to filter by region and points range.
   ```python
   oregon_wines = df.query('province == "Oregon" and points >= 90 and points <= 95')
   ```

5. **Filter wines from Napa Valley that cost more than $200**:
   - Use `query` to find high-end wines from a specific region.
   ```python
   luxury_napa_wines = df.query('region_1 == "Napa Valley" and price > 200')
   ```

These tasks will help you explore the wine reviews dataset and use different `pandas` functions (`loc`, `iloc`, and `query`) for data selection and filtering based on various criteria.

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

###  Index-based selection: `iloc`

The `iloc` function in `pandas` is used for **positional indexing**. 

It allows you to select rows and columns from a DataFrame based on their integer positions rather than their labels.

- **Row and column selection**: You can use `iloc` to select rows and columns by their numeric position. For example, `iloc[0]` selects the first row, and `iloc[:, 1]` selects the second column. This indexing system is zero-based, meaning the first element is at position 0.

- **Single Element Selection:**: You can select a single element by specifying both row and column indices, like `df.iloc[2, 3]`, which retrieves the value from the third row and fourth column.

- **Slicing**: `iloc` supports slicing, just like Python lists. You can select a range of rows or columns using a slice notation: `iloc[1:4]` selects rows 1, 2, and 3). Both the start and stop indices are integers, and the slicing follows Python's convention: it includes the start index but excludes the stop index.

- **Selecting Entire Rows or Columns**: To select all rows or all columns, use a colon (:) as a placeholder. For instance, `df.iloc[:, 0]` retrieves all rows from the first column, while `df.iloc[0, :]` retrieves all columns from the first row.

- **Negative Indexing**: Like Python lists, `iloc` supports negative indexing, which allows you to count from the end of the DataFrame. For example, `df.iloc[-1]` selects the last row.

- **Mixing Indexing Types**: You can mix scalar values (specific indices) with slices in the same call. For example, `df.iloc[0, 1:3]` selects the first row and the second and third columns.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

### Indexbasierte Auswahl: `iloc`

Die Funktion `iloc` in `pandas` wird für die **positionsbezogene Indizierung** verwendet.

Sie ermöglicht es, Zeilen und Spalten aus einem DataFrame anhand ihrer ganzzahligen Positionen und nicht anhand ihrer Beschriftungen auszuwählen.

- **Zeilen- und Spaltenauswahl**: Sie können `iloc` verwenden, um Zeilen und Spalten nach ihrer numerischen Position auszuwählen. Zum Beispiel wählt `iloc[0]` die erste Zeile und `iloc[:, 1]` die zweite Spalte aus. Dieses Indexierungssystem ist nullbasiert, d.h. das erste Element befindet sich an Position 0.

- **Einzelne Elementauswahl:**: Sie können ein einzelnes Element auswählen, indem Sie sowohl Zeilen- als auch Spaltenindizes angeben, z. B. `df.iloc[2, 3]`, das den Wert aus der dritten Zeile und der vierten Spalte abruft.

- **Slicing**: `iloc` unterstützt Slicing, genau wie Python-Listen. Sie können einen Bereich von Zeilen oder Spalten auswählen, indem Sie eine Slice-Notation verwenden (z. B. wählt `iloc[1:4]` die Zeilen 1, 2 und 3 aus). Sowohl der Start- als auch der Stop-Index sind Ganzzahlen, und das Slicing folgt der Python-Konvention: Es schließt den Start-Index ein, aber den Stop-Index aus.

- **Gesamte Zeilen oder Spalten auswählen**: Um alle Zeilen oder alle Spalten auszuwählen, verwenden Sie einen Doppelpunkt (:) als Platzhalter. Zum Beispiel ruft `df.iloc[:, 0]` alle Zeilen ab der ersten Spalte ab, während `df.iloc[0, :]` alle Spalten ab der ersten Zeile abruft.

- **Negative Indizierung**: Wie Python-Listen unterstützt `iloc` negative Indizierung, die es erlaubt, vom Ende des DataFrame aus zu zählen. Zum Beispiel wählt `df.iloc[-1]` die letzte Zeile aus.

- **Mischung von Indizierungsarten**: Sie können skalare Werte (spezifische Indizes) mit Slices im selben Aufruf mischen. Zum Beispiel wählt `df.iloc[0, 1:3]` die erste Zeile sowie die zweite und dritte Spalte aus.

</div>
</div>

In [None]:
wine_reviews.iloc[0]

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Exercise

1. Select the first 20 rows of the dataset.

2. Extract rows 50 to 100 and display columns 0, 2, and 3.

3. Get the last 10 rows of the dataset.

4. Select every third row and first three columns from the first 50 rows.

5. Retrieve rows 5 to 15 and only the first two columns.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Übung

1. Wählen Sie die ersten 20 Zeilen des Datensatzes aus.

2. Extrahieren Sie die Zeilen 50 bis 100 und zeigen Sie die Spalten 0, 2 und 3 an.

3. Holen Sie die letzten 10 Zeilen des Datensatzes.

4. Wählen Sie jede dritte Zeile und die ersten drei Spalten der ersten 50 Zeilen aus.

5. Rufen Sie die Zeilen 5 bis 15 und nur die ersten beiden Spalten ab.

</div>
</div>

In [None]:
countdown_timer(10)

#### Solution:

1. **Select the first 20 rows of the dataset**:
   - Use `iloc` to extract the first 20 rows.
   ```python
   first_20_rows = df.iloc[:20]
   ```

2. **Extract rows 50 to 100 and display columns 0, 2, and 3**:
   - Use `iloc` to select a range of rows and specific columns by position.
   ```python
   partial_data = df.iloc[50:101, [0, 2, 3]]
   ```

3. **Get the last 10 rows of the dataset**:
   - Use `iloc` to retrieve the last 10 rows.
   ```python
   last_10_rows = df.iloc[-10:]
   ```

4. **Select every third row and first three columns from the first 50 rows**:
   - Use `iloc` to get a subset of rows and columns with a step.
   ```python
   subset = df.iloc[0:50:3, :3]
   ```

5. **Retrieve rows 5 to 15 and only the first two columns**:
   - Use `iloc` to access a specific range of rows and columns.
   ```python
   specific_rows_cols = df.iloc[5:16, :2]
   ```

|                        | `iloc`                                                                 | `loc`                                                                                     | `query`                                                          |
|------------------------------|------------------------------------------------------------------------|-------------------------------------------------------------------------------------------|------------------------------------------------------------------|
| **Type of Indexing**          | Positional (integer-based)                                              | Label-based (row/column labels)                                                           | SQL-like filtering based on column names                         |
| **Selection Method**          | Selects by integer positions                                            | Selects by labels (row/column names)                                                      | Filters rows based on column conditions                          |
| **Row Access**                | `df.iloc[0]`)                                   |  `df.loc['row_label']`)                                                |  `df.query('column > value')`)           |
| **Column Access**             | `df.iloc[:, 1]`)                                |  `df.loc[:, 'column_label']`)                                          | No, only filters rows                                            |
| **Slicing**                   | `df.iloc[0:3, 1:4]`)                                         | `df.loc['row1':'row3', 'col1':'col3']`)                                         | No                                                |
| **Boolean Filtering**         | No                                                                     | `df.loc[df['column'] > value]`)                                                 |  `df.query('column > value')`)                         |
| **Condition-based Filtering** | No                                                                     |  `df.loc[(df['col'] > value) & (df['col2'] == value2)]`) |  `df.query('col > value and col2 == value2')`) |
| **Handling of Index Labels**  | No (works only with integer positions)                                  |  `df.loc['row_label']`)                                 | No (works only with column names, not index)                     |
| **Ease of Use**               | Best for integer-based selection                                        | Best for label-based access and flexibility                                                | Best for filtering rows with simple conditions                   |
| **Multi-index Support**       | No                                                                     | Yes                                                         | No                                                               |
| **Reference to Variables**    | No                                                                     | Yes, using Python variables directly: `df.loc[df['column'] > var]`)                  | Yes, using `@` symbol for variables: `df.query('col > @var')`) |
| **Selection of Rows/Columns** |  `df.iloc[1, 2]`)               |  `df.loc['row', 'column']`)                          | Only rows, no direct column selection                            |
| **Querying on Conditions**    | No                                                                     |  `df.loc[df['col'] > 30, ['col1', 'col2']]`)                   |  `df.query('col > 30')`)             |
| **Advanced Use Cases**        | Best for slicing and positional indexing                                | Best for label-based indexing, multi-index, and complex filtering                          | Best for readable condition-based filtering with complex conditions |

<div class="alert alert-block alert-info">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Most `pandas` operations return *copies* of the DataFrame. 
To make the changes “stick”, you’ll need to assign the result of any slicing or filtering operation to a new DataFrame, allowing you to create subsets of the original data:

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Die meisten `pandas`-Operationen geben *Kopien* des DataFrame zurück.
Damit die Änderungen "haften" bleiben, müssen Sie das Ergebnis jeder Slicing- oder Filter-Operation einem neuen DataFrame zuweisen, so dass Sie Teilmengen der ursprünglichen Daten erstellen können:
</div>
</div>

In [None]:
italian_wines = wine_reviews.query('country == "Italy"')

italian_wines

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Assigning values

You can override entire columns:

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

## Zuweisung von Werten

Sie können ganze Spalten außer Kraft setzen:

</div>
</div>

In [None]:
# Everything is 50% off!

wine_reviews["price"] = wine_reviews["price"] / 2

wine_reviews

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Creating new columns

`pandas` supports mathematical operations directly on DataFrame columns, allowing you to easily create new columns based on existing ones. 

You can perform operations like addition, subtraction, multiplication, division, etc., between columns. 

The operation is applied element-wise (row by row): you do not need to use a loop to iterate each of the rows!

To create a new column, use the `[]` brackets with the new column name at the left side of the assignment.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

## Erstellen neuer Spalten

`pandas` unterstützt mathematische Operationen direkt auf DataFrame-Spalten, so dass Sie auf einfache Weise neue Spalten auf der Grundlage bestehender Spalten erstellen können.

Sie können Operationen wie Addition, Subtraktion, Multiplikation, Division usw. zwischen den Spalten durchführen.

Die Operation wird elementweise (Zeile für Zeile) durchgeführt: Sie müssen keine Schleife verwenden, um jede Zeile zu durchlaufen!

Um eine neue Spalte zu erstellen, verwenden Sie die Klammern `[]` mit dem Namen der neuen Spalte auf der linken Seite der Zuordnung.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/05_newcolumn_2.svg" style="height: 150px;">
</div>

```python
# Examples
df['C'] = df['A'] + 10
df['D'] = df['A'] + df['B']
```

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.3;">

#### Exercise

1. As of September 2024, the USD/EUR conversion rate is 0.93. Create a new column that calculates and returns the price in EUR.

2. Which wines offer the best value? Create a new column that calculates the ratio of points to price.

Assign meaningful names to both of the new columns.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

#### Übung

1. Im September 2024 beträgt der Umrechnungskurs USD/EUR 0.93. Erstellen Sie eine neue Spalte, die den Preis in EUR berechnet und ausgibt.

2. Welche Weine bieten das beste Preis-Leistungs-Verhältnis? Erstellen Sie eine neue Spalte, die das Verhältnis von Punkten zu Preis berechnet.

Weisen Sie den beiden neuen Spalten aussagekräftige Namen zu.

</div>
</div>

In [None]:
countdown_timer(10)

In [None]:
# I want to know the price in Euros

wine_reviews["price in EUR"] = wine_reviews["price"] * 0.93            # USD ≈ 0.93 EUR as of September 2024

wine_reviews.head()

In [None]:
wine_reviews["quality/price ratio"] = wine_reviews["points"] / wine_reviews["price"]

wine_reviews

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Dropping

You can drop a column or row from a DataFrame using the `drop()` method. This method allows you to remove specific rows or columns based on labels or indices.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

## Löschen

Mit der Methode `drop()` können Sie eine Spalte oder Zeile aus einem DataFrame entfernen. Diese Methode ermöglicht es Ihnen, bestimmte Zeilen oder Spalten auf der Grundlage von Bezeichnungen oder Indizes zu entfernen.

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Dropping a Column
To drop a column, specify the column's name either with `columns=[]` or by using the `axis=1` argument in the `drop()` method, as columns are along the second axis (axis 1).

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

#### Löschen einer Spalte
Um eine Spalte auszulassen, geben Sie den Namen der Spalte entweder mit `columns=[]` oder mit dem Argument `axis=1` in der Methode `drop()` an, da die Spalten auf der zweiten Achse (Achse 1) liegen.

</div>
</div>

In [None]:
wine_reviews_cleaned = wine_reviews.drop(columns=["quality/price ratio"])

# is equivalent to

wine_reviews_cleaned =  wine_reviews.drop(["quality/price ratio"], axis=1)

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

You may have noticed that we assigned the operation to a new DataFrame. If you'd prefer to modify the original DataFrame directly, you can use the `inplace` parameter.

However, you must be careful: `inplace=True` can sometimes raise errors due to how `pandas` manages views and copies. 
To avoid these issues, it's often safer to avoid `inplace=True` and explicitly reassign the result of the operation to your DataFrame or Series.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

Sie haben vielleicht bemerkt, dass wir die Operation einem neuen DataFrame zugewiesen haben. Wenn Sie den ursprünglichen DataFrame lieber direkt ändern möchten, können Sie den Parameter `inplace` verwenden.

Sie müssen jedoch vorsichtig sein: `inplace=True` kann manchmal zu Fehlern führen, da `pandas` Ansichten und Kopien verwaltet.
Um diese Probleme zu vermeiden, ist es oft sicherer, `inplace=True` zu vermeiden und das Ergebnis der Operation explizit dem DataFrame oder der Serie neu zuzuweisen.

</div>
</div>

In [None]:
wine_reviews.drop(columns=["price in EUR"], inplace=True)

# is equivalent to

wine_reviews.drop(["price in EUR"], axis=1, inplace=True)

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">


#### Dropping a Row
To drop a row, you use `axis=0`, since rows are along the first axis (axis 0). You can also omit the axis, since `axis=0` is the default value:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">


#### Löschen einer Zeile
Um eine Zeile zu löschen, verwenden Sie `axise=0`, da die Zeilen entlang der ersten Achse (Achse 0) liegen. Sie können die Achse auch weglassen, da `axis=0` der Standardwert ist:

</div>
</div>

In [None]:
wine_reviews.drop([0])

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

If you attempt to drop a row or column that doesn’t exist, pandas will raise a `KeyError`. You can avoid this by setting the `errors` parameter to `'ignore'`.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Wenn Sie versuchen, eine Zeile oder Spalte zu löschen, die nicht existiert, löst Pandas einen `KeyError` aus. Sie können dies vermeiden, indem Sie den Parameter `errors` auf `'ignore` setzen.

</div>
</div>

In [None]:
wine_reviews.drop('non_existent_column', axis=1)

In [None]:
wine_reviews.drop('non_existent_column', axis=1, errors='ignore')

In [None]:
elements = pd.read_csv('datasets/element-data.csv', na_values='-')

elements.tail()

In [None]:
elements[(elements['melting point /K'] > 1000) & (elements['atomic radius /pm'] > 100)]

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;<div style="width: 48%; line-height: 1.3;">

####  Exercise

The file `element-data.csv`, available in the `datasets` folder, contains comma-separated, tabular data concerning the properties of the elements. 
To handle missing data (represented by the `-` character) when loading the `element-data.csv` file, you can pass the appropriate argument to the `read_csv()` function in `pandas`:
`elements = pd.read_csv('datasets/element-data.csv', na_values='-')`

1. Create new columns converting the radius in pm to Ångstrom and both temperatures to Celsius.

2. Determine the state of each element at 298 K. Create three separate DataFrames classifying the elements into solid, liquid, or gas based on their melting and boiling points depending on the following conditions:
- Gas: Boiling point < 298 K
- Liquid: Melting point < 298 K ≤ Boiling point
- Solid: Melting point > 298 K


3. For the `abundance` column, replace missing values with `0`, as elements with no recorded abundance can be assumed to have negligible abundance. 
Use `fillna()` to replace missing values.


</div>
<div style="width: 48%; line-height: 1.5;<div style="width: 48%; line-height: 1.3;color: grey;">

####  Übung
1. Welches ist der beste Wein, den ich für einen bestimmten Preis kaufen kann?
Gruppieren Sie die Weine nach Preis, ermitteln Sie die Höchstpunktzahl für jede Gruppe und sortieren Sie das Ergebnis nach Preis.

2. Welches sind die Mindest- und Höchstpreise für die einzelnen Weinsorten?
Gruppieren Sie die Weine nach Sorten und berechnen Sie die Mindest- und Höchstwerte für jede Gruppe.

3. Welches sind die teuersten Weinsorten? Erstellen Sie eine Variable `sorted_varieties`, die eine Kopie des DataFrame aus der vorherigen Frage enthält, in der die Sorten in absteigender Reihenfolge zuerst nach dem Mindestpreis und dann nach dem Höchstpreis sortiert sind, um Gleichstände zu vermeiden.

4. Welche Kombination von Ländern und Rebsorten ist am häufigsten? Gruppieren Sie die Daten nach {Land, Sorte} Paaren. Ein in den USA erzeugter Pinot Noir würde beispielsweise als {"US", "Pinot Noir"} gruppiert werden. 
Zählen Sie nach der Gruppierung die Vorkommen der einzelnen Kombinationen und sortieren Sie die Ergebnisse in absteigender Reihenfolge nach der Anzahl der Weine.
</div>
</div>


### 2. **Filtering Based on Conditions**:
   - **Task**: Filter the dataset to show only elements with a melting point above 1000 K and an atomic radius greater than 100 pm. Assign the result to a new DataFrame.
     - Use boolean indexing for filtering.

   ```python
   high_melting_radius = element_data[(element_data['melting point/K'] > 1000) & (element_data['atomic radius/pm'] > 100)]
   ```

### 3. **Creating New Columns**:
   - **Task**: Create a new column `density_category` that categorizes elements as `Low Density`, `Medium Density`, or `High Density` based on the `density/kg.m-3` values: 
     - Low Density: below 5000
     - Medium Density: between 5000 and 10000
     - High Density: above 10000

   ```python
   element_data['density_category'] = pd.cut(element_data['density/kg.m-3'], 
                                             bins=[-1, 5000, 10000, float('inf')], 
                                             labels=['Low Density', 'Medium Density', 'High Density'])
   ```

### 4. **Assigning Values to Filtered Data**:
   - **Task**: For elements that have a boiling point but no melting point (`NaN` in `melting point/K` but a valid value in `boiling point/K`), assign a value of `0` to the missing melting points.
     - Use boolean indexing and `loc` for assignment.

   ```python
   element_data.loc[element_data['melting point/K'].isna() & element_data['boiling point/K'].notna(), 'melting point/K'] = 0
   ```

### 5. **Filter and Modify Specific Rows**:
   - **Task**: Identify elements with atomic numbers (`Z`) greater than 50 and assign a new column `classification` with the value `Heavy Element`.
     - Use filtering and assignment.

   ```python
   element_data.loc[element_data['Z'] > 50, 'classification'] = 'Heavy Element'
   ```

### 6. **Creating Calculated Columns**:
   - **Task**: Create a new column called `boiling_melting_diff` that calculates the difference between the boiling point and the melting point for each element. Handle missing values by setting the difference to `NaN` if either boiling or melting point is missing.
     - Use subtraction with `fillna()` or `dropna()` to handle missing values.

   ```python
   element_data['boiling_melting_diff'] = element_data['boiling point/K'] - element_data['melting point/K']
   ```

### 7. **Advanced Filtering and Assigning Values**:
   - **Task**: For elements with a density greater than 7000 kg/m³ but a missing value in `atomic radius/pm`, assign an approximate atomic radius value of `150 pm`.
     - Use boolean indexing combined with `loc`.

   ```python
   element_data.loc[element_data['density/kg.m-3'] > 7000 & element_data['atomic radius/pm'].isna(), 'atomic radius/pm'] = 150
   ```

### 8. **Replacing Missing Values in Specific Columns**:
   - **Task**: For the `abundance` column, replace missing values with `0`, as elements with no recorded abundance can be assumed to have negligible abundance.
     - Use `fillna()` to replace missing values.

   ```python
   element_data['aboundance'].fillna(0, inplace=True)
   ```

### 9. **Setting Values Based on Indexing**:
   - **Task**: Set the atomic weight of hydrogen (H) to exactly `1.008 Da`. Use the element's symbol (`H`) to locate the row and assign the new value.
     - Use `.loc` with the symbol for indexing and assignment.

   ```python
   element_data.loc[element_data['symbol'] == 'H', 'atomic weight/Da'] = 1.008
   ```

### 10. **Filtering and Assigning for Multiple Conditions**:
   - **Task**: For elements with atomic numbers greater than 20 and density above 5000 kg/m³, assign a new column `metal_status` with the value `Metal`. If the density is below 5000 kg/m³, assign `Non-metal`.
     - Use boolean indexing with `np.where()` or conditional assignment.

   ```python
   element_data['metal_status'] = np.where((element_data['Z'] > 20) & (element_data['density/kg.m-3'] > 5000), 'Metal', 'Non-metal')
   ```

### 11. **Handling Negative Values (as a filtering and assigning task)**:
   - **Task**: Check if there are any negative values in the dataset (e.g., in the `density` or `melting point` columns). If any are found, replace them with `NaN` as negative values are not physically meaningful.
     - Use filtering and `replace()`.

   ```python
   element_data.loc[element_data['density/kg.m-3'] < 0, 'density/kg.m-3'] = pd.NA
   ```

These tasks help practice common pandas operations like indexing, filtering, handling missing data, creating new columns, and assigning values—all key skills when working with real-world datasets.

In [None]:
import seaborn as sns
import pandas as pd
   
# Load the Titanic dataset
titanic = sns.load_dataset('titanic')

titanic = titanic[['survived', 'pclass', 'sex', 'age', 'fare', 'embark_town']]
titanic

In [None]:
titanic[titanic['age'].isnull()]

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;<div style="width: 48%; line-height: 1.3;">

####  Exercise

On April 15, 1912, during her maiden voyage, the widely considered “unsinkable” RMS Titanic sank after colliding with an iceberg. Unfortunately, there weren’t enough lifeboats for everyone onboard, resulting in the death of 1502 out of 2224 passengers and crew.

While there was some element of luck involved in surviving, it seems some groups of people were more likely to survive than others.

1. Load the Titanic dataset into pandas:
   ```python
   import seaborn as sns
   import pandas as pd
   
   # Load the Titanic dataset
   titanic = sns.load_dataset('titanic')
   ```
2. Inspect the dataset and its basic information with the commands we have seen at the beginning of the lesson.

3. Some columns are redundant: create another dataset by selecting only the following columns: `survived`, `pclass`, `sex`, `age`, `fare`, and `embark_town`.

4. Drop rows where the `survived` column is missing.

</div>
<div style="width: 48%; line-height: 1.5;<div style="width: 48%; line-height: 1.3;color: grey;">

####  Übung
Am 15. April 1912 sank die als "unsinkbar" geltende RMS Titanic während ihrer Jungfernfahrt nach der Kollision mit einem Eisberg. Leider gab es nicht genügend Rettungsboote für alle Passagiere an Bord, was zum Tod von 1502 der 2224 Passagiere und Besatzungsmitglieder führte.

Auch wenn das Überleben ein gewisses Glücksspiel war, so scheint es doch, dass einige Gruppen von Menschen eher überlebten als andere.

1. Laden Sie den Titanic-Datensatz in Pandas:
   ```python
   import seaborn as sns
   import pandas as pd
   
   # Laden des Titanic-Datensatzes
   titanic = sns.load_dataset('titanic')
   ```
2. Überprüfen Sie den Datensatz und seine grundlegenden Informationen mit den Befehlen, die wir zu Beginn der Lektion gesehen haben.

3. Einige Spalten sind überflüssig: Erstellen Sie einen weiteren Datensatz, indem Sie nur die folgenden Spalten auswählen: `survived`, `pclass`, `sex`, `age`, `fare`, and `embark_town`.

4. Streichen Sie Zeilen, in denen die Spalte `survived` fehlt.
</div>
</div>