In [None]:
%%HTML
<style>
    body {
        --vscode-font-family: "CMU Sans Serif"
    }
</style>

In [None]:
from IPython.display import display, clear_output, HTML
import time

def countdown_timer(minutes):
    total_seconds = minutes * 60
    for seconds in range(total_seconds, 0, -1):
        mins, secs = divmod(seconds, 60)
        time_str = f"{mins:02}'{secs:02}''"
        clear_output(wait=True)
        # HTML with styling
        display(HTML(f'<div style="font-size: 24px; color: blue; font-weight: bold;">Time remaining: {time_str}</div>'))
        time.sleep(1)
    clear_output(wait=True)
    # Final message with different styling
    display(HTML('<div style="font-size: 24px; color: green; font-weight: bold;">Time\'s up!</div>'))

<div style="text-align: center;">
    <img src="https://matplotlib.org/stable/_images/sphx_glr_named_colors_003_2_00x.png" style="width: 700px;">
<figcaption> 
    For your convenience: 
    <a href="https://matplotlib.org/stable/gallery/color/named_colors.html#css-colors" target="_blank">all Matplotlib colors</a>.
    <br> 
    Für Ihre Bequemlichkeit: 
    <a href="https://matplotlib.org/stable/gallery/color/named_colors.html#css-colors" target="_blank">alle Matplotlib-Farben</a>.
</figcaption>
</div>

<div style="text-align: center;">
    <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1024px-Pandas_logo.svg.png" style="width: 500px;">
</div>

<div style="text-align: center;">
    <img src="https://preview.redd.it/anyone-knows-where-this-comes-from-v0-qntrcv0walxc1.png?auto=webp&s=e6ea1f53405b160be57d251c243f2aac9f97d6ee" style="width: 500px;">
    <figcaption> <code>pandas</code> has nothing to do with pandas: instead, the name is derived from the term "panel data",  as well as a play on the phrase "Python data analysis".<br> <code>pandas</code> hat nichts mit pandas zu tun: Der Name leitet sich von dem Begriff "panel data" ab und ist eine Anspielung auf den Ausdruck "Python-Datenanalyse".</figcaption>
</div>

In [None]:


import matplotlib.pyplot as plt
import numpy as np
from matplotlib.patches import Rectangle

# Topics and x-axis values
topics = ["interface", "", "", "", "Python basics", "", "", "", "data manipulation", "",  "visualization", "", "practice", ""]
x_values = np.arange(1, 15)

# Create figure and axis objects with adjusted y-axis height
fig, ax1 = plt.subplots(figsize=(10*1.4, 0.75*1.4))  # Slightly more vertical space
ax1.set(xlim=(0, 14), xticks=x_values - 0.5, xlabel='Course Progression')
ax1.set_xticks(x_values - 0.5)  # Align grid lines with x_values
ax1.set_xticklabels(x_values, ha='center')
ax1.yaxis.set_visible(False)

# Secondary axis for labels without ticks
ax2 = ax1.twiny()
ax2.set(xlim=ax1.get_xlim(), xticks=x_values - 0.5)
ax2.set_xticklabels(topics, ha='center')
ax2.tick_params(axis='x', length=0)

# Add rectangles for progress
progress_info = [(0, "orange", 1), (1, "dodgerblue", 1), (2, "dodgerblue", 1), (3, "dodgerblue", 1),
                 (4, "dodgerblue", 1), (5, "dodgerblue", 1), (6, "dodgerblue", 1), (7, "dodgerblue", 0.75)]
for x, color, alpha in progress_info:
    ax1.add_patch(Rectangle((x, 0), 1, 1, facecolor=color, alpha=alpha, edgecolor="gainsboro", linewidth=0.5))

# Add text annotations
annotations = [
    (0.5, "Jupyter\n\nLaTeX"),
    (1.5, "math\n\n(SymPy)"),
    (2.5, "strings\n\nlists"),
    (3.5, "other\ndata\nstructures"),
    (4.5, "control\n\nstructures"),
    (5.5, "functions"),
    (6.5, "arrays"),
    (7.5, "pandas\nbasics")
]
for x, label, *color in annotations:
    ax1.text(x, 0.5, label, ha='center', va='center', fontsize=9, color=color[0] if color else 'black')

plt.show()

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Context

pandas is a cornerstone of data analysis and data science, making it an essential tool for anyone needing to manipulate and analyze scientific data. 

With a degree in a STEM discipline and proficiency in pandas, you can significantly enhance your attractiveness on the job market. 

I personally know several people who now work as data scientists and process modelers in the chemical, automotive, and pharmaceutical industries.

Think about how much data companies collect, not only in R&D but also in manufacturing, production, and marketing. 

Companies pay very well for people who can understand and analyze their data. (Of course, if you want to move from descriptive statistics to predictive models, you’ll need machine learning, but that’s a topic for another class.)

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

## Kontext

pandas ist ein Eckpfeiler der Datenanalyse und Datenwissenschaft und damit ein unverzichtbares Werkzeug für jeden, der wissenschaftliche Daten verarbeiten und analysieren muss.

Mit einem Abschluss in einer MINT-Disziplin und Kenntnissen in pandas können Sie Ihre Attraktivität auf dem Arbeitsmarkt erheblich steigern.

Ich kenne mehrere Personen persönlich, die jetzt als Datenwissenschaftler und Prozessmodellierer in der Chemie-, Automobil- und Pharmaindustrie arbeiten.

Denken Sie daran, wie viele Daten Unternehmen sammeln, nicht nur in der Forschung und Entwicklung, sondern auch in der Produktion und im Marketing.

Die Unternehmen zahlen sehr gut für Leute, die ihre Daten verstehen und analysieren können. (Wenn Sie von der deskriptiven Statistik zu Vorhersagemodellen übergehen wollen, brauchen Sie natürlich maschinelles Lernen, aber das ist ein Thema für einen anderen Kurs).

</div>
</div>

---

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

In the previous lecture, we explored how to plot and fit data using NumPy. In that approach, we generated NumPy arrays on the fly to create the axes for our plots. 

However, in many real-world scenarios, data comes from external files rather than being generated programmatically. 

While NumPy provides methods to read files, transforming data into **pandas DataFrames** offers significantly more power and convenience. 

pandas is a Python library that provides easy-to-use data structures and data analysis tools, making it ideal for handling and analyzing large datasets efficiently.

pandas loads data into DataFrames (`df`), which you can think of as Excel sheets.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

In der vorangegangenen Vorlesung haben wir untersucht, wie man Daten mit NumPy darstellt und anpasst. Bei diesem Ansatz haben wir NumPy-Arrays on the fly generiert, um die Achsen für unsere Diagramme zu erstellen.

In vielen realen Szenarien kommen die Daten jedoch aus externen Dateien und werden nicht programmatisch generiert.

NumPy bietet zwar Methoden zum Lesen von Dateien, aber die Umwandlung von Daten in **pandas DataFrames** bietet wesentlich mehr Leistung und Komfort.

pandas ist eine Python-Bibliothek, die einfach zu verwendende Datenstrukturen und Datenanalysewerkzeuge bereitstellt und sich damit ideal für die effiziente Handhabung und Analyse großer Datensätze eignet.

pandas lädt Daten in *DataFrames* (`df`), die man sich wie Excel-Tabellen vorstellen kann.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" style="width: 400px;">
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

There are many differences between pandas and Excel, but the most practical ones are the following:

- Excel is a visual tool, which makes it easy to click a button that abstracts the function behind what you want to accomplish. To achieve the same function in pandas, you need to write a command. This setup is ideal for automating tasks instead of pointing and clicking all the time!

- Any operation you perform in Excel changes your spreadsheet and, indeed, your data. Data in pandas is <i>persistent</i>, meaning you can perform operations on copies of your data while preserving the raw dataset.

- You might not have noticed so far, but Excel is not designed to handle large datasets and complex operations. At some point in your career, probably while you're studying materials science, Excel will crash when trying to load your data.
        

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Es gibt viele Unterschiede zwischen pandas und Excel, aber die praktischsten sind die folgenden:

- Excel ist ein visuelles Werkzeug, das es einfach macht, auf eine Schaltfläche zu klicken, die die Funktion hinter dem, was man erreichen will, abstrahiert. Um die gleiche Funktion in pandas zu erreichen, müssen Sie einen Befehl schreiben. Dieser Aufbau ist ideal, um Aufgaben zu automatisieren, anstatt ständig auf eine Schaltfläche zu zeigen und zu klicken!

- Jede Operation, die Sie in Excel durchführen, verändert Ihr Tabellenblatt und damit auch Ihre Daten. Daten in pandas sind <i>beständig</i>, d.h. Sie können Operationen an Kopien Ihrer Daten durchführen, während der Rohdatensatz erhalten bleibt.

- Sie haben es vielleicht noch nicht bemerkt, aber Excel ist nicht dafür ausgelegt, große Datensätze und komplexe Operationen zu verarbeiten. Irgendwann in Ihrer Karriere vermutlich schon während Ihres Studiums der Materialwissenschaft wird Excel beim Versuch, Ihre Daten zu laden, abstürzen.
        
</div>
</div>

In [None]:
# YOU DO NOT HAVE THIS DATASET BECAUSE IT IS TOO LARGE FOR MOODLE
# IT IS JUST A DEMONSTRATION OF HOW TO OPEN 150k ROWS IN 0.7 SECONDS

wines = pd.read_csv("winemag-data_first150k.csv")

wines

<div class="alert alert-block alert-info">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

In summary, Excel may appear easy, but it is very tedious and, most importantly, not reliable. 

pandas may seem complicated at first, but it greatly simplifies and enhances data handling and analysis.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Zusammenfassend lässt sich sagen, dass Excel zwar einfach erscheint, aber sehr mühsam und vor allem nicht zuverlässig ist. 

pandas mag auf den ersten Blick kompliziert erscheinen, aber es vereinfacht und verbessert die Datenverarbeitung und -analyse erheblich.

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

To use pandas, we import it. The community agreed alias for pandas is `pd`:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Um pandas zu verwenden, importieren wir es. Der von der Gemeinschaft vereinbarte Alias für pandas ist `pd`:

</div>
</div>

In [None]:
import pandas as pd

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

# Reading data 

There are various methods to create a DataFrame or Series in Python, but in practice, we typically won’t be manually generating data from scratch. Instead, we’ll often be working with pre-existing datasets.


</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

# Daten lesen 

Es gibt verschiedene Methoden, um einen DataFrame oder eine Serie in Python zu erstellen, aber in der Praxis werden wir in der Regel nicht manuell Daten von Grund auf neu erzeugen. Stattdessen werden wir oft mit bereits vorhandenen Datensätzen arbeiten.


</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Data can come in a wide variety of formats, each suited to different use cases. 

All of these formats can be easily loaded into pandas using the appropriate `pd.read_` command.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Daten können in einer Vielzahl von Formaten vorliegen, die jeweils für unterschiedliche Anwendungsfälle geeignet sind.

Alle diese Formate können mit dem entsprechenden `pd.read_`-Befehl leicht in pandas geladen werden.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg" style="width: 700px;">
</div>

| Command               | File Type               | 
|-----------------------|-------------------------|
| `pd.read_csv()`        | CSV                     | 
| `pd.read_excel()`      | Excel (XLS, XLSX)       | 
| `pd.read_json()`       | JSON                    | 
| `pd.read_html()`       | HTML                    | 
| `pd.read_sql()`        | SQL                     | 
| `pd.read_sql_query()`  | SQL Query               | 
| `pd.read_sql_table()`  | SQL Table               | 
| `pd.read_pickle()`     | Pickle                  | 
| `pd.read_feather()`    | Feather                 | 
| `pd.read_parquet()`    | Parquet                 | 
| `pd.read_orc()`        | ORC                     | 
| `pd.read_sas()`        | SAS                     | 
| `pd.read_spss()`       | SPSS                    | 
| `pd.read_stata()`      | Stata                   | 
| `pd.read_table()`      | General Delimited Text  | 
| `pd.read_fwf()`        | Fixed-Width Text        | 
| `pd.read_clipboard()`  | Clipboard               | 
| `pd.read_hdf()`        | HDF5                    | 

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Reading an Excel file (if we must)

I know what you're thinking: "Every dataset I've ever seen or created was made in Excel." 

Opening an Excel file is straightforward, and in this section, we'll show you even how to make small adjustments to clean up unwanted comments that don’t belong in a spreadsheet.<sup>*</sup>

The Excel file `07_bond-lengths.xlsx` contains data on the bond lengths, vibrational constants and dissociation energies of some diatomic molecules. 

The single sheet is named "Diatomics". 
Column A contains the molecular formula; the first row (row 1 in Excel, but row `0` in Python pandas!) is a title, and the second row contains the column names. 

There is also a footer of two lines.

<sup>*</sup> <span style="font-size: 0.9em;">There is a prevalent tendency to use worksheets like notebook pages, where tabular data is often intermixed with comments, footnotes, and plots. While this may appear convenient at first, it results in disorganized data that can be difficult to clean up. For this reason, plain CSV files are a superior option. As mentioned in the first lecture, **if you require a digital notebook, you should consider using Jupyter *notebooks*.**</span>


</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

## Lesen einer Excel-Datei (wenn es sein muss)

Ich weiß, was Sie jetzt denken: "Jeder Datensatz, den ich je gesehen oder erstellt habe, wurde in Excel erstellt."

Das Öffnen einer Excel-Datei ist ganz einfach, und in diesem Abschnitt zeigen wir Ihnen sogar, wie Sie kleine Anpassungen vornehmen können, um unerwünschte Kommentare zu entfernen, die nicht in ein Arbeitsblatt gehören.<sup>*</sup>

Die Excel-Datei `07_bond-lengths.xlsx` enthält Daten zu den Bindungslängen, Schwingungskonstanten und Dissoziationsenergien einiger zweiatomiger Moleküle.

Das einzelne Blatt trägt den Namen "Diatomics".
Spalte A enthält die Molekülformel; die erste Zeile (Zeile 1 in Excel, aber Zeile `0` in Python-pandas!) ist ein Titel, und die zweite Zeile enthält die Spaltennamen.

Außerdem gibt es eine Fußzeile mit zwei Zeilen.

<sup>*</sup> <span style="font-size: 0.9em;">Es gibt eine weit verbreitete Tendenz, Arbeitsblätter wie Notizbuchseiten zu verwenden, in denen tabellarische Daten oft mit Kommentaren, Fußnoten und Diagrammen vermischt sind. Dies mag auf den ersten Blick bequem erscheinen, führt aber zu unübersichtlichen Daten, die schwer zu bereinigen sind. Aus diesem Grund sind einfache CSV-Dateien die bessere Wahl. Wie in der ersten Vorlesung erwähnt, **sollten Sie, wenn Sie ein digitales Notizbuch benötigen, die Verwendung von Jupyter *Notebooks* in Betracht ziehen.**</span>

</div>
</div>

<div style="text-align: center;">
    <img src="https://scipython.com/static/media/2/examples/E9/xlsx-screenshot.png" style="width: 700px;">
</div>

In [None]:
! pip install openpyxl

bond_lengths = pd.read_excel('07_bond-lengths.xlsx',            # the file we want to open
                             skipfooter=2,                      # ignore the last two lines of the sheet
                             header=1,                          # take the column names from the second row (row 1)
                             )
bond_lengths


<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

### What do we see here?

- **Index**: The far-left column with numbers (0, 1, 2, ...) is called the index. The index **uniquely** identifies each row in the DataFrame. By default, **the index starts at 0** and increments by 1 for each row, but it can also be customized to something more meaningful.

- **Rows**: Each row represents one entry in the dataset.
     - Row 0 (the first row) contains the data for the molecule "I2".
     - Row 1 (the second row) contains the data for "O2", and so on.

- **Columns**: Each column represents a property. In this DataFrame, we have 5 columns.
Columns are labeled at the top, forming the header of the table. The header tells you what each column represents.

- **Cells**: Each intersection of a row and a column is a cell. A cell holds a specific piece of data. For example, the cell in row `0`, column `Bond length /A` contains the value `2.666000`.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

### Was sehen wir hier?

- **Index**: Die Spalte ganz links mit den Zahlen (0, 1, 2, ...) wird Index genannt. Der Index identifiziert **eindeutig** jede Zeile im DataFrame. Standardmäßig **beginnt der Index bei 0** und wird für jede Zeile um 1 erhöht, er kann aber auch auf einen aussagekräftigeren Wert angepasst werden.

- **Zeilen**: Jede Zeile steht für einen Eintrag im Datensatz.
     - Zeile 0 (die erste Zeile) enthält die Daten für das Molekül "I2".
     - Zeile 1 (die zweite Zeile) enthält die Daten für "O2" und so weiter.

- **Spalten**: Jede Spalte steht für eine Eigenschaft. In diesem DataFrame haben wir 5 Spalten.
 Die Spalten sind oben beschriftet und bilden die Kopfzeile der Tabelle. In der Kopfzeile steht, was jede Spalte darstellt.

- **Zellen**: Jeder Schnittpunkt zwischen einer Zeile und einer Spalte ist eine Zelle. Eine Zelle enthält einen bestimmten Teil der Daten. Zum Beispiel enthält die Zelle in Zeile `0`, Spalte `Bond length /A` den Wert `2.666000`.

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

A more refined set of commands:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Ein verfeinerter Satz von Befehlen:

</div>
</div>

In [None]:
bond_lengths = pd.read_excel('07_bond-lengths.xlsx',            # the file we want to open
                             skipfooter=2,                      # ignore the last two lines of the sheet
                             header=1,                          # take the column names from the second row
                             index_col=0,                       ### column to use as row label (i.e., Molecule)
                             usecols='A:E',                     ### use Excel columns labeled A-E (optional)
                             sheet_name='Diatomics'             ### take data from this sheet (in case there are several)
                             )

bond_lengths

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

We can save a pandas DataFrame to an external file, such as a CSV, using the `.to_csv()` method. 

In this case, the `bond_lengths` DataFrame is saved to a CSV file named `bond_lengths.csv`, which you can open with VS Code, too. 

The `index=True` argument ensures that the DataFrame's index (e.g., the "Molecule" column) is included in the output file. 

Each column in the CSV corresponds to the data extracted from the Excel file, using columns A-E and taking the second row as column headers.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Wir können einen Pandas DataFrame in eine externe Datei speichern, z. B. eine CSV-Datei, indem wir die Methode `.to_csv()` verwenden.

In diesem Fall wird der `bond_lengths` DataFrame in einer CSV-Datei namens `bond_lengths.csv` gespeichert, die Sie auch mit VS Code öffnen können.

Das Argument `index=True` stellt sicher, dass der Index des DataFrames (z.B. die Spalte "Molecule") in die Ausgabedatei aufgenommen wird.
Jede Spalte in der CSV-Datei entspricht den Daten, die aus der Excel-Datei extrahiert wurden, wobei die Spalten A-E verwendet werden und die zweite Zeile als Spaltenüberschrift verwendet wird.

</div>
</div>

In [None]:
bond_lengths.to_csv("bond_lengths.csv", index=True)

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Reading a CSV file

One of the simplest and most common formats is the CSV (Comma-Separated Values) file. 

A CSV file is a plain text file where each line corresponds to a row of data, and the values within each row are separated by commas. Other delimiters, such as tabs or spaces, can also be used in place of commas.

When opened, a CSV file presents data in a straightforward, table-like format that looks something like this:

```
Name,Age,City
Alice,30,New York
Bob,25,London
Charlie,35,Paris
```

This basic structure makes CSV files widely used for storing and sharing tabular data across platforms. 

Although CSV files are simple, they can still hold complex datasets, making them a powerful starting point for analysis with libraries like pandas in Python.

</div>
<div style="width: 48%; line-height: 1.3;color: grey;">

## Lesen einer CSV-Datei

Eines der einfachsten und gängigsten Formate ist die CSV-Datei (Comma-Separated Values).

Eine CSV-Datei ist eine reine Textdatei, bei der jede Zeile einer Datenzeile entspricht und die Werte innerhalb jeder Zeile durch Kommas getrennt sind. Anstelle von Kommas können auch andere Begrenzungszeichen wie Tabulatoren oder Leerzeichen verwendet werden

Beim Öffnen einer CSV-Datei werden die Daten in einem einfachen, tabellenartigen Format dargestellt, das etwa so aussieht:

```
Name,Age,City
Alice,30,New York
Bob,25,London
Charlie,35,Paris
```

Aufgrund dieser Grundstruktur werden CSV-Dateien häufig für die Speicherung und den Austausch von Tabellendaten auf verschiedenen Plattformen verwendet.

Obwohl CSV-Dateien einfach sind, können sie dennoch komplexe Datensätze enthalten, was sie zu einem leistungsstarken Ausgangspunkt für Analysen mit Bibliotheken wie pandas in Python macht.
</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

We'll use the `pd.read_csv()` function to read the data into a DataFrame.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Wir verwenden die Funktion `pd.read_csv()`, um die Daten in einen DataFrame zu lesen.

</div>
</div>

In [None]:
wine_reviews = pd.read_csv('07_wine_reviews_sample.csv')

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

FYI: The file `wine_reviews_sample.csv` is a random 10% subset of a much larger dataset. The file size limitation is due to Moodle's constraints, not pandas'.

#  First inspection 

Let's look at it:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Z. I. Die Datei `wine_reviews_sample.csv` ist eine zufällige 10%ige Teilmenge eines viel größeren Datensatzes. Die Begrenzung der Dateigröße liegt an den Moodle-Einschränkungen, nicht an pandas.

# Erste Inspektion 

Schauen wir es uns an:
</div>
</div>

In [None]:
wine_reviews

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

When calling the DataFrame, pandas displays a brief summary, showing the first 5 and last 5 rows along with an overview. 

This includes the total number of rows and columns, in this case, 15093 rows and 11 columns.

In addition to the summary provided when calling the DataFrame, pandas offers specific methods for quickly inspecting data:

1. `head()` returns the first few rows of the DataFrame, with 5 rows being the default. It's useful for getting a quick look at the beginning of the dataset. You can pass an argument to specify a different number of rows, for example, `df.head(10)` would display the first 10 rows.

   ```python
   df.head()  # Displays the first 5 rows
   ```

2. `tail()` returns the last few rows of the DataFrame, with the default being 5 rows. This helps you check the data at the end of the dataset. You can also specify how many rows to display by passing a number, like `df.tail(10)` for the last 10 rows.

   ```python
   df.tail()  # Displays the last 5 rows
   ```

3. `shape` provides the dimensions of the DataFrame in the form of a tuple: `(number_of_rows, number_of_columns)`. It's useful when you want to know the size of your dataset at a glance. For example, `wine_reviews.shape` would return `(15093, 11)`.

   ```python
   df.shape  # Outputs (150930, 11)
   ```

4. The `df.info()` method provides a concise summary of a DataFrame, showing the number of rows, columns, non-null counts, data types, and memory usage.


5. A check on how pandas interpreted each of the column data types can be done by requesting the `dtypes` attribute:

   ```python
   df.dtypes 
   ```

6. `df.columns` gives you access to the column names of a DataFrame, allowing you to view or change them as needed.

   ```python
   df.columns       # Returns the column names
   df.columns = ['new_name1', 'new_name2', 'new_name3']     # Renames columns
   ```

**Note**: With the exception of `head()`, `tail()` und `info()`, these are properties and not functions of the data frame, so you do not need brackets to call them.

</div>
<div style="width: 48%; line-height: 1.4;color: grey;">

Beim Aufruf des DataFrame zeigt pandas eine kurze Zusammenfassung mit den ersten 5 und den letzten 5 Zeilen sowie eine Übersicht an.

Dazu gehört auch die Gesamtzahl der Zeilen und Spalten, in diesem Fall 15093 Zeilen und 11 Spalten.

Zusätzlich bietet pandas spezielle Methoden für die schnelle Inspektion von Daten:

1. `head()` gibt die ersten paar Zeilen des DataFrame zurück, wobei 5 Zeilen der Standard sind. Es ist nützlich, um einen schnellen Blick auf den Anfang des Datensatzes zu werfen. Sie können ein Argument übergeben, um eine andere Anzahl von Zeilen anzugeben, z. B. würde `df.head(10)` die ersten 10 Zeilen anzeigen.

   ```python
   df.head() # Zeigt die ersten 5 Zeilen an
   ```

2. `tail()` gibt die letzten Zeilen des DataFrame zurück, wobei die Vorgabe 5 Zeilen sind. Dies hilft Ihnen, die Daten am Ende des Datensatzes zu überprüfen. Sie können auch angeben, wie viele Zeilen angezeigt werden sollen, indem Sie eine Zahl übergeben, z. B. `df.tail(10)` für die letzten 10 Zeilen.

   ```python
   df.tail() # Zeigt die letzten 5 Zeilen an
   ```

3. `shape` liefert die Dimensionen des DataFrame in Form eines Tupels: `(Anzahl_der_Zeilen, Anzahl_der_Spalten)`. Es ist nützlich, wenn Sie die Größe Ihres Datensatzes auf einen Blick erkennen wollen. Zum Beispiel würde `wine_reviews.shape` `(15093, 11)` zurückgeben.

   ```python
   df.shape # Outputs (150930, 11)
   ```

4. Die Methode `df.info()` liefert eine kurze Zusammenfassung eines DataFrame, die die Anzahl der Zeilen, Spalten, Nicht-Null-Zahlen, Datentypen und den Speicherverbrauch anzeigt.


5. Eine Überprüfung, wie pandas die einzelnen Datentypen der Spalten interpretiert hat, kann durch Abfrage des Attributs `dtypes` erfolgen:

   ```python
   df.dtypes
   ```

6. Mit `df.columns` können Sie auf die Spaltennamen eines DataFrame zugreifen und sie bei Bedarf anzeigen oder ändern:

   ```python
   df.columns # Liefert die Spaltennamen
   df.columns = ['neuer_name1', 'neuer_name2', 'neuer_name3'] # Benennt Spalten um
   ```

**Hinweis**: Mit Ausnahme von `head()`, `tail()` und `info()` handelt es sich um Eigenschaften und nicht um Funktionen des Dataframes, sodass Sie keine Klammern zum Aufruf benötigen.

</div>
</div>

In [None]:
wine_reviews.head()

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Exercise

Apply all the commands we have just seen to the `wine_reviews` dataset. Be mindful of brackets.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

#### Übung

Wenden Sie alle Befehle, die wir gerade gesehen haben, auf den Datensatz `wine_reviews` an. Achten Sie auf die Klammern.

</div>
</div>

In [None]:
#countdown
countdown_timer(10)

In [None]:
wine_reviews.info()

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Data types provide insight into how the data is stored internally. For example, `float64` represents a 64-bit floating point number, while `int64` refers to a 64-bit integer.

Columns containing only strings are not assigned a specific string type. Instead, they are classified as `object` type.

You can easily convert a column from one data type to another, as long as the conversion is valid, using the `astype()` function.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Datentypen geben Aufschluss darüber, wie die Daten intern gespeichert werden. `float64` steht zum Beispiel für eine 64-Bit-Gleitkommazahl, während `int64` sich auf eine 64-Bit-Ganzzahl bezieht.

Spalten, die nur Zeichenketten enthalten, wird kein bestimmter Zeichenkettentyp zugewiesen. Stattdessen werden sie als `object`-Typ klassifiziert.

Sie können eine Spalte leicht von einem Datentyp in einen anderen umwandeln, solange die Umwandlung gültig ist, indem Sie die Funktion `astype()` verwenden.

</div>
</div>

In [None]:
wine_reviews.dtypes

| **Dtype**             | **Description**                                  | **Beschreibung**                                   |
|------------------------|---------------------------------------------------------|------------------------------------------------------------|
| `int`                 | Integer values (e.g., `int64`, `int32`).                 | Ganzzahlige Werte (z. B. `int64`, `int32`).                |
| `float`               | Floating-point numbers (e.g., `float64`, `float32`).     | Gleitkommazahlen (z. B. `float64`, `float32`).             |
| `object`              | General object type, often used for strings.             | Allgemeiner Objekttyp, oft für Strings verwendet.           |
| `string`              | Pandas-specific string type for better string handling.  | Pandas-spezifischer String-Typ für bessere String-Verarbeitung. |
| `bool`                | Boolean values (`True`, `False`).                        | Boolesche Werte (`True`, `False`).                         |
| `category`            | Efficient type for categorical data.                    | Effizienter Typ für kategoriale Daten.                     |
| `datetime64[ns]`      | Dates and times with nanosecond precision.               | Datums- und Zeitangaben mit Nanosekunden-Genauigkeit.       |
| `timedelta64[ns]`     | Differences between two datetime values (durations).     | Differenzen zwischen zwei Datumswerten (Dauer).            |
| `Period`              | Represents time periods (e.g., months, quarters).        | Stellt Zeitperioden dar (z. B. Monate, Quartale).          |
| `Interval`            | Represents interval ranges (e.g., `(0, 1]`).             | Stellt Intervallbereiche dar (z. B. `(0, 1]`).             |
| `complex`             | Complex numbers (e.g., `complex128`).                    | Komplexe Zahlen (z. B. `complex128`).                      |

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

# Indexing (yes, again) 

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

# Indizierung (ja, schon wieder) 

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Selecting specific columns 

We can access the columns of a DataFrame using the `[]` indexing operator.

```python
df['column_name']
```

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

## Auswahl von bestimmten Spalten

Wir können auf die Spalten eines DataFrame mit dem Indizierungsoperator `[]` zugreifen.

```python
df['column_name']
```

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/03_subset_columns.svg" style="height: 150px;">
</div>

In [None]:
wine_reviews['country']

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

To select multiple columns, use a list of column names within the selection brackets `[]`.

The inner square brackets define a Python list with column names, whereas the outer brackets are used to select the data from a pandas DataFrame as seen in the previous example.
</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Um mehrere Spalten auszuwählen, verwenden Sie eine Liste von Spaltennamen innerhalb der Auswahlklammern `[]`.

Die inneren eckigen Klammern definieren eine Python-Liste mit Spaltennamen, während die äußeren Klammern verwendet werden, um die Daten aus einem pandas DataFrame auszuwählen, wie im vorherigen Beispiel zu sehen.

</div>
</div>

In [None]:
wine_reviews[['country','province']]

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.75;">

#### Exercise

Select the `description` column from the `wine_reviews` dataset and assign the result to a variable called `descriptions`.
Look at `descriptions`.

Create a subset of the `wine_reviews` dataset by selecting the columns `country`, `province`, `region_1` and `region_2` and assigning this operation to a variable called `locations`. Look at `locations`.

</div>
<div style="width: 48%; line-height: 1.75;color: grey;">

#### Übung

Wählen Sie die Spalte `description` aus dem Datensatz `wine_reviews` aus und weisen Sie das Ergebnis einer Variablen namens `descriptions` zu.
Sehen Sie sich `descriptions` an.

Erstellen Sie eine Teilmenge des Datensatzes "wine_reviews", indem Sie die Spalten `country`, `province`, `region_1` und `region_2` auswählen und weisen Sie das Ergebnis einer Variablen namens `locations` zu. Sehen Sie sich `locations` an.

</div>
</div>

In [None]:
countdown_timer(10)

In [None]:
locations = wine_reviews[["country", "province", "region_1", "region_2"]]

locations

In [None]:
desc = wine_reviews["description"]

print(desc)
print()
print(type(desc))

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.7;">

## Selecting specific rows and cells

Accessing columns in pandas is straightforward. However, indexing both columns and rows, or selecting specific cells, can quickly lead to ambiguity. 

If you want to access a row or a single element, you might be tempted to write, for example, `wine_reviews[0, "country"]`: this does not work, because the `df[...]` syntax in pandas is reserved for column selection, not combined row and column indexing. 

The best way to access and assign values to columns, rows, and individual cells, is to use two dedicated DataFrame methods: `.loc` and `.iloc`.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

## Auswahl bestimmter Zeilen und Zellen

Der Zugriff auf Spalten in pandas ist sehr einfach. Allerdings kann die Indizierung von Spalten und Zeilen oder die Auswahl bestimmter Zellen schnell zu Unklarheiten führen.

Wenn Sie auf eine Zeile oder ein einzelnes Element zugreifen wollen, könnten Sie versucht sein, zum Beispiel `wine_reviews[0, "country"]` zu schreiben: Das funktioniert nicht, weil die `df[...]`-Syntax in Pandas für die Spaltenauswahl reserviert ist, nicht für die kombinierte Zeilen- und Spaltenindexierung.

Der beste Weg, um auf Spalten, Zeilen und einzelne Zellen zuzugreifen und ihnen Werte zuzuweisen, ist die Verwendung von zwei speziellen DataFrame-Methoden: `.loc` und `.iloc`.

</div>
</div>

<div style="text-align: left;">
    <img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg" style="height: 150px;">
</div>

<div style="text-align: left;">
    <img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg" style="height: 150px;">
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

These are specialized pandas operators designed for more advanced indexing operations:

- `iloc`: Allows you to access data by integer positions (row/column indices).

- `loc`: Allows you to access data by labels (row/column names).

</div>
<div style="width: 48%; line-height: 1.5; color: grey;">

Dies sind spezialisierte pandas-Operatoren, die für fortgeschrittene Indizierungsoperationen entwickelt wurden:

- `iloc`: Ermöglicht den Zugriff auf Daten über ganzzahlige Positionen (Zeilen/Spalten-Indizes).
- `loc`: Ermöglicht den Zugriff auf Daten über Bezeichnungen (Zeilen/Spaltennamen).

</div>
</div>

<div style="text-align: center;">

```python
df.iloc[row_selection, column_selection]
df.loc[row_selection, column_selection]
```

</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

The part before the comma is the rows you want, and the part after the comma is the columns you want to select.

For more complex data manipulation tasks, such as filtering by conditions, selecting specific rows or columns, or slicing data based on both row and column labels, `loc` and `iloc` are the preferred methods to use. They offer greater flexibility and control over how you work with DataFrames.

</div>
<div style="width: 48%; line-height: 1.5; color: grey;">

Der Teil vor dem Komma steht für die gewünschten Zeilen und der Teil nach dem Komma für die Spalten, die Sie auswählen möchten.

Für komplexere Datenmanipulationsaufgaben, wie z. B. das Filtern nach Bedingungen, die Auswahl bestimmter Zeilen oder Spalten oder das Aufteilen von Daten auf Grundlage von Zeilen- und Spaltenbeschriftungen, sind `loc` und `iloc` die bevorzugten Methoden. Sie bieten mehr Flexibilität und Kontrolle bei der Arbeit mit DataFrames.

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.7;">

###  Index-based selection: `iloc`

The `iloc` function in pandas is used for **positional indexing**, working similarly to slicing in Python lists or arrays but applied to DataFrames.

```python
df.iloc[row_selection, column_selection]
```

- **Row and column selection** <br>
Indexing is zero-based. Use `:` to select all. <br>
`df.iloc[0, :] == df.iloc[0]` selects the first row. <br> 
`df.iloc[:, 1]` selects the second column. 

- **Single element selection**  <br>
`df.iloc[2, 3]` retrieves the value at the third row and fourth column.

- **Slicing** <br>
Like lists, `iloc` supports slicing. <br>
For example, `df.iloc[1:4]` selects rows 1, 2, and 3 (start inclusive, stop exclusive).

- **Negative indexing** <br>
`iloc` supports negative indices to count from the end. <br> 
`df.iloc[-1]` selects the last row.

- **Mixed indexing** <br>
Combine scalars and slices.<br>
`df. iloc[0, 1:3]` selects the first row and columns 1–2. 


</div>
<div style="width: 48%; line-height: 1.7;color: grey;">

### Indexbasierte Auswahl: `iloc`

Die Funktion `iloc` in pandas dient der **Positionsindizierung**, die ähnlich wie das Slicing in Python-Listen oder -Arrays funktioniert, aber auf DataFrames angewendet wird.

```python
df.iloc[row_selection, column_selection]
```

- **Zeilen- und Spaltenauswahl** <br>
Die Indizierung ist nullbasiert. Verwenden Sie `:`, um alles auszuwählen. <br>
`df.iloc[0, :] == df.iloc[0]` wählt die erste Zeile aus. <br>
`df.iloc[:, 1]` wählt die zweite Spalte aus.

- **Einzelelementauswahl** <br>
`df.iloc[2, 3]` holt den Wert in der dritten Zeile und vierten Spalte.

- **Slicing** <br>
Wie Listen unterstützt auch `iloc` das Slicing. <br>
`df.iloc[1:4]` wählt die Zeilen 1, 2 und 3 aus (Anfang inklusive, Ende exklusiv).

- **Negative Indizierung** <br>
`iloc` unterstützt negative Indizes, um vom Ende her zu zählen. <br>
`df.iloc[-1]` wählt die letzte Zeile aus.

- **Gemischte Indizierung** <br>
Kombinieren Sie Skalare und Slices.<br>
`df.iloc[0, 1:3]` wählt die erste Zeile und die Spalten 1-2 aus.

</div>
</div>

In [None]:
wine_reviews.head()

In [None]:
wine_reviews.iloc[0,:]

In [None]:
wine_reviews.iloc[0:5,:]

In [None]:
wine_reviews.iloc[0,1]

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Exercise

1. Select the first 20 rows of the dataset.

2. Extract rows 50 to 100 and display columns 0, 2, and 3.

3. Get the last 10 rows of the dataset.

4. Select every third row and first three columns from the first 50 rows.

5. Retrieve rows 5 to 15 and only the first two columns.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

#### Übung

1. Wählen Sie die ersten 20 Zeilen des Datensatzes aus.

2. Extrahieren Sie die Zeilen 50 bis 100 und zeigen Sie die Spalten 0, 2 und 3 an.

3. Holen Sie die letzten 10 Zeilen des Datensatzes.

4. Wählen Sie jede dritte Zeile und die ersten drei Spalten der ersten 50 Zeilen aus.

5. Rufen Sie die Zeilen 5 bis 15 und nur die ersten beiden Spalten ab.

</div>
</div>

In [None]:
countdown_timer(15)

<details>
  <summary>Click to see solution</summary> 

#### Solution:

1. **Select the first 20 rows of the dataset**:
   ```python
   first_20_rows = df.iloc[:20]
   ```

2. **Extract rows 50 to 100 and display columns 0, 2, and 3**:
   ```python
   partial_data = df.iloc[50:101, [0, 2, 3]]
   ```

3. **Get the last 10 rows of the dataset**:
   ```python
   last_10_rows = df.iloc[-10:]
   ```

4. **Select every third row and first three columns from the first 50 rows**:
   ```python
   subset = df.iloc[0:50:3, :3]
   ```

5. **Retrieve rows 5 to 15 and only the first two columns**:
   ```python
   specific_rows_cols = df.iloc[5:16, :2]
   ```
</details>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.7;">

### Label-based selection: `loc` 

```python
df.iloc[row_selection, column_selection]
```

The `loc` function in pandas is used for **label-based indexing**, allowing you to access rows and columns by their labels rather than their positions.

- **Row and column selection** <br>
If your DataFrame has a labeled index, `loc` directly works with those labels instead of numeric positions.<br>
`df.loc['row_label'] == df.loc['row_label', :]` selects a row by its label. <br>
`df.loc[:, 'column_name']` selects a column by its name. <br>

- **Single element selection** <br>
`df.loc['row_label', 'column_name']` retrieves the value in the specified row and column based on labels.

- **Slicing**  <br>
`loc` supports slicing based on labels. Unlike `iloc`, **slicing with `loc` includes both the start and stop labels**. <br>
`df.loc['start_label':'stop_label']` selects all rows from the start to the stop label, inclusive.

- **Mixed indexing** <br>
Combine labels and slices. <br>
`df.loc['row_label_1':'row_label_3', 'column_1':'column_3']` selects a subset of rows and columns using their labels.

- **Boolean indexing!** <br>
Use `loc` with a condition to filter rows. <br>
`df.loc[df['column_name'] > 50, 'column_name']` retrieves values in `column_name` where the condition is met.<br>
`df.query('column_name > 50')['column_name']` does the same.

</div>
<div style="width: 48%; line-height: 1.7;color: grey;">

### Label-basierte Auswahl: `loc` 

```python
df.iloc[row_selection, column_selection]
```

Die Funktion `loc` in Pandas dient der **label-basierten Indizierung**, die es Ihnen ermöglicht, auf Zeilen und Spalten anhand ihrer Labels und nicht anhand ihrer Positionen zuzugreifen.

- **Zeilen- und Spaltenauswahl** <br>
Wenn Ihr DataFrame einen beschrifteten Index hat, arbeitet `loc` direkt mit diesen Beschriftungen anstelle von numerischen Positionen.<br>
`df.loc['row_label'] == df.loc['row_label', :]` wählt eine Zeile anhand ihres Labels aus. <br>
`df.loc[:, 'column_name']` wählt eine Spalte anhand ihres Namens aus. <br>

- **Einzelne Elementauswahl** <br>
`df.loc['row_label', 'column_name']` ruft den Wert in der angegebenen Zeile und Spalte anhand der Bezeichnungen ab.

- **Slicing** <br>
`loc` unterstützt Slicing auf der Basis von Labels. Im Gegensatz zu `iloc` **schließt das Slicing mit `loc` sowohl das Start- als auch das Stopp-Label mit ein**. <br>
`df.loc['start_label':'stop_label']` wählt alle Zeilen vom Start- bis zum Stop-Label aus, einschließlich.

- **Mixed indexing** <br>
Kombiniert Labels und Slices. <br>
`df.loc['row_label_1':'row_label_3', 'column_1':'column_3']` wählt eine Teilmenge von Zeilen und Spalten anhand ihrer Labels aus.

- **Boolesche Indizierung!** <br>
Verwenden Sie `loc` mit einer Bedingung, um Zeilen zu filtern. <br>
`df.loc[df['column_name'] > 50, 'column_name']` ruft Werte in `column_name` ab, bei denen die Bedingung erfüllt ist.<br>
`df.query('column_name > 50')['column_name']` tut dasselbe.

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

For this example, let’s reload our DataFrame and set the `ID` column as the index, giving us meaningful labels instead of the default numeric index.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Für dieses Beispiel laden wir unseren DataFrame neu und legen die Spalte `ID` als Index fest, wodurch wir aussagekräftige Bezeichnungen anstelle des standardmäßigen numerischen Index erhalten.

</div>
</div>

In [None]:
wine_reviews = pd.read_csv('07_wine_reviews_sample.csv', index_col=0)

wine_reviews.head(10)

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

##### Get a specific row:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

##### Eine bestimmte Zeile abrufen:

</div>
</div>

In [None]:
wine_reviews.loc[78169]

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

##### Get a specific element:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

##### Ein bestimmtes Element abrufen:

</div>
</div>

In [None]:
wine_reviews.loc[78169, 'province']

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

##### Slicing:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

##### Slicing:

</div>
</div>

In [None]:
wine_reviews.loc[78169:378, 'province':'region_2']      # start and stop labels both included

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

##### Boolean Indexing 

It is also common to use `loc` in combination with *boolean indexing* (conditional statements) to filter rows by column values: 

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

##### Boolesche Indizierung

Es ist auch üblich, `loc` in Kombination mit *boolean indexing* (bedingte Anweisungen) zu verwenden, um Zeilen nach Spaltenwerten zu filtern:

</div>
</div>

In [None]:
# Display only the rows where 'country' is Italy

wine_reviews.loc[wine_reviews['country'] == 'Italy']

In [None]:
# Display only the column 'province' of the rows where 'country' is Italy

wine_reviews.loc[wine_reviews['country'] == 'Italy', 'province']

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Boolean indexing with *multiple conditions* allows you to filter a DataFrame based on multiple criteria. 

When combining multiple conditional statements, each condition must be surrounded by parentheses `()`. Moreover, you can not use `or`/`and`/`not` but need to use `|`/`&`/`~`.


</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Die boolesche Indizierung mit *Mehrfachbedingungen* ermöglicht es Ihnen, einen DataFrame nach mehreren Kriterien zu filtern.

Wenn Sie mehrere bedingte Anweisungen kombinieren, muss jede Bedingung von Klammern `()` umgeben sein. Außerdem können Sie nicht `oder`/`und`/`nicht` verwenden, sondern müssen `|`/`&`/`~` verwenden.

</div>
</div>

In [None]:
# Filtering Rows by Multiple Conditions:
# Pay attention to parentheses

wine_reviews.loc[(wine_reviews['country'] == 'Italy') & (wine_reviews['province'] == 'Tuscany')]

In [None]:
# Filtering Rows by Multiple Conditions:
# Pay attention to parentheses

wine_reviews.loc[
                (wine_reviews['country'] == 'Italy') 
                & 
                (wine_reviews['province'] == 'Tuscany')
                ]

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

##### Alternative: `df.query()`

The `df.query` method allows you to filter rows in a DataFrame using a concise, natural language-like syntax by writing conditions as a string, avoiding repetitive brackets and making the code cleaner and more agile compared to `loc` with boolean indexing.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

##### Alternative: `df.query()`

Die Methode `df.query` ermöglicht das Filtern von Zeilen in einem DataFrame unter Verwendung einer prägnanten, der natürlichen Sprache ähnlichen Syntax, indem Bedingungen als String geschrieben werden, wodurch sich wiederholende Klammern vermieden werden und der Code im Vergleich zu `loc` mit boolescher Indizierung sauberer und agiler wird.

</div>
</div>

In [None]:
# pay attention to quotation marks

wine_reviews.query( ' country == "Italy" & province == "Tuscany" ' )        # don't use unnecessary spaces: I do it here to highlight the quotation marks

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Exercise

Filter the dataset to identify good deals: wines with a score greater than 90 points and a price below $50.

- Using `loc`.

- Using `query`.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

#### Übung

Filtern Sie den Datensatz, um Schnäppchen zu identifizieren: Weine mit einer Bewertung von mehr als 90 Punkten und einem Preis unter 50 $.

- Mit `loc`.

- Mit `query`.

</div>
</div>

In [None]:
countdown_timer(10)

| **Functionality**   | **Funktionalität**         | **iloc**          | **loc**                                   | **query**             |
|--------------------------------|--------------------------------------|---------------------------|--------------------------------------------------|--------------------------------|
| **Row Selection**             | Zeilenauswahl                       | `df.iloc[0]`              | `df.loc['row_label']`                            |               N/A                 |
| **Column Selection**          | Spaltenauswahl                      | `df.iloc[:, 0]`           | `df.loc[:, 'column_name']`                       |                   N/A             |
| **Single Element Selection**  | Auswahl eines einzelnen Elements    | `df.iloc[0, 0]`           | `df.loc['row_label', 'column_name']`            |                            N/A    |
| **Slicing**                   | Schneiden                           | `df.iloc[0:3, 0:2]`       | `df.loc['row1':'row3', 'col1':'col3']`            |                           N/A     |
| **Boolean Filtering**         | Filterung mit booleschen Bedingungen|      N/A                     | `df.loc[df['column_name'] > 50]`                | `df.query('column_name > 50')`|


<div class="alert alert-warning alert-info">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

### Important

So far, we have simply displayed subsets of the DataFrame on the screen.

Slicing and filtering do not modify the original DataFrame.  
**To create a subset of your DataFrame for further analysis, assign the result of any slicing or filtering operation to a new DataFrame**:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

### Wichtig

Bislang haben wir lediglich Teilmengen des DataFrame auf dem Bildschirm angezeigt.

Beim Slicen und Filtern wird der ursprüngliche DataFrame nicht verändert.  
**Um eine Teilmenge Ihres DataFrame für die weitere Analyse zu erstellen, weisen Sie das Ergebnis einer beliebigen Zerlegungs- oder Filterungsoperation einem neuen DataFrame zu**:

</div>
</div>

<div style="text-align: center;">

```python
italian_wines = wine_reviews.query('country == "Italy"')
```

</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

# Assigning values

Both `iloc` and `loc` can be used to modify entries in a DataFrame. By assigning a value to the result of a selection, you directly update the DataFrame.

**By default, changes made using `loc` and `iloc` do take effect in place**, meaning the original DataFrame is modified.

But be reassured: even though the DataFrame is updated directly, your CSV file remains unchanged. Your data is still safely stored on disk.

If you want to preserve the original DataFrame and avoid modifying it, make an explicit copy first:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

# Zuweisung von Werten

Sowohl `iloc` als auch `loc` können verwendet werden, um Einträge in einem DataFrame zu ändern. Indem Sie dem Ergebnis einer Auswahl einen Wert zuweisen, aktualisieren Sie direkt den DataFrame.

**Standardmäßig werden Änderungen, die mit `loc` und `iloc` vorgenommen werden, an Ort und Stelle wirksam**, d.h. der ursprüngliche DataFrame wird direkt geändert.

Aber seien Sie beruhigt: Auch wenn der DataFrame direkt aktualisiert wird, bleibt Ihre CSV-Datei unverändert. Ihre Daten sind weiterhin sicher auf der Festplatte gespeichert.

Wenn Sie den ursprünglichen DataFrame erhalten und nicht verändern wollen, erstellen Sie zunächst eine explizite Kopie:

</div>
</div>

In [None]:
modified_reviews = wine_reviews.copy()

modified_reviews.head()

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.75;">

### Assigning Values with `iloc`

- **Updating a single cell** <br>
`df.iloc[2, 4] = 30`  assigns 30 to the cell at row 2 and column 4 


- **Updating multiple cells in a column** <br>
`df.iloc[0:3, 4] = 60`  assigns 60 to the first three rows of column 4


- **Updating multiple cells in multiple columns** <br>
`df.iloc[1:4, [2, 5]] = 0`  assigns 0 to rows 1-3 for columns 2 and 5


### Assigning Values with `loc`

- **Updating a single cell** <br>
`df.loc[3, 'price'] = 45`  assigns 45 to the `price` column in row with index 3


- **Updating multiple cells in a column** <br>
`df.loc[df['points'] > 90, 'price'] = 100`  updates the `price` for all rows where `points` > 90, setting those prices to 100


- **Updating multiple cells in multiple columns** <br>
`df.loc[0:2, ['price', 'points']] = [50, 88]`  updates rows 0, 1, and 2 for `price` and `points`


- **Updating whole columns** <br>
`df["price"] = df["price"] / 2`   everything is 50% off! <br>
`df["price"] = 0`   Everything is free!


</div>
<div style="width: 48%; line-height: 1.75;color: grey;">

### Zuweisung von Werten mit `iloc`

- **Aktualisierung einer einzelnen Zelle** <br>
`df.iloc[2, 4] = 30` weist der Zelle in Zeile 2 und Spalte 4 den Wert 30 zu


- **Aktualisierung mehrerer Zellen in einer Spalte** <br>
`df.iloc[0:3, 4] = 60` weist den ersten drei Zeilen der Spalte 4 die Zahl 60 zu


- **Aktualisierung mehrerer Zellen in mehreren Spalten** <br>
`df.iloc[1:4, [2, 5]] = 0` weist den Zeilen 1-3 der Spalten 2 und 5 die Zahl 0 zu


### Zuweisung von Werten mit `loc`

- **Aktualisierung einer einzelnen Zelle** <br>
`df.loc[3, 'price'] = 45` weist der Spalte `price` in Zeile mit Index 3 den Wert 45 zu


- **Aktualisierung mehrerer Zellen in einer Spalte** <br>
`df.loc[df['points'] > 90, 'price'] = 100` aktualisiert `price` für alle Zeilen, in denen `points` > 90 sind, und setzt diese Preise auf 100


- **Aktualisierung mehrerer Zellen in mehreren Spalten** <br>
`df.loc[0:2, ['price', 'points']] = [50, 88]` aktualisiert die Zeilen 0, 1 und 2 für `price` und `points`


- **Aktualisierung ganzer Spalten** <br>
`df["price"] = df["price"] / 2` alles ist 50% reduziert! <br>
`df["price"] = 0` Alles ist kostenlos!

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Creating new columns

As we have seen in the latest example, we can perform mathematical operations on entire columns simultaneously.

**pandas, like NumPy arrays**, supports mathematical operations directly on DataFrame columns, allowing you to easily create new columns based on existing ones. 

You can perform any operation between columns. 
The operation is applied element-wise (row by row): you do not need to use a loop to iterate each of the rows!

To create a new column, use the `[]` brackets with the new column name at the left side of the assignment.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

## Erstellen neuer Spalten

Wie wir im letzten Beispiel gesehen haben, können wir mathematische Operationen auf ganzen Spalten gleichzeitig durchführen.

**pandas, wie NumPy-Arrays**, unterstützt mathematische Operationen direkt auf DataFrame-Spalten, so dass Sie auf einfache Weise neue Spalten auf der Grundlage bestehender Spalten erstellen können.

Sie können jede beliebige Operation zwischen den Spalten durchführen.
Die Operation wird elementweise (Zeile für Zeile) durchgeführt: Sie müssen keine Schleife verwenden, um jede Zeile zu durchlaufen!

Um eine neue Spalte zu erstellen, verwenden Sie die Klammern `[]` mit dem Namen der neuen Spalte auf der linken Seite der Zuordnung.

</div>
</div>

<div style="text-align: center;">
    <img src="https://pandas.pydata.org/docs/_images/05_newcolumn_2.svg" style="height: 150px;">
</div>

```python
# Examples
df['C'] = df['A'] + 10
df['D'] = df['A'] + df['B']
```

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Using the same logic, you can also override the values in a column to update them.
For instance, you can convert the `points` column from its current `int64` data type to `float64` like this:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Mit der gleichen Logik können Sie auch die Werte in einer Spalte überschreiben, um sie zu aktualisieren.
So können Sie beispielsweise die Spalte `points` von ihrem derzeitigen Datentyp `int64` in `float64` umwandeln:

</div>
</div>

In [None]:
wine_reviews['points'] = wine_reviews['points'].astype('float64')

wine_reviews

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

#### Exercise

1. As of November 2024, the USD/EUR conversion rate is 0.95. Create a new column that calculates and returns the price in EUR.

2. Which wines offer the best value? Create a new column that calculates the ratio of points to price. (We will see next time how to sort the results and actually identify the best value. For now, just create the column.)

Assign meaningful names to both of the new columns.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

#### Übung

1. Im November 2024 beträgt der Umrechnungskurs USD/EUR 0.95. Erstellen Sie eine neue Spalte, die den Preis in EUR berechnet und ausgibt.

2. Welche Weine bieten das beste Preis-Leistungs-Verhältnis? Erstellen Sie eine neue Spalte, die das Verhältnis von Punkten zu Preis berechnet. (Wir werden nächstes Mal sehen, wie man die Ergebnisse sortiert und tatsächlich den besten Wert ermittelt. Erstellen Sie jetzt erst einmal die Spalte).

Weisen Sie den beiden neuen Spalten aussagekräftige Namen zu.

</div>
</div>

In [None]:
countdown_timer(10)

In [None]:
# I want to know the price in Euros

wine_reviews["price in EUR"] = wine_reviews["price"] * 0.95            # USD ≈ 0.95 EUR as of November 2024

wine_reviews.head()

In [None]:
wine_reviews["quality/price ratio"] = wine_reviews["points"] / wine_reviews["price"]

wine_reviews

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

### A more relevant example

For scientific applications, the formulas used to calculate new columns can be as complex as necessary, fully utilizing the capabilities of NumPy.

Let’s say we want to calculate the Lennard-Jones potential analytically, similar to what we did in the lecture about NumPy. 
At that time, we created two arrays: one representing the interatomic distances (`x` values) and the other representing the potential energy calculated using the Lennard-Jones formula (`y` values). 

It would be helpful to organize all this data in a table, such as a DataFrame.

If you already have a file containing your data, you can easily load it into a DataFrame using the command we discussed earlier (`pd.read_csv()`).

For illustration purposes, however, we will first create a new DataFrame containing the interatomic distances. 
This can be achieved by passing a dictionary where the key represents the column header (e.g., `r`) and the value is the array defining the interatomic distances:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

### Ein wichtigeres Beispiel

Bei wissenschaftlichen Anwendungen können die Formeln zur Berechnung neuer Spalten so komplex wie nötig sein und die Möglichkeiten von NumPy voll ausschöpfen.

Nehmen wir an, wir wollen das Lennard-Jones-Potenzial analytisch berechnen, ähnlich wie wir es in der Vorlesung über NumPy getan haben.
Damals haben wir zwei Arrays erstellt: eines für die interatomaren Abstände (`x`-Werte) und das andere für die potenzielle Energie, die mit der Lennard-Jones-Formel berechnet wurde (`y`-Werte).

Es wäre hilfreich, all diese Daten in einer Tabelle zu organisieren, z. B. in einem DataFrame.

Wenn Sie bereits über eine Datei mit Ihren Daten verfügen, können Sie diese mit dem bereits erwähnten Befehl (`pd.read_csv()`) einfach in einen DataFrame laden.

Zur Veranschaulichung werden wir jedoch zunächst einen neuen DataFrame erstellen, der die interatomaren Abstände enthält.
Dies kann durch die Übergabe eines Wörterbuchs erreicht werden, wobei der Schlüssel die Spaltenüberschrift darstellt (z. B. `r`) und der Wert das Array ist, das die interatomaren Abstände definiert:

</div>
</div>

In [None]:
potentials = pd.DataFrame({'r': np.arange(1, 2.02, 0.025)})

potentials.head()

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

To create the column containing the potential energy values, we can apply the same function we previously defined for the Lennard-Jones formula. 

However, defining a function is not strictly necessary: we could instead directly use the formula with hardcoded values for the parameters.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Um die Spalte mit den Werten der potenziellen Energie zu erstellen, können wir die gleiche Funktion anwenden, die wir zuvor für die Lennard-Jones-Formel definiert haben.

Es ist jedoch nicht unbedingt notwendig, eine Funktion zu definieren: Wir könnten stattdessen direkt die Formel mit fest eingegebenen Werten für die Parameter verwenden.

</div>
</div>

In [None]:
def lennard_jones(r, epsilon, sigma):
    return 4 * epsilon * ((sigma / r) ** 12 - (sigma / r) ** 6)

# Parameters for Lennard-Jones potential
epsilon = 1.0  # Depth of the potential well
sigma = 1.0    # Distance at which the potential is zero

# Creating the new column with the header "Lennard-Jones"
potentials["Lennard-Jones"] = lennard_jones(potentials["r"], epsilon, sigma)

potentials.head()

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Now, let’s say we want to compare the Lennard-Jones potential with another type of potential: the Morse potential. To achieve this, we can simply create another column in the DataFrame that contains the values calculated for the Morse potential:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Angenommen, wir wollen das Lennard-Jones-Potenzial mit einer anderen Art von Potenzial vergleichen: dem Morse-Potenzial. 
Zu diesem Zweck können wir einfach eine weitere Spalte im DataFrame erstellen, die die für das Morse-Potenzial berechneten Werte enthält:

</div>
</div>

In [None]:
def morse(r, D_e, a, r_e):
    return D_e * (1 - np.exp(-a * (r - r_e)))**2 - D_e

# Parameters for the Morse potential
D_e = 1.0   # Depth of the potential well
a = 3.5     # Width parameter
r_e = 1.2   # Equilibrium bond length

potentials["Morse"] = morse(potentials["r"], D_e, a, r_e)

potentials.head()

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

The additional column allows for easy comparison between the two potentials, both visually (e.g., via plots) and numerically (e.g., via statistical analysis).

Naturally, both Seaborn and Matplotlib can directly use Pandas DataFrame columns as `x` and `y` values! 
This makes it simple to visualize data stored in a DataFrame by passing the column names to the plotting functions:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Die zusätzliche Spalte ermöglicht einen einfachen Vergleich zwischen den beiden Potenzialen, sowohl visuell (z. B. über Diagramme) als auch numerisch (z. B. über statistische Analysen).

Natürlich können sowohl Seaborn als auch Matplotlib Pandas DataFrame-Spalten direkt als `x`- und `y`-Werte verwenden!
Dies macht es einfach, in einem DataFrame gespeicherte Daten zu visualisieren, indem die Spaltennamen an die Plotfunktionen übergeben werden:

</div>
</div>

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.lineplot(x=potentials["r"], y= potentials["Lennard-Jones"], c="slategrey", marker="o", label="LJ")
sns.lineplot(x=potentials["r"], y= potentials["Morse"], c="orchid", marker=">", label="Morse")

plt.ylabel("Potential Energy")
plt.grid()

plt.show()

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

# Dropping

You can drop a column or row from a DataFrame using the `drop()` method. This method allows you to remove specific rows or columns based on labels or indices.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

# Löschen

Mit der Methode `drop()` können Sie eine Spalte oder Zeile aus einem DataFrame entfernen. Diese Methode ermöglicht es Ihnen, bestimmte Zeilen oder Spalten auf der Grundlage von Bezeichnungen oder Indizes zu entfernen.

</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">


### Dropping a Row
To drop a row, you use `axis=0`, since rows are along the first axis (axis 0). You can also omit the axis, since `axis=0` is the default value:

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">


### Löschen einer Zeile
Um eine Zeile zu löschen, verwenden Sie `axis=0`, da die Zeilen entlang der ersten Achse (Achse 0) liegen. Sie können die Achse auch weglassen, da `axis=0` der Standardwert ist:

</div>
</div>

In [None]:
wine_reviews.drop([0])      # == wine_reviews.drop([0], axis=0) 

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

### Dropping a Column
To drop a column, specify the column's name either with `columns=[]` or by using the `axis=1` argument in the `drop()` method, as columns are along the second axis (axis 1).

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

### Auslassen einer Spalte
Um eine Spalte auszulassen, geben Sie den Namen der Spalte entweder mit `columns=[]` oder mit dem Argument `axis=1` in der Methode `drop()` an, da die Spalten auf der zweiten Achse (Achse 1) liegen.

</div>
</div>

In [None]:
wine_reviews_cleaned = wine_reviews.drop(columns=["quality/price ratio"])

# is equivalent to

wine_reviews_cleaned =  wine_reviews.drop(["quality/price ratio"], axis=1)

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

If you attempt to drop a row or column that doesn’t exist, pandas will raise a `KeyError`. You can avoid this by setting the `errors` parameter to `'ignore'`.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Wenn Sie versuchen, eine Zeile oder Spalte zu löschen, die nicht existiert, löst pandas einen `KeyError` aus. Sie können dies vermeiden, indem Sie den Parameter `errors` auf `'ignore'` setzen.

</div>
</div>

In [None]:
wine_reviews.drop('non_existent_column', axis=1)

In [None]:
wine_reviews.drop('non_existent_column', axis=1, errors='ignore')

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

## Missing values

We saw earlier that the `df.info()` method provides a concise summary of a DataFrame, including, among other properties, the number of *non-null counts*.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

## Fehlende Werte

Wir haben bereits gesehen, dass die Methode `df.info()` eine knappe Zusammenfassung eines DataFrame liefert, die neben anderen Eigenschaften auch die Anzahl der *Nicht-Null-Zählungen* enthält.

</div>
</div>

In [None]:
wine_reviews.info()

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

Entries with missing values are represented by `NaN`, which stands for "Not a Number." Due to technical reasons, these `NaN` values are always of the `float64` data type, regardless of the original data type of the column.

`NaN` values aren't inherently problematic, but certain operations (like divisions) or statistical analyses can produce errors or yield skewed results when missing values are involved (see the lecture on NumPy).

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

Einträge mit fehlenden Werten werden durch `NaN` dargestellt, was für "Not a Number" steht. Aus technischen Gründen haben diese `NaN`-Werte immer den Datentyp `float64`, unabhängig vom ursprünglichen Datentyp der Spalte.

`NaN`-Werte sind an sich nicht problematisch, aber bestimmte Operationen (z. B. Divisionen) oder statistische Analysen können zu Fehlern führen oder verzerrte Ergebnisse liefern, wenn fehlende Werte beteiligt sind (siehe die Vorlesung über NumPy).
</div>
</div>

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

pandas provides several built-in methods to handle missing values in DataFrames. 

**Detect missing values**: The `isnull()` and `notnull()` methods return a boolean mask indicating where `NaN` values are present (`True` for `NaN`, `False` otherwise).

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

pandas bietet mehrere integrierte Methoden zur Behandlung fehlender Werte in DataFrames.

**Fehlenden Werten erkennen**: Die Methoden `isnull()` und `notnull()` geben eine boolesche Maske zurück, die angibt, wo `NaN`-Werte vorhanden sind (`True` für `NaN`, sonst `False`).
</div>
</div>

```python
df.isnull()                     # Returns a DataFrame of booleans indicating NaN locations

df[df['column_name'].isnull()]  # Returns rows where 'column_name' is NaN

df.notnull()                    # Returns a DataFrame of booleans indicating non-NaN locations
```

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

**Remove missing values**: The `dropna()` method is used to remove rows or columns that contain `NaN` values. This is useful if you want to exclude missing data from your analysis entirely.

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

**Fehlende Werte entfernen**: Die Methode `dropna()` wird verwendet, um Zeilen oder Spalten zu entfernen, die `NaN`-Werte enthalten. Dies ist nützlich, wenn Sie fehlende Daten vollständig aus Ihrer Analyse ausschließen möchten.

</div>
</div>


```python
df.dropna()                               # Removes rows with at least one NaN

df.dropna(subset=['column1', 'column2'])  # Removes rows with NaN in the specified columns

df.dropna(axis=1)                         # Removes columns with at least one NaN
```

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

**Replace missing values**: The `fillna()` method is used to replace `NaN` values with a specified value or by following certain strategies (such as forward filling or backward filling).

</div>
<div style="width: 48%; line-height: 1.5;color: grey;">

**Fehlende Werte ersetzen**: Die Methode `fillna()` wird verwendet, um `NaN`-Werte durch einen bestimmten Wert oder durch bestimmte Strategien (wie "forward filling" oder "backward filling") zu ersetzen.

</div>
</div>


```python
df['column_name'].fillna(0)                          # Replaces NaN with `0` in a specific column

df['column_name'].fillna('Unknown')                  # Replaces NaN with the string Unknown in a specific column

df['column_name'].fillna(df['column_name'].mean())   # Fill with the mean, median, or mode (of the column)
df['column_name'].fillna(df['column_name'].median())
df['column_name'].fillna(df['column_name'].mode())
```

<div class="alert alert-block alert-light">

<div style="display: flex; justify-content: space-between;">
<div style="width: 48%; line-height: 1.5;">

# Exercises

Open the notebook `07_exercises.ipynb`.

</div>
<div style="width: 2%"></div>
<div style="width: 48%;; line-height: 1.5;color: grey;">

# Übungen

Öffnen Sie das Notebook `07_exercises.ipynb`.

</div>
</div>