# DataFrame

Ein **DataFrame** ist eine Datenstruktur, die in der Bibliothek **Pandas** in Python verwendet wird, um tabellenartige Daten zu speichern und zu manipulieren. Es ähnelt einer Tabelle in Excel oder einer SQL-Tabelle.

### **Grundlegender Aufbau eines DataFrames**

Ein DataFrame besteht aus drei Hauptelementen:

1. **Spalten (Columns):**
   - Jede Spalte hat einen Namen (Column Name) und kann verschiedene Datentypen enthalten (z. B. Zahlen, Strings, Datumswerte).
   - Die Spalten repräsentieren die Attribute oder Merkmale der Daten.

2. **Zeilen (Rows):**
   - Jede Zeile hat einen Index (Row Index) und enthält Daten für eine bestimmte Instanz.
   - Die Zeilen repräsentieren die Beobachtungen oder Einträge.

3. **Index:**
   - Eine eindeutige Kennung für jede Zeile (ähnlich wie eine Primärschlüssel-Spalte in einer SQL-Tabelle).

### **Beispiel eines DataFrames**

In [1]:
import pandas as pd

# Erstellen eines DataFrames aus einem Dictionary
data = {
    'Name': ['Anna', 'Ben', 'Carla'],
    'Alter': [25, 30, 35],
    'Stadt': ['Berlin', 'Hamburg', 'München']
}

df = pd.DataFrame(data)

print(df)

    Name  Alter    Stadt
0   Anna     25   Berlin
1    Ben     30  Hamburg
2  Carla     35  München


### **Wie funktioniert ein DataFrame?**
1. **Zugriff auf Daten:**
   - Spalten: `df['Name']` gibt die `Name`-Spalte zurück.
   - Zeilen: `df.loc[0]` oder `df.iloc[0]` gibt die erste Zeile zurück.
   
2. **Daten hinzufügen:**
   ```python
   df['Beruf'] = ['Ingenieurin', 'Lehrer', 'Ärztin']
   ```

3. **Daten filtern:**
   ```python
   df[df['Alter'] > 30]
   ```

4. **Zusammenfassen:**
   ```python
   df.describe()  # Statistische Zusammenfassung für numerische Spalten
   ```

### **Zusammenfassung:**

Ein DataFrame ist ein äußerst flexibles Werkzeug, um strukturierte Daten zu speichern, anzuzeigen und zu analysieren. Seine Stärke liegt in der Fähigkeit, verschiedene Operationen (Filtern, Gruppieren, Zusammenfassen, etc.) einfach und effizient auszuführen.