# Pandas Einführung für Klasse 11

## Was ist pandas?

**pandas** ist eine Python-Bibliothek für Datenanalyse und Datenmanipulation. Der Name kommt von "Panel Data" - pandas macht es sehr einfach, strukturierte Daten (wie Excel-Tabellen) in Python zu bearbeiten.

**Warum pandas?**
- Arbeitet perfekt mit Excel-ähnlichen Daten
- Sehr schnell bei großen Datenmengen
- Viele eingebaute Funktionen für Datenanalyse
- Integration mit anderen Python-Bibliotheken

## Installation und Import

```python
# Installation (falls noch nicht installiert)
# pip install pandas

# Import - Standard-Abkürzung ist 'pd'
import pandas as pd
```

## Die zwei wichtigsten Datenstrukturen

### 1. Series (eindimensional)
Eine Series ist wie eine Spalte in Excel:

```python
# Series erstellen
noten = pd.Series([1.5, 2.0, 1.7, 2.3, 1.9])
print(noten)

# Mit Index (Namen)
noten_mit_namen = pd.Series([1.5, 2.0, 1.7, 2.3, 1.9], 
                           index=['Anna', 'Ben', 'Clara', 'David', 'Emma'])
print(noten_mit_namen)
```

### 2. DataFrame (zweidimensional)
Ein DataFrame ist wie eine komplette Excel-Tabelle:

```python
# DataFrame aus Dictionary erstellen
schuelerdaten = {
    'Name': ['Anna', 'Ben', 'Clara', 'David', 'Emma'],
    'Alter': [16, 17, 16, 17, 16],
    'Mathe_Note': [1.5, 2.0, 1.7, 2.3, 1.9],
    'Deutsch_Note': [2.1, 1.8, 1.5, 2.0, 1.7]
}
df = pd.DataFrame(schuelerdaten)
print(df)
```

## Die wichtigsten Funktionen

### 1. Daten laden und speichern

```python
# CSV-Datei laden
df = pd.read_csv('datei.csv')

# Excel-Datei laden
df = pd.read_excel('datei.xlsx')

# Speichern
df.to_csv('neue_datei.csv', index=False)
df.to_excel('neue_datei.xlsx', index=False)
```

### 2. Daten erkunden

```python
# Erste/letzte Zeilen anzeigen
df.head()        # Erste 5 Zeilen
df.tail(3)       # Letzte 3 Zeilen

# Grundlegende Informationen
df.info()        # Datentypen und fehlende Werte
df.describe()    # Statistische Zusammenfassung
df.shape         # Anzahl Zeilen und Spalten
df.columns       # Spaltennamen
```

### 3. Daten auswählen

```python
# Spalte auswählen
df['Name']                    # Eine Spalte
df[['Name', 'Alter']]        # Mehrere Spalten

# Zeilen auswählen
df.iloc[0]                   # Erste Zeile (nach Position)
df.loc[0]                    # Erste Zeile (nach Index)
df.iloc[0:3]                 # Erste 3 Zeilen

# Bedingungen
gute_schueler = df[df['Mathe_Note'] <= 2.0]
aeltere_schueler = df[df['Alter'] >= 17]
```

### 4. Daten filtern und sortieren

```python
# Nach Werten filtern
df[df['Mathe_Note'] < 2.0]

# Mehrere Bedingungen
df[(df['Alter'] >= 17) & (df['Mathe_Note'] <= 2.0)]

# Sortieren
df.sort_values('Mathe_Note')                    # Aufsteigend
df.sort_values('Mathe_Note', ascending=False)   # Absteigend
df.sort_values(['Alter', 'Mathe_Note'])         # Nach mehreren Spalten
```

### 5. Neue Spalten erstellen

```python
# Neue Spalte berechnen
df['Notendurchschnitt'] = (df['Mathe_Note'] + df['Deutsch_Note']) / 2

# Bedingte Spalte
df['Bestanden'] = df['Notendurchschnitt'] <= 4.0
```

### 6. Statistische Funktionen

```python
# Grundlegende Statistiken
df['Mathe_Note'].mean()      # Durchschnitt
df['Mathe_Note'].median()    # Median
df['Mathe_Note'].std()       # Standardabweichung
df['Mathe_Note'].min()       # Minimum
df['Mathe_Note'].max()       # Maximum

# Häufigkeiten zählen
df['Alter'].value_counts()
```

### 7. Daten gruppieren

```python
# Nach Alter gruppieren
nach_alter = df.groupby('Alter')
nach_alter['Mathe_Note'].mean()    # Durchschnittsnote pro Altersgruppe

# Mehrere Statistiken gleichzeitig
df.groupby('Alter').agg({
    'Mathe_Note': ['mean', 'min', 'max'],
    'Deutsch_Note': 'mean'
})
```

### 8. Fehlende Werte behandeln

```python
# Fehlende Werte finden
df.isnull()                  # True/False für jede Zelle
df.isnull().sum()           # Anzahl fehlender Werte pro Spalte

# Fehlende Werte entfernen
df.dropna()                 # Zeilen mit fehlenden Werten löschen

# Fehlende Werte ersetzen
df.fillna(0)                # Mit 0 ersetzen
df['Mathe_Note'].fillna(df['Mathe_Note'].mean())  # Mit Durchschnitt ersetzen
```

## Praktisches Beispiel - Schülerdaten analysieren

```python
import pandas as pd

# Beispieldaten erstellen
daten = {
    'Name': ['Anna', 'Ben', 'Clara', 'David', 'Emma', 'Felix', 'Greta'],
    'Klasse': ['11a', '11a', '11b', '11a', '11b', '11b', '11a'],
    'Mathe': [1.5, 2.0, 1.7, 2.3, 1.9, 2.8, 1.3],
    'Deutsch': [2.1, 1.8, 1.5, 2.0, 1.7, 2.2, 1.9],
    'Englisch': [1.8, 2.2, 1.3, 1.9, 2.0, 2.5, 1.6]
}

df = pd.DataFrame(daten)

# Durchschnittsnote berechnen
df['Durchschnitt'] = df[['Mathe', 'Deutsch', 'Englisch']].mean(axis=1)

# Beste und schlechteste Schüler finden
bester = df.loc[df['Durchschnitt'].idxmin()]
schlechtester = df.loc[df['Durchschnitt'].idxmax()]

# Klassenvergleich
klassenvergleich = df.groupby('Klasse')['Durchschnitt'].mean()

print("Durchschnittsnoten pro Klasse:")
print(klassenvergleich)
```

## Übungsaufgaben

1. **Grundlagen**: Erstelle einen DataFrame mit Daten von 5 Freunden (Name, Alter, Lieblingsfach, Note)

2. **Datenanalyse**: 
   - Berechne die Durchschnittsnote
   - Finde den besten und schlechtesten Schüler
   - Sortiere nach Noten

3. **Erweitert**: Lade eine CSV-Datei und analysiere sie:
   - Wie viele Zeilen und Spalten hat sie?
   - Gibt es fehlende Werte?
   - Was sind die wichtigsten statistischen Kennzahlen?

## Tipps für den Einstieg

- **Immer mit kleinen Datensätzen beginnen** - so versteht man die Funktionen besser
- **head() und info() nutzen** - verschafft schnell einen Überblick
- **Dokumentation lesen** - pandas hat eine ausgezeichnete Online-Dokumentation
- **Fehler sind normal** - pandas-Syntax ist am Anfang gewöhnungsbedürftig

## Weiterführende Themen

Wenn ihr pandas gut beherrscht, könnt ihr euch mit diesen Themen beschäftigen:
- Datenvisualisierung mit matplotlib/seaborn
- Zeitreihendaten
- Daten aus APIs laden
- Machine Learning mit scikit-learn