# Python Fortgeschritten: SciPy und Pandas
## Tag 5 - Notebook 26
***
In diesem Notebook wird behandelt:
- Pandas Series
- DataFrame-Grundlagen
- Indizierung und Selektion
- Fehlende Daten
- Datenoperationen (Sortieren, Gruppieren, Aggregationen)
- I/O-Operationen (CSV, Excel, JSON)
- SciPy-Grundlagen
***


## 1 Pandas Grundlagen

Pandas ist eine Bibliothek für Datenanalyse und -manipulation.

### Was verwendet Pandas unter der Haube?

- **NumPy-Arrays**: Pandas nutzt NumPy für effiziente numerische Operationen
- **C-Extensions**: Viele Operationen sind in C implementiert für Performance
- **Indizierung**: Effiziente Indizierungsstrukturen für schnellen Zugriff
- **Speicherverwaltung**: Optimierte Speichernutzung durch NumPy-Arrays

### Hauptdatenstrukturen

- **Series**: Eindimensionale markierte Arrays (wie eine Spalte)
- **DataFrame**: Zweidimensionale tabellarische Struktur (wie eine Tabelle)


In [None]:
import pandas as pd
import numpy as np

# Series erstellen
series = pd.Series([1, 2, 3, 4, 5], name='Werte')
print(f"Series:\n{series}")
print(f"\nIndex: {series.index}")
print(f"Werte: {series.values}")

# Series mit benutzerdefiniertem Index
series_custom = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(f"\nSeries mit Index:\n{series_custom}")

# DataFrame erstellen
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
print(f"\nDataFrame:\n{df}")


## 2 DataFrame-Grundlagen und Indizierung

### Indizierung und Selektion

- **loc**: Label-basierte Indizierung (Zeilen- und Spaltennamen)
- **iloc**: Integer-basierte Indizierung (Position)
- **Direkte Spaltenauswahl**: `df['Spalte']` oder `df.Spalte`
- **Bedingte Selektion**: `df[df['Spalte'] > Wert]`


In [None]:
# DataFrame mit Index erstellen
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 28],
    'Salary': [50000, 60000, 70000, 55000]
}, index=['A', 'B', 'C', 'D'])

print(f"DataFrame:\n{df}")

# loc: Label-basierte Indizierung
print(f"\nloc['A']:\n{df.loc['A']}")
print(f"\nloc['A':'C', 'Name':'Age']:\n{df.loc['A':'C', 'Name':'Age']}")

# iloc: Integer-basierte Indizierung
print(f"\niloc[0]:\n{df.iloc[0]}")
print(f"\niloc[0:2, 0:2]:\n{df.iloc[0:2, 0:2]}")

# Spaltenauswahl
print(f"\nSpalte 'Name':\n{df['Name']}")
print(f"\nMehrere Spalten:\n{df[['Name', 'Age']]}")

# Bedingte Selektion
df_filtered = df[df['Age'] > 27]
print(f"\nGefiltert (Age > 27):\n{df_filtered}")

# Datentypen
print(f"\nDatentypen:\n{df.dtypes}")


## 3 Fehlende Daten

Pandas bietet Funktionen zum Umgang mit fehlenden Werten (NaN):
- **isna() / isnull()**: Prüft auf fehlende Werte
- **dropna()**: Entfernt Zeilen/Spalten mit fehlenden Werten
- **fillna()**: Füllt fehlende Werte mit einem Wert oder Methode


In [None]:
# DataFrame mit fehlenden Werten
df_missing = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, 7, 8],
    'C': [9, 10, 11, np.nan]
})

print(f"DataFrame mit NaN:\n{df_missing}")

# Fehlende Werte finden
print(f"\nFehlende Werte:\n{df_missing.isna()}")

# Zeilen mit fehlenden Werten entfernen
df_dropped = df_missing.dropna()
print(f"\nNach dropna():\n{df_dropped}")

# Fehlende Werte füllen
df_filled = df_missing.fillna(0)
print(f"\nMit fillna(0):\n{df_filled}")

# Mit Mittelwert füllen
df_filled_mean = df_missing.fillna(df_missing.mean())
print(f"\nMit Mittelwert gefüllt:\n{df_filled_mean}")



## 4 Datenoperationen

Häufige Operationen:
- **Sortieren**: `sort_values()`, `sort_index()`
- **Gruppieren**: `groupby()` mit Aggregationen
- **Aggregationen**: `sum()`, `mean()`, `max()`, `min()`, `count()`
- **Zusammenführen**: `merge()`, `join()`, `concat()`


In [None]:
# Daten aus CSV laden
df_sales = pd.read_csv('../data/sales_data.csv')
print(f"Sales Data:\n{df_sales.head()}")

# Sortieren
df_sorted = df_sales.sort_values('Sales', ascending=False)
print(f"\nSortiert nach Sales:\n{df_sorted.head()}")

# Gruppieren und Aggregieren
sales_by_category = df_sales.groupby('Category')['Sales'].sum()
print(f"\nSales nach Kategorie:\n{sales_by_category}")

# Mehrere Aggregationen
sales_stats = df_sales.groupby('Category').agg({
    'Sales': ['sum', 'mean', 'max'],
    'Quantity': 'sum'
})
print(f"\nStatistiken nach Kategorie:\n{sales_stats}")

# Zusammenführen (Merge)
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})
df_merged = pd.merge(df1, df2, on='key', how='inner')
print(f"\nMerged:\n{df_merged}")


## 5 I/O-Operationen

Pandas kann Daten aus verschiedenen Formaten lesen und schreiben:
- **CSV**: `read_csv()`, `to_csv()`
- **Excel**: `read_excel()`, `to_excel()`
- **JSON**: `read_json()`, `to_json()`
- **Andere**: Parquet, HDF5, SQL, etc.


In [None]:
# CSV lesen
df_employees = pd.read_csv('../data/employee_data.csv')
print(f"Employees:\n{df_employees}")

# CSV schreiben
df_employees.to_csv('../data/employee_data_backup.csv', index=False)

# JSON
json_data = df_employees.head(3).to_json(orient='records')
print(f"\nJSON:\n{json_data}")

# Aus JSON lesen
df_from_json = pd.read_json(json_data)
print(f"\nAus JSON:\n{df_from_json}")


## 6 SciPy Grundlagen

SciPy baut auf NumPy auf und bietet wissenschaftliche Funktionen:
- **scipy.stats**: Statistische Funktionen und Verteilungen
- **scipy.optimize**: Optimierungsalgorithmen
- **scipy.integrate**: Numerische Integration
- **scipy.linalg**: Lineare Algebra
- **scipy.signal**: Signalverarbeitung


In [None]:
from scipy import stats
from scipy import optimize
from scipy import integrate
import numpy as np

# Statistik: Normalverteilung
data = np.random.normal(100, 15, 1000)
mean, std = stats.norm.fit(data)
print(f"Normalverteilung - Mittelwert: {mean:.2f}, Std: {std:.2f}")

# Statistik: t-Test
sample1 = np.random.normal(100, 10, 50)
sample2 = np.random.normal(105, 10, 50)
t_stat, p_value = stats.ttest_ind(sample1, sample2)
print(f"\nt-Test - Statistik: {t_stat:.2f}, p-Wert: {p_value:.4f}")

# Optimierung: Minimum finden
def f(x):
    return (x - 3)**2 + 5

result = optimize.minimize(f, x0=0)
print(f"\nOptimierung - Minimum bei x={result.x[0]:.2f}, f(x)={result.fun:.2f}")

# Integration
result_int, error = integrate.quad(lambda x: x**2, 0, 2)
print(f"\nIntegration von x² von 0 bis 2: {result_int:.4f} (Fehler: {error:.2e})")


## 7 Aufgaben

### Aufgabe (a): DataFrame-Erstellung und Grundoperationen

Erstelle DataFrames und führe Grundoperationen durch:

**Anforderungen:**
- Lade `data/employee_data.csv` in einen DataFrame
- Zeige die ersten 5 Zeilen, Info und Datentypen
- Berechne das Durchschnittsgehalt nach Abteilung (Department)
- Sortiere den DataFrame nach Gehalt (Salary) in absteigender Reihenfolge
- Gib die Ergebnisse aus

**Tipp:** Verwende `pd.read_csv()`, `.head()`, `.info()`, `.dtypes`, `.groupby()`, `.mean()` und `.sort_values()`.

In [None]:
# Deine Lösung

### Aufgabe (b): Datenanalyse mit Pandas

Analysiere Verkaufsdaten:

**Anforderungen:**
- Lade `data/sales_data.csv`
- Gruppiere nach Category und berechne für jede Kategorie: Summe, Mittelwert und Anzahl der Sales
- Finde das Produkt (Product) mit dem höchsten Umsatz (Sales)
- Berechne den Gesamtumsatz pro Tag (Date)
- Gib die Ergebnisse aus

**Tipp:** Verwende `.groupby()` mit `.agg()` für mehrere Aggregationen. Verwende `.idxmax()` oder `.nlargest()` um das Produkt mit dem höchsten Umsatz zu finden.

In [None]:
# Deine Lösung

### Aufgabe (c): Fehlende Daten und Datenbereinigung

Umgang mit fehlenden Daten:

**Anforderungen:**
- Erstelle einen DataFrame mit absichtlich fehlenden Werten (verwende `np.nan` für einige Zellen)
- Identifiziere fehlende Werte mit `isna()` oder `isnull()`
- Fülle fehlende Werte mit dem Mittelwert der jeweiligen Spalte
- Entferne Zeilen, die mehr als 2 fehlende Werte haben
- Zeige die Ergebnisse der Bereinigung (Anzahl der Zeilen vorher/nachher)

**Tipp:** Verwende `.isna()`, `.fillna()`, `.dropna()` mit dem Parameter `thresh` für die Bedingung "mehr als 2 fehlende Werte".

In [None]:
# Deine Lösung

### Aufgabe (d): SciPy Statistik

Verwende SciPy für statistische Analysen:

**Anforderungen:**
- Lade `data/measurements_data.csv`
- Teile die Daten in zwei Zeiträume (z.B. erste Hälfte vs. zweite Hälfte)
- Führe einen t-Test zwischen den Temperaturen der beiden Zeiträume durch
- Berechne die Normalverteilungsparameter (Mittelwert, Standardabweichung) für die Temperature-Spalte
- Gib die statistischen Ergebnisse aus

**Tipp:** Verwende `scipy.stats.ttest_ind()` für den t-Test und `scipy.stats.norm.fit()` für die Normalverteilungsparameter.

In [None]:
# Deine Lösung

### Lösungen

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import logging

logging.basicConfig(level=logging.DEBUG, format='%(levelname)s: %(message)s')

# Musterlösung (a)
logging.debug("=== Aufgabe (a): DataFrame-Erstellung und Grundoperationen ===")

df_employees = pd.read_csv('../data/employee_data.csv')
logging.debug(f"\nErste 5 Zeilen:\n{df_employees.head()}")
logging.debug(f"\nInfo:\n{df_employees.info()}")
logging.debug(f"\nDatentypen:\n{df_employees.dtypes}")

avg_salary_by_dept = df_employees.groupby('Department')['Salary'].mean()
logging.debug(f"\nDurchschnittsgehalt nach Abteilung:\n{avg_salary_by_dept}")

df_sorted = df_employees.sort_values('Salary', ascending=False)
logging.debug(f"\nSortiert nach Gehalt (absteigend):\n{df_sorted[['Name', 'Department', 'Salary']]}")

# Musterlösung (b)
logging.debug("\n=== Aufgabe (b): Datenanalyse mit Pandas ===")

df_sales = pd.read_csv('../data/sales_data.csv')
df_sales['Date'] = pd.to_datetime(df_sales['Date'])

sales_by_category = df_sales.groupby('Category')['Sales'].agg(['sum', 'mean', 'count'])
logging.debug(f"\nSales nach Category:\n{sales_by_category}")

product_max_sales = df_sales.loc[df_sales['Sales'].idxmax(), 'Product']
max_sales_value = df_sales['Sales'].max()
logging.debug(f"\nProdukt mit höchstem Umsatz: {product_max_sales} ({max_sales_value})")

sales_by_date = df_sales.groupby('Date')['Sales'].sum()
logging.debug(f"\nGesamtumsatz pro Tag:\n{sales_by_date}")

# Musterlösung (c)
logging.debug("\n=== Aufgabe (c): Fehlende Daten und Datenbereinigung ===")

# DataFrame mit fehlenden Werten erstellen
df_missing = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5, np.nan],
    'B': [5, np.nan, 7, 8, np.nan, 10],
    'C': [9, 10, 11, np.nan, np.nan, np.nan],
    'D': [1, 2, 3, 4, 5, 6]
})

logging.debug(f"DataFrame mit fehlenden Werten:\n{df_missing}")
logging.debug(f"\nFehlende Werte:\n{df_missing.isna().sum()}")

rows_before = len(df_missing)
df_filled = df_missing.fillna(df_missing.mean())
logging.debug(f"\nNach fillna():\n{df_filled}")

df_cleaned = df_missing.dropna(thresh=len(df_missing.columns) - 2)
rows_after = len(df_cleaned)
logging.debug(f"\nNach dropna() (mehr als 2 fehlende Werte):\n{df_cleaned}")
logging.debug(f"Zeilen vorher: {rows_before}, nachher: {rows_after}")

# Musterlösung (d)
logging.debug("\n=== Aufgabe (d): SciPy Statistik ===")

df_measurements = pd.read_csv('../data/measurements_data.csv')
df_measurements['Timestamp'] = pd.to_datetime(df_measurements['Timestamp'])

# Daten in zwei Hälften teilen
midpoint = len(df_measurements) // 2
temp_first_half = df_measurements['Temperature'].iloc[:midpoint]
temp_second_half = df_measurements['Temperature'].iloc[midpoint:]

# t-Test
t_stat, p_value = stats.ttest_ind(temp_first_half, temp_second_half)
logging.debug(f"\nt-Test zwischen beiden Zeiträumen:")
logging.debug(f"  t-Statistik: {t_stat:.4f}")
logging.debug(f"  p-Wert: {p_value:.4f}")

# Normalverteilungsparameter
mean, std = stats.norm.fit(df_measurements['Temperature'])
logging.debug(f"\nNormalverteilungsparameter für Temperature:")
logging.debug(f"  Mittelwert: {mean:.2f}")
logging.debug(f"  Standardabweichung: {std:.2f}")
