Zelle 1 â€“ Markdown
# ðŸ§© Code Overview â€“ Python Data Processor

## Ziel dieses Notebooks
Dieses Notebook erklÃ¤rt den Aufbau des Pakets `pydata_processor`:

- Welche Module es gibt (`processor`, `cli`, `__init__`)
- Welche Funktionen wichtig sind
- Wie man die Python-API direkt nutzt
- Wie das CLI intern darauf zugreift

Es ergÃ¤nzt die bereits vorhandenen Notebooks:
- `01_overview.ipynb` (ProjektÃ¼berblick)
- `03_usage.ipynb` (Nutzung / Beispiele)

Zelle 2 â€“ Markdown: Paketstruktur
## 1. Paketstruktur

Das Python-Paket liegt im Ordner `src/pydata_processor`:

```text
pydata_processor/
â”œâ”€â”€ __init__.py      # Paket-Metadaten, Ã¶ffentliche API
â”œâ”€â”€ processor.py     # Kernlogik fÃ¼r Lesen / Transformieren / Schreiben
â””â”€â”€ cli.py           # Command Line Interface (Typer)


__init__.py definiert __version__ und __all__ = ["processor"]

processor.py enthÃ¤lt reine Datenlogik

cli.py ruft die Funktionen aus processor auf und bietet ein CLI

In [None]:
---

### ðŸŸ¢ Zelle 3 â€“ Code: Paket importieren

```python
import pydata_processor
from pydata_processor import processor

print("Package version:", pydata_processor.__version__)

ðŸŸ¢ Zelle 4 â€“ Markdown: Ãœbersicht processor.py
## 2. Modul `processor.py` â€“ Kernfunktionen

Das Modul `processor` enthÃ¤lt reine Datenverarbeitungslogik.

### Wichtige Funktionen

| Funktion            | Zweck                                               |
|---------------------|-----------------------------------------------------|
| `_read(path)`       | CSV/JSON einlesen                                  |
| `_write(df, path)`  | DataFrame als CSV/JSON speichern                   |
| `clean_columns(df)` | Spaltennamen zu `snake_case` normalisieren         |
| `drop_null_rows(df)`| VollstÃ¤ndig leere Zeilen entfernen                 |
| `dedupe(df, subset)`| Duplikate entfernen                                |
| `filter_query(df,q)`| DataFrame mit pandas-Query filtern                 |
| `summary(df)`       | Dict mit `rows`, `columns`, `nulls`, `dtypes`      |
| `load_transform(...)` | Einlesen + SÃ¤ubern + Filtern (gibt DataFrame)   |
| `process(...)`      | Voller ETL: einlesen, sÃ¤ubern, filtern, speichern, RÃ¼ckgabe `summary` |

Die Funktionen sind so aufgebaut, dass sie auch ohne CLI direkt aus Python
verwendet werden kÃ¶nnen.

In [None]:
ðŸŸ¢ Zelle 5 â€“ Code: kleines API-Beispiel
from pydata_processor import processor

df = processor.load_transform("data/data.csv")
summary = processor.summary(df)

df.head(), summary


(Das zeigt dir direkt die ersten Zeilen + das Summary-Dict.)

ðŸŸ¢ Zelle 6 â€“ Markdown: cli.py Ãœberblick
## 3. Modul `cli.py` â€“ Command Line Interface

Das Modul `cli` nutzt `typer`, um drei Befehle bereitzustellen:

- `summary` â€“ gibt ein JSON-Summary zum Datensatz aus
- `convert` â€“ konvertiert CSV â†” JSON ohne Filter
- `filter` â€“ sÃ¤ubert, dedupliziert, filtert und speichert

Beispielaufrufe (aus dem Projekt-Hauptordner):

```bash
python -m pydata_processor.cli summary data/data.csv

python -m pydata_processor.cli convert data/data.csv output.json

python -m pydata_processor.cli filter data/data.csv clean_output.csv \
    --query "age > 25" --subset "id,name"


Intern ruft das CLI lediglich Funktionen aus processor.py auf
(load_transform und process) und formatiert die Ausgaben fÃ¼r das Terminal.

### ðŸŸ¢ Zelle 7 â€“ Markdown: Zusammenspiel

```markdown
## 4. Zusammenspiel von API und CLI

- Die **Python-API** (Funktionen in `processor.py`) ist unabhÃ¤ngig vom CLI.
- Das **CLI** (`cli.py`) ist eine dÃ¼nne Schicht oben drauf:
  - parst Argumente (Typer)
  - ruft `processor.process()` oder `processor.load_transform()` auf
  - gibt Ergebnisse als Text/JSON aus

Dadurch kann das Projekt:
- sowohl als **Bibliothek** in anderen Projekten verwendet werden
- als auch als **Kommandozeilen-Tool** genutzt werden