# TAG 5 â€“ Clean Python Code I

---

## ðŸŽ¯ Ziel & Prinzip

### Was ist das?
Clean Code fÃ¼r Data Science bedeutet, Analyse-Code so zu schreiben,  
dass er strukturiert, nachvollziehbar und langfristig wartbar ist.

---

### Warum existiert es?
Damit Analysen:
- nachvollziehbar bleiben
- reproduzierbar sind
- von anderen verstanden werden
- im Team weiterentwickelt werden kÃ¶nnen

Data Science ist kein Ein-Personen-Projekt.
Sauberer Code reduziert Risiko.

---

### Wann brauche ich es?
Sobald:
- dein Code lÃ¤nger als 20â€“30 Zeilen wird
- mehrere Schritte hintereinander ausgefÃ¼hrt werden
- du Business-Regeln implementierst
- du dein Notebook spÃ¤ter wiederverwenden willst

---

### Welches Problem lÃ¶st es?
Clean Code verhindert:
- Skript-Chaos
- versteckte Business-Regeln
- unklare Variablen
- Magic Numbers
- schwer auffindbare Fehler
- Debug-HÃ¶lle

---

## ðŸ“š Heute Ã¼ben wir

- Funktionen statt Skript-Chaos
- sprechende Variablen
- keine Magic Numbers (Konstanten oder Parameter)

Ziel:
Ein fremder Student kann deinen Code lesen und verstehen,
ohne dass du ihn erklÃ¤ren musst.


## 1) Setup

In [64]:
import pandas as pd
import numpy as np


## 2) Konfiguration statt Magic Numbers

**Intuition:** Business-Regeln gehÃ¶ren an eine sichtbare Stelle.  
**Technisch:** Konstanten sind â€žSingle Source of Truthâ€œ.  
**Business:** Wenn sich die Schwelle Ã¤ndert (z. B. HighValue = 250 statt 200), willst du nur eine Stelle anfassen.


In [65]:
HIGH_VALUE_THRESHOLD = 200
CURRENCY = "â‚¬"


## 3) Datenquelle: reproduzierbares Mini-Dataset

### Was ist das?
Ein kleines, festes Dataset fÃ¼r Ãœbungen.

### Warum?
Damit Ergebnisse reproduzierbar sind und nicht zufÃ¤llig variieren.

### Wann?
Beim Lernen, bei Demos, bei Unit-Tests, bei Interview-Ãœbungen.

Wichtig:
Das Dataset ist absichtlich klein.
Wir Ã¼ben Struktur â€“ nicht Big Data.


In [66]:
def make_dataset() -> pd.DataFrame:
    """Create a small synthetic ecommerce transaction dataset."""
    
    data = {
        "customer_id": [1, 2, 1, 3, 2, 4, 5, 3],
        "country":     ["AT", "DE", "AT", "DE", "DE", "AT", "AT", "DE"],
        "revenue":     [200.0, 50.0, 150.0, 300.0, 80.0, 400.0, 60.0, 120.0],
        "segment":     ["Premium", "Standard", "Premium", "Premium", "Standard", "Premium", "Standard", "Premium"],
        "order_date":  pd.to_datetime([
            "2025-01-05", "2025-01-06", "2025-01-09", "2025-01-10",
            "2025-01-11", "2025-01-12", "2025-01-14", "2025-01-15"
        ])
    }
    
    return pd.DataFrame(data)


df = make_dataset()

df


Unnamed: 0,customer_id,country,revenue,segment,order_date
0,1,AT,200.0,Premium,2025-01-05
1,2,DE,50.0,Standard,2025-01-06
2,1,AT,150.0,Premium,2025-01-09
3,3,DE,300.0,Premium,2025-01-10
4,2,DE,80.0,Standard,2025-01-11
5,4,AT,400.0,Premium,2025-01-12
6,5,AT,60.0,Standard,2025-01-14
7,3,DE,120.0,Premium,2025-01-15


In [67]:
df.info()


<class 'pandas.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   customer_id  8 non-null      int64         
 1   country      8 non-null      str           
 2   revenue      8 non-null      float64       
 3   segment      8 non-null      str           
 4   order_date   8 non-null      datetime64[us]
dtypes: datetime64[us](1), float64(1), int64(1), str(2)
memory usage: 527.0 bytes


---------------------------------------------------------
## 4) DatenqualitÃ¤t: Typen & Missing Values

### Intuition
Bevor wir KPIs berechnen, stellen wir sicher,
dass Zahlen wirklich Zahlen sind.

### Warum existiert das?
In echten Daten kommen:
- Strings wie "200â‚¬"
- leere Felder
- Sonderzeichen
- falsche Formate

vor.

### Wann brauche ich es?
Sobald Daten aus CSV, Excel oder APIs kommen.

### Problem
"200" als String kann Berechnungen verfÃ¤lschen
oder stille Fehler erzeugen.


## 4.1) Clean-Funktion implementieren

In [68]:
def clean_revenue(transactions: pd.DataFrame) -> pd.DataFrame: 
    #transactions: pd.DataFrame -> pd.DataFrame bedeuett, dass die Funktion clean_revenue 
    #einen DataFrame als Eingabe erwartet und einen DataFrame als Ausgabe zurÃ¼ckgibt.
    """
    Ensure revenue column is numeric.
    Non-convertible values become NaN.
    """
    df = transactions.copy() 
    # Die Funktion .copy() erstellt eine Kopie des DataFrames transactions, 
    # um sicherzustellen, dass die Originaldaten nicht verÃ¤ndert werden.
    df["revenue"] = pd.to_numeric(df["revenue"], errors="coerce")
    # Die Funktion pd.to_numeric() versucht, die Werte in der Spalte "revenue" in numerische Werte umzuwandeln.
    # Wenn es Werte gibt, die nicht konvertierbar sind (z.B. Text), werden diese mit NaN (Not a Number) ersetzt, 
    # da errors="coerce" angegeben ist.
    return df


In [69]:
df_dirty = df.copy()
df_dirty["revenue"] = df_dirty["revenue"].astype("object")  # erlaubt Strings

df_dirty.loc[2, "revenue"] = "200â‚¬"
df_dirty.loc[4, "revenue"] = "abc"

df_dirty


Unnamed: 0,customer_id,country,revenue,segment,order_date
0,1,AT,200.0,Premium,2025-01-05
1,2,DE,50.0,Standard,2025-01-06
2,1,AT,200â‚¬,Premium,2025-01-09
3,3,DE,300.0,Premium,2025-01-10
4,2,DE,abc,Standard,2025-01-11
5,4,AT,400.0,Premium,2025-01-12
6,5,AT,60.0,Standard,2025-01-14
7,3,DE,120.0,Premium,2025-01-15


In [70]:
clean_df = clean_revenue(df_dirty)
clean_df
clean_df["revenue"]



0    200.0
1     50.0
2      NaN
3    300.0
4      NaN
5    400.0
6     60.0
7    120.0
Name: revenue, dtype: float64

--------------------------------

## 5) Feature Engineering: HighValue-Flag

### Was ist das?
Eine abgeleitete Spalte (Feature) aus einer Regel.

### Warum?
Du machst Entscheidungslogik explizit:
â€žAb wann ist eine Transaktion wertvoll?â€œ

### Wann?
- Segmentierung
- Alerts (Fraud/Risk)
- KPI-Slices
- ML-Features

### Problem gelÃ¶st
Die Regel ist sichtbar, konsistent und wiederverwendbar,
weil sie nicht â€žirgendwo im Codeâ€œ versteckt ist.


In [71]:
def add_high_value_flag(transactions: pd.DataFrame, threshold: float = HIGH_VALUE_THRESHOLD) -> pd.DataFrame:
    """Add a boolean HighValue flag based on revenue threshold."""
    df = transactions.copy()
    df["HighValue"] = df["revenue"] > threshold
    return df


In [72]:
clean_df = add_high_value_flag(clean_df, threshold=HIGH_VALUE_THRESHOLD)
clean_df[["customer_id", "revenue", "HighValue"]]


Unnamed: 0,customer_id,revenue,HighValue
0,1,200.0,False
1,2,50.0,False
2,1,,False
3,3,300.0,True
4,2,,False
5,4,400.0,True
6,5,60.0,False
7,3,120.0,False


-------------------
## 6) Filter: Nur HighValue-Zeilen anzeigen

### Intuition
Nicht mit `if` â€žZeilenweise entscheidenâ€œ, sondern Tabellen filtern.

### Technisch
Boolean Indexing:
Ein True/False-Vektor entscheidet, welche Zeilen bleiben.

### Business
Du extrahierst eine Teilmenge fÃ¼r:
- Review
- Alerts
- Reporting


In [73]:
def get_high_value_rows(transactions: pd.DataFrame) -> pd.DataFrame:
    """Return only rows where HighValue is True."""
    return transactions[transactions["HighValue"]] 
    # Filtert den DataFrame transactions, um nur die Zeilen zurÃ¼ckzugeben, 
    # bei denen die Spalte "HighValue" den Wert True hat.


In [74]:
high_value_rows = get_high_value_rows(clean_df)
high_value_rows[["customer_id", "country", "revenue", "segment", "HighValue"]]
# In diesem Beispiel werden nur die Zeilen zurÃ¼ckgegeben, bei denen die Spalte "HighValue" den Wert True hat.

Unnamed: 0,customer_id,country,revenue,segment,HighValue
3,3,DE,300.0,Premium,True
5,4,AT,400.0,Premium,True


In [75]:
clean_df["HighValue"].value_counts(dropna=False)


HighValue
False    6
True     2
Name: count, dtype: int64

## 7) KPI: Durchschnittlicher Umsatz pro Segment

### Was ist das?
Aggregation von Transaktionsdaten zu einer KPI pro Segment.

### Warum?
Rohdaten sind nicht entscheidungsfÃ¤hig.
KPIs machen Daten vergleichbar und steuerbar.

### Wann?
- Reporting
- Segmentvergleiche
- Produktentscheidungen
- Priorisierung von MaÃŸnahmen

### Problem gelÃ¶st
Du siehst sofort, welches Segment im Schnitt wertvoller ist.

------------------------------------------------------------

# 7.1) KPI (Key Performance Indicators) berechnen

In [76]:
def mean_revenue_by_segment(transactions: pd.DataFrame) -> pd.Series:
    """Compute mean revenue per segment (NaN ignored by default)."""
    return transactions.groupby("segment")["revenue"].mean()
    
# Die Funktion mean_revenue_by_segment berechnet den durchschnittlichen Umsatz (revenue) 
# fÃ¼r jede Kundensegment (segment) im DataFrame transactions.
# Sie gruppiert die Daten nach der Spalte "segment" und berechnet dann den Mittelwert 
# der "revenue" fÃ¼r jede Gruppe. NaN-Werte werden standardmÃ¤ÃŸig ignoriert.

In [77]:
mean_rev = mean_revenue_by_segment(clean_df)
mean_rev


segment
Premium     255.0
Standard     55.0
Name: revenue, dtype: float64

-----------------------------------------------------

## 8) KPI-Ausgabe: Business-tauglich formatieren

### Intuition
Niemand will `dtype: float64` oder 6 Nachkommastellen im Report sehen.

### Technisch
Wir formatieren bewusst mit Python-Output.

### Business
Lesbarkeit = schnellere Entscheidungen und weniger MissverstÃ¤ndnisse.


In [78]:
def print_mean_revenue_by_segment(mean_rev: pd.Series, currency: str = CURRENCY) -> None:
    print("Durchschnittlicher Umsatz pro Segment:\n")
    for segment, value in mean_rev.items():
        if pd.isna(value):
            print(f"{segment}: n/a")
        else:
            print(f"{segment}: {value:.2f} {currency}")
# Diese Funktion print_mean_revenue_by_segment nimmt eine Pandas Series mean_rev, 
# die den durchschnittlichen Umsatz pro Segment enthÃ¤lt,
# und ein optionales Argument currency, das die WÃ¤hrung angibt (Standard ist "â‚¬").
# Sie gibt den durchschnittlichen Umsatz pro Segment in einem lesbaren Format aus.



In [79]:
print_mean_revenue_by_segment(mean_rev)


Durchschnittlicher Umsatz pro Segment:

Premium: 255.00 â‚¬
Standard: 55.00 â‚¬


## 9) Mini-Zusammenfassung

- **Konstanten statt Magic Numbers** â†’ Business-Regeln sind zentral sichtbar.
- **Funktionen trennen Verantwortlichkeiten** â†’ Pipeline ist lesbar und wartbar.
- **Boolean Indexing statt `if`** â†’ Tabellen-Logik korrekt umgesetzt.
- **KPI-Ausgabe formatieren** â†’ Business-taugliche Kommunikation.


## 10) Kontrollfragen

1) Warum sind sprechende Namen wichtiger als Kommentare?  
2) Wann sind Magic Numbers gefÃ¤hrlich?  
3) Warum ist `if` hier schlechter als Boolean Indexing?


## 11) Mini-Aufgabe

Ã„ndere den Schwellenwert auf **250** und beantworte:

1) Wie viele HighValue-Transaktionen bleiben Ã¼brig?  
2) Welche Kunden sind betroffen?  
3) Was Ã¤ndert sich am Segment-KPI (falls Ã¼berhaupt)?

**Tipp:** Du darfst nur eine Stelle Ã¤ndern: `HIGH_VALUE_THRESHOLD`.


In [84]:
# 1) Threshold Ã¤ndern: nur hier
HIGH_VALUE_THRESHOLD = 250

# 2) Pipeline erneut laufen lassen (keine anderen Ã„nderungen)
df = make_dataset()
clean_df = clean_revenue(df)
clean_df = add_high_value_flag(clean_df, threshold=HIGH_VALUE_THRESHOLD)

high_value_rows = get_high_value_rows(clean_df)
mean_rev = mean_revenue_by_segment(clean_df)

print("HighValue count (True):", int(clean_df["HighValue"].sum()))
print(high_value_rows[["customer_id", "revenue", "HighValue"]])

print()
print_mean_revenue_by_segment(mean_rev)


HighValue count (True): 2
   customer_id  revenue  HighValue
3            3    300.0       True
5            4    400.0       True

Durchschnittlicher Umsatz pro Segment:

Premium: 234.00 â‚¬
Standard: 63.33 â‚¬
