
# 01 · Import & Setup

Dieses Notebook richtet das Projekt robust ein, definiert Styles für **wissenschaftlich korrekte** Visualisierungen,
und persistiert das **Mapping Statista → harmonisierte Kategorien (KANON)** sowie eine kleine Projektkonfiguration.


In [6]:

# 01_import_und_setup — Cell 1: Imports, Pfade, Plot-Stil
from __future__ import annotations

from pathlib import Path
import sys, os, json, re
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
from datetime import datetime

# --- Projektpfade robust ermitteln ---
NB_DIR  = Path.cwd().resolve()
BASE    = NB_DIR.parents[0] if NB_DIR.name.lower() == "notebooks" else NB_DIR
DATA    = BASE / "data"
RAW     = DATA / "raw"
OUT     = DATA / "processed"
REPORTS = BASE / "reports"
FIG     = REPORTS / "figures"
for p in (RAW, OUT, FIG): p.mkdir(parents=True, exist_ok=True)

# --- Pandas Anzeigeoptionen ---
pd.set_option("display.max_rows", 100)
pd.set_option("display.max_columns", 50)
pd.set_option("display.width", 120)

# --- Plot-Stil: wissenschaftlich & barrierearm ---
def apply_scientific_style():
    plt.rcParams.update({
        "figure.dpi": 120,
        "savefig.dpi": 300,
        "font.size": 11,
        "axes.titlesize": 12,
        "axes.labelsize": 11,
        "axes.grid": True,
        "grid.alpha": 0.2,
        "axes.spines.top": False,
        "axes.spines.right": False,
        "axes.formatter.use_locale": False,
    })
apply_scientific_style()

def percent_axis(ax, axis="y", decimals=0, limit=(0, 100)):
    "Einheitliche Prozent-Achse (0–100 %)"
    fmt = mtick.PercentFormatter(xmax=100, decimals=decimals)
    if axis == "y":
        ax.set_ylim(*limit)
        ax.yaxis.set_major_formatter(fmt)
    else:
        ax.set_xlim(*limit)
        ax.xaxis.set_major_formatter(fmt)


In [7]:

# 01_import_und_setup — Cell 2: KANON & Mapping (Statista → KANON)
KANON: list[str] = [
    "Kleidung / Schuhe",
    "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    "Lebensmittel / Getränke",
    "Bücher / Medien / Software",
    "Medikamente / Drogerieartikel",
    "Hobby- & Freizeitartikel",
    "Möbel / Wohnaccessoires",
]

MAP_STATISTA: dict[str, str] = {
    # --- 2021 ---
    "Fashion & Accessoires": "Kleidung / Schuhe",
    "Freizeit": "Hobby- & Freizeitartikel",
    "Kosmetik & Drogerie": "Medikamente / Drogerieartikel",
    "Medikamente & Gesundheit": "Medikamente / Drogerieartikel",
    "Wohnen & Einrichten": "Möbel / Wohnaccessoires",
    "Consumer Electronics/Elektrogeräte": "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    "Heimwerken & Garten": "Hobby- & Freizeitartikel",
    "Sport- und Outdoorausrüstung": "Hobby- & Freizeitartikel",
    "Lebensmittel": "Lebensmittel / Getränke",
    "Getränke": "Lebensmittel / Getränke",
    # --- 2022 ---
    "Kleidung, Schuhe, Accessoires": "Kleidung / Schuhe",
    "Bücher, Hörbücher": "Bücher / Medien / Software",
    "Elektrozubehör": "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    "Medikamente": "Medikamente / Drogerieartikel",
    "Kosmetik, Parfum und Pflegeprodukte": "Medikamente / Drogerieartikel",
    "Möbel, Wohnen und Dekoration": "Möbel / Wohnaccessoires",
    "Elektronische Haushaltsgeräte": "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    "Lebensmittel, Getränke": "Lebensmittel / Getränke",
    "Heimwerkerbedarf": "Hobby- & Freizeitartikel",
    "Spielzeug / Spiele": "Hobby- & Freizeitartikel",
    "Smartphones / Handys": "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    "Musik / Filme auf CD / DVD / Blu-ray": "Bücher / Medien / Software",
    "Computer: Desktop-PC, Tablet, Laptop": "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    "Gartengeräte": "Hobby- & Freizeitartikel",
    "Software": "Bücher / Medien / Software",
    "Unterhaltungselektronik": "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    # --- 2024 ---
    "Bekleidung": "Kleidung / Schuhe",
    "Schuhe": "Kleidung / Schuhe",
    "Accessoires": "Kleidung / Schuhe",
    "Drogerie & Gesundheit": "Medikamente / Drogerieartikel",
    "Kosmetik & Körperpflege": "Medikamente / Drogerieartikel",
    "Bücher, Filme, Musik & Spiele (keine Downloads)": "Bücher / Medien / Software",
    "Unterhaltungselektronik (z. B. Fernseher, Smartphones)": "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    "Haushaltsgeräte": "Elektronik (z. B. Smartphones, Haushaltsgeräte)",
    "Lebensmittel und Getränke (ausgenommen Lieferungen von Restaurants)": "Lebensmittel / Getränke",
    "Möbel & Haushaltswaren": "Möbel / Wohnaccessoires",
    "Spielzeug & Babyprodukte": "Hobby- & Freizeitartikel",
    "Sport- & Outdoor-Artikel": "Hobby- & Freizeitartikel",
    "DIY, Heimwerker- und Gartenbedarf": "Hobby- & Freizeitartikel",
    "Hobby & Schreibwaren": "Hobby- & Freizeitartikel",
}


In [8]:

# 01_import_und_setup — Cell 3: Normalisierung & Validierung
def norm_text(s: str) -> str:
    "Robuste Text-Normalisierung für Mapping-Lookups."
    if pd.isna(s): return ""
    s = str(s).strip().lower()
    s = s.replace("&", "und").replace("-", " ")
    s = re.sub(r"\s+", " ", s)
    s = s.replace("accressoires", "accessoires").replace("hi tech", "high tech")
    return s

def make_map_norm(map_statista: dict[str, str]) -> dict[str, str]:
    return {norm_text(k): v for k, v in map_statista.items()}

MAP_NORM: dict[str, str] = make_map_norm(MAP_STATISTA)

# Sanity-Check: doppelte Normalisate?
from collections import Counter
_counts = Counter(norm_text(k) for k in MAP_STATISTA)
_dups = [k for k, n in _counts.items() if n > 1]
if _dups:
    print("Warnung: doppelte normalisierte Keys im Mapping:", _dups)
else:
    print("Mapping OK – keine doppelten normalisierten Keys.")


Mapping OK – keine doppelten normalisierten Keys.


In [9]:

# 01_import_und_setup — Cell 4: Mapping/Config persistieren
mapping_df = pd.DataFrame(
    [{"source": k, "source_normalized": norm_text(k), "kanon": v} for k, v in MAP_STATISTA.items()]
).sort_values(["kanon", "source"]).reset_index(drop=True)

MAP_CSV = OUT / "mapping_statista_to_kanon.csv"
mapping_df.to_csv(MAP_CSV, index=False, encoding="utf-8")
display(mapping_df.head(10))

CONFIG = {
    "generated_at": datetime.now().isoformat(timespec="seconds"),
    "base": str(BASE),
    "paths": {
        "raw": str(RAW),
        "processed": str(OUT),
        "reports": str(REPORTS),
        "figures": str(FIG),
        "mapping_csv": str(MAP_CSV),
    },
    "kanon": KANON,
}
CONFIG_PATH = OUT / "project_config.json"
CONFIG_PATH.write_text(json.dumps(CONFIG, indent=2, ensure_ascii=False), encoding="utf-8")
print("Konfiguration gespeichert →", CONFIG_PATH)


Unnamed: 0,source,source_normalized,kanon
0,"Bücher, Filme, Musik & Spiele (keine Downloads)","bücher, filme, musik und spiele (keine downloads)",Bücher / Medien / Software
1,"Bücher, Hörbücher","bücher, hörbücher",Bücher / Medien / Software
2,Musik / Filme auf CD / DVD / Blu-ray,musik / filme auf cd / dvd / blu ray,Bücher / Medien / Software
3,Software,software,Bücher / Medien / Software
4,"Computer: Desktop-PC, Tablet, Laptop","computer: desktop pc, tablet, laptop","Elektronik (z. B. Smartphones, Haushaltsgeräte)"
5,Consumer Electronics/Elektrogeräte,consumer electronics/elektrogeräte,"Elektronik (z. B. Smartphones, Haushaltsgeräte)"
6,Elektronische Haushaltsgeräte,elektronische haushaltsgeräte,"Elektronik (z. B. Smartphones, Haushaltsgeräte)"
7,Elektrozubehör,elektrozubehör,"Elektronik (z. B. Smartphones, Haushaltsgeräte)"
8,Haushaltsgeräte,haushaltsgeräte,"Elektronik (z. B. Smartphones, Haushaltsgeräte)"
9,Smartphones / Handys,smartphones / handys,"Elektronik (z. B. Smartphones, Haushaltsgeräte)"


Konfiguration gespeichert → D:\Q3_2025\data-analytics\project\data\processed\project_config.json


In [10]:

# 01_import_und_setup — Cell 5: Environment-Check
def env_summary():
    import platform
    print("== Environment ==")
    print("Python   :", platform.python_version())
    print("Pandas   :", pd.__version__)
    print("Matplotlib:", plt.matplotlib.__version__)
    print("Base     :", BASE)
    print("RAW      :", RAW)
    print("OUT      :", OUT)
    print("FIG      :", FIG)
    print("Mapping  :", OUT / "mapping_statista_to_kanon.csv")
    print("Notebook :", NB_DIR)
    print()
env_summary()
print("Setup abgeschlossen. Weiter mit 02_harmonisierung.ipynb → Rohdaten laden & harmonisieren.")


== Environment ==
Python   : 3.13.5
Pandas   : 2.2.3
Matplotlib: 3.10.0
Base     : D:\Q3_2025\data-analytics\project
RAW      : D:\Q3_2025\data-analytics\project\data\raw
OUT      : D:\Q3_2025\data-analytics\project\data\processed
FIG      : D:\Q3_2025\data-analytics\project\reports\figures
Mapping  : D:\Q3_2025\data-analytics\project\data\processed\mapping_statista_to_kanon.csv
Notebook : D:\Q3_2025\data-analytics\project\notebooks

Setup abgeschlossen. Weiter mit 02_harmonisierung.ipynb → Rohdaten laden & harmonisieren.
