<a href="https://colab.research.google.com/github/AgusLuigi/retail_demand_analysis/blob/retail_demand_forecast/Standard_DATA_ANALIST.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DATA ANALIST

#1. Problemdefinition und Datenerfassung
 - Was soll mit der Analyse erreicht werden?
 - Wer sind die Stakeholder und was sind ihre Erwartungen?

# Vereinfachte Informationsausgabe

✅ 1. Technisch – Tiefer gehen als Standard

Du hast bereits: Missing Values, Sonderzeichen, Duplikate, Outlier-Check.
Für 1 musst du zeigen, dass du:

Mehrere Methoden vergleichst:
→ z. B. Imputation mit Median und KNN/Regression vergleichen und kurz begründen.

Datenlogik prüfst:
→ z. B. unit_price = revenue / nb_sold muss in einem plausiblen Preisbereich liegen.
→ Wenn Werte unlogisch sind, kennzeichnen oder korrigieren.

Datenqualität dokumentierst:
→ Before/After-Tabelle (wie viele Fehler behoben).
→ Visuals: Heatmap für Missing Values, Boxplots für Ausreißer.

Plausibilitäts-Checks mit Business-Verstand:
→ years_as_customer > 60 → erklären (realistisch oder Datenfehler?).

👉 Hier punkten Prüfer: du denkst über die Zahlen hinaus.

✅ 2. Business Metrics (KPI) – Messen & Baseline

„Insufficient“ hattest du bei Business Metrics.
Für eine 1 brauchst du:

Mindestens 2 relevante KPIs definieren (z. B. Conversion Rate, Revenue per Customer, Retention).

Baseline-Wert berechnen (z. B. durchschnittliche Conversion Rate = 12,3%).

Ziel definieren (z. B. „+2% Conversion in 3 Monaten“).

Visualisierung: z. B. Trendplot der Conversion über die Wochen.

Handlungsempfehlung: was tun, wenn KPI sinkt/steigt?

👉 Damit zeigst du: Ich mache nicht nur Daten sauber, sondern liefere messbare Business-Werte.

✅ 3. Kommunikation – Story & Präsentation

Viele fallen hier zurück, weil sie nur Code zeigen. Für eine 1 brauchst du:

Storytelling-Struktur in deiner Abgabe/Präsentation:

Problem (Warum schauen wir auf diese Daten?)

Vorgehen (Data Validation, Visualisation, Metrics)

Erkenntnisse (Welche Muster gefunden?)

Empfehlungen (Was soll das Business tun?)

Executive Summary (1 Seite/Folie):

3 Haupt-Insights

2 KPIs mit Baseline + Ziel

1 Handlungsempfehlung

Visuals einfach & klar (kein Code-Screenshot, sondern saubere Diagramme mit Titel, Achsen, Takeaway).

📌 To-do-Liste für dich (auf eine 1 hinarbeiten)

Data Validation ausbauen

Alternative Imputation (Median vs. KNN).

Outlier-Analyse mit Visualisierung (Boxplot, Histogramm).

Konsistenzprüfung (Revenue vs nb_sold).

Before/After Dokumentation.

Business Metrics hinzufügen

2 KPIs definieren (z. B. Umsatz/Kunde, Conversion Rate).

Baseline berechnen.

Ziel formulieren.

Trendvisualisierung.

Kommunikation verbessern

Ergebnisse nicht nur als Output, sondern als Bericht zusammenfassen.

Executive Summary + klare Handlungsempfehlungen.

# 2. Datenbereinigung und -aufbereitung (Data Preprocessing)

Behandlung fehlender Werte: Ersetzen, Löschen oder Imputieren von Daten.

Fehlerbehebung: Korrektur von Tippfehlern, inkonsistenten Werten oder strukturellen Fehlern.

Formatierung: Umwandlung von Datentypen, z.B. von Text in Zahlen oder Datumsformate.

Duplikatentfernung: Identifizierung und Löschung doppelter Einträge.

# SEMANTISCHE ERKENUNG + Daten deteils + BEREINIGUNGS + ML data qualyty + ML vorbereitung

In [None]:
import pandas as pd
import numpy as np
import warnings
import re
from typing import Dict, Any, List, Callable, Union

# ======================================================
# Erläuterung des Skripts
# ======================================================
"""
Dieses Skript ist ein optimierter Datenqualitäts-Workflow, der einen umfassenden
Bericht über einen Pandas DataFrame erstellt. Er analysiert die Spalten
basierend auf ihrem Inhalt und Namen, um den semantischen Typ zu erkennen (z. B.
Datum, Text, Integer, Währung). Auf dieser Grundlage identifiziert er potenzielle
Datenprobleme und generiert automatisch Vorschläge zur Bereinigung und
Vorverarbeitung der Daten, was besonders für Machine-Learning-Anwendungen
nützlich ist.

Der generierte Bericht ist in vier logische Module unterteilt:

MODUL 1: ALLGEMEINE ÜBERSICHT
- Zeigt grundlegende Informationen wie den semantischen Typ, den ursprünglichen
  Datentyp, die Anzahl fehlender Werte und die Anzahl der einzigartigen Werte
  für jede Spalte. Es bietet einen schnellen Überblick über die Struktur und den
  Zustand Ihrer Daten.

MODUL 2: STATISTISCHE KENNZAHLEN
- Stellt statistische Kennzahlen wie Minimum, Quartile (25%, 50%, 75%) und
  Maximum für alle numerischen Spalten bereit. Dies hilft, die Verteilung der
  Daten besser zu verstehen und erste Anomalien zu erkennen.

MODUL 3: PROBLEME & BEREINIGUNGSVORSCHLÄGE
- Identifiziert spezifische Probleme wie fehlende Werte oder Text-Inkonsistenzen.
- Basierend auf diesen Problemen generiert das Skript einen Bereinigungscode zum
  Kopieren. Die Vorschläge folgen einer logischen Reihenfolge:
  1. Typkonvertierung: Zum Beispiel die Umwandlung von Strings in numerische oder
     Datumsformate.
  2. Missing-Value-Imputation: Fehlende Werte werden durch intelligente Methoden
     gefüllt. Für Textspalten wird versucht, einen passenden Modus basierend auf
     verwandten Spalten zu finden, während für numerische Spalten der Median
     verwendet wird.

MODUL 4: ML-RELEVANTE ANALYSE
- Untersucht die Verteilung numerischer Spalten auf Schiefe (Skewness) und
  identifiziert Ausreißer mittels der IQR-Methode. Es analysiert auch hohe
  Korrelationen zwischen den Spalten.
- Das Modul schlägt spezifische Vorverarbeitungsschritte vor, wie das Capping
  von Ausreißern oder Log-Transformationen, um die Daten für Machine-Learning-Modelle
  vorzubereiten.

Args:
    df (pd.DataFrame): Der zu analysierende DataFrame.

Returns:
    None: Der Bericht wird direkt auf der Konsole ausgegeben.
"""
# ======================================================

# Abkürzungs- und Tippfehler-Wörterbuch für die Textbereinigung
TEXT_CORRECTION_MAP = {
    'str.': 'Straße',
    'str': 'Straße',
    'st.': 'Sankt',
    'z.b.': 'zum Beispiel',
    'usw.': 'und so weiter',
    'z.t.': 'zum Teil',
    'ltd.': 'limited',
    'inc.': 'incorporated',
    'corp.': 'corporation',
    'gmbh': 'GmbH',
    'ag': 'AG',
    'yes': 'ja',
    'no': 'nein'
}

def _correct_spelling_and_expand_abbr(text: str) -> str:
    """
    Korrigiert häufige Schreibfehler und erweitert Abkürzungen in einem Text.

    Args:
        text (str): Der Eingabetext, der korrigiert werden soll.

    Returns:
        str: Der korrigierte Text.
    """
    if pd.isna(text):
        return text
    text_lower = text.lower().strip()
    words = text_lower.split()
    corrected_words = [TEXT_CORRECTION_MAP.get(word, word) for word in words]
    return ' '.join(corrected_words)

def generate_cleaning_code(column: str, semantic_type: str) -> str:
    """
    Generiert einen Python-Code-Vorschlag zur Datenbereinigung basierend auf dem
    erkannten semantischen Typ.

    Args:
        column (str): Der Name der zu bereinigenden Spalte.
        semantic_type (str): Der erkannte semantische Typ der Spalte.

    Returns:
        str: Eine Code-Zeile zur Bereinigung der Spalte.
    """
    if semantic_type == 'Datum/Zeit':
        return f"df['{column}'] = pd.to_datetime(df['{column}'], errors='coerce')"
    elif semantic_type == 'ID':
        return f"df['{column}'] = df['{column}'].astype('object')"
    elif semantic_type == 'Boolean':
        return f"df['{column}'] = df['{column}'].astype(bool)"
    elif semantic_type == 'Integer':
        return f"df['{column}'] = pd.to_numeric(df['{column}'], errors='coerce').astype('Int64')"
    elif 'Float' in semantic_type:
        return f"df['{column}'] = pd.to_numeric(df['{column}'].astype(str).str.replace(',', '.'), errors='coerce')"
    else:
        return ""

def _fill_missing_with_pattern_mode(df: pd.DataFrame, target_col: str, group_col: str) -> pd.DataFrame:
    """
    Füllt fehlende Werte in einer Spalte basierend auf dem häufigsten Wert
    innerhalb einer Gruppe (Modus).

    Args:
        df (pd.DataFrame): Der zu verarbeitende DataFrame.
        target_col (str): Die Spalte mit fehlenden Werten.
        group_col (str): Die Spalte, nach der gruppiert werden soll.

    Returns:
        pd.DataFrame: Der DataFrame mit gefüllten fehlenden Werten.
    """
    print(f"    - Fülle fehlende Werte in '{target_col}' basierend auf '{group_col}'")

    if target_col not in df.columns or group_col not in df.columns:
        print(f"      FEHLER: Spalten '{target_col}' oder '{group_col}' nicht gefunden. Überspringe.")
        return df

    mode_by_group = df.groupby(group_col)[target_col].apply(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan)
    mode_by_group.name = 'pattern_mode'

    df = df.merge(mode_by_group, on=group_col, how='left', suffixes=('', '_pattern'))

    df[target_col] = df[target_col].fillna(df['pattern_mode'])
    df = df.drop(columns='pattern_mode')

    global_mode = df[target_col].mode()
    if not global_mode.empty:
        df[target_col] = df[target_col].fillna(global_mode.iloc[0])

    return df

def _find_best_grouping_column(df: pd.DataFrame, target_col: str, df_analysis: pd.DataFrame) -> Union[str, None]:
    """
    Findet die beste Gruppierungsspalte für eine Zielspalte, basierend auf dem
    statistischen Abhängigkeits-Score.

    Args:
        df (pd.DataFrame): Der zu verarbeitende DataFrame.
        target_col (str): Die Spalte, die gefüllt werden soll.
        df_analysis (pd.DataFrame): Der DataFrame mit der semantischen Analyse.

    Returns:
        Union[str, None]: Der Name der besten Gruppierungsspalte oder None.
    """
    text_columns = [col for col, sem_type in zip(df_analysis['Spalte'], df_analysis['Semantischer Typ'])
                    if 'Text' in sem_type and col != target_col]

    if not text_columns:
        return None

    best_group_col = None
    best_score = float('inf')

    df_clean = df.dropna(subset=[target_col])
    if df_clean.empty:
        return None

    for group_col in text_columns:
        if group_col in df_clean.columns:
            dependency_score = df_clean.groupby(group_col)[target_col].nunique().mean()
            if dependency_score < best_score:
                best_score = dependency_score
                best_group_col = group_col

    if best_score < 1.2:
        return best_group_col

    return None

def analyze_semantic_type_v3(df: pd.DataFrame) -> pd.DataFrame:
    """
    Analysiert die semantischen Datentypen der Spalten in einem DataFrame mit
    einer angepassten Logik, bei der Spaltenname und Inhalt für die
    semantische Klassifizierung übereinstimmen müssen.

    Args:
        df (pd.DataFrame): Der zu analysierende DataFrame.

    Returns:
        pd.DataFrame: Ein DataFrame mit den Spaltennamen, ursprünglichen Datentypen
                      und den erkannten semantischen Typen.
    """
    SEMANTIC_HINTS_PRIORITY: Dict[str, Dict[str, Union[set, Callable]]] = {
        'ID': {
            'keywords': {'id', 'session_id', 'trip_id', 'user_id', 'unique_id', 'kundennummer', 'bestellnr', 'order_id', 'artikelnummer'},
            'validation_func': lambda s: ((s.dropna().astype(str).apply(len) >= 5).any())
        },
        'Datum/Zeit': {
            'keywords': {'week','datum', 'zeit', 'date', 'time', 'start', 'end', 'birthdate', 'signup_date', 'check_in', 'check_out', 'departure', 'return', 'geburtstag', 'timestamp', 'creation_date', 'modified_date', 'erstellt'},
            'validation_func': lambda s: (pd.to_datetime(s.dropna(), errors='coerce').notna().all() or (s.dropna().astype(str).str.contains(r'[-_/]', na=False).any() and s.dropna().astype(str).str.contains(r'\d{4}', na=False).any()))
        },
        'Geometrisch': {
            'keywords': {'geom', 'geometry', 'shape', 'wkt', 'geojson', 'coordinates', 'location_data'},
            'validation_func': lambda s: (s.dropna().astype(str).str.contains(r'^(POINT|LINESTRING|POLYGON|MULTIPOINT|MULTILINESTRING|MULTIPOLYGON)\s*\(', regex=True, na=False).any() or s.dropna().astype(str).str.contains(r'{"type":\s*"(Point|LineString|Polygon|MultiPoint|MultiLineString|MultiPolygon)"', regex=True, na=False).any())
        },
    }
    SEMANTIC_HINTS_TEXT: Dict[str, Dict[str, Union[set, Callable]]] = {
        'Text (Kategorisch)': {
            'keywords': {'city', 'country', 'länder', 'region', 'state', 'bundesland', 'zip', 'plz'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (Gender)': {
            'keywords': {'geschlecht', 'typ', 'category', 'art', 'gender','method'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (object)': {
            'keywords': {'airport', 'destination', 'origin', 'heimat', 'status','class'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (Freitext)': {
            'keywords': {'name', 'hotel', 'airline', 'beschreibung', 'kommentar', 'nachricht', 'adresse'},
            'validation_func': lambda s: pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype)
        },
    }
    SEMANTIC_HINTS_NUMERIC: Dict[str, Dict[str, Union[set, Callable]]] = {
        'Boolean': {
            'keywords': {'boolean', 'bool', 'booked', 'married', 'cancellation', 'children','discount'},
            'validation_func': lambda s: (s.dropna().nunique() == 2) and (pd.api.types.is_bool_dtype(s.dropna()) or set(s.dropna().astype(str).str.lower().str.strip().unique()).issubset({'true', 'false', '1', '0', 'ja', 'nein', 'yes', 'no', 't', 'f', 'wahr', 'falsch'}))
        },
        'Float (Geografisch)': {
            'keywords': {'lat', 'lon', 'latitude', 'longitude'},
            'validation_func': lambda s: pd.to_numeric(s, errors='coerce').notna().all() and pd.api.types.is_float_dtype(s)
        },
        'Float (Prozentsatz)': {
            'keywords': {'percent', 'pct', 'rate', 'discount', '%'},
            'validation_func': lambda s: (pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').dropna().between(0, 1).all() or pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').dropna().between(0, 100).all()) or pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').notna().all() and s.dropna().astype(str).str.replace('%', '').str.replace(',', '.').str.match(r'^\d{1,3}(\.\d{1,3})?$').all()
        },
        'Float (Waehrung)': {
            'keywords': {'preis','price', 'kosten', 'betrag', 'revenue', 'dollar', 'euro', 'yen', 'usd', 'eur', 'fare','chf', 'gbp', 'sek', 'jpy', '€', '£', '$'},
            'validation_func': lambda s: (pd.api.types.is_numeric_dtype(s.dropna()) or pd.to_numeric(s.dropna().astype(str).str.replace(',', '.'), errors='coerce').notna().all()) and s.dropna().nunique() > 2
        },
        'Float (Masse)': {
            'keywords': {'circularity', 'distance_circularity', 'radius_ratio', 'max.length_aspect_ratio', 'scaled_radius_of_gyration', 'scaled_radius_of_gyration.1', 'pr.axis_aspect_ratio', 'pr.axis_rectangularity', 'scaled_variance', 'scaled_variance.1', 'scatter_ratio', 'elongatedness', 'skewness_about', 'skewness_about.1', 'skewness_about.2', 'gewicht', 'length', 'width', 'height', 'weight'},
            'validation_func': lambda s: pd.api.types.is_numeric_dtype(s) and s.dropna().nunique() > 2
        },
        'Integer': {
            'keywords': {'nb','anzahl', 'menge', 'stueck', 'stk', 'count', 'qty', 'seats', 'rooms', 'nights', 'bags', 'clicks', 'nummer', 'nr', 'quantity', 'val', 'rating','years_as_customer'},
            'validation_func': lambda s: pd.to_numeric(s.dropna(), errors='coerce').notna().all() and (pd.to_numeric(s.dropna(), errors='coerce').dropna().apply(lambda x: x.is_integer() if isinstance(x, float) else True).all())
        }
    }
    results: List[Dict[str, str]] = []
    hint_categories = [SEMANTIC_HINTS_PRIORITY, SEMANTIC_HINTS_TEXT, SEMANTIC_HINTS_NUMERIC]
    SEMANTIC_HINTS_NUMERIC_ORDERED: List[str] = ['Boolean', 'Float (Geografisch)', 'Float (Prozentsatz)', 'Float (Waehrung)','Float (Masse)', 'Integer']

    with warnings.catch_warnings():
        warnings.simplefilter("ignore", DeprecationWarning)
        warnings.simplefilter("ignore", UserWarning)

        for column in df.columns:
            original_dtype: str = str(df[column].dtype)
            semantic_type: str = original_dtype
            column_lower: str = column.lower()
            found_match: bool = False

            for hint_group in hint_categories:
                if found_match:
                    break
                if hint_group is SEMANTIC_HINTS_NUMERIC:
                    for sem_type in SEMANTIC_HINTS_NUMERIC_ORDERED:
                        hints = hint_group[sem_type]
                        name_match = any(keyword in column_lower for keyword in hints['keywords'])
                        content_valid = False
                        try:
                            content_valid = hints['validation_func'](df[column])
                        except Exception:
                            pass
                        if name_match and content_valid:
                            semantic_type = sem_type
                            found_match = True
                            break
                else:
                    for sem_type, hints in hint_group.items():
                        name_match = any(keyword in column_lower for keyword in hints['keywords'])
                        content_valid = False
                        try:
                            content_valid = hints['validation_func'](df[column])
                        except Exception:
                            pass
                        if name_match and content_valid:
                            semantic_type = sem_type
                            found_match = True
                            break

            cleaning_code = generate_cleaning_code(column, semantic_type)
            results.append({
                'Spalte': column,
                'Ursprünglicher Datentyp': original_dtype,
                'Semantischer Typ': semantic_type,
                'Bereinigungscode': cleaning_code
            })
    return pd.DataFrame(results)

def _find_semantic_groups(df_analysis: pd.DataFrame) -> List[str]:
    """
    Findet Spalten, die semantisch zusammengehören (z. B. 'Gewicht Länge' und
    'Gewicht Breite'), und generiert entsprechende Feature-Engineering-Vorschläge.

    Args:
        df_analysis (pd.DataFrame): Der DataFrame mit der semantischen Analyse.

    Returns:
        List[str]: Eine Liste von Code-Snippets für das Feature Engineering.
    """
    print("\n" + "--- Analysiere Spalten für semantische Gruppen ---")
    ml_snippets = []
    groups = {}

    for _, row in df_analysis.iterrows():
        column = row['Spalte']
        semantic_type = row['Semantischer Typ']

        # Nur numerische Spalten mit verwandten Namen berücksichtigen
        if 'Float' in semantic_type or 'Integer' in semantic_type:
            # Einfache Tokenisierung und Normalisierung des Spaltennamens
            tokens = re.split(r'[\s\._\-]', column.lower())

            # Schlüsselwörter für Länge, Breite, Höhe etc.
            if any(dim_token in tokens for dim_token in ['länge', 'breite', 'höhe', 'length', 'width', 'height']):
                # Findet den Präfix (z.B. 'gewicht', 'preis')
                prefix = next((t for t in tokens if t not in ['länge', 'breite', 'höhe', 'length', 'width', 'height']), None)
                if prefix:
                    if prefix not in groups:
                        groups[prefix] = []
                    groups[prefix].append(column)

    if groups:
        print("Folgende semantische Spaltengruppen wurden identifiziert:")
        for prefix, cols in groups.items():
            if len(cols) > 1:
                print(f"- Gruppe '{prefix}': {cols}")

                # Generiere Feature-Engineering-Code
                if len(cols) == 2:
                    col1 = cols[0]
                    col2 = cols[1]
                    new_col_name = f"{prefix}_fläche"
                    ml_snippets.append(f"# Erstelle neues Merkmal '{new_col_name}' aus '{col1}' und '{col2}'")
                    ml_snippets.append(f"df['{new_col_name}'] = df['{col1}'] * df['{col2}']")
                elif len(cols) == 3:
                    col1 = cols[0]
                    col2 = cols[1]
                    col3 = cols[2]
                    new_col_name = f"{prefix}_volumen"
                    ml_snippets.append(f"# Erstelle neues Merkmal '{new_col_name}' aus '{col1}', '{col2}' und '{col3}'")
                    ml_snippets.append(f"df['{new_col_name}'] = df['{col1}'] * df['{col2}'] * df['{col3}']")
    else:
        print("Keine relevanten semantischen Spaltengruppen gefunden.")

    return ml_snippets


def bereinige(df: pd.DataFrame, cleaning_snippets: List[str], ml_snippets: List[str]) -> pd.DataFrame:
    """
    Führt die gesammelten Bereinigungs- und ML-Vorbereitungsschritte aus,
    wobei die Bereinigung vor der ML-Vorbereitung angewendet wird.

    Args:
        df (pd.DataFrame): Der zu bereinigende DataFrame.
        cleaning_snippets (List[str]): Eine Liste von allgemeinen Bereinigungssnippets.
        ml_snippets (List[str]): Eine Liste von ML-Vorbereitungssnippets.

    Returns:
        pd.DataFrame: Der bereinigte DataFrame.
    """
    df_temp = df.copy()

    exec_globals = {
        'pd': pd,
        'np': np,
        '_correct_spelling_and_expand_abbr': _correct_spelling_and_expand_abbr,
        '_fill_missing_with_pattern_mode': _fill_missing_with_pattern_mode
    }

    print("--- Führe allgemeine Bereinigungsschritte aus ---")
    for snippet in sorted(list(set(cleaning_snippets))):
        try:
            exec(snippet, exec_globals, {'df': df_temp})
        except Exception as e:
            print(f"Fehler beim Ausführen des Bereinigungsschritts: '{snippet}' - {e}")

    print("\n--- Führe ML-Vorbereitungsschritte aus ---")
    for snippet in sorted(list(set(ml_snippets))):
        try:
            exec(snippet, exec_globals, {'df': df_temp})
        except Exception as e:
            print(f"Fehler beim Ausführen des ML-Schritts: '{snippet}' - {e}")

    return df_temp

def muster_df(df: pd.DataFrame) -> (List[str], List[str]):
    """
    Führt den gesamten Datenqualitäts-Workflow aus:
    1. Analysiert semantische Datentypen.
    2. Erstellt einen detaillierten Bericht mit Problemen und statistischen Werten.
    3. Gibt Bereinigungs- und ML-Vorbereitungscodes aus.

    Args:
        df (pd.DataFrame): Der zu analysierende DataFrame.

    Returns:
        Tuple[List[str], List[str]]: Zwei Listen mit den Bereinigungs-
        und ML-Vorbereitungssnippets.
    """
    df_analysis = analyze_semantic_type_v3(df)

    general_report_data = []
    statistical_table_data = []
    problems_report_data = []
    cleaning_snippets = []
    visual_proofs = []

    ml_report_data = []
    ml_cleaning_snippets = []

    # Dynamische Bestimmung der numerischen und Text-Spalten basierend auf der Analyse
    # Hier werden alle Spalten mit numerischen semantischen Typen gesammelt
    numeric_semantic_types = {t for t in df_analysis['Semantischer Typ'] if 'Float' in t or 'Integer' in t or 'Boolean' in t}
    # Hier werden alle Spalten mit Text-semantischen Typen gesammelt
    text_semantic_types = {t for t in df_analysis['Semantischer Typ'] if 'Text' in t}
    # Die Gesamtliste der relevanten Typen für die Bereinigung
    relevant_semantic_types = numeric_semantic_types.union(text_semantic_types)

    # PHASE 1: DATENERFASSUNG & ANALYSE
    for _, row in df_analysis.iterrows():
        column = row['Spalte']
        semantic_type = row['Semantischer Typ']
        original_dtype = row['Ursprünglicher Datentyp']
        series = df[column]

        missing_count = series.isnull().sum()
        missing_percent = round((missing_count / len(series)) * 100, 2)
        unique_values = series.nunique()
        general_report_data.append({
            'Spalte': column,
            'Semantischer Typ': semantic_type,
            'Ursprünglicher Datentyp': original_dtype,
            'Fehlende Werte (%)': missing_percent,
            'Fehlende Werte (Anzahl)': missing_count,
            'Einzigartige Werte': unique_values
        })

        # Dynamische Auswahl: Berücksichtigt alle numerischen semantischen Typen
        if semantic_type in numeric_semantic_types:
            try:
                numeric_series = pd.to_numeric(series, errors='coerce').dropna()
                if not numeric_series.empty:
                    q1, median, q3 = numeric_series.quantile([0.25, 0.5, 0.75])
                    min_val = numeric_series.min()
                    max_val = numeric_series.max()

                    statistical_table_data.append({
                        'Spalte': column,
                        'Min': round(min_val, 2),
                        '25% (Q1)': round(q1, 2),
                        'Median': round(median, 2),
                        '75% (Q3)': round(q3, 2),
                        'Max': round(max_val, 2)
                    })
            except Exception:
                pass

        problems = []
        is_string_like = pd.api.types.is_string_dtype(series) or pd.api.types.is_object_dtype(series)

        if missing_count > 0:
            problems.append('Fehlende Werte')
        if is_string_like:
            text_series = series.dropna().astype(str)
            if not text_series.equals(text_series.str.strip().str.lower()):
                problems.append('Text-Inkonsistenzen')

        if problems:
            problems_report_data.append({
                'Spalte': column,
                'Probleme': ', '.join(problems)
            })

        # Dynamische Auswahl: Berücksichtigt alle relevanten Typen
        if semantic_type in relevant_semantic_types:
            snippets_for_col = []

            if 'Text' in semantic_type:
                snippets_for_col.append(f"df['{column}'] = df['{column}'].astype(str).str.lower().str.strip()")
                snippets_for_col.append(f"df['{column}'] = df['{column}'].apply(_correct_spelling_and_expand_abbr)")
            elif 'Float' in semantic_type or 'Integer' in semantic_type:
                snippets_for_col.append(generate_cleaning_code(column, semantic_type))

            if missing_count > 0:
                if 'Text' in semantic_type:
                    group_col = _find_best_grouping_column(df, column, df_analysis)
                    if group_col:
                        snippets_for_col.append(f"df = _fill_missing_with_pattern_mode(df, '{column}', '{group_col}')")
                        grouped_mode = df.groupby(group_col)[column].apply(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan)
                        visual_df = pd.DataFrame({
                            'Gruppierung': df[group_col].dropna().unique(),
                            'Erkannter Modus': [grouped_mode.loc[g] for g in df[group_col].dropna().unique()]
                        })
                        visual_df = visual_df.head(5)
                        visual_proofs.append({'target': column, 'group': group_col, 'data': visual_df})
                    else:
                        snippets_for_col.append(f"df['{column}'] = df['{column}'].fillna(df['{column}'].mode()[0])")
                elif pd.api.types.is_numeric_dtype(series):
                    median_val = series.median()
                    if pd.notna(median_val):
                        snippets_for_col.append(f"df['{column}'] = df['{column}'].fillna(df['{column}'].median())")
                    else:
                        snippets_for_col.append(f"df['{column}'] = df['{column}'].fillna(0)")

            cleaning_snippets.extend([s for s in snippets_for_col if s])

        # Dynamische Auswahl: Berücksichtigt alle numerischen semantischen Typen
        if semantic_type in numeric_semantic_types:
            try:
                numeric_series = pd.to_numeric(series, errors='coerce').dropna()
                if not numeric_series.empty:
                    skewness = round(numeric_series.skew(), 2)

                    Q1 = numeric_series.quantile(0.25)
                    Q3 = numeric_series.quantile(0.75)
                    IQR = Q3 - Q1
                    lower_bound = Q1 - 1.5 * IQR
                    upper_bound = Q3 + 1.5 * IQR
                    outliers_count = ((numeric_series < lower_bound) | (numeric_series > upper_bound)).sum()

                    ml_report_data.append({
                        'Spalte': column,
                        'Skewness': skewness,
                        'Ausreißer (IQR-Methode)': outliers_count
                    })

                    if outliers_count > 0:
                        ml_cleaning_snippets.append(f"df['{column}'] = df['{column}'].clip(lower=df['{column}'].quantile(0.05), upper=df['{column}'].quantile(0.95)) # Ausreißer cappen")
                    if skewness > 1 or skewness < -1:
                        ml_cleaning_snippets.append(f"df['{column}'] = np.log1p(df['{column}']) # Log-Transformation zur Reduzierung der Schiefe")
            except Exception:
                pass

    numeric_df = df.select_dtypes(include=np.number)
    corr_report = []
    if not numeric_df.empty:
        corr_matrix = numeric_df.corr().round(2)
        for col1 in corr_matrix.columns:
            for col2 in corr_matrix.columns:
                if col1 != col2 and abs(corr_matrix.loc[col1, col2]) > 0.7:
                    if (col2, col1) not in [item['Paar'] for item in corr_report]:
                        corr_report.append({
                            'Paar': (col1, col2),
                            'Korrelation': corr_matrix.loc[col1, col2]
                        })

    # NEU: Semantische Gruppierung und Feature Engineering
    ml_feature_snippets = _find_semantic_groups(df_analysis)
    ml_cleaning_snippets.extend(ml_feature_snippets)


    # PHASE 2: AUSGABE DER MODULE
    # ====== MODUL 1: ALLGEMEINE ÜBERSICHT ======
    print('*' * 10, 'MODUL 1: ALLGEMEINE ÜBERSICHT', '*' * 10)
    general_report_df = pd.DataFrame(general_report_data)
    print(general_report_df.to_string())
    print('*' * 50)
    # =============================

    # ====== MODUL 2: STATISTISCHE KENNZAHLEN ======
    print('*' * 10, 'MODUL 2: STATISTISCHE KENNZAHLEN', '*' * 10)
    if statistical_table_data:
        statistical_table_df = pd.DataFrame(statistical_table_data)
        print(statistical_table_df.to_string(index=False))
    else:
        print("Keine statistischen Kennzahlen für die gewählten Spaltentypen vorhanden.")
    print('*' * 50)
    # =============================

    # ====== MODUL 3: PROBLEME & BEREINIGUNGSVORSCHLÄGE ======
    print('*' * 10, 'MODUL 3: PROBLEME & BEREINIGUNGSVORSCHLÄGE', '*' * 10)
    if problems_report_data:
        problems_df = pd.DataFrame(problems_report_data)
        print(problems_df.to_string())
        if visual_proofs:
            print("\n" + "--- Visueller Nachweis der Gruppierung für Textbereinigung ---")
            for proof in visual_proofs:
                print(f"Beispiel für '{proof['target']}' (wird gefüllt) basierend auf '{proof['group']}'")
                print(proof['data'].to_string(index=False))
                print("-" * 50)
        print("\n" + "Allgemeine Bereinigungsvorschläge zum Kopieren:")
        for snippet in sorted(list(set(cleaning_snippets))):
            print(snippet)
    else:
        print("Keine größeren Probleme erkannt. Daten scheinen sauber zu sein.")
    print('*' * 50)
    # =============================

    # ====== MODUL 4: ML-RELEVANTE ANALYSE ======
    print('*' * 10, 'MODUL 4: ML-RELEVANTE ANALYSE', '*' * 10)
    if ml_report_data:
        print('*' * 50)
        ml_report_df = pd.DataFrame(ml_report_data)
        print("--- Verteilung und Ausreißer ---")
        print(ml_report_df.to_string(index=False))
        print('*' * 50)
        print("\n--- Hohe Korrelation (>|0.7|) ---")
        if corr_report:
            corr_df = pd.DataFrame(corr_report)
            print(corr_df.to_string(index=False))
        else:
            print("Keine hohen Korrelationen (>|0.7|) gefunden.")
        print('*' * 50)
        print("\n" + "Vorschläge zur Vorverarbeitung für ML:")
        for snippet in sorted(list(set(ml_cleaning_snippets))):
            print(snippet)
    else:
        print("Keine numerischen Spalten für die ML-Analyse gefunden.")
    print("\n" + "Der Bericht wurde erfolgreich generiert.")
    print('*' * 50)
    # =============================
    return cleaning_snippets, ml_cleaning_snippets

# HAUPTTEIL DES SKRIPTS
if 'df' in locals() and isinstance(df, pd.DataFrame):
    print("Analysiere Daten und erstelle den Bericht...")
    TEMP_Clear, TEMP_Clear_ML = muster_df(df)
    print("\n" + "*" * 50)
    print("BEREIT ZUR AUTOMATISCHEN BEREINIGUNG!")
    print("Sie können jetzt einfach den Befehl 'bereinige(df, TEMP_Clear, TEMP_Clear_ML)' ausführen.")
else:
    print("Bitte laden Sie Ihren Datensatz in einen Pandas DataFrame namens 'df'!")
print('*' * 50)

print("\n--- Individuell auslösbare Funktionen ---")
print("Folgende Funktionen können einzeln aufgerufen werden, um spezifische Aufgaben auszuführen:")
print("- `analyze_semantic_type_v3(df)`: Führt eine semantische Analyse durch und gibt einen DataFrame mit den erkannten Typen zurück.")
print("- `_correct_spelling_and_expand_abbr(text)`: Korrigiert und erweitert Abkürzungen in einem einzelnen Textstring.")
print("- `generate_cleaning_code(column, semantic_type)`: Generiert einen spezifischen Bereinigungscode für eine Spalte.")
print("- `_fill_missing_with_pattern_mode(df, target_col, group_col)`: Füllt fehlende Werte basierend auf dem Modus einer Gruppenspalte.")
print("- `_find_best_grouping_column(df, target_col, df_analysis)`: Findet die am besten geeignete Gruppierungsspalte für die Missing-Value-Imputation.")
print("- `_find_semantic_groups(df_analysis)`: Identifiziert semantische Spaltengruppen und schlägt Feature Engineering vor.")


Bitte laden Sie Ihren Datensatz in einen Pandas DataFrame namens 'df'!
**************************************************

--- Individuell auslösbare Funktionen ---
Folgende Funktionen können einzeln aufgerufen werden, um spezifische Aufgaben auszuführen:
- `analyze_semantic_type_v3(df)`: Führt eine semantische Analyse durch und gibt einen DataFrame mit den erkannten Typen zurück.
- `_correct_spelling_and_expand_abbr(text)`: Korrigiert und erweitert Abkürzungen in einem einzelnen Textstring.
- `generate_cleaning_code(column, semantic_type)`: Generiert einen spezifischen Bereinigungscode für eine Spalte.
- `_fill_missing_with_pattern_mode(df, target_col, group_col)`: Füllt fehlende Werte basierend auf dem Modus einer Gruppenspalte.
- `_find_best_grouping_column(df, target_col, df_analysis)`: Findet die am besten geeignete Gruppierungsspalte für die Missing-Value-Imputation.
- `_find_semantic_groups(df_analysis)`: Identifiziert semantische Spaltengruppen und schlägt Feature Engineering v

# 3. Explorative Datenanalyse (EDA)

Deskriptive Statistik: Berechnung von Mittelwert, Median, Standardabweichung, Korrelationen usw.

Datenvisualisierung: Erstellung von Diagrammen wie Histogrammen, Streudiagrammen oder Box-Plots, um die Verteilung der Daten und die Beziehungen zwischen den Variablen zu verstehen.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from tabulate import tabulate
import numpy as np

print('df_sem_types_v3 muss vorher als datei tabelle vorhanden sein und CSV mus als df bereinigt und gespeichert sein')

# Annahme: Ihre DataFrames 'df' und 'df_sem_types_v3' sind bereits geladen.
numerical_cols = df_sem_types_v3[df_sem_types_v3['Semantischer Typ'].isin([
    'Float (Waehrung)', 'Float (Prozentsatz)', 'Integer','float64','integer'
])]['Spalte'].tolist()

categorical_cols = df_sem_types_v3[df_sem_types_v3['Semantischer Typ'].isin([
    'Text (Gender)','Text (Kategorisch)', 'Text (object)', 'Text (Freitext)', 'Boolean', 'bool', 'object'
])]['Spalte'].tolist()

numerical_cols_filtered = [col for col in numerical_cols if col in df.columns]
categorical_cols_filtered = [col for col in categorical_cols if col in df.columns]

# Erstellen einer Kopie der kategorialen Daten für die Häufigkeitszählung
df_analysis = df[categorical_cols_filtered].copy()

# Hinzufügen der gebinnten numerischen Spalten
for col in numerical_cols_filtered:
    if df[col].nunique() > 10:
        df_analysis[col + '_binned'] = pd.cut(df[col], bins=10, labels=[f'Bin_{i+1}' for i in range(10)])

def create_boxplot_and_describe(df, x_col, y_col, hue_col=None):
    """
    Erstellt einen Boxplot mit dynamischer Achsenanpassung und
    zeigt die statistischen Kennzahlen für jede Box.
    """
    if df[y_col].isnull().all() or df[x_col].isnull().all():
        print(f"Keine Daten für Boxplot von '{y_col}' nach '{x_col}'.")
        return

    grouping_cols = [x_col]
    if hue_col:
        grouping_cols.append(hue_col)

    grouped_stats = df.groupby(grouping_cols)[y_col].describe().round(2)
    q1_all = grouped_stats['25%']
    q3_all = grouped_stats['75%']
    iqr_all = q3_all - q1_all

    lower_bound = (q1_all - 1.5 * iqr_all).min()
    upper_bound = (q3_all + 1.5 * iqr_all).max()

    plt.figure(figsize=(12, 6))
    sns.set_theme(style="whitegrid", palette="pastel")
    ax = sns.boxplot(x=x_col, y=y_col, hue=hue_col, data=df, showfliers=False)
    ax.set_ylim(lower_bound, upper_bound)

    if hue_col:
        plt.title(f'Boxplot von {y_col} nach {x_col} und {hue_col}')
    else:
        plt.title(f'Boxplot von {y_col} nach {x_col}')

    sns.despine(left=True, bottom=True)
    plt.show()

    print("\n" + "="*80)
    print(f"Statistische Kennzahlen für jede Box (Y = '{y_col}', X = '{x_col}', Hue = '{hue_col if hue_col else 'None'}'):")
    print("="*80)
    print(tabulate(grouped_stats, headers='keys', tablefmt='psql'))
    print("="*80)

print("Analysiere Häufigkeiten und erstelle eine Heatmap für die Übersicht...")
# Erstellen der Heatmaps basierend auf Häufigkeiten
for num_col_binned in [c for c in df_analysis.columns if c.endswith('_binned')]:
    for cat_col in categorical_cols_filtered:
        if df[cat_col].nunique() > 20:
            print(f"*** Überspringe kategoriale Spalte '{cat_col}': Zu viele eindeutige Werte ({df[cat_col].nunique()} > 20).")
            continue

        # Kreuztabelle erstellen, um die Häufigkeit zu zählen
        contingency_table = pd.crosstab(df_analysis[cat_col], df_analysis[num_col_binned])

        # Normieren der Daten, um die relative Häufigkeit anzuzeigen
        contingency_table_norm = contingency_table.div(contingency_table.sum(axis=1), axis=0)

        plt.figure(figsize=(15, 1))
        sns.heatmap(contingency_table_norm, annot=True, fmt=".2f", cmap='viridis')
        plt.title(f'Relative Häufigkeit von "{num_col_binned}" nach "{cat_col}"')
        plt.xlabel(num_col_binned)
        plt.ylabel(cat_col)
        plt.show()

        print(f"Statistische Kennzahlen für die visuell analysierten Spalten erstellen: Y='{num_col_binned.replace('_binned', '')}', X='{cat_col}'")
        create_boxplot_and_describe(df, x_col=cat_col, y_col=num_col_binned.replace('_binned', ''))
        print(f"Boxplot für die visuell analysierten Spalten erstellen: Y='{num_col_binned.replace('_binned', '')}', X='{cat_col}'")
        print('*' * 50)
        print('/' * 50)

# 4. Datenmodellierung und Analyse

Statistische Analyse: Verwendung von Hypothesentests, Regressionsanalyse oder Zeitreihenanalyse, um Beziehungen zu validieren.

Maschinelles Lernen: Entwicklung von Modellen (z.B. Klassifikation, Regression oder Clustering), um Vorhersagen zu treffen oder Muster zu erkennen

# 5. Interpretation und Kommunikation der Ergebnisse

- Ergebnisinterpretation: Was bedeuten die Ergebnisse im Kontext der ursprünglichen Problemstellung?

- Visualisierung der Ergebnisse: Erstellung von klaren und überzeugenden Dashboards, Berichten oder Präsentationen, um die Erkenntnisse zu veranschaulichen.

- Storytelling: Die Ergebnisse in eine narrative Form bringen, die es den Stakeholdern ermöglicht, die Schlussfolgerungen leicht zu verstehen und darauf basierend Entscheidungen zu treffen.

# KI anforderungen


Anweisungen für die Python-Code-Erstellung
Der generierte Python-Code muss sich strikt an die folgenden Regeln halten. Es wird angenommen, dass ein DataFrame namens df bereits existiert und geladen ist. Es dürfen keine Code-Abschnitte eingefügt werden, die einen DataFrame erstellen oder zufällige Daten einbinden.

1. Code-Formatierung und Struktur
PEP 8 Konformität: Halte dich an die Richtlinien von PEP 8, inklusive vier Leerzeichen Einrückung, snake_case für Funktionen/Variablen und CamelCase für Klassennamen.

Docstrings: Verwende für jede Funktion und Klasse einen Google-Style Docstring, der den Zweck, die Parameter (Args) und den Rückgabewert (Returns) beschreibt.

2. Standard-Struktur der Code-Abschnitte
Jeder Code-Abschnitt muss eindeutig mit klaren Markierungen beginnen und enden, sowohl im Code als auch in der Ausgabe.

Anfang:

'# ====== [ÜBERTHEMA] ======  (mit dem jeweiligen Thema)

print('*' * 10, '[ÜBERTHEMA]', '*' * 10)

Ende:

print('*' * 50)

'# =============================

Typ-Anmerkungen: Nutze konsequent Typ-Anmerkungen für alle Funktionsargumente, Rückgabewerte und Variablen.

Inhaltsbasierte Logik: Die Klassifizierung muss stärker auf dem Inhalt der Spalte basieren, nicht nur auf dem Spaltennamen.

Bestätigungsprüfung: Jede Klassifizierung muss durch eine zusätzliche logische Prüfung untermauert werden. Eine Spalte, die als 'Datum/Zeit' klassifiziert wird, muss auch tatsächlich in das datetime-Format konvertierbar sein.

Verbesserung der Trefferquote:z.b. Für jeden semantischen Typ muss eine Kombination aus Namens- und Inhaltsmerkmalen herangezogen werden, um die Wahrscheinlichkeit eines korrekten Treffers zu erhöhen. dieses verstendnis muss im programm inteligenz eingebunden werden.

3. Sichere Datenverarbeitung & Spaltenerstellung
Wende die folgende Logik für jeden Abschnitt an, der df bearbeitet oder erweitert.

Temporäre Kopie: Erstelle eine temporäre Kopie für den Testlauf.

Wenn len(df) > 1000, nutze nur die ersten 1000 Zeilen: TEMP_df = df.head(1000).copy().

Wenn len(df) <= 1000, nutze den gesamten DataFrame: TEMP_df = df.copy().

Testlauf und Überprüfung: Führe die geplante Operation (Datenbereinigung, Transformation, neue Spalten generieren etc.) nur auf TEMP_df aus. Die Funktion muss einen boolean Wert für Erfolg oder Misserfolg zurückgeben.

Anwendung auf Originaldaten: Wende die Funktion auf den Original-DataFrame (df) nur an, wenn der Testlauf auf TEMP_df erfolgreich war. Im Falle eines Fehlers darf df nicht verändert werden.

4. Ausgabe als Erfolgsnachweis
Nach einem erfolgreichen und manipulierenden Datenverarbeitungs-Abschnitt müssen folgende Informationen ausgegeben werden.

Dynamischer Nachweis des Erfolgs: Gib eine klare und prägnante Ausgabe, die den Erfolg der Datenmanipulation eindeutig beweist. Der Nachweis muss zur Art der vorgenommenen Änderung passen.

Zum Beispiel:

Wenn Zeilen gelöscht wurden, zeige die Zeilenzahl vorher und nachher.

Wenn NaN-Werte entfernt wurden, zeige die Anzahl der fehlenden Werte vorher und nachher.

Wenn neue Spalten erstellt wurden, zeige die Namen der neuen Spalten.

Datenprobe: Gib die ersten 5 Zeilen des endgültigen, bearbeiteten DataFrames als Tabelle aus, einschließlich der Spaltenüberschriften: print(df_final.head(5).to_string()).

5. Spezifische Regeln für Machine Learning
Standardverhalten: Wenn der Zweck des Codes rein analytisch ist (z.B. Modell-Evaluierung, Datenexploration), darf der Original-DataFrame df nicht verändert werden. Die Verarbeitung findet nur auf der temporären Kopie statt.

Manuelle Auslösung: Wenn die Bearbeitung des df explizit verlangt wird, muss der Code den Nutzer nach der Anzahl der Iterationen fragen.

try: anzahl_durchlaeufe = int(input("Wie oft soll der Prozess wiederholt werden? (Geben Sie eine Zahl ein): ")) print(f"Der Prozess wird {anzahl_durchlaeufe} Mal ausgeführt.") except ValueError: print("Ungültige Eingabe. Der Prozess wird einmalig ausgeführt.")

Ausgabe des temporären DataFrames: Am Ende des Ablaufs soll der Code eine Anweisung ausgeben, wie der Prozess erneut mit dem temporären Datensatz ausgelöst werden kann:

print(f"\nUm den gleichen Ablauf zu wiederholen, verwenden Sie '{TEMP_df_name}' anstelle von 'df'.")

---

Zusammenfassung:
Eine kurze, prägnante Beschreibung des Erfolgs der durchgeführten Datenverarbeitung.

Beispiel für Bereinigung: "Es wurden {Anzahl} Spalten analysiert und für eine Bereinigung vorgeschlagen."

Beispiel für Manipulation: "Es wurden {Anzahl_vorher} Zeilen bereinigt und {Anzahl_nachher} Zeilen verbleiben."

Beispiel Datenprobe: Die ersten 5 Zeilen des endgültigen DataFrames, um die erfolgreiche Verarbeitung visuell zu bestätigen.

---

Aktionsplan für die Bereinigung: Eine separate Liste von Code-Snippets, die direkt kopiert und ausgeführt werden können, um die vorgeschlagenen Bereinigungsschritte umzusetzen. Jeder Code-Abschnitt steht auf einer neuen Zeile, um das Kopieren zu erleichtern.

Damit wird der gesamte modulare Plan wie folgt aussehen:

Modul 1: Allgemeine Übersicht (kompakte Tabelle)

Modul 2: Statistische Kennzahlen in logischer Verteilung (wie oben beschrieben)

Modul 3: Erkannte Probleme & Bereinigungsvorschläge (Liste)

Sind Sie mit diesem vollständigen Plan einverstanden, damit ich den finalen Code erstellen kann?

# Verbesserungspunkte (alles "Insufficient")

Data Validation

Du hast nicht alle Variablen geprüft oder Datenbereinigung durchgeführt.

Hier fehlt also eine klare Dokumentation von:

Umgang mit fehlenden Werten

Dubletten, Ausreißer

Datentyp-Überprüfung (Strings vs. Zahlen etc.)

ggf. Normalisierung/Standardisierung

Business Metrics

Dir fehlen definierte Kennzahlen, die das Unternehmen später zur Erfolgsmessung nutzen kann.

Beispiele:

Conversion Rate, Churn Rate, Net Promoter Score, Umsatzwachstum

Vorher-Nachher-Vergleich mit Daten (Baseline setzen!)

- Mein Tipp für die nächste Prüfung

Bei Data Validation:
Mach einen klaren Abschnitt in deiner Analyse, wo du explizit beschreibst, welche Checks du gemacht hast und welche Daten du bereinigt hast. Am besten mit Code (z. B. in Python/Pandas: .info(), .isnull().sum(), .duplicated().sum()).

Bei Business Metrics:
Formuliere 1–2 klare KPIs, die das Unternehmen langfristig überwachen kann. Erstelle mit den vorhandenen Daten einen Ausgangswert (Baseline), damit man den Erfolg später messen kann.

Data Validation (=> Insufficient)

Was erwartet wird

Vollständige Übersicht aller Variablen (Name, Datentyp, fehlende Werte, Anzahl eindeutiger Werte).

Dokumentierte Reinigungs-Schritte (Duplikate, fehlende Werte: welche Strategie, Outlier-Behandlung, Typkonversionen).

Begründung jeder Änderung (warum fehlende Werte imputiert/gelöscht wurden).

Vorher-/Nachher-Statistiken (z. B. Zeilenanzahl, % fehlender Werte).

Belege, die du zeigen solltest

Tabelle/Output: df.info(), df.describe() und df.isnull().sum().

Beispielhafte Code-Snippets + Ergebnis (z. B. Anzahl gelöschter Duplikate).

Ein kurzes „Data cleaning log“: Liste der Aktionen + Effekt (z. B. „Removed 12 duplicates; imputed 5% missing using median for column X“).

Konkrete Verbesserungen (To-Do)

Füge eine Variable-Übersichtstabelle ein.

Dokumentiere Handling jeder Spalte (z. B. „Spalte: price — Datentyp float, 2% missing — Strategy: median imputation, Reason: skewed distribution“).

Zeige einfache Outlier-Checks (IQR oder z-score) und was du damit gemacht hast.

In [None]:
# Überblick
df.info()
df.isnull().sum().sort_values(ascending=False)

# Duplikate & Beispiele
print("duplicates:", df.duplicated().sum())
df[df.duplicated()].head()

# einfache Outlier-Check (IQR)
Q1 = df['numeric_col'].quantile(0.25)
Q3 = df['numeric_col'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['numeric_col'] < Q1 - 1.5*IQR) | (df['numeric_col'] > Q3 + 1.5*IQR)]
len(outliers)

# Data Visualization (=> Sufficient)

- Was erwartet wird

Mind. 2 verschiedene Visualisierungen einzelner Variablen (z. B. Histogramm, Boxplot, Balken).

Mind. 1 Visualisierung mit mehreren Variablen (z. B. Scatterplot, Grouped bar, Heatmap).

Jede Visualisierung muss eine kurze Interpretation/Takeaway haben (was sieht man? welche Schlussfolgerung?).

Lesbarkeit: Achsenbeschriftungen, Legende, Titel, ggf. Annotationen.

- Belege, die du zeigen solltest

Für jede Grafik: Bild + 1 Satz (Takeaway) + welche Daten-Transformation ggf. vorher gemacht wurde.

Wenn du mehrere Charts vergleichst: zeige direkte Vergleichswerte (z. B. medians, correlation coefficients).

- Feinschliff / Quick wins

Schreibe unter jede Abbildung 1–2 bullet points: “Was zeigt die Grafik?” und “Warum ist es relevant für das Business?”.

Bei Scatterplots: füge Korrelationswert (r) hinzu und ggf. eine Regressionslinie.

# Business Focus (=> Sufficient)

- Was erwartet wird

Mind. ein klares Business-Ziel (z. B. „Reduktion Churn um X%“, „Umsatz pro Kunde erhöhen“).

Klare Verbindung: Wie trägt deine Analyse dazu bei, das Ziel zu lösen? (z. B. Segmentierung → Zielgerichtete Kampagnen).

Mind. eine konkrete Empfehlung für weitere Schritte.

- Belege, die du zeigen solltest

Kurze Formulierung des Ziels + wie deine Ergebnisse Einfluss nehmen (z. B. „Segment A zeigt 30% höhere Conversion → Fokus auf A lohnt sich“).

Priorisierte Empfehlung (z. B. quick win vs. langfristige Maßnahme).

- Verbesserungstipp

Ergänze Verantwortliche + Zeithorizont für jede Empfehlung (z. B. „Marketing — 3 Monate — A/B Test“)

# Business Metrics (=> Insufficient)

- Was erwartet wird

Definition von mindestens einem messbaren KPI, den das Business zur Erfolgsmessung nutzen kann.

Berechnung eines Baseline-Werts aus den vorhandenen Daten (aktueller Stand).

Monitoring-Plan: Frequenz (daily/weekly/monthly), Schwellen/Targets, Verantwortlicher.

- Konkrete Beispiele für KPIs

Conversion Rate = Käufe / Sessions

Churn Rate = abgewanderte Kunden / Kundenbestand

Average Order Value (AOV) = Umsatz / Anzahl Bestellungen

Retention nach 30 Tagen (%)

- Was du zeigen musst

KPI-Formel + kurzer Satz, warum KPI relevant ist.

Baseline-Berechnung (Tabellen/Plot).

Zielsetzung (z. B. „Ziel: Conversion +2% in 3 Monaten“) und wie man das misst.

In [None]:
# Beispiel: Conversion Rate baseline
daily = df.groupby('date').agg({'sessions':'sum','purchases':'sum'}).reset_index()
daily['conv_rate'] = daily['purchases'] / daily['sessions']
baseline = daily['conv_rate'].mean()
print("Baseline conversion rate:", baseline)

# Zeige Trend
daily[['date','conv_rate']].plot(x='date', y='conv_rate')

To-Do

Definiere 1–2 KPIs, reiche Formel + baseline + Chart ein.

Ergänze: Wer überwacht KPI, wie oft und welches Ziel (z. B. +5% YOY).

# Communication (=> Sufficient)

- Was erwartet wird

Für jeden Analyse-Schritt: kurze schriftliche Erklärung deiner Erkenntnisse / Methoden.

Präsentation: enthält Business-Ziele, Hauptergebnisse, Empfehlungen (executive summary).

Erzählstruktur: Problem → Vorgehen → Erkenntnisse → Handlungsempfehlungen.

- Feinschliff

Executive-Summary Slide (1 Folie): 3 Kernaussagen + 1 KPI-Tabelle (Baseline + empfohlene Zielwerte).

Bei Folien: 1 Insight pro Folie, große Schrift, klare Visuals.

# Priorisierte, konkrete nächste Schritte (3-Stufen Plan)

1 Data Validation (urgent) — Erstelle ein kurzes Notebook/Abschnitt: Variablen-Übersicht, missing/dupes, 3 Beispiele für Cleaning + Vorher/Nachher-Zahlen.

2 Business Metrics — Wähle 1 KPI, berechne Baseline aus deinen Daten, zeige Trendplot und setze ein realistisches Ziel.

3 Presentation polish — Executive Summary + unter jeder Grafik 1 Takeaway-Satz Handlungsempfehlung.

# Muster CODE zu Daten Verwaltung

## Laden der daten

In [None]:
# ============================================================
# ⚙️ Laden von CSV-Dateien in Colab
# ============================================================

print('*' * 10, 'DATEI-UPLOAD', '*' * 10)

from google.colab import files
uploaded = files.upload()

print("\nDie Datei wurde erfolgreich hochgeladen und steht nun zur Verfügung.")

print('*' * 50)
# =============================

In [None]:
# ============================================================
# ⚙️ DataFrames als CSV-Datei in df benennen
# ============================================================

print('*' * 10, 'DATEN LADEN', '*' * 10)

# Angenommen, die Datei 'vehicle.csv' wurde bereits hochgeladen
df = pd.read_csv('vehicle.csv')

# Erfolgsnachweis: Ausgabe der Dateninformationen
print(f"Daten erfolgreich geladen! DataFrame-Größe: {df.shape}")
print("\nErste 5 Zeilen des geladenen DataFrames zur Überprüfung:")
print(df.head().to_string())

print('*' * 50)
# =============================

## Exportieren der daten und erstelung der TEMP


In [None]:
# ============================================================
# ⚙️ Exportieren des DataFrames als CSV-Datei
# ============================================================

import time
from google.colab import files

# Automatische Kopie von df erstellen
TEMP = df.copy()

# Eingabe vom User
filename = input("Bitte Dateiname für Export eingeben (Enter für temporären Namen): ").strip()

# Wenn kein Name angegeben wird -> temporären Namen erstellen
if not filename:
    timestamp = int(time.time())  # aktueller UNIX-Timestamp
    filename = f"temp_export_{timestamp}.csv"

# Falls der User keinen .csv angehängt hat, automatisch ergänzen
if not filename.endswith(".csv"):
    filename += ".csv"

# Speichern CSV im Colab-Dateisystem
# index=False, um den Pandas-Index nicht in die CSV zu schreiben
TEMP.to_csv(filename, index=False)
print(f"\n'{filename}' wurde im Colab-Dateisystem erstellt.")

# Download
files.download(filename)

## Laden der daten mit TEMP lade funktion


In [None]:
# ============================================================
# ⚙️ Laden von CSV-Dateien in Colab
# ============================================================

from google.colab import files
import pandas as pd
import glob
import os

# Nutzer-Eingabe
choice = input("Möchten Sie eine Datei hochladen? (ja = hochladen, Enter = TEMP laden): ").strip().lower()

if choice == "ja":
    # User möchte selbst eine Datei auswählen
    uploaded = files.upload()
    filename = list(uploaded.keys())[0]
    df = pd.read_csv(filename)
    print(f"\n'{filename}' wurde erfolgreich geladen.")
else:
    # Statt neue Datei laden -> vorhandene TEMP nutzen
    try:
        df = TEMP
        print("\nVorhandene TEMP-Kopie wurde geladen.")
    except NameError:
        raise ValueError("Keine TEMP-Kopie gefunden! Bitte zuerst eine Datei exportieren oder hochladen.")

# Geschefts statistick

## Übersicht der daten df mit KPI


In [None]:
# ============================================================
# 📊 DATA VALIDATION & BUSINESS METRICS PIPELINE
# ============================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

# ============================================================
# 1. Basic Overview
# ============================================================
print("************* Dataset Overview *************")
num_rows, num_cols = df.shape
print(f"The DataFrame has {num_rows:,} rows and {num_cols} columns.")
print(df.info())
print("/" * 40)

# ============================================================
# 2. Missing Values Check
# ============================================================
print("************* Missing Values *************")
null_summary = pd.DataFrame({
    'Null Count': df.isnull().sum(),
    'Null %': (df.isnull().sum() / len(df) * 100).round(2)
})
print(null_summary)
print("→ Business Impact: Revenue has missing values (7%). "
      "Important for sales analysis → must impute or flag.")
print("/" * 40)

# ============================================================
# 3. Special Characters / Data Consistency
# ============================================================
print("************* Special Character Check *************")
def count_special_chars(text):
    if isinstance(text, str):
        return len(re.findall(r'[^a-zA-Z0-9 ]', text))
    return 0

special_char_counts = df.applymap(count_special_chars).sum()
print(special_char_counts)
print("→ Example issue: 'Email' vs 'email' vs 'em + call'. "
      "→ Standardization required.")
print("/" * 40)

# ============================================================
# 4. Descriptive Statistics
# ============================================================
print("************* Numerical Summary *************")
print(df.describe().round(2))
print("/" * 40)

# ============================================================
# 5. Outlier Detection (Boxplot & IQR Method)
# ============================================================
numeric_cols = ['nb_sold', 'revenue', 'years_as_customer', 'nb_site_visits']

for col in numeric_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    outliers = ((df[col] < (Q1 - 1.5 * IQR)) | (df[col] > (Q3 + 1.5 * IQR))).sum()
    print(f"{col}: {outliers} outliers detected")

    # Optional: visualize
    plt.figure(figsize=(6,3))
    sns.boxplot(x=df[col])
    plt.title(f"Outlier Check: {col}")
    plt.show()

print("/" * 40)

# ============================================================
# 6. Uniqueness & Duplicates
# ============================================================
print("************* Duplicate Check *************")
duplicates = df.duplicated().sum()
print(f"Total duplicate rows: {duplicates}")
print("/" * 40)

# ============================================================
# 7. Business Logic Check
# ============================================================
print("************* Business Logic Checks *************")
df['unit_price'] = df['revenue'] / df['nb_sold']
print(df['unit_price'].describe().round(2))
print("→ Check: Average unit price should be consistent (not negative, not extreme).")
print("/" * 40)

# ============================================================
# 8. Business Metrics (KPIs)
# ============================================================
print("************* BUSINESS KPIs *************")

# Revenue per Customer
rev_per_customer = df.groupby("customer_id")["revenue"].sum().mean()
print(f"Avg. Revenue per Customer: {rev_per_customer:.2f}")

# Conversion Proxy (site visits -> sales)
df['conversion_rate'] = df['nb_sold'] / df['nb_site_visits']
avg_conversion = df['conversion_rate'].mean()
print(f"Avg. Conversion Rate: {avg_conversion:.2%}")

# Customer Retention (years_as_customer distribution)
retention_rate = (df['years_as_customer'] > 1).mean()
print(f"Retention Rate (>1 year): {retention_rate:.2%}")

print("/" * 40)

# ============================================================
# 9. Visualization of Business KPIs
# ============================================================
plt.figure(figsize=(8,4))
sns.lineplot(data=df, x="week", y="revenue", estimator="mean", ci=None)
plt.title("Average Weekly Revenue Trend")
plt.show()

plt.figure(figsize=(6,4))
sns.barplot(x="sales_method", y="revenue", data=df)
plt.title("Revenue by Sales Method")
plt.show()

# ============================================================
# 10. Executive Summary (printed)
# ============================================================
print("************* EXECUTIVE SUMMARY *************")
print("✅ Data Quality:")
print("- Missing values: 7% in revenue (imputation required)")
print("- Sales method labels inconsistent → standardize")
print("- Outliers found in revenue and years_as_customer → investigate")

print("\n✅ Business Insights:")
print(f"- Avg. Revenue/Customer = {rev_per_customer:.2f}")
print(f"- Conversion Rate = {avg_conversion:.2%}")
print(f"- Retention Rate (>1yr customers) = {retention_rate:.2%}")

print("\n✅ Next Steps:")
print("- Clean sales_method categories (Email/Call)")
print("- Impute revenue missing values (median or regression)")
print("- Monitor Conversion Rate weekly → baseline established")


## Samantic Erkenung

In [None]:
# ====== SEMANTISCHE MUSTER-ERKENNUNG ======
print('=' * 10, 'SEMANTISCHE MUSTER-ERKENNUNG', '=' * 10)

import pandas as pd
import warnings
from typing import Dict, Any, List, Callable, Union

def generate_cleaning_muster(column: str, semantic_type: str) -> str:
    """
    Generiert einen Python-Muster-Vorschlag zur Datenbereinigung basierend auf dem
    erkannten semantischen Typ.

    Args:
        column (str): Der Name der Spalte.
        semantic_type (str): Der erkannte semantische Typ.

    Returns:
        str: Ein String, der den vorgeschlagenen Bereinigungsmuster enthält.
    """
    if semantic_type == 'Datum/Zeit':
        return f"df['{column}'] = pd.to_datetime(df['{column}'], errors='coerce')"
    elif semantic_type == 'ID':
        return f"df['{column}'] = df['{column}'].astype('object')"
    elif semantic_type == 'Boolean':
        return f"df['{column}'] = df['{column}'].astype(bool)"
    elif semantic_type == 'Integer':
        return f"df['{column}'] = pd.to_numeric(df['{column}'], errors='coerce').astype('Int64')"
    elif semantic_type == 'Float (Geografisch)' or semantic_type == 'Float (Waehrung)' or semantic_type == 'Float (Prozentsatz)':
        return f"df['{column}'] = pd.to_numeric(df['{column}'].str.replace(',', '.'), errors='coerce')"
    else:
        return ""

def analyze_semantic_type_v3(df: pd.DataFrame) -> pd.DataFrame:
    """
    Analysiert die semantischen Datentypen der Spalten in einem DataFrame mit
    einer angepassten Logik, bei der Spaltenname und Inhalt für die
    semantische Klassifizierung übereinstimmen müssen.

    Args:
        df (pd.DataFrame): Der zu analysierende DataFrame.

    Returns:
        pd.DataFrame: Ein DataFrame, der die Spalte, den ursprünglichen
        Datentyp, den erkannten semantischen Typ und einen
        Bereinigungsvorschlag enthält.
    """
    SEMANTIC_HINTS_PRIORITY: Dict[str, Dict[str, Union[set, Callable]]] = {
        'ID': {
            'keywords': {'id', 'session_id', 'trip_id', 'user_id', 'unique_id', 'kundennummer', 'bestellnr', 'order_id', 'artikelnummer'},
            'validation_func': lambda s: ((s.dropna().astype(str).apply(len) >= 5).any())
        },
        'Datum/Zeit': {
            'keywords': {'week','datum', 'zeit', 'date', 'time', 'start', 'end', 'birthdate', 'signup_date', 'check_in', 'check_out', 'departure', 'return', 'geburtstag', 'timestamp', 'creation_date', 'modified_date', 'erstellt'},
            'validation_func': lambda s: (pd.to_datetime(s.dropna(), errors='coerce').notna().all() or (s.dropna().astype(str).str.contains(r'[-_/]', na=False).any() and s.dropna().astype(str).str.contains(r'\d{4}', na=False).any()))
        },
        'Geometrisch': {
            'keywords': {'geom', 'geometry', 'shape', 'wkt', 'geojson', 'coordinates', 'location_data'},
            'validation_func': lambda s: (s.dropna().astype(str).str.contains(r'^(POINT|LINESTRING|POLYGON|MULTIPOINT|MULTILINESTRING|MULTIPOLYGON)\s*\(', regex=True, na=False).any() or s.dropna().astype(str).str.contains(r'{"type":\s*"(Point|LineString|Polygon|MultiPoint|MultiLineString|MultiPolygon)"', regex=True, na=False).any())
        },
    }
    SEMANTIC_HINTS_TEXT: Dict[str, Dict[str, Union[set, Callable]]] = {
        'Text (Kategorisch)': {
            'keywords': {'city', 'country', 'länder', 'region', 'state', 'bundesland', 'zip', 'plz'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (Gender)': {
            'keywords': {'geschlecht', 'typ', 'category', 'art', 'gender','method'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (object)': {
            'keywords': {'airport', 'destination', 'origin', 'heimat', 'status'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (Freitext)': {
            'keywords': {'name', 'hotel', 'airline', 'beschreibung', 'kommentar', 'nachricht', 'adresse'},
            'validation_func': lambda s: pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype)
        },
    }
    SEMANTIC_HINTS_NUMERIC: Dict[str, Dict[str, Union[set, Callable]]] = {
        'Boolean': {
            'keywords': {'boolean', 'bool', 'booked', 'married', 'cancellation', 'children','discount'},
            'validation_func': lambda s: (s.dropna().nunique() == 2) and (pd.api.types.is_bool_dtype(s.dropna()) or set(s.dropna().astype(str).str.lower().str.strip().unique()).issubset({'true', 'false', '1', '0', 'ja', 'nein', 'yes', 'no', 't', 'f', 'wahr', 'falsch'}))
        },
        'Float (Geografisch)': {
            'keywords': {'lat', 'lon', 'latitude', 'longitude'},
            'validation_func': lambda s: pd.to_numeric(s.dropna(), errors='coerce').notna().all() and (pd.to_numeric(s.dropna(), errors='coerce').astype(str).str.count(r'\.').all() or pd.api.types.is_float_dtype(s.dropna()))
        },
        'Float (Prozentsatz)': {
            'keywords': {'percent', 'pct', 'rate', 'discount', '%'},
            'validation_func': lambda s: (pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').dropna().between(0, 1).all() or pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').dropna().between(0, 100).all()) or pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').notna().all() and s.dropna().astype(str).str.replace('%', '').str.replace(',', '.').str.match(r'^\d{1,3}(\.\d{1,3})?$').all()
        },
        'Float (Waehrung)': {
            'keywords': {'preis','price', 'kosten', 'betrag', 'revenue', 'dollar', 'euro', 'yen', 'usd', 'eur', 'fare','chf', 'gbp', 'sek', 'jpy', '€', '£', '$'},
            'validation_func': lambda s: (pd.api.types.is_numeric_dtype(s.dropna()) or pd.to_numeric(s.dropna().astype(str).str.replace(',', '.'), errors='coerce').notna().all()) and s.dropna().nunique() > 2
        },
        'Integer': {
            'keywords': {'nb','anzahl', 'menge', 'stueck', 'stk', 'count', 'qty', 'seats', 'rooms', 'nights', 'bags', 'clicks', 'nummer', 'nr', 'quantity', 'val', 'rating','years_as_customer'},
            'validation_func': lambda s: pd.to_numeric(s.dropna(), errors='coerce').notna().all() and (pd.to_numeric(s.dropna(), errors='coerce').dropna().apply(lambda x: x.is_integer() if isinstance(x, float) else True).all())
        }
    }

    results: List[Dict[str, str]] = []

    hint_categories = [SEMANTIC_HINTS_PRIORITY, SEMANTIC_HINTS_TEXT, SEMANTIC_HINTS_NUMERIC]
    SEMANTIC_HINTS_NUMERIC_ORDERED: List[str] = ['Boolean', 'Float (Geografisch)', 'Float (Prozentsatz)', 'Float (Waehrung)', 'Integer']

    with warnings.catch_warnings():
        warnings.simplefilter("ignore", DeprecationWarning)
        warnings.simplefilter("ignore", UserWarning)

        for column in df.columns:
            original_dtype: str = str(df[column].dtype)
            semantic_type: str = original_dtype
            column_lower: str = column.lower()

            found_match: bool = False

            for hint_group in hint_categories:
                if found_match:
                    break
                if hint_group is SEMANTIC_HINTS_NUMERIC:
                    for sem_type in SEMANTIC_HINTS_NUMERIC_ORDERED:
                        hints = hint_group[sem_type]
                        name_match = any(keyword in column_lower for keyword in hints['keywords'])
                        content_valid = False
                        try:
                            content_valid = hints['validation_func'](df[column])
                        except Exception:
                            pass

                        if name_match and content_valid:
                            semantic_type = sem_type
                            found_match = True
                            break
                else:
                    for sem_type, hints in hint_group.items():
                        name_match = any(keyword in column_lower for keyword in hints['keywords'])
                        content_valid = False
                        try:
                            content_valid = hints['validation_func'](df[column])
                        except Exception:
                            pass

                        if name_match and content_valid:
                            semantic_type = sem_type
                            found_match = True
                            break

            cleaning_muster = generate_cleaning_muster(column, semantic_type)

            results.append({
                'Spalte': column,
                'Ursprünglicher Datentyp': original_dtype,
                'Semantischer Typ': semantic_type,
                'Bereinigungsmuster': cleaning_muster
            })

    return pd.DataFrame(results)

# Analyse des DataFrames
df_sem_types_v3 = analyze_semantic_type_v3(df)
print('*' * 50)
# =============================
Print(df_sem_types_v3)
print('*' * 50)

In [None]:
# ============================================================
# SEMANTISCHE MUSTER-ERKENNUNG V3 mit Bereinigungs vorschlag
# ============================================================

print('=' * 10, 'SEMANTISCHE MUSTER-ERKENNUNG', '=' * 10)

import pandas as pd
import warnings
from typing import Dict, Any, List, Callable, Union

def generate_cleaning_muster(column: str, semantic_type: str) -> str:
    """
    Generiert einen Python-Muster-Vorschlag zur Datenbereinigung basierend auf dem
    erkannten semantischen Typ.

    Args:
        column (str): Der Name der Spalte.
        semantic_type (str): Der erkannte semantische Typ.

    Returns:
        str: Ein String, der den vorgeschlagenen Bereinigungsmuster enthält.
    """
    if semantic_type == 'Datum/Zeit':
        return f"df['{column}'] = pd.to_datetime(df['{column}'], errors='coerce')"
    elif semantic_type == 'ID':
        return f"df['{column}'] = df['{column}'].astype('object')"
    elif semantic_type == 'Boolean':
        return f"df['{column}'] = df['{column}'].astype(bool)"
    elif semantic_type == 'Integer':
        return f"df['{column}'] = pd.to_numeric(df['{column}'], errors='coerce').astype('Int64')"
    elif semantic_type == 'Float (Geografisch)' or semantic_type == 'Float (Waehrung)' or semantic_type == 'Float (Prozentsatz)':
        return f"df['{column}'] = pd.to_numeric(df['{column}'].str.replace(',', '.'), errors='coerce')"
    else:
        return ""

def analyze_semantic_type_v3(df: pd.DataFrame) -> pd.DataFrame:
    """
    Analysiert die semantischen Datentypen der Spalten in einem DataFrame mit
    einer angepassten Logik, bei der Spaltenname und Inhalt für die
    semantische Klassifizierung übereinstimmen müssen.

    Args:
        df (pd.DataFrame): Der zu analysierende DataFrame.

    Returns:
        pd.DataFrame: Ein DataFrame, der die Spalte, den ursprünglichen
        Datentyp, den erkannten semantischen Typ und einen
        Bereinigungsvorschlag enthält.
    """
    SEMANTIC_HINTS_PRIORITY: Dict[str, Dict[str, Union[set, Callable]]] = {
        'ID': {
            'keywords': {'id', 'session_id', 'trip_id', 'user_id', 'unique_id', 'kundennummer', 'bestellnr', 'order_id', 'artikelnummer'},
            'validation_func': lambda s: ((s.dropna().astype(str).apply(len) >= 5).any())
        },
        'Datum/Zeit': {
            'keywords': {'week','datum', 'zeit', 'date', 'time', 'start', 'end', 'birthdate', 'signup_date', 'check_in', 'check_out', 'departure', 'return', 'geburtstag', 'timestamp', 'creation_date', 'modified_date', 'erstellt'},
            'validation_func': lambda s: (pd.to_datetime(s.dropna(), errors='coerce').notna().all() or (s.dropna().astype(str).str.contains(r'[-_/]', na=False).any() and s.dropna().astype(str).str.contains(r'\d{4}', na=False).any()))
        },
        'Geometrisch': {
            'keywords': {'geom', 'geometry', 'shape', 'wkt', 'geojson', 'coordinates', 'location_data'},
            'validation_func': lambda s: (s.dropna().astype(str).str.contains(r'^(POINT|LINESTRING|POLYGON|MULTIPOINT|MULTILINESTRING|MULTIPOLYGON)\s*\(', regex=True, na=False).any() or s.dropna().astype(str).str.contains(r'{"type":\s*"(Point|LineString|Polygon|MultiPoint|MultiLineString|MultiPolygon)"', regex=True, na=False).any())
        },
    }
    SEMANTIC_HINTS_TEXT: Dict[str, Dict[str, Union[set, Callable]]] = {
        'Text (Kategorisch)': {
            'keywords': {'city', 'country', 'länder', 'region', 'state', 'bundesland', 'zip', 'plz'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (Gender)': {
            'keywords': {'geschlecht', 'typ', 'category', 'art', 'gender','method'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (object)': {
            'keywords': {'airport', 'destination', 'origin', 'heimat', 'status'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (Freitext)': {
            'keywords': {'name', 'hotel', 'airline', 'beschreibung', 'kommentar', 'nachricht', 'adresse'},
            'validation_func': lambda s: pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype)
        },
    }
    SEMANTIC_HINTS_NUMERIC: Dict[str, Dict[str, Union[set, Callable]]] = {
        'Boolean': {
            'keywords': {'boolean', 'bool', 'booked', 'married', 'cancellation', 'children','discount'},
            'validation_func': lambda s: (s.dropna().nunique() == 2) and (pd.api.types.is_bool_dtype(s.dropna()) or set(s.dropna().astype(str).str.lower().str.strip().unique()).issubset({'true', 'false', '1', '0', 'ja', 'nein', 'yes', 'no', 't', 'f', 'wahr', 'falsch'}))
        },
        'Float (Geografisch)': {
            'keywords': {'lat', 'lon', 'latitude', 'longitude'},
            'validation_func': lambda s: pd.to_numeric(s.dropna(), errors='coerce').notna().all() and (pd.to_numeric(s.dropna(), errors='coerce').astype(str).str.count(r'\.').all() or pd.api.types.is_float_dtype(s.dropna()))
        },
        'Float (Prozentsatz)': {
            'keywords': {'percent', 'pct', 'rate', 'discount', '%'},
            'validation_func': lambda s: (pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').dropna().between(0, 1).all() or pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').dropna().between(0, 100).all()) or pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').notna().all() and s.dropna().astype(str).str.replace('%', '').str.replace(',', '.').str.match(r'^\d{1,3}(\.\d{1,3})?$').all()
        },
        'Float (Waehrung)': {
            'keywords': {'preis','price', 'kosten', 'betrag', 'revenue', 'dollar', 'euro', 'yen', 'usd', 'eur', 'fare','chf', 'gbp', 'sek', 'jpy', '€', '£', '$'},
            'validation_func': lambda s: (pd.api.types.is_numeric_dtype(s.dropna()) or pd.to_numeric(s.dropna().astype(str).str.replace(',', '.'), errors='coerce').notna().all()) and s.dropna().nunique() > 2
        },
        'Integer': {
            'keywords': {'nb','anzahl', 'menge', 'stueck', 'stk', 'count', 'qty', 'seats', 'rooms', 'nights', 'bags', 'clicks', 'nummer', 'nr', 'quantity', 'val', 'rating','years_as_customer'},
            'validation_func': lambda s: pd.to_numeric(s.dropna(), errors='coerce').notna().all() and (pd.to_numeric(s.dropna(), errors='coerce').dropna().apply(lambda x: x.is_integer() if isinstance(x, float) else True).all())
        }
    }

    results: List[Dict[str, str]] = []

    hint_categories = [SEMANTIC_HINTS_PRIORITY, SEMANTIC_HINTS_TEXT, SEMANTIC_HINTS_NUMERIC]
    SEMANTIC_HINTS_NUMERIC_ORDERED: List[str] = ['Boolean', 'Float (Geografisch)', 'Float (Prozentsatz)', 'Float (Waehrung)', 'Integer']

    with warnings.catch_warnings():
        warnings.simplefilter("ignore", DeprecationWarning)
        warnings.simplefilter("ignore", UserWarning)

        for column in df.columns:
            original_dtype: str = str(df[column].dtype)
            semantic_type: str = original_dtype
            column_lower: str = column.lower()

            found_match: bool = False

            for hint_group in hint_categories:
                if found_match:
                    break
                if hint_group is SEMANTIC_HINTS_NUMERIC:
                    for sem_type in SEMANTIC_HINTS_NUMERIC_ORDERED:
                        hints = hint_group[sem_type]
                        name_match = any(keyword in column_lower for keyword in hints['keywords'])
                        content_valid = False
                        try:
                            content_valid = hints['validation_func'](df[column])
                        except Exception:
                            pass

                        if name_match and content_valid:
                            semantic_type = sem_type
                            found_match = True
                            break
                else:
                    for sem_type, hints in hint_group.items():
                        name_match = any(keyword in column_lower for keyword in hints['keywords'])
                        content_valid = False
                        try:
                            content_valid = hints['validation_func'](df[column])
                        except Exception:
                            pass

                        if name_match and content_valid:
                            semantic_type = sem_type
                            found_match = True
                            break

            cleaning_muster = generate_cleaning_muster(column, semantic_type)

            results.append({
                'Spalte': column,
                'Semantischer Typ': semantic_type,
            })

    return pd.DataFrame(results)

# Analyse des DataFrames
df_sem_types_v3 = analyze_semantic_type_v3(df)
print('*' * 50)
# =============================
print ( df_sem_types_v3)

## Übersicht mit SAMANTISCHE Typen der Daten mit KPI werte vor bereinigung

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import re
import warnings
from typing import List, Dict, Union, Callable

# --- Anzeigeeinstellungen für Pandas ---
pd.set_option('display.width', 1000)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

# ============================================================
#  DATA VALIDATION & BUSINESS METRICS (Version, compact)
# ============================================================

# --- 0. Semantische Analyse-Funktion ---

def get_semantic_type(series: pd.Series) -> str:
    """Klassifiziert eine Series basierend auf Namen und Inhalt."""
    column_lower = series.name.lower()
    semantic_type: str = "Unbekannt"
    found_match: bool = False

    SEMANTIC_HINTS_PRIORITY: Dict[str, Dict[str, Union[set, Callable]]] = {
        'ID': {
            'keywords': {'id', 'session_id', 'trip_id', 'user_id', 'unique_id', 'kundennummer', 'bestellnr', 'order_id', 'artikelnummer'},
            'validation_func': lambda s: ((s.dropna().astype(str).apply(len) >= 5).any())
        },
        'Datum/Zeit': {
            'keywords': {'week','datum', 'zeit', 'date', 'time', 'start', 'end', 'birthdate', 'signup_date', 'check_in', 'check_out', 'departure', 'return', 'geburtstag', 'timestamp', 'creation_date', 'modified_date', 'erstellt'},
            'validation_func': lambda s: (pd.to_datetime(s.dropna(), errors='coerce').notna().all() or (s.dropna().astype(str).str.contains(r'[-_/]', na=False).any() and s.dropna().astype(str).str.contains(r'\d{4}', na=False).any()))
        },
        'Geometrisch': {
            'keywords': {'geom', 'geometry', 'shape', 'wkt', 'geojson', 'coordinates', 'location_data'},
            'validation_func': lambda s: (s.dropna().astype(str).str.contains(r'^(POINT|LINESTRING|POLYGON|MULTIPOINT|MULTILINESTRING|MULTIPOLYGON)\s*\(', regex=True, na=False).any() or s.dropna().astype(str).str.contains(r'{"type":\s*"(Point|LineString|Polygon|MultiPoint|MultiLineString|MultiPolygon)"', regex=True, na=False).any())
        },
    }
    SEMANTIC_HINTS_TEXT: Dict[str, Dict[str, Union[set, Callable]]] = {
        'Text (Kategorisch)': {
            'keywords': {'city', 'country', 'länder', 'region', 'state', 'bundesland', 'zip', 'plz'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (Gender)': {
            'keywords': {'geschlecht', 'typ', 'category', 'art', 'gender','method'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (object)': {
            'keywords': {'airport', 'destination', 'origin', 'heimat', 'status'},
            'validation_func': lambda s: s.dropna().nunique() >= 2 and (pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype))
        },
        'Text (Freitext)': {
            'keywords': {'name', 'hotel', 'airline', 'beschreibung', 'kommentar', 'nachricht', 'adresse'},
            'validation_func': lambda s: pd.api.types.is_string_dtype(s.dropna()) or isinstance(s.dropna().dtype, pd.CategoricalDtype)
        },
    }
    SEMANTIC_HINTS_NUMERIC: Dict[str, Dict[str, Union[set, Callable]]] = {
        'Boolean': {
            'keywords': {'boolean', 'bool', 'booked', 'married', 'cancellation', 'children','discount'},
            'validation_func': lambda s: (s.dropna().nunique() == 2) and (pd.api.types.is_bool_dtype(s.dropna()) or set(s.dropna().astype(str).str.lower().str.strip().unique()).issubset({'true', 'false', '1', '0', 'ja', 'nein', 'yes', 'no', 't', 'f', 'wahr', 'falsch'}))
        },
        'Float (Geografisch)': {
            'keywords': {'lat', 'lon', 'latitude', 'longitude'},
            'validation_func': lambda s: pd.to_numeric(s.dropna(), errors='coerce').notna().all() and (pd.to_numeric(s.dropna(), errors='coerce').astype(str).str.count(r'\.').all() or pd.api.types.is_float_dtype(s.dropna()))
        },
        'Float (Prozentsatz)': {
            'keywords': {'percent', 'pct', 'rate', 'discount', '%'},
            'validation_func': lambda s: (pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').dropna().between(0, 1).all() or pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').dropna().between(0, 100).all()) or pd.to_numeric(s.dropna().astype(str).str.replace('%', ''), errors='coerce').notna().all() and s.dropna().astype(str).str.replace('%', '').str.replace(',', '.').str.match(r'^\d{1,3}(\.\d{1,3})?$').all()
        },
        'Float (Waehrung)': {
            'keywords': {'preis','price', 'kosten', 'betrag', 'revenue', 'dollar', 'euro', 'yen', 'usd', 'eur', 'fare','chf', 'gbp', 'sek', 'jpy', '€', '£', '$'},
            'validation_func': lambda s: (pd.api.types.is_numeric_dtype(s.dropna()) or pd.to_numeric(s.dropna().astype(str).str.replace(',', '.'), errors='coerce').notna().all()) and s.dropna().nunique() > 2
        },
        'Integer': {
            'keywords': {'nb','anzahl', 'menge', 'stueck', 'stk', 'count', 'qty', 'seats', 'rooms', 'nights', 'bags', 'clicks', 'nummer', 'nr', 'quantity', 'val', 'rating','years_as_customer'},
            'validation_func': lambda s: pd.to_numeric(s.dropna(), errors='coerce').notna().all() and (pd.to_numeric(s.dropna(), errors='coerce').dropna().apply(lambda x: x.is_integer() if isinstance(x, float) else True).all())
        }
    }

    hint_categories = [SEMANTIC_HINTS_PRIORITY, SEMANTIC_HINTS_TEXT, SEMANTIC_HINTS_NUMERIC]
    SEMANTIC_HINTS_NUMERIC_ORDERED: List[str] = ['Boolean', 'Float (Geografisch)', 'Float (Prozentsatz)', 'Float (Waehrung)', 'Integer']

    with warnings.catch_warnings():
        warnings.simplefilter("ignore", DeprecationWarning)
        warnings.simplefilter("ignore", UserWarning)

        for hint_group in hint_categories:
            if found_match:
                break
            if hint_group is SEMANTIC_HINTS_NUMERIC:
                for sem_type in SEMANTIC_HINTS_NUMERIC_ORDERED:
                    hints = hint_group[sem_type]
                    name_match = any(keyword in column_lower for keyword in hints['keywords'])
                    content_valid = False
                    try:
                        content_valid = hints['validation_func'](series)
                    except Exception:
                        pass
                    if name_match and content_valid:
                        semantic_type = sem_type
                        found_match = True
                        break
            else:
                for sem_type, hints in hint_group.items():
                    name_match = any(keyword in column_lower for keyword in hints['keywords'])
                    content_valid = False
                    try:
                        content_valid = hints['validation_func'](series)
                    except Exception:
                        pass
                    if name_match and content_valid:
                        semantic_type = sem_type
                        found_match = True
                        break
    return semantic_type

# --- 1. Overview ---
num_rows, num_cols = df.shape

# --- 2. Missing Values ---
null_summary = df.isnull().sum().to_frame("Null Count")
null_summary["Null %"] = (df.isnull().sum() / len(df) * 100).round(2)

# --- 3. Special Characters ---
def count_special_chars(text: Union[str, any]) -> int:
    if isinstance(text, str):
        return len(re.findall(r'[^a-zA-Z0-9 ]', text))
    return 0
special_chars = df.applymap(count_special_chars).sum().to_frame("Special Chars")

# --- 4. Outlier Detection (IQR) ---
outlier_counts = {}
for col in df.select_dtypes(include=[np.number]).columns:
    Q1, Q3 = df[col].quantile([0.25, 0.75])
    IQR = Q3 - Q1
    outlier_counts[col] = ((df[col] < (Q1 - 1.5*IQR)) | (df[col] > (Q3 + 1.5*IQR))).sum()
outliers = pd.DataFrame.from_dict(outlier_counts, orient="index", columns=["Outliers"])

# --- 5. Duplicates ---
duplicates = df.duplicated().sum()

# --- 6. Business Logic (Unit Price) ---
df["unit_price"] = df["revenue"] / df["nb_sold"]
unit_price_stats = df["unit_price"].describe().round(2)

# --- 7. Zusammenfassung: Data Validation Table ---
validation_table = pd.concat([null_summary, special_chars, outliers], axis=1).fillna("-")
validation_table["Datatype"] = df.dtypes.astype(str)
validation_table.reset_index(inplace=True)
validation_table.rename(columns={"index": "Column"}, inplace=True)

# Anwenden der semantischen Analyse und Hinzufügen der Spalte
validation_table["Semantischer Typ"] = validation_table["Column"].apply(lambda col: get_semantic_type(df[col]))

print("============== DATA VALIDATION REPORT ==============")
print(f"Dataset Shape: {num_rows:,} rows × {num_cols} columns")
print(f"Duplicates: {duplicates}")
print("\nValidation Table:")
print(validation_table)
print("\nUnit Price Check:")
print(unit_price_stats)

# ============================================================
# 8. BUSINESS METRICS (KPI Table)
# ============================================================

rev_per_customer = df.groupby("customer_id")["revenue"].sum().mean()
avg_conversion = (df["nb_sold"] / df["nb_site_visits"]).mean()
retention_rate = (df["years_as_customer"] > 1).mean()

kpi_table = pd.DataFrame({
    "KPI": ["Avg Revenue per Customer", "Conversion Rate", "Retention Rate (>1y)"],
    "Value": [f"{rev_per_customer:.2f}", f"{avg_conversion:.2%}", f"{retention_rate:.2%}"]
})

print("\n============== BUSINESS KPI REPORT ==============")
print(kpi_table)

# ============================================================
# 9. Visualization
# ============================================================

plt.figure(figsize=(8,4))
sns.lineplot(data=df, x="week", y="revenue", estimator="mean", ci=None)
plt.title("Average Weekly Revenue Trend")
plt.show()

plt.figure(figsize=(6,4))
sns.barplot(x="sales_method", y="revenue", data=df, estimator="mean", ci=None)
plt.title("Revenue by Sales Method")
plt.show()

## Scater PLOT mit Drop Down Object

In [None]:
# =======================================================
# 📊 ALLGEMEINE  ScaterPlot
# =======================================================
import pandas as pd
import numpy as np
import warnings
from typing import List, Dict, Union
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
import matplotlib.pyplot as plt
import seaborn as sns
import ipywidgets as widgets
from IPython.display import display, clear_output

# Deaktiviere zukünftige Pandas-Warnungen, die bei der Typkonvertierung auftreten können
warnings.simplefilter(action='ignore', category=pd.errors.SettingWithCopyWarning)

# =======================================================
# ====== 1. Spaltenklassifizierung nach Typ ======
# =======================================================
def classify_columns_by_type(df: pd.DataFrame) -> Dict[str, List[str]]:
    """
    Klassifiziert die Spalten eines DataFrame rein basierend auf ihrem Datentyp.

    Args:
        df: Das zu klassifizierende Pandas DataFrame.

    Returns:
        Ein Dictionary, das Spaltentypen auf eine Liste der zugehörigen Spaltennamen abbildet.
    """
    categorical_columns: List[str] = []
    numerical_columns: List[str] = []

    for column in df.columns:
        col_dtype = df[column].dtype

        if pd.api.types.is_numeric_dtype(col_dtype):
            numerical_columns.append(column)
        elif pd.api.types.is_object_dtype(col_dtype) or pd.api.types.is_categorical_dtype(col_dtype):
            categorical_columns.append(column)

    return {
        'categorical': categorical_columns,
        'numerical': numerical_columns,
    }


# =======================================================
# ====== 2. Interaktive Benutzeroberfläche mit ipywidgets ======
# =======================================================

# HINWEIS: Füge hier deinen DataFrame ein, z.B. durch Laden aus einer CSV-Datei
# Beispiel: df = pd.read_csv('deine_daten.csv')

# --- HIER MUSST DU DEINEN DATAFRAME `df` DEFINIEREN ---

# Klassifizieren der Spalten des DataFrames mit der neuen Funktion
classified_cols = classify_columns_by_type(df)

# Dropdown-Menüs für die Spaltenauswahl erstellen
# Verwende die klassifizierten numerischen Spalten für die PCA-Features (X und Y)
pca_cols_options = classified_cols['numerical']
# Verwende die klassifizierten kategorialen Spalten für die Zielvariable (Farbe)
target_col_options = classified_cols['categorical']

pca_dropdown_1 = widgets.Dropdown(
    options=pca_cols_options,
    description='y (numerisch):'
)
pca_dropdown_2 = widgets.Dropdown(
    options=pca_cols_options,
    description='X (numerisch):'
)
target_dropdown = widgets.Dropdown(
    options=target_col_options,
    description='Verteilung (Object):'
)

button = widgets.Button(
    description='PCA Plot erstellen',
    button_style='success',
    tooltip='Klicken Sie, um den PCA-Plot mit den ausgewählten Spalten zu erstellen'
)

output = widgets.Output()

def on_button_clicked(b):
    with output:
        clear_output(wait=True)
        try:
            # Manuelle Auswahl der Features und der Zielvariable
            selected_pca_features = [pca_dropdown_1.value, pca_dropdown_2.value]
            selected_target_col = target_dropdown.value

            # Daten vorbereiten: Wähle NUR die vom Nutzer ausgewählten Spalten
            df_cleaned = df.dropna(subset=[selected_target_col])

            # Wähle nur die relevanten numerischen Spalten aus
            numerical_features = [col for col in selected_pca_features if col in classified_cols['numerical']]

            # Überprüfen, ob numerische Features ausgewählt wurden
            if not numerical_features:
                print("Bitte wählen Sie mindestens eine numerische Spalte aus.")
                return

            X = df_cleaned[numerical_features].values
            y = df_cleaned[selected_target_col].values

            # Imputation der fehlenden Werte mit dem Mittelwert
            imputer = SimpleImputer(strategy='mean')
            X_imputed = imputer.fit_transform(X)

            # Skalieren der Daten
            scaler = StandardScaler()
            X_scaled = scaler.fit_transform(X_imputed)

            # PCA auf die skalierten Daten anwenden
            # Wichtig: n_components auf die Anzahl der ausgewählten Features setzen,
            # oder den kleineren Wert zwischen n_features und 2
            n_components = min(2, len(numerical_features))
            pca = PCA(n_components=n_components, random_state=42)
            X_pca = pca.fit_transform(X_scaled)

            # Visualisierung
            plt.figure(figsize=(10, 8))

            # Wähle die ersten beiden PCA-Komponenten für die Achsen,
            # da die PCA-Transformation auf die ausgewählten Features angewendet wird
            sns.scatterplot(
                x=X_pca[:, 0],
                y=X_pca[:, 1],
                hue=y,
                palette="tab10"
            )
            plt.title(f"PCA Projektion auf ausgewählte Spalten: {', '.join(numerical_features)}", fontsize=15)
            plt.xlabel("PC1", fontsize=12)
            plt.ylabel("PC2", fontsize=12)
            plt.legend(title=selected_target_col, loc='best')
            plt.grid(True)
            plt.show()

        except Exception as e:
            print(f"Ein Fehler ist aufgetreten: {e}")

button.on_click(on_button_clicked)

# Widgets anzeigen
print("Wählen Sie die Spalten für die PCA-Visualisierung aus:")
display(widgets.VBox([
    pca_dropdown_1,
    pca_dropdown_2,
    target_dropdown,
    button,
    output
]))

--- 🛠️ Daten für das Modell vorbereiten ---


NameError: name 'df' is not defined

## Interaktive PCA 2 DIMENSION Object Drop Down

In [None]:
# =======================================================
# 📊 ALLGEMEINE  ScaterPlot mit automatische 2 PC verteilung
# =======================================================

import pandas as pd
import numpy as np
import warnings
from typing import List, Dict, Union
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
import matplotlib.pyplot as plt
import seaborn as sns
import ipywidgets as widgets
from IPython.display import display, clear_output

# Deaktiviere zukünftige Pandas-Warnungen, die bei der Typkonvertierung auftreten können
warnings.simplefilter(action='ignore', category=pd.errors.SettingWithCopyWarning)

# =======================================================
# ====== 1. Spaltenklassifizierung nach Datentyp ======
# =======================================================
import pandas as pd
from typing import List, Dict

def classify_columns_by_type(df: pd.DataFrame) -> Dict[str, List[str]]:
    """
    Klassifiziert die Spalten eines DataFrame rein basierend auf ihrem Datentyp.

    Args:
        df: Das zu klassifizierende Pandas DataFrame.

    Returns:
        Ein Dictionary, das Spaltentypen auf eine Liste der zugehörigen Spaltennamen abbildet.
    """
    categorical_columns: List[str] = []
    numerical_columns: List[str] = []

    for column in df.columns:
        col_dtype = df[column].dtype

        if pd.api.types.is_numeric_dtype(col_dtype):
            numerical_columns.append(column)
        elif pd.api.types.is_object_dtype(col_dtype) or pd.api.types.is_categorical_dtype(col_dtype):
            categorical_columns.append(column)

    return {
        'categorical': categorical_columns,
        'numerical': numerical_columns,
    }

# =======================================================
#  2. Interaktive Benutzeroberfläche mit ipywidgets
# =======================================================

# Klassifizieren der Spalten des geladenen Datenrahmens
# HINWEIS: Ersetzen Sie 'classify_columns' durch den korrekten Funktionsnamen 'classify_columns_by_type'
classified_cols = classify_columns_by_type(df)

# Dropdown-Menü für die Zielvariable (Farbe) erstellen
target_col_options = classified_cols['categorical'] + classified_cols['numerical']

target_dropdown = widgets.Dropdown(
    options=target_col_options,
    description='Zielvariable (Farbe):'
)

button = widgets.Button(
    description='PCA Plot erstellen',
    button_style='success',
    tooltip='Klicken Sie, um den PCA-Plot zu erstellen'
)

output = widgets.Output()

def on_button_clicked(b):
    with output:
        clear_output(wait=True)
        try:
            selected_target_col = target_dropdown.value

            numerical_features = classified_cols['numerical']

            if len(numerical_features) < 2:
                print("Es werden mindestens 2 numerische Spalten für die PCA benötigt.")
                return

            df_cleaned = df.dropna(subset=[selected_target_col])
            X = df_cleaned[numerical_features].values
            y = df_cleaned[selected_target_col].values

            # Imputation der fehlenden Werte
            imputer = SimpleImputer(strategy='mean')
            X_imputed = imputer.fit_transform(X)

            # Skalieren der Daten
            scaler = StandardScaler()
            X_scaled = scaler.fit_transform(X_imputed)

            # PCA auf 2 Komponenten reduzieren
            pca = PCA(n_components=2, random_state=42)
            X_pca = pca.fit_transform(X_scaled)

            # Visualisierung
            plt.figure(figsize=(10, 8))

            sns.scatterplot(
                x=X_pca[:, 0],
                y=X_pca[:, 1],
                hue=y,
                palette="tab10"
            )

            plt.title("PCA Projektion: PC1 vs. PC2", fontsize=15)
            plt.xlabel("PC1", fontsize=12)
            plt.ylabel("PC2", fontsize=12)
            plt.legend(title=selected_target_col, loc='best')
            plt.grid(True)
            plt.show()

        except Exception as e:
            print(f"Ein Fehler ist aufgetreten: {e}")

button.on_click(on_button_clicked)

# Widgets anzeigen
print("Wählen Sie die Spalte zur Einfärbung der PCA-Punkte aus:")
display(widgets.VBox([
    target_dropdown,
    button,
    output
]))

# ML BEREINIGUNG

In [None]:
# ============================================================
# ⚙️ ML BEREINIGUNG
# ============================================================

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder
import matplotlib.pyplot as plt
import seaborn as sns

# Angenommen, das DataFrame 'df' wurde bereits geladen
# df = pd.read_csv('vehicle.csv')

def handle_outliers_iqr(df):
    """
    Behandelt Ausreißer in numerischen Spalten mithilfe der IQR-Methode (Capping).

    Args:
        df (pd.DataFrame): Das DataFrame mit den numerischen Spalten.

    Returns:
        pd.DataFrame: Das DataFrame mit behandelten Ausreißern.
    """
    df_temp = df.copy()
    numeric_cols = df_temp.select_dtypes(include=np.number).columns.tolist()

    if not numeric_cols:
        print("ℹ️ Keine numerischen Spalten gefunden, Ausreißer-Behandlung übersprungen.")
        return df_temp

    print("📊 Start der Ausreißer-Behandlung (Capping) nach IQR-Methode...")
    for col in numeric_cols:
        Q1 = df_temp[col].quantile(0.25)
        Q3 = df_temp[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        outliers_count = ((df_temp[col] < lower_bound) | (df_temp[col] > upper_bound)).sum()
        if outliers_count > 0:
            df_temp[col] = np.where(df_temp[col] < lower_bound, lower_bound, df_temp[col])
            df_temp[col] = np.where(df_temp[col] > upper_bound, upper_bound, df_temp[col])
            print(f"✅ {outliers_count} Ausreißer in Spalte '{col}' behandelt.")
        else:
            print(f"ℹ️ Keine Ausreißer in Spalte '{col}' gefunden.")
    print("✅ Ausreißer-Behandlung abgeschlossen.")
    return df_temp

def preprocess_data(df, target_column_name):
    """
    Führt die Standardisierung und Kodierung der Zielvariablen durch.

    Args:
        df (pd.DataFrame): Das zu verarbeitende DataFrame.
        target_column_name (str): Der Name der Zielspalte.

    Returns:
        pd.DataFrame, np.ndarray, sklearn.preprocessing.LabelEncoder:
        Die vorbereiteten Features (X), die kodierte Zielvariable (y),
        und der LabelEncoder.
    """
    df_temp = df.copy()

    # 1. Features und Zielvariable trennen
    if target_column_name not in df_temp.columns:
        raise ValueError(f"❌ Zielspalte '{target_column_name}' nicht im DataFrame gefunden.")

    y = df_temp[target_column_name]
    X = df_temp.drop(columns=[target_column_name])

    # 2. Numerische Spalten standardisieren
    numeric_cols = X.select_dtypes(include=np.number).columns.tolist()
    if numeric_cols:
        scaler = StandardScaler()
        X[numeric_cols] = scaler.fit_transform(X[numeric_cols])
        print("✅ Numerische Spalten wurden standardisiert.")
    else:
        print("ℹ️ Keine numerischen Spalten für die Standardisierung gefunden.")

    # 3. Zielvariable kodieren
    le = LabelEncoder()
    y_encoded = le.fit_transform(y)
    print("✅ Zielvariable in numerische Werte kodiert (LabelEncoder).")
    for i, class_name in enumerate(le.classes_):
        print(f"  '{class_name}' -> {i}")

    return X, y_encoded, le

# Beispiel der Anwendung
# --- AUSFÜHRUNG DER BEHANDLUNG ---
print("--- ⚙️ START DER DATENBEHANDLUNG ---")
df_after_outliers = handle_outliers_iqr(df.copy())
X_processed, y_encoded, label_encoder = preprocess_data(df_after_outliers, 'class')

print("--- ✅ DATEN FÜR MODELLIERUNG VORBEREITET ---")
print(f"Größe der Feature-Matrix (X): {X_processed.shape}")
print(f"Größe des Zielvektors (y): {y_encoded.shape}")
print("--- 🏁 ENDE DER DATENBEHANDLUNG ---")

## ML Überwachtes Lernen  

In [None]:
# =====================================
📊 Überwachtes Lernen mit ML
# =====================================

import pandas as pd
import numpy as np
import warnings
import sys
import ipywidgets as widgets
from IPython.display import display, clear_output
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, f1_score, precision_score, recall_score, roc_auc_score, ConfusionMatrixDisplay

from sklearn.linear_model import LogisticRegression, SGDClassifier, RidgeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier, BaggingClassifier, ExtraTreesClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.neural_network import MLPClassifier
from sklearn.decomposition import PCA

# Optionale Bibliotheken
try:
    from xgboost import XGBClassifier
    has_xgb = True
except ImportError:
    has_xgb = False

try:
    from lightgbm import LGBMClassifier
    has_lgbm = True
except ImportError:
    has_lgbm = False

try:
    from catboost import CatBoostClassifier
    has_catboost = True
except ImportError:
    has_catboost = False

warnings.filterwarnings("ignore")
print("Alle notwendigen Bibliotheken erfolgreich importiert!")
print('*' * 50)

# ====== DATEN PRÜFEN UND ZUWEISEN ======
print(' * * * * * * * * * *', '[DATEN PRÜFEN UND ZUWEISEN]', ' * * * * * * * * * *')
# Weist das Haupt-DataFrame (df) der temporären Variable (df_temp) zu,
# um Kompatibilität mit dem bereitgestellten Code zu gewährleisten.
df_temp = df

# =====================================
print('*' * 50)
# =======================================================
#    1. Spaltenklassifizierung nach Typ tabelarisch
# =======================================================
def classify_columns_by_type(df: pd.DataFrame):
    categorical_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()
    numerical_columns = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
    return {'categorical': categorical_columns, 'numerical': numerical_columns}

# === 1. Features und Zielvariable trennen (mit Dropdown) ===
print("--- 🛠️ Daten für das Modell vorbereiten ---")
classified_cols = classify_columns_by_type(df_temp)
kategorische_spalten = classified_cols['categorical']

if not kategorische_spalten:
    raise ValueError("❌ Keine kategoriale Spalte im DataFrame gefunden.")

print("\nFolgende Spalten sind vom Typ 'object' oder 'category':")
for i, col in enumerate(kategorische_spalten):
    print(f"  {i+1}. {col}")

# Dropdown-Menü und OK-Button erstellen
ziel_dropdown = widgets.Dropdown(
    options=kategorische_spalten,
    description='Zielvariable:',
    disabled=False,
)

ok_button = widgets.Button(
    description='OK',
    button_style='success',
    tooltip='Ausgewählte Spalte bestätigen'
)

output_widget = widgets.Output()

def on_ok_button_clicked(b):
    with output_widget:
        clear_output(wait=True)
        try:
            zielvariable_name = ziel_dropdown.value

            y = df_temp[zielvariable_name]
            X = df_temp.drop(columns=[zielvariable_name])

            print(f"\n✅ Zielvariable: '{y.name}' (Datentyp: {y.dtype})")
            print(f"Anzahl der Features: {X.shape[1]}")

            # === 2. One-Hot-Encoding für Features ===
            kategorische_spalten_in_X = X.select_dtypes(include=['object', 'category']).columns
            if not kategorische_spalten_in_X.empty:
                X = pd.get_dummies(X, columns=kategorische_spalten_in_X, drop_first=True)
                print("\n✅ Kategorische Spalten in X wurden kodiert (One-Hot-Encoding).")
            else:
                print("\nℹ️ Keine kategorischen Spalten in X gefunden.")

            # === 3. Zielvariable kodieren ===
            if y.dtype == 'object' or y.dtype.name == 'category':
                le = LabelEncoder()
                y_encoded = le.fit_transform(y)
                print("\n✅ Zielvariable in numerische Werte kodiert (LabelEncoder).")
                for i, class_name in enumerate(le.classes_):
                    print(f"  '{class_name}' -> {i}")
            else:
                le = None
                y_encoded = y
                print("\nℹ️ Zielvariable bereits numerisch, keine Kodierung erforderlich.")

            # === 4. Konsistenzprüfung vor Split ===
            print(f"\n--- Konsistenzprüfung vor Train/Test-Split ---")
            if X.shape[0] != y_encoded.shape[0]:
                raise ValueError(f"❌ Inkonsistente Anzahl Samples: X={X.shape[0]}, y={y_encoded.shape[0]}")
            else:
                print("✅ Shapes konsistent.")

            # === 5. Train/Test-Split ===
            X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
            print(f"\nX_train: {X_train.shape}, X_test: {X_test.shape}")
            print(f"y_train: {y_train.shape}, y_test: {y_test.shape}")

            # === 6. Modelltraining und Bewertung ===
            print("\n--- 🧠 Modelle trainieren und bewerten ---")
            modelle = {
                "Logistische Regression": LogisticRegression(max_iter=500),
                "KNN": KNeighborsClassifier(),
                "Entscheidungsbaum": DecisionTreeClassifier(),
                "Random Forest": RandomForestClassifier(),
                "SVM": SVC(probability=True),
                "Naive Bayes": GaussianNB(),
                "Gradient Boosting": GradientBoostingClassifier(),
                "AdaBoost": AdaBoostClassifier(),
                "Neuronales Netz (MLP)": MLPClassifier(max_iter=500),
                "Extra Trees": ExtraTreesClassifier(),
                "Bagging": BaggingClassifier(),
                "SGD": SGDClassifier(loss="log_loss"),
                "Ridge": RidgeClassifier()
            }

            if has_xgb:
                modelle["XGBoost"] = XGBClassifier(eval_metric="mlogloss", use_label_encoder=False)
            if has_lgbm:
                modelle["LightGBM"] = LGBMClassifier(verbose=-1)
            if has_catboost:
                modelle["CatBoost"] = CatBoostClassifier(verbose=0)

            ergebnisse = {}
            for name, model in modelle.items():
                print(f"Starte Training für: {name}...")
                try:
                    model.fit(X_train, y_train)
                    y_pred = model.predict(X_test)
                    acc = accuracy_score(y_test, y_pred)
                    prec = precision_score(y_test, y_pred, average='weighted', zero_division=0)
                    rec = recall_score(y_test, y_pred, average='weighted', zero_division=0)
                    f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)
                    roc_auc = np.nan
                    if hasattr(model, "predict_proba"):
                        y_pred_proba = model.predict_proba(X_test)
                        if y_pred_proba.shape[1] == 2:
                            roc_auc = roc_auc_score(y_test, y_pred_proba[:, 1])
                    scores = cross_val_score(model, X, y_encoded, cv=5, scoring='accuracy')
                    ergebnisse[name] = {
                        'accuracy': acc, 'precision': prec, 'recall': rec, 'f1_score': f1,
                        'roc_auc': roc_auc, 'cv_accuracy': np.mean(scores), 'model': model
                    }
                    print(f"✅ Training für {name} abgeschlossen.")
                except Exception as e:
                    print(f"❌ Modell {name} konnte nicht trainiert werden: {e}")

            # Sortieren und Filter
            ergebnisse = dict(sorted(ergebnisse.items(), key=lambda x: x[1]['cv_accuracy'], reverse=True))
            threshold = 0.6
            gefilterte_ergebnisse = {name: metrics for name, metrics in ergebnisse.items() if metrics['cv_accuracy'] >= threshold}

            # Übersicht
            print("\n📊 Ergebnisse der Modelle (sortiert nach CV-Accuracy):")
            for name, metrics in ergebnisse.items():
                roc_auc_display = f"{metrics['roc_auc']:.3f}" if not np.isnan(metrics['roc_auc']) else "N/A"
                print(f"{name:20s} | Accuracy: {metrics['accuracy']:.3f} | CV-Accuracy: {metrics['cv_accuracy']:.3f} | ROC-AUC: {roc_auc_display}")

            # Bestes Modell auswählen
            if gefilterte_ergebnisse:
                best_model_name, best_metrics = next(iter(gefilterte_ergebnisse.items()))
                best_model = best_metrics['model']
                print(f"\n🏆 Bestes Modell unter den geeigneten: {best_model_name}")
                best_model.fit(X, y_encoded)

                # Balkendiagramm
                namen = list(gefilterte_ergebnisse.keys())
                test_acc = [metrics['accuracy'] for metrics in gefilterte_ergebnisse.values()]
                cv_acc = [metrics['cv_accuracy'] for metrics in gefilterte_ergebnisse.values()]
                fig, ax = plt.subplots(figsize=(10, 6))
                y_pos = np.arange(len(namen))
                bar_width = 0.35
                ax.barh(y_pos - bar_width/2, test_acc, height=bar_width, label="Test-Genauigkeit", color="skyblue")
                ax.barh(y_pos + bar_width/2, cv_acc, height=bar_width, label="CV-Genauigkeit", color="orange")
                ax.set_yticks(y_pos)
                ax.set_yticklabels(namen)
                ax.set_xlim(0.0, 1.0)
                ax.set_xlabel("Genauigkeit")
                ax.set_title("Modellvergleich – Klassifikation (CV-Genauigkeit >= 0.6)")
                ax.legend()
                for i, v in enumerate(test_acc):
                    ax.text(v + 0.01, i - bar_width/2, f"{v:.2f}", va="center")
                for i, v in enumerate(cv_acc):
                    ax.text(v + 0.01, i + bar_width/2, f"{v:.2f}", va="center")
                plt.tight_layout()
                plt.show()

                # Konfusionsmatrix auf Testdaten
                y_pred_test = best_model.predict(X_test)
                if le is not None:
                    display_labels = le.classes_
                else:
                    display_labels = np.unique(np.concatenate((y_test, y_pred_test)))
                cm = confusion_matrix(y_test, y_pred_test, labels=np.arange(len(display_labels)))
                disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=display_labels)
                disp.plot(cmap="Blues", values_format="d")
                plt.title(f"Konfusionsmatrix – {best_model_name}")
                plt.show()

                # --- 📋 Liste falsch klassifizierter Zeilen ---
                y_pred_test = best_model.predict(X_test)
                if le is not None:
                    y_test_decoded = le.inverse_transform(y_test)
                    y_pred_decoded = le.inverse_transform(y_pred_test)
                else:
                    y_test_decoded = y_test
                    y_pred_decoded = y_pred_test

                fehler_df = X_test.copy()
                fehler_df["Echte_Klasse"] = y_test_decoded
                fehler_df["Vorhergesagte_Klasse"] = y_pred_decoded
                fehler_df = fehler_df[fehler_df["Echte_Klasse"] != fehler_df["Vorhergesagte_Klasse"]]

                print("\n--- 📋 Falsch klassifizierte Zeilen ---")
                if fehler_df.empty:
                    print("✅ Alle Testdaten korrekt klassifiziert!")
                else:
                    print(f"❌ {len(fehler_df)} falsch klassifizierte Zeilen gefunden.")
                    print(fehler_df.head(10))

                # --- 📋 Vergleich echte Objekte aus df vs. Modellvorhersage ---
                y_pred_all = best_model.predict(X)
                if le is not None:
                    y_true_all = le.inverse_transform(y_encoded)
                    y_pred_all = le.inverse_transform(y_pred_all)
                else:
                    y_true_all = y_encoded
                    y_pred_all = y_pred_all

                vergleich_df = X.copy()
                vergleich_df["Echte_Klasse_df"] = y_true_all
                vergleich_df["Vorhergesagte_Klasse"] = y_pred_all
                abweichungen_df = vergleich_df[vergleich_df["Echte_Klasse_df"] != vergleich_df["Vorhergesagte_Klasse"]]

                print("\n--- 📋 Vergleich echte Objekte aus df vs. Modellvorhersage ---")
                if abweichungen_df.empty:
                    print("✅ Modell sieht alle Objekte gleich wie im Datensatz definiert!")
                else:
                    print(f"❌ {len(abweichungen_df)} Abweichungen gefunden.")
                    print(abweichungen_df.head(20))

                # Statistik der Abweichungen pro Klasse
                if not abweichungen_df.empty:
                    gesamt_pro_klasse = pd.Series(y_true_all).value_counts().sort_index()
                    fehler_pro_klasse = abweichungen_df["Echte_Klasse_df"].value_counts().sort_index()
                    prozent_fehler = (fehler_pro_klasse / gesamt_pro_klasse * 100).round(2)
                    klasse_statistik = pd.DataFrame({
                        "Gesamtanzahl": gesamt_pro_klasse,
                        "Fehleranzahl": fehler_pro_klasse,
                        "Fehler_%": prozent_fehler
                    }).fillna(0)
                    print("\n--- 📊 Abweichungen pro Klasse ---")
                    print(klasse_statistik)
                else:
                    print("✅ Keine Abweichungen, alle Objekte korrekt erkannt!")

                print("\n--- 🏁 Modellanalyse abgeschlossen ---")

        except Exception as e:
            print(f"Ein Fehler ist aufgetreten: {e}")

ok_button.on_click(on_ok_button_clicked)

# Widgets anzeigen
print("\nBitte wählen Sie die Zielvariable aus und klicken Sie auf OK.")
display(widgets.VBox([
    ziel_dropdown,
    ok_button,
    output_widget
]))
# =======================================================
#       1. Spaltenklassifizierung nach Typ PCA 2D
# =======================================================
def classify_columns_by_type(df: pd.DataFrame):
    categorical_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()
    numerical_columns = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
    return {'categorical': categorical_columns, 'numerical': numerical_columns}

# === 1. Features und Zielvariable trennen (mit Dropdown) ===
print("--- 🛠️ Daten für das Modell vorbereiten PCA 2D---")
classified_cols = classify_columns_by_type(df_temp)
kategorische_spalten = classified_cols['categorical']

if not kategorische_spalten:
    raise ValueError("❌ Keine kategoriale Spalte im DataFrame gefunden.")

print("\nFolgende Spalten sind vom Typ 'object' oder 'category':")
for i, col in enumerate(kategorische_spalten):
    print(f"  {i+1}. {col}")

# Dropdown-Menü und OK-Button erstellen
ziel_dropdown = widgets.Dropdown(
    options=kategorische_spalten,
    description='Zielvariable:',
    disabled=False,
)

ok_button = widgets.Button(
    description='OK',
    button_style='success',
    tooltip='Ausgewählte Spalte bestätigen'
)

output_widget = widgets.Output()

def on_ok_button_clicked(b):
    with output_widget:
        clear_output(wait=True)
        try:
            zielvariable_name = ziel_dropdown.value

            y = df_temp[zielvariable_name]
            X = df_temp.drop(columns=[zielvariable_name])

            print(f"\n✅ Zielvariable: '{y.name}' (Datentyp: {y.dtype})")
            print(f"Anzahl der Features: {X.shape[1]}")

            # === 2. One-Hot-Encoding für Features ===
            kategorische_spalten_in_X = X.select_dtypes(include=['object', 'category']).columns
            if not kategorische_spalten_in_X.empty:
                X = pd.get_dummies(X, columns=kategorische_spalten_in_X, drop_first=True)
                print("\n✅ Kategorische Spalten in X wurden kodiert (One-Hot-Encoding).")
            else:
                print("\nℹ️ Keine kategorischen Spalten in X gefunden.")

            # === 3. Zielvariable kodieren ===
            if y.dtype == 'object' or y.dtype.name == 'category':
                le = LabelEncoder()
                y_encoded = le.fit_transform(y)
                print("\n✅ Zielvariable in numerische Werte kodiert (LabelEncoder).")
                for i, class_name in enumerate(le.classes_):
                    print(f"  '{class_name}' -> {i}")
            else:
                le = None
                y_encoded = y
                print("\nℹ️ Zielvariable bereits numerisch, keine Kodierung erforderlich.")

            # === 4. Konsistenzprüfung vor Split ===
            print(f"\n--- Konsistenzprüfung vor Train/Test-Split ---")
            if X.shape[0] != y_encoded.shape[0]:
                raise ValueError(f"❌ Inkonsistente Anzahl Samples: X={X.shape[0]}, y={y_encoded.shape[0]}")
            else:
                print("✅ Shapes konsistent.")

            # === 5. Train/Test-Split ===
            X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
            print(f"\nX_train: {X_train.shape}, X_test: {X_test.shape}")
            print(f"y_train: {y_train.shape}, y_test: {y_test.shape}")

            # === 6. Modelltraining und Bewertung (interaktiver Teil) ===
            print("\n--- 🧠 Modelle trainieren und bewerten ---")
            modelle = {
                "Logistische Regression": LogisticRegression(max_iter=500),
                "KNN": KNeighborsClassifier(),
                "Entscheidungsbaum": DecisionTreeClassifier(),
                "Random Forest": RandomForestClassifier(),
                "SVM": SVC(probability=True),
                "Naive Bayes": GaussianNB(),
                "Gradient Boosting": GradientBoostingClassifier(),
                "AdaBoost": AdaBoostClassifier(),
                "Neuronales Netz (MLP)": MLPClassifier(max_iter=500),
                "Extra Trees": ExtraTreesClassifier(),
                "Bagging": BaggingClassifier(),
                "SGD": SGDClassifier(loss="log_loss"),
                "Ridge": RidgeClassifier()
            }

            if has_xgb:
                modelle["XGBoost"] = XGBClassifier(eval_metric="mlogloss", use_label_encoder=False)
            if has_lgbm:
                modelle["LightGBM"] = LGBMClassifier(verbose=-1)
            if has_catboost:
                modelle["CatBoost"] = CatBoostClassifier(verbose=0)

            # Dropdown-Menü für die Modellauswahl erstellen
            modell_dropdown = widgets.Dropdown(
                options=list(modelle.keys()),
                description='Modell auswählen:',
                disabled=False,
                style={'description_width': 'initial'}
            )
            train_button = widgets.Button(
                description='Modell trainieren',
                button_style='primary',
                tooltip='Ausgewähltes Modell trainieren und bewerten'
            )
            output_modell_widget = widgets.Output()

            def on_train_button_clicked(b):
                with output_modell_widget:
                    clear_output(wait=True)
                    try:
                        selected_model_name = modell_dropdown.value
                        model = modelle[selected_model_name]

                        print(f"Starte Training für: {selected_model_name}...")

                        # Cross-Validation zur Bewertung der Modellleistung
                        scores = cross_val_score(model, X, y_encoded, cv=5, scoring='accuracy')
                        print(f"✅ Cross-Validation (5-fold) abgeschlossen.")
                        print(f"   CV-Genauigkeit: {np.mean(scores):.3f} (+/- {np.std(scores):.3f})")

                        # Modell auf dem gesamten Datensatz trainieren
                        model.fit(X, y_encoded)
                        print(f"✅ Training des Modells '{selected_model_name}' auf dem gesamten Datensatz abgeschlossen.")

                        # --- Visualisierung der Ergebnisse ---
                        print("\n--- 🎨 Visualisierung der Modellvorhersage (PCA) ---")

                        # Reduzieren Sie die Dimensionen mit PCA auf 2
                        pca = PCA(n_components=2)
                        X_pca = pca.fit_transform(X)

                        # Erstellen der Vorhersagen für den gesamten Datensatz
                        y_pred_all = model.predict(X)

                        # Die tatsächliche und die vorhergesagte Klasse in einem DataFrame zusammenfassen
                        plot_df = pd.DataFrame(X_pca, columns=['PC1', 'PC2'])
                        plot_df['Echte_Klasse'] = y_encoded
                        plot_df['Vorhergesagte_Klasse'] = y_pred_all

                        # Labels für die Legende vorbereiten
                        if le is not None:
                            class_labels = le.classes_
                        else:
                            class_labels = np.unique(y_encoded)

                        # === Scatter Plots erstellen ===
                        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 7))

                        # Plot 1: Tatsächliche Klassen
                        sns.scatterplot(
                            x='PC1',
                            y='PC2',
                            hue='Echte_Klasse',
                            data=plot_df,
                            palette='viridis',
                            legend='full',
                            ax=ax1
                        )
                        ax1.set_title('Tatsächliche Klassen (PCA 2D)')
                        ax1.set_xlabel('Hauptkomponente 1')
                        ax1.set_ylabel('Hauptkomponente 2')

                        # Plot 2: Vorhergesagte Klassen
                        sns.scatterplot(
                            x='PC1',
                            y='PC2',
                            hue='Vorhergesagte_Klasse',
                            data=plot_df,
                            palette='viridis',
                            legend='full',
                            ax=ax2
                        )
                        ax2.set_title(f'Vorhergesagte Klassen von {selected_model_name} (PCA 2D)')
                        ax2.set_xlabel('Hauptkomponente 1')
                        ax2.set_ylabel('Hauptkomponente 2')

                        # Legende anpassen
                        handles1, labels1 = ax1.get_legend_handles_labels()
                        handles2, labels2 = ax2.get_legend_handles_labels()

                        if le is not None:
                            labels_decoded = le.inverse_transform([int(float(l)) for l in labels1])
                            ax1.legend(handles=handles1, labels=labels_decoded, title="Echte Klassen")

                            labels_decoded_pred = le.inverse_transform([int(float(l)) for l in labels2])
                            ax2.legend(handles=handles2, labels=labels_decoded_pred, title="Vorhergesagte Klassen")

                        plt.tight_layout()
                        plt.show()

                        # --- Konfusionsmatrix ---
                        y_pred_test = model.predict(X_test)
                        if le is not None:
                            display_labels = le.classes_
                        else:
                            display_labels = np.unique(np.concatenate((y_test, y_pred_test)))
                        cm = confusion_matrix(y_test, y_pred_test, labels=np.arange(len(display_labels)))
                        disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=display_labels)
                        disp.plot(cmap="Blues", values_format="d")
                        plt.title(f"Konfusionsmatrix – {selected_model_name}")
                        plt.show()

                        print("\n--- 🏁 Analyse abgeschlossen ---")

                    except Exception as e:
                        print(f"❌ Ein Fehler ist aufgetreten: {e}")

            train_button.on_click(on_train_button_clicked)

            # Widgets anzeigen
            print("Bitte wählen Sie ein Modell aus und klicken Sie auf 'Modell trainieren'.")
            display(widgets.VBox([
                modell_dropdown,
                train_button,
                output_modell_widget
            ]))

        except Exception as e:
            print(f"Ein Fehler ist aufgetreten: {e}")

ok_button.on_click(on_ok_button_clicked)

# Widgets anzeigen
print("\nBitte wählen Sie die Zielvariable aus und klicken Sie auf OK.")
display(widgets.VBox([
    ziel_dropdown,
    ok_button,
    output_widget
]))

## ML Unüberwachtes Lernen

In [None]:
# =====================================
📊 Unüberwachtes Lernen mit ML
# =====================================

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN, SpectralClustering, Birch
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score
from sklearn.decomposition import PCA
from sklearn.neighbors import NearestNeighbors
from scipy.optimize import linear_sum_assignment
import warnings
import sys
import ipywidgets as widgets
from IPython.display import display, clear_output
from ipywidgets import VBox, Dropdown, Button, Output

warnings.filterwarnings("ignore")

# ====== GLOBALE VARIABLEN FÜR DIE KOMMUNIKATION ZWISCHEN MODULEN ======
X_scaled_df = None
df_temp = None
best_method = None
solution_column_name = None
all_methods_results = None

def check_dependencies():
    """Überprüft, ob alle erforderlichen Bibliotheken installiert sind."""
    required_libraries = [
        "numpy",
        "pandas",
        "matplotlib",
        "seaborn",
        "sklearn",
        "ipywidgets",
        "scipy"
    ]
    missing_libraries = []
    for lib in required_libraries:
        try:
            __import__(lib)
        except ImportError:
            missing_libraries.append(lib)

    if missing_libraries:
        print("❌ Folgende Bibliotheken fehlen oder konnten nicht geladen werden:")
        for lib in missing_libraries:
            print(f"   - {lib}")
        print("\nBitte installieren Sie die fehlenden Bibliotheken mit 'pip install [Bibliothek]'")
        sys.exit("Programm wird beendet, da nicht alle Abhängigkeiten erfüllt sind.")
    else:
        print("✅ Alle erforderlichen Bibliotheken sind installiert.")

#============================================================
def start_clustering_workflow(df: pd.DataFrame):
    """
    Startet einen interaktiven Workflow für die unüberwachte Cluster-Analyse.

    Args:
        df (pd.DataFrame): Das DataFrame, das für das Clustering verwendet werden soll.
    """
    global X_scaled_df, df_temp, solution_column_name

    print(' * * * * * * * * * *', '[DATEN PRÜFEN UND VORBEREITEN]', ' * * * * * * * * * *')
    df_temp = df.copy()

    # Automatische Erkennung von kategorialen Spalten, die für den Vergleich relevant sein könnten
    kategorische_spalten = df_temp.select_dtypes(include=['object', 'category', 'int64']).columns.tolist()

    if not kategorische_spalten:
        print("❌ Keine kategorialen Spalten im DataFrame für den Vergleich gefunden.")
        return

    def select_solution_column(b):
        global solution_column_name, X_scaled_df
        with output_pre:
            clear_output()
            solution_column_name = solution_dropdown.value
            print(f"➡️ Lösungsspalte '{solution_column_name}' ausgewählt.")

            # Daten für Clustering vorbereiten
            X = df_temp.drop(columns=[solution_column_name]).copy()

            kategorische_spalten_clustering = X.select_dtypes(include=['object', 'category']).columns.tolist()
            if kategorische_spalten_clustering:
                X = pd.get_dummies(X, columns=kategorische_spalten_clustering, drop_first=True)
                print("✅ Kategorische Spalten wurden kodiert (One-Hot-Encoding).")

            numerische_spalten = X.select_dtypes(include=np.number).columns.tolist()
            if not numerische_spalten:
                print("❌ Keine numerischen Spalten für das Clustering im DataFrame gefunden!")
                return

            scaler = StandardScaler()
            X_scaled = scaler.fit_transform(X[numerische_spalten])
            X_scaled_df = pd.DataFrame(X_scaled, columns=numerische_spalten, index=X.index)
            print("✅ Numerische Spalten wurden skaliert (StandardScaler).")
            print('*' * 50)

            run_elbow_method()

    output_pre = Output()
    solution_dropdown = Dropdown(
        options=kategorische_spalten,
        description='Lösungsspalte wählen:',
        style={'description_width': 'initial'}
    )
    pre_button = Button(description="Daten vorbereiten")
    pre_button.on_click(select_solution_column)

    display(VBox([solution_dropdown, pre_button, output_pre]))
#============================================================
def run_elbow_method():
    """Zeigt die Ellbogen-Methode zur Bestimmung der optimalen Cluster-Anzahl."""
    global X_scaled_df
    print(' * * * * * * * * * *', '[ELLBOGEN-METHODE]', ' * * * * * * * * * *')
    sum_of_squared_distances = []
    K_range = range(1, 11)
    try:
        for k in K_range:
            kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
            kmeans.fit(X_scaled_df)
            sum_of_squared_distances.append(kmeans.inertia_)

        plt.figure(figsize=(10, 6))
        plt.plot(K_range, sum_of_squared_distances, 'bx-')
        plt.xlabel('Anzahl der Cluster (k)')
        plt.ylabel('Summe der quadrierten Abstände')
        plt.title('Ellbogen-Methode (KMeans)')
        plt.xticks(K_range)
        plt.show()
        plt.close()
        print("✅ Ellbogen-Methode visualisiert. Suchen Sie nach der 'Biegung' im Diagramm.")
    except Exception as e:
        print(f"❌ Ellbogen-Methode konnte nicht ausgeführt werden: {e}")
    print('*' * 50)

    show_clustering_widgets()
#============================================================
def show_clustering_widgets():
    """Zeigt Widgets für den Vergleich verschiedener Clustering-Methoden."""
    global X_scaled_df, all_methods_results, best_method
    print(' * * * * * * * * * *', '[CLUSTERING-VERGLEICH]', ' * * * * * * * * * *')
    k_dropdown = Dropdown(
        options=list(range(2, 11)),
        value=4,
        description='Cluster k:',
        style={'description_width': 'initial'}
    )
    run_button = Button(description="Clustering vergleichen")
    output = Output()

    def run_clustering(b):
        global best_method, all_methods_results
        with output:
            clear_output()
            k_optimal = k_dropdown.value
            print(f"➡️ Du hast k={k_optimal} ausgewählt.\n")
            results = []

            # Dynamische Definition der K-basierten Clustering-Methoden
            k_based_methods = {
                "KMeans": KMeans(n_clusters=k_optimal, random_state=42, n_init=10),
                "GMM": GaussianMixture(n_components=k_optimal, random_state=42),
                "Agglomerative": AgglomerativeClustering(n_clusters=k_optimal),
                "SpectralClustering": SpectralClustering(n_clusters=k_optimal, random_state=42, assign_labels='discretize'),
                "Birch": Birch(n_clusters=k_optimal)
            }

            for name, model in k_based_methods.items():
                try:
                    labels = model.fit_predict(X_scaled_df)
                    results.append({
                        "Methode": name,
                        "Parameter": f"k={k_optimal}",
                        "Silhouette": silhouette_score(X_scaled_df, labels),
                        "Calinski-Harabasz": calinski_harabasz_score(X_scaled_df, labels),
                        "Davies-Bouldin": davies_bouldin_score(X_scaled_df, labels),
                        "Labels": labels
                    })
                except Exception as e:
                    print(f"❌ Methode {name} konnte nicht ausgeführt werden: {e}")

            # DBSCAN mit automatischer eps-Schätzung
            try:
                neigh = NearestNeighbors(n_neighbors=5)
                nbrs = neigh.fit(X_scaled_df)
                distances, _ = nbrs.kneighbors(X_scaled_df)
                eps_est = np.percentile(distances[:, -1], 90)
                dbscan = DBSCAN(eps=eps_est, min_samples=5)
                labels = dbscan.fit_predict(X_scaled_df)
                # Überprüfen, ob mehr als ein Cluster gefunden wurde
                if len(set(labels)) > 1:
                    results.append({
                        "Methode": "DBSCAN",
                        "Parameter": f"eps={eps_est:.2f}",
                        "Silhouette": silhouette_score(X_scaled_df, labels),
                        "Calinski-Harabasz": calinski_harabasz_score(X_scaled_df, labels),
                        "Davies-Bouldin": davies_bouldin_score(X_scaled_df, labels),
                        "Labels": labels
                    })
            except Exception as e:
                print(f"❌ Methode DBSCAN konnte nicht ausgeführt werden: {e}")

            if not results:
                print("Keine Cluster-Methoden konnten erfolgreich ausgeführt werden.")
                return

            all_methods_results = {res['Methode']: res for res in results}

            results_df = pd.DataFrame(results).drop(columns="Labels")
            display(results_df.sort_values(by="Silhouette", ascending=False))

            best_method = max(results, key=lambda x: x["Silhouette"])
            print(f"\n🏆 Beste Methode: {best_method['Methode']} ({best_method['Parameter']})")

            print('*' * 50)
            show_comparison_widgets()

    display(VBox([k_dropdown, run_button, output]))
    run_button.on_click(run_clustering)
#============================================================
def show_comparison_widgets():
    """Zeigt Widgets für den Vergleich der Cluster mit den Originaldaten."""
    global df_temp, all_methods_results, solution_column_name
    print(' * * * * * * * * * *', '[VISUALISIERUNG UND VERGLEICH]', ' * * * * * * * * * *')

    if solution_column_name is None or all_methods_results is None:
        print("❌ Keine Daten verfügbar. Bitte führen Sie die vorherigen Schritte aus.")
        return

    method_dropdown = Dropdown(
        options=list(all_methods_results.keys()),
        value=best_method['Methode'] if best_method else list(all_methods_results.keys())[0],
        description='Methode wählen:',
        style={'description_width': 'initial'}
    )
    obj_col_dropdown = Dropdown(
        options=[solution_column_name],
        description='Vergleichs-Spalte:',
        disabled=True,
        style={'description_width': 'initial'}
    )
    show_plots_button = Button(description="Plots und Vergleich anzeigen")
    output_compare = Output()

    def run_object_comparison(b):
        with output_compare:
            clear_output(wait=True)
            selected_method_name = method_dropdown.value
            selected_method = all_methods_results[selected_method_name]

            print(f"➡️ Analysiere Ergebnisse für Methode: {selected_method['Methode']} ({selected_method['Parameter']})")

            # PCA-Visualisierung der ausgewählten Methode
            pca = PCA(n_components=2)
            pcs = pca.fit_transform(X_scaled_df)

            labels_to_plot = selected_method['Labels']
            if selected_method['Methode'] == 'DBSCAN':
                mask = labels_to_plot != -1
                pcs = pcs[mask]
                labels_to_plot = labels_to_plot[mask]

                if len(set(labels_to_plot)) == 0:
                    print("⚠️ DBSCAN hat keine Cluster gefunden (nur Rauschen). Visualisierung nicht möglich.")
                else:
                    plt.figure(figsize=(10, 8))
                    sns.scatterplot(x=pcs[:, 0], y=pcs[:, 1], hue=labels_to_plot, palette='viridis', legend='full', alpha=0.7)
                    plt.title(f"Cluster-Visualisierung ({selected_method['Methode']})")
                    plt.xlabel("PC1")
                    plt.ylabel("PC2")
                    plt.show()
                    plt.close()
            else:
                plt.figure(figsize=(10, 8))
                sns.scatterplot(x=pcs[:, 0], y=pcs[:, 1], hue=labels_to_plot, palette='viridis', legend='full', alpha=0.7)
                plt.title(f"Cluster-Visualisierung ({selected_method['Methode']})")
                plt.xlabel("PC1")
                plt.ylabel("PC2")
                plt.show()
                plt.close()

            # Vergleich mit Originalspalte
            df_compare = df_temp.copy()
            df_compare['Cluster'] = selected_method['Labels']

            contingency = pd.crosstab(df_compare[solution_column_name], df_compare['Cluster'])
            print("\n--- Anzahl der Objekte pro Kategorie und Cluster ---")
            display(contingency)

            cost_matrix = -contingency.values
            row_ind, col_ind = linear_sum_assignment(cost_matrix)
            cluster_mapping = {contingency.index[r]: contingency.columns[c] for r, c in zip(row_ind, col_ind)}

            print("\n✅ Eindeutige Kategorie → Cluster Zuordnung:")
            for cat, clus in cluster_mapping.items():
                print(f"  {cat} -> Cluster {clus}")

            df_compare['Predominant_Cluster'] = df_compare[solution_column_name].map(cluster_mapping)
            df_compare['Abweichung'] = df_compare['Cluster'] != df_compare['Predominant_Cluster']
            n_abw = df_compare['Abweichung'].sum()
            print(f"\n❌ Anzahl der Abweichungen vom dominanten Cluster: {n_abw}")

            if n_abw > 0:
                print("\n--- Objekte mit Abweichung ---")
                display(df_compare[df_compare['Abweichung']].head())

            plt.figure(figsize=(10, 6))
            sns.heatmap(contingency, annot=True, fmt="d", cmap="viridis")
            plt.title(f"Cluster-Verteilung für '{solution_column_name}'")
            plt.ylabel(solution_column_name)
            plt.xlabel("Cluster")
            plt.show()
            plt.close()
            print('*' * 50)
            create_temp_clear_ml()

    display(VBox([method_dropdown, obj_col_dropdown, show_plots_button, output_compare]))
    show_plots_button.on_click(run_object_comparison)
#============================================================
def create_temp_clear_ml():
    """Erstellt die finale Spalte TEMP_Clear_ML für die Machine Learning Vorverarbeitung."""
    global df_temp, best_method, solution_column_name
    print(' * * * * * * * * * *', '[TEMP_Clear_ML ERSTELLEN]', ' * * * * * * * * * *')

    ml_col_name = "TEMP_Clear_ML"

    df_with_ml = df_temp.copy()
    df_with_ml['Cluster'] = best_method['Labels']

    comparison = pd.crosstab(df_with_ml[solution_column_name], df_with_ml['Cluster'])
    cluster_mapping = {}
    for cluster in comparison.columns:
        assigned_category = comparison[cluster].idxmax()
        cluster_mapping[cluster] = assigned_category

    df_with_ml[ml_col_name] = df_with_ml.apply(
        lambda row: cluster_mapping[row['Cluster']] if cluster_mapping[row['Cluster']] == row[solution_column_name] else False,
        axis=1
    )

    print(f"✅ Neue Spalte '{ml_col_name}' erstellt.")
    display(df_with_ml[[solution_column_name, 'Cluster', ml_col_name]].head())

    n_false = (df_with_ml[ml_col_name] == False).sum()
    print(f"\n❌ Anzahl der nicht übereinstimmenden Einträge: {n_false}")
    print('*' * 50)

#============================================================
#                    Skript starten
#============================================================
check_dependencies()
if 'df' in locals():
    start_clustering_workflow(df)
else:
    print("❌ DataFrame 'df' nicht gefunden. Bitte stellen Sie sicher, dass es geladen ist.")

# ============================================================
#       Neue Funktion: Beste Methode finden
# ============================================================

import pandas as pd
import numpy as np
import ipywidgets as widgets
from IPython.display import display, clear_output
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.optimize import linear_sum_assignment
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.preprocessing import StandardScaler

def finde_beste_methode(df: pd.DataFrame, comparison_col: str, n_clusters: int) -> dict:
    """
    Vergleicht verschiedene Clustering-Methoden und wählt diejenige aus,
    die die höchste Genauigkeit (Trefferquote) im Vergleich zur
    ausgewählten Spalte aufweist.

    Args:
        df (pd.DataFrame): Das Original-DataFrame.
        comparison_col (str): Der Name der Spalte mit der Lösung.
        n_clusters (int): Die Anzahl der zu erwartenden Cluster.

    Returns:
        dict: Ein Wörterbuch mit der besten Methode und deren Ergebnissen.
    """
    df_temp = df.copy()

    # Sicherstellen, dass die Vergleichsspalte eine Kategorie ist
    df_temp['category_labels'] = pd.Categorical(df_temp[comparison_col]).codes

    # Numerische Features für das Clustering extrahieren und skalieren
    numeric_features = df.select_dtypes(include=['number']).columns.tolist()
    X = df[numeric_features]
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)

    methods = {
        'K-Means': KMeans(n_clusters=n_clusters, random_state=42, n_init='auto'),
        'Agglomerative Clustering': AgglomerativeClustering(n_clusters=n_clusters)
    }

    best_accuracy = -1
    best_method = {}

    # Alle Methoden vergleichen
    for name, method in methods.items():
        labels = method.fit_predict(X_scaled)

        # Sicherstellen, dass die Anzahl der Cluster der erwarteten entspricht
        if len(np.unique(labels)) != n_clusters:
            continue

        # Optimales Mapping finden
        contingency = pd.crosstab(df_temp['category_labels'], labels)
        cost_matrix = -contingency.values
        row_ind, col_ind = linear_sum_assignment(cost_matrix)

        # Trefferquote (Accuracy) berechnen
        accuracy = contingency.values[row_ind, col_ind].sum() / contingency.sum().sum()

        # Beste Methode aktualisieren
        if accuracy > best_accuracy:
            best_accuracy = accuracy
            best_method = {
                'Name': name,
                'Labels': labels,
                'Accuracy': accuracy
            }

    return best_method

# ============================================================
#                    Cluster-Ergebnisse
# ============================================================

def vergleiche_cluster_mit_originaldaten(df: pd.DataFrame, best_method: dict):
    """
    Erstellt interaktive Widgets, um die Cluster-Ergebnisse mit einer
    ausgewählten Original-Kategoriespalte zu vergleichen und zu visualisieren.

    Args:
        df (pd.DataFrame): Das Original-DataFrame.
        best_method (dict): Das Wörterbuch mit den Ergebnissen der besten Clustering-Methode.
    """
    object_columns = df.select_dtypes(include=['object', 'category', 'int64']).columns.tolist()

    if not object_columns:
        print("❌ Keine geeigneten kategorialen Spalten im DataFrame für den Vergleich vorhanden!")
        return

    # Anzeige der besten Methode basierend auf der höchsten Genauigkeit
    print(f"🏆 Beste Methode in Lösungsspalte zu Clustering: {best_method['Name']} (Accuracy: {best_method['Accuracy']:.2%})")

    obj_col_dropdown = widgets.Dropdown(
        options=object_columns,
        description='Vergleichs-Spalte:',
        style={'description_width': 'initial'}
    )
    compare_button = widgets.Button(description="Vergleich starten")
    output_compare = widgets.Output()

    def run_object_comparison(b):
        with output_compare:
            clear_output(wait=True)
            col = obj_col_dropdown.value
            print(f"➡️ Gewählte Spalte für Vergleich: {col}")

            # Gesamt-DF mit Cluster-Spalte
            df_compare = df.copy()
            df_compare['Cluster'] = best_method['Labels']

            # Kontingenztabelle
            contingency = pd.crosstab(df_compare[col], df_compare['Cluster'])
            print("\n--- Anzahl der Objekte pro Kategorie und Cluster ---")
            display(contingency)

            # --- Optimale 1:1 Zuordnung Kategorie → Cluster ---
            cost_matrix = -contingency.values
            row_ind, col_ind = linear_sum_assignment(cost_matrix)
            cluster_mapping = {contingency.index[r]: contingency.columns[c] for r, c in zip(row_ind, col_ind)}

            print("\n✅ Eindeutige Kategorie → Cluster Zuordnung:")
            for cat, clus in cluster_mapping.items():
                print(f"  {cat} -> Cluster {clus}")

            # Berechne Abweichungen
            df_compare['Predominant_Cluster'] = df_compare[col].map(cluster_mapping)
            df_compare['Abweichung'] = df_compare['Cluster'] != df_compare['Predominant_Cluster']
            n_abw = df_compare['Abweichung'].sum()
            print(f"\n❌ Anzahl der Abweichungen vom dominanten Cluster: {n_abw}")
            if n_abw > 0:
                print("\n--- Objekte mit Abweichung ---")
                display(df_compare[df_compare['Abweichung']].head())

            # --- Heatmap ---
            plt.figure(figsize=(10, 6))
            sns.heatmap(contingency, annot=True, fmt="d", cmap="viridis")
            plt.title(f"Cluster-Verteilung für '{col}'")
            plt.ylabel(col)
            plt.xlabel("Cluster")
            plt.show()

            # --- Balkenplot Abweichungen pro Kategorie ---
            abw_per_cat = df_compare.groupby(col)['Abweichung'].sum()
            plt.figure(figsize=(8,4))
            sns.barplot(x=abw_per_cat.index, y=abw_per_cat.values, palette="coolwarm")
            plt.title(f"Abweichungen vom dominanten Cluster pro Kategorie")
            plt.ylabel("Anzahl Abweichungen")
            plt.xlabel(col)
            plt.show()

    # Anzeige der Widgets
    display(widgets.VBox([obj_col_dropdown, compare_button, output_compare]))
    compare_button.on_click(run_object_comparison)

#===================================================

# --- ML-Zuordnung in df mit Kategorie-Labels und False für Abweichungen mit Button ---
object_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()

if not object_columns:
    print("❌ Keine Object-Spalten im DataFrame vorhanden!")
else:
    obj_col_dropdown = widgets.Dropdown(
        options=object_columns,
        description='Vergleichs-Spalte:',
        style={'description_width': 'initial'}
    )

    ml_button = widgets.Button(description="ML-Zuordnung erstellen")
    output_ml = widgets.Output()

    def run_ml_assignment(b):
        with output_ml:
            clear_output(wait=True)
            col = obj_col_dropdown.value
            print(f"➡️ Gewählte Spalte für ML-Zuordnung: {col}")

            if 'best_method' not in globals():
                print("❌ Bitte zuerst Clustering ausführen!")
                return

            ml_col_name = f"{col}_ML"

            # Gesamt-DF mit Cluster-Spalte
            df_with_ml = df.copy()
            df_with_ml['Cluster'] = best_method['Labels']

            # Gruppierung Original-Spalte vs. Cluster
            comparison = pd.crosstab(df_with_ml[col], df_with_ml['Cluster'])

            # Eindeutige Zuordnung Cluster -> Original-Kategorie
            cluster_mapping = {}
            for cluster in comparison.columns:
                assigned_category = comparison[cluster].idxmax()
                cluster_mapping[cluster] = assigned_category

            # Neue Spalte einfügen: Original-Kategorie wenn Treffer, sonst False
            df_with_ml[ml_col_name] = df_with_ml.apply(
                lambda row: cluster_mapping[row['Cluster']] if cluster_mapping[row['Cluster']] == row[col] else False,
                axis=1
            )

            # Ausgabe
            print(f"✅ Neue Spalte '{ml_col_name}' erstellt:")
            display(df_with_ml[[col, 'Cluster', ml_col_name]].head(50))

            # Anzahl der nicht übereinstimmenden Einträge
            n_false = (df_with_ml[ml_col_name] == False).sum()
            print(f"\n❌ Anzahl der nicht übereinstimmenden Einträge: {n_false}")
            df_with_ml.to_csv("df_with_ml.csv", index=False)


    # Anzeige der Widgets
    display(widgets.VBox([obj_col_dropdown, ml_button, output_ml]))
    ml_button.on_click(run_ml_assignment)