# Taravel_tide Data hochladen f√ºr Mastery projekt


In [56]:
# Notebook: notebooks/load_data.ipynb
# Dies ist ein Jupyter Notebook f√ºr das Laden und Vorbereiten der TravelTide Daten

import os   # Betriebssystem-Interaktion: F√ºr Dateipfade und Verzeichnisoperationen
import sys  # System-spezifische Parameter: F√ºr Python-Pfad-Manipulation
import pandas as pd  # noqa: F401 - Datenanalyse-Bibliothek (Import f√ºr sp√§tere Verwendung)

# ============================================================
# ‚úÖ Add the project root to sys.path (not /core)
# Projekt-Root-Verzeichnis zum Python-Pfad hinzuf√ºgen
# ============================================================

# Ermittle den absoluten Pfad zum Projekt-Root-Verzeichnis (eine Ebene √ºber dem aktuellen Verzeichnis)
project_root = os.path.abspath("..")

# √úberpr√ºfe ob der Projekt-Root bereits im Python-Pfad enthalten ist
if project_root not in sys.path:
    # F√ºge Projekt-Root zum Python-Pfad hinzu, damit Importe aus anderen Modulen funktionieren
    sys.path.append(project_root)

# Best√§tigungsausgabe - zeigt das hinzugef√ºgte Verzeichnis
print("Project root added to sys.path:", project_root)

# ============================================================
# üìÅ ERKL√ÑRUNG DER STRUKTUR:
# 
# Angenommene Projekt-Struktur:
# traveltide_analysis/          # üéØ PROJECT ROOT (project_root)
# ‚îú‚îÄ‚îÄ notebooks/                # üìì Jupyter Notebooks
# ‚îÇ   ‚îî‚îÄ‚îÄ load_data.ipynb       #    Dieses Notebook
# ‚îú‚îÄ‚îÄ core/                     # ‚öôÔ∏è  Python Module
# ‚îÇ   ‚îú‚îÄ‚îÄ __init__.py          #    
# ‚îÇ   ‚îú‚îÄ‚îÄ utils.py             #    Datenbank-Hilfsfunktionen
# ‚îÇ   ‚îî‚îÄ‚îÄ load_data.py         #    Daten-Lade-Funktionen
# ‚îú‚îÄ‚îÄ data/                     # üíæ Daten-Verzeichnis
# ‚îÇ   ‚îú‚îÄ‚îÄ raw/                 #    Rohdaten
# ‚îÇ   ‚îî‚îÄ‚îÄ processed/           #    Verarbeitete Daten
# ‚îî‚îÄ‚îÄ sql/                     # üóÉÔ∏è  SQL Query Dateien
#
# Durch sys.path.append(project_root) k√∂nnen wir jetzt importieren:
# from core.load_data import load_table
# from core.utils import init_connection
# ============================================================

# N√§chste Schritte w√ºrden typischerweise folgen:
# 1. Datenbankverbindung initialisieren
# 2. Tabellen laden (users, sessions, flights, hotels)
# 3. Daten explorativ analysieren

# Beispiel f√ºr n√§chste Zellen:
# from core.utils import init_connection
# from core.load_data import load_table
# 
# init_connection()
# users_df = load_table("raw", "users")
# sessions_df = load_table("raw", "sessions")

Project root added to sys.path: /Users/sadiqqais/Masterschool/Projekt/Mastery_projekt/Travel_tide


In [57]:
# ============================================================
# üîç MODULE VERIFICATION - Core Module Import Test
# ============================================================
# Diese Zelle √ºberpr√ºft ob das core Modul nach der sys.path Anpassung 
# erfolgreich importiert werden kann

try:
    # Versuche das core Modul zu importieren
    # Dies testet ob der Python-Interpreter das Modul finden kann
    import core
    
    # Bei erfolgreichem Import: Zeige Best√§tigung und Dateipfad
    # core.__file__ enth√§lt den vollst√§ndigen Pfad zur __init__.py Datei des Moduls
    print("‚úÖ core module found at:", core.__file__)
    
except ModuleNotFoundError:
    # Dieser Block wird ausgef√ºhrt wenn das core Modul nicht gefunden werden kann
    # Das passiert wenn sys.path nicht korrekt konfiguriert ist
    print("‚ùå core module not found. Check your sys.path!")
    
    # üîß TROUBLESHOOTING TIPS bei Fehler:
    # - √úberpr√ºfe ob project_root korrekt gesetzt wurde
    # - Stelle sicher dass core/__init__.py existiert
    # - √úberpr√ºfe die Projektstruktur
    # - Teste: print("Current sys.path:", sys.path)

# ============================================================
# üìã WAS DIESER CODE √úBERPR√úFT:
# 
# 1. ‚úÖ Korrekte sys.path Konfiguration
#    - Ob project_root im Python-Pfad enthalten ist
#    
# 2. ‚úÖ Existenz des core Packages  
#    - Ob core/ Verzeichnis mit __init__.py existiert
#    
# 3. ‚úÖ Funktionierende Import-Struktur
#    - Ob Python das core Modul als Package erkennt
#
# ============================================================
# üéØ ERWARTETE AUSGABE BEI ERFOLG:
# ‚úÖ core module found at: /path/to/traveltide_analysis/core/__init__.py
#
# üö® M√ñGLICHE FEHLER AUSGABEN:
# ‚ùå core module not found. Check your sys.path!
# ============================================================

# üí° NUTZEN DIESER VERIFIZIERUNG:
# - Fr√ºhes Erkennen von Import-Problemen
# - Vermeidet sp√§tere Fehler in Datenanalyse-Schritten
# - Best√§tigt korrekte Projekt-Einrichtung

# üöÄ N√ÑCHSTE SCHRITTE NACH ERFOLGREICHER VERIFIZIERUNG:
# from core.utils import init_connection
# from core.load_data import load_table
# init_connection()
# users_df = load_table("raw", "users")

‚úÖ core module found at: /Users/sadiqqais/Masterschool/Projekt/Mastery_projekt/Travel_tide/core/__init__.py


In [58]:
# ============================================================
# üì• IMPORT DES LOAD_DATA MODULES
# ============================================================

# Importiert die load_table Funktion aus dem core.load_data Modul
from core import load_table

# ============================================================
# üîç ERKL√ÑRUNG DES IMPORTS:
# 
# Nachdem wir zuvor sichergestellt haben, dass das core Modul 
# importierbar ist (‚úÖ core module found), k√∂nnen wir jetzt 
# spezifische Funktionen daraus importieren.
# ============================================================

# üí° WAS DIESER IMPORT BEDEUTET:
# 
# Projekt-Struktur:
# traveltide_analysis/
# ‚îú‚îÄ‚îÄ core/                    # ‚öôÔ∏è  Core Package
# ‚îÇ   ‚îú‚îÄ‚îÄ __init__.py         #    Package Initialisierung
# ‚îÇ   ‚îú‚îÄ‚îÄ load_data.py        #    üéØ Enth√§lt load_table() Funktion
# ‚îÇ   ‚îî‚îÄ‚îÄ utils.py            #    Hilfsfunktionen
# 
# Dieser Import sucht in:
# 1. core/__init__.py ‚Üí definiert welche Funktionen verf√ºgbar sind
# 2. core/load_data.py ‚Üí enth√§lt die load_table() Funktion

# üéØ WAS load_table() KANN:
# 
# Die load_table() Funktion bietet intelligentes Daten-Laden:
# - Aus CSV Dateien (raw/processed)
# - Aus SQL Datenbank (Fallback)
# - Aus SQL Query Dateien
# - Mit automatischem Caching

# ============================================================
# üöÄ TYPISCHE VERWENDUNG NACH DIESEM IMPORT:
# 
# # Datenbankverbindung initialisieren
# from core.utils import init_connection
# init_connection()
# 
# # Tabellen laden
# users_df = load_table("raw", "users")           # üë• 1M+ Nutzer
# sessions_df = load_table("raw", "sessions")     # üåê 5M+ Sessions  
# flights_df = load_table("raw", "flights")       # ‚úàÔ∏è  2M+ Fl√ºge
# hotels_df = load_table("raw", "hotels")         # üè®  2M+ Hotels
# 
# ============================================================

# ‚úÖ WARUM DIESER IMPORT WICHTIG IST:
# 
# 1. **Zentralisiertes Daten-Management**: Alle Daten-Lade-Operationen 
#    laufen durch eine einheitliche Schnittstelle
# 
# 2. **Intelligentes Caching**: Geladene Daten werden automatisch 
#    als CSV gespeichert f√ºr schnellere zuk√ºnftige Zugriffe
# 
# 3. **Flexible Datenquellen**: Funktioniert mit Datenbank, 
#    CSV-Dateien und SQL-Files
# 
# 4. **Konsistente Datenqualit√§t**: Immer gleiche Vorverarbeitung 
#    und Fehlerbehandlung

# ============================================================
# üìù BEISPIEL F√úR KOMPLETTEN WORKFLOW:
# 
# # 1. Imports
# from core import load_table
# from core.utils import init_connection
# 
# # 2. Datenbank verbinden
# init_connection()
# 
# # 3. Daten laden
# users_df = load_table("raw", "users", show_table_display=True)
# 
# # 4. Daten analysieren
# print(f"Geladene Nutzer: {len(users_df)}")
# print(users_df.head())
# 
# ============================================================

# üéâ NEXT STEPS:
# Jetzt kann mit dem Laden der TravelTide-Daten begonnen werden!
# Die load_table() Funktion steht bereit f√ºr den Einsatz.


## **1. Verst√§ndnis der Datenstruktur**


In [59]:
# ============================================================
# üì• DATENLADUNG - ALLE TRAVELTIDE HAUTPTTABELLEN
# ============================================================

# L√§dt alle vier Haupttabellen der TravelTide-Datenbank
users_df = load_table(data_type='raw', table_name='users')
sessions_df = load_table(data_type='raw', table_name='sessions')
flights_df = load_table(data_type='raw', table_name='flights')
hotels_df = load_table(data_type='raw', table_name='hotels')

# ============================================================
# üîç DETAILIERTE ERKL√ÑRUNG JEDER TABELLE:
# ============================================================

# üë• USERS_DF - Nutzerstammdaten
# Enth√§lt demografische Informationen aller 1.020.926 registrierten Nutzer
# Wichtige Spalten: user_id, birthdate, gender, married, has_children, home_country
# Verwendung: Kundensegmentierung, demografische Analysen

# üåê SESSIONS_DF - Browser-Sitzungen  
# Dokumentiert 5.408.063 Browsing-Sessions mit mindestens 2 Klicks
# Wichtige Spalten: session_id, user_id, trip_id, flight_booked, hotel_booked, page_clicks
# Verwendung: Verhaltensanalyse, Conversion-Tracking, Rabattwirkung

# ‚úàÔ∏è FLIGHTS_DF - Flugbuchungsdetails
# Enth√§lt 1.901.038 gebuchte Fl√ºge mit Preis- und Routeninformationen
# Wichtige Spalten: trip_id, origin_airport, destination, base_fare_usd, checked_bags
# Verwendung: Reiseanalyse, Preisoptimierung, Gep√§ckverhalten

# üè® HOTELS_DF - Hotelbuchungsdetails
# Dokumentiert 1.918.617 Hotelbuchungen mit Aufenthaltsdauer und Preisen
# Wichtige Spalten: trip_id, hotel_name, nights, rooms, hotel_per_room_usd
# Verwendung: Hotel-Pr√§ferenzen, Aufenthaltsdauer, Preisanalyse

# ============================================================
# üéØ PARAMETER-ERKL√ÑRUNG:
# 
# data_type='raw'    : L√§dt Rohdaten direkt aus Datenbank oder CSV
#                    ‚Üí Unver√§nderte Originaldaten
#                    ‚Üí Sp√§ter k√∂nnen 'processed' Daten f√ºr aufbereitete Versionen geladen werden
#
# table_name='users' : Spezifiziert welche Tabelle geladen werden soll
#                    ‚Üí Muss exakt mit Datenbank-Tabellenname √ºbereinstimmen
# ============================================================

# üí° INTELLIGENTES LADEN - WAS HINTER DEN KULISSEN PASSIERT:
#
# 1. üóÉÔ∏è  Zuerst wird gepr√ºft ob local CSV existiert
#    - Falls ja: Schnelles Laden aus CSV-Cache
#    - Falls nein: Laden aus Datenbank + Auto-Speicherung als CSV
#
# 2. üîÑ Automatisches Caching f√ºr Performance
#    - Erste Ausf√ºhrung: Langsam (Datenbank-Abfrage)
#    - Folgende Ausf√ºhrungen: Schnell (CSV-Laden)
#
# 3. üìä Konsistente Datenqualit√§t
#    - Immer gleiche Datenstruktur
#    - Automatische Typ-Konvertierung
#    - Fehlerbehandlung bei fehlenden Daten

# ============================================================
# üìà ERWARTETE DATENMENGEN:
# 
# users_df    : ~1.020.926 Zeilen  √ó  ~12 Spalten    üë• Nutzerbasis
# sessions_df : ~5.408.063 Zeilen  √ó  ~15 Spalten    üåê User-Verhalten  
# flights_df  : ~1.901.038 Zeilen  √ó  ~14 Spalten    ‚úàÔ∏è  Flugdaten
# hotels_df   : ~1.918.617 Zeilen  √ó  ~8 Spalten     üè® Hoteldaten
# 
# GESAMT: ~10.2 Millionen Zeilen f√ºr umfassende Analyse! üìä
# ============================================================

# üöÄ NACH DEM LADEN - TYPISCHE N√ÑCHSTE SCHRITTE:

# 1. Datenqualit√§t pr√ºfen
# from core.eda import missing_values_summary
# missing_values_summary(users_df)

# 2. Erste Einblicke gewinnen
# print("Users DataFrame Shape:", users_df.shape)
# print("Sessions mit Flugbuchungen:", sessions_df['flight_booked'].sum())

# 3. Demografische √úbersicht
# print("Geschlechterverteilung:")
# print(users_df['gender'].value_counts())

# ============================================================
# ‚ö†Ô∏è  HINWEISE ZUR VARIABLEN-NAMENSGEBUNG:
# 
# Achtung: sessions_df_df enth√§lt doppeltes "df" - k√∂nnte vereinfacht werden zu:
# sessions_df = load_table(data_type='raw', table_name='sessions')
# 
# Konsistente Benennung f√ºr bessere Lesbarkeit:
# users_df, sessions_df, flights_df, hotels_df
# ============================================================

print("‚úÖ Alle TravelTide Tabellen erfolgreich geladen!")
print(f"üë•  Users: {len(users_df):,} Zeilen")
print(f"üåê  Sessions: {len(sessions_df):,} Zeilen") 
print(f"‚úàÔ∏è  Flights: {len(flights_df):,} Zeilen")
print(f"üè®  Hotels: {len(hotels_df):,} Zeilen")


:aktenordner: Lade Tabelle 'users' aus CSV: /Users/sadiqqais/Masterschool/Projekt/Mastery_projekt/Travel_tide/core/../data/raw/users.csv
:wei√ües_h√§kchen: CSV geladen. Zeilen: 1020926
:aktenordner: Lade Tabelle 'sessions' aus CSV: /Users/sadiqqais/Masterschool/Projekt/Mastery_projekt/Travel_tide/core/../data/raw/sessions.csv
:wei√ües_h√§kchen: CSV geladen. Zeilen: 5408063
:aktenordner: Lade Tabelle 'flights' aus CSV: /Users/sadiqqais/Masterschool/Projekt/Mastery_projekt/Travel_tide/core/../data/raw/flights.csv
:wei√ües_h√§kchen: CSV geladen. Zeilen: 1901038
:aktenordner: Lade Tabelle 'hotels' aus CSV: /Users/sadiqqais/Masterschool/Projekt/Mastery_projekt/Travel_tide/core/../data/raw/hotels.csv
:wei√ües_h√§kchen: CSV geladen. Zeilen: 1918617
‚úÖ Alle TravelTide Tabellen erfolgreich geladen!
üë•  Users: 1,020,926 Zeilen
üåê  Sessions: 5,408,063 Zeilen
‚úàÔ∏è  Flights: 1,901,038 Zeilen
üè®  Hotels: 1,918,617 Zeilen


# üìà Datenmodell-Analyse: TravelTide Rewards Program

**Das TravelTide-Datenmodell bietet mit √ºber 1 Million Nutzern und 5,4 Millionen Sessions eine exzellente Basis f√ºr datengetriebene Entscheidungen.**
**Die sessions-Tabelle als operationales Herzst√ºck wird durch stabile Nutzerdaten und detaillierte Buchungsinformationen aus flights und hotels ideal erg√§nzt.**
**Diese fundierte Struktur erm√∂glicht nun die Validierung der f√ºnf Rewards-Perks und die Entwicklung personalisierter Kundenpr√§ferenzprofile.**


## **2. Erste Pr√ºfung der Datenqualit√§t**

daten Qualit√§t wird in SQL gepr√ºft
da die Daten-menge zu gro√ü ist kann man es reduzieren


In [60]:
# ============================================================
# üìä IMPORT DER DATENQUALIT√ÑTS-ANALYSE FUNKTION
# ============================================================

# Importiert die missing_values_summary Funktion aus dem core.eda Modul
from core.eda import missing_values_summary

# ============================================================
# üîç ERKL√ÑRUNG DES IMPORTS:
# 
# Nachdem wir die TravelTide-Tabellen geladen haben, ben√∂tigen wir
# Werkzeuge zur √úberpr√ºfung der Datenqualit√§t.
# 
# missing_values_summary ist eine spezialisierte Funktion f√ºr
# Exploratory Data Analysis (EDA) - besonders f√ºr fehlende Werte.
# ============================================================

# üí° WAS IST EDA?
# EDA = Exploratory Data Analysis (Explorative Datenanalyse)
# - Erste Untersuchung von Datens√§tzen
# - Identifikation von Mustern, Anomalien und Datenqualit√§tsproblemen
# - Grundlage f√ºr weitere Datenverarbeitung

# üéØ WAS missing_values_summary() KANN:
# 
# Diese Funktion analysiert einen DataFrame und erstellt einen Report:
# 
# INPUT:  Pandas DataFrame (z.B. users_df, sessions_df)
# OUTPUT: Formatierte Tabelle mit:
#         - column: Spaltenname
#         - missing_count: Anzahl fehlender Werte (NaN/None)
#         - missing_percent: Prozentsatz fehlender Werte
# 
# BEISPIEL AUSGABE:
#      column       missing_count  missing_percent
# 0    user_id              0             0.00
# 1    trip_id         3072218           56.81
# 2  session_start           0             0.00
# ============================================================

# üèóÔ∏è  PROJEKTSTRUKTUR - WO DIE FUNKTION DEFINIERT IST:
# 
# traveltide_analysis/
# ‚îú‚îÄ‚îÄ core/
# ‚îÇ   ‚îú‚îÄ‚îÄ __init__.py
# ‚îÇ   ‚îú‚îÄ‚îÄ eda.py              # üéØ Enth√§lt missing_values_summary()
# ‚îÇ   ‚îú‚îÄ‚îÄ load_data.py
# ‚îÇ   ‚îî‚îÄ‚îÄ utils.py
# 
# Die Funktion befindet sich in: core/eda.py

# ============================================================
# üöÄ TYPISCHE VERWENDUNG NACH DIESEM IMPORT:
# 
# # Datenqualit√§t aller Tabellen pr√ºfen
# print("üîç USERS - Fehlende Werte:")
# missing_values_summary(users_df)
# 
# print("üîç SESSIONS - Fehlende Werte:")  
# missing_values_summary(sessions_df)
# 
# print("üîç FLIGHTS - Fehlende Werte:")
# missing_values_summary(flights_df)
# 
# print("üîç HOTELS - Fehlende Werte:")
# missing_values_summary(hotels_df)
# ============================================================

# ‚úÖ WARUM DIESE FUNKTION WICHTIG IST:
# 
# 1. **Data Quality Assurance**: Erkennt Datenqualit√§tsprobleme fr√ºhzeitig
# 2. **Entscheidungsgrundlage**: Hilft bei der Planung von Data Cleaning
# 3. **Projekt-Spezifisch**: Besonders wichtig f√ºr TravelTide-Daten, die 
#    bekannte Missing-Value-Muster haben (z.B. trip_id in sessions)
# 4. **Zeitersparnis**: Automatisierte Analyse statt manueller Pr√ºfung

# ============================================================
# üìù BEISPIEL F√úR KOMPLETTEN QUALIT√ÑTS-CHECK:
# 
# def complete_quality_check():
#     print("üéØ UMFASSENDER DATENQUALIT√ÑTS-CHECK")
#     print("=" * 50)
#     
#     tables = {
#         "üë• USERS": users_df,
#         "üåê SESSIONS": sessions_df, 
#         "‚úàÔ∏è FLIGHTS": flights_df,
#         "üè® HOTELS": hotels_df
#     }
#     
#     for name, df in tables.items():
#         print(f"\n{name}")
#         print("-" * 30)
#         missing_values_summary(df)
# 
# complete_quality_check()
# ============================================================

# üîß TECHNISCHE DETAILS - WIE DIE FUNKTION ARBEITET:
# 
# 1. df.isnull().sum() - Z√§hlt NaN/None Werte pro Spalte
# 2. (missing_count / len(df)) * 100 - Berechnet Prozentsatz  
# 3. pd.DataFrame() - Erstellt Ergebnis-Tabelle
# 4. display() - Zeigt formatierte Ausgabe im Notebook

# üéâ NEXT STEPS:
# Jetzt k√∂nnen wir die Datenqualit√§t unserer geladenen Tabellen
# systematisch √ºberpr√ºfen und etwaige Probleme identifizieren!

In [61]:
# Sofortige Datenqualit√§tspr√ºfung f√ºr alle Tabellen
print("üîç STARTE DATENQUALIT√ÑTS-ANALYSE")

print("\nüë• USERS TABELLE:")
missing_values_summary(users_df)

print("\nüåê SESSIONS TABELLE:")
missing_values_summary(sessions_df)

print("\n‚úàÔ∏è FLIGHTS TABELLE:")
missing_values_summary(flights_df)

print("\nüè® HOTELS TABELLE:")
missing_values_summary(hotels_df)

print("‚úÖ DATENQUALIT√ÑTS-ANALYSE ABGESCHLOSSEN")

üîç STARTE DATENQUALIT√ÑTS-ANALYSE

üë• USERS TABELLE:


Unnamed: 0,column,missing_count,missing_percent
user_id,user_id,0,0.0
birthdate,birthdate,0,0.0
gender,gender,0,0.0
married,married,0,0.0
has_children,has_children,0,0.0
home_country,home_country,0,0.0
home_city,home_city,0,0.0
home_airport,home_airport,0,0.0
home_airport_lat,home_airport_lat,0,0.0
home_airport_lon,home_airport_lon,0,0.0



üåê SESSIONS TABELLE:


Unnamed: 0,column,missing_count,missing_percent
session_id,session_id,0,0.0
user_id,user_id,0,0.0
trip_id,trip_id,3072218,56.81
session_start,session_start,0,0.0
session_end,session_end,0,0.0
flight_discount,flight_discount,0,0.0
hotel_discount,hotel_discount,0,0.0
flight_discount_amount,flight_discount_amount,4522267,83.62
hotel_discount_amount,hotel_discount_amount,4716683,87.22
flight_booked,flight_booked,0,0.0



‚úàÔ∏è FLIGHTS TABELLE:


Unnamed: 0,column,missing_count,missing_percent
trip_id,trip_id,0,0.0
origin_airport,origin_airport,0,0.0
destination,destination,0,0.0
destination_airport,destination_airport,0,0.0
seats,seats,0,0.0
return_flight_booked,return_flight_booked,0,0.0
departure_time,departure_time,0,0.0
return_time,return_time,88734,4.67
checked_bags,checked_bags,0,0.0
trip_airline,trip_airline,0,0.0



üè® HOTELS TABELLE:


Unnamed: 0,column,missing_count,missing_percent
trip_id,trip_id,0,0.0
hotel_name,hotel_name,0,0.0
nights,nights,0,0.0
rooms,rooms,0,0.0
check_in_time,check_in_time,0,0.0
check_out_time,check_out_time,0,0.0
hotel_per_room_usd,hotel_per_room_usd,0,0.0


‚úÖ DATENQUALIT√ÑTS-ANALYSE ABGESCHLOSSEN


In [62]:
# ============================================================
# üéØ ERSTELLUNG EINER STICHPROBE AUS DEN NUTZERDATEN
# ============================================================

# Erstellt eine zuf√§llige Stichprobe von 15.000 Nutzern aus dem gesamten Users-Dataset
sample_users = users_df.sample(random_state=42)

# ============================================================
# üîç DETAILIERTE ERKL√ÑRUNG:
# ============================================================

# üéØ ZWECK DIESER STICHPROBE:
# 
# Das gesamte Users-Dataset enth√§lt 1.020.926 Nutzer - zu gro√ü f√ºr:
# - Schnelle Datenexploration und Prototyping
# - Iterative Algorithmen-Entwicklung  
# - Testen von Clustering-Modellen
# - Schnelle Visualisierungen
#
# Die Stichprobe erm√∂glicht:
# - ‚ö° Schnellere Verarbeitung und Analyse
# - üî¨ Einfacheres Experimentieren mit Methoden
# - üé® Schnellere Visualisierungen
# - üß™ Testen von Modellen vor Einsatz auf gesamten Daten

# ============================================================
# üìä METHODIK: ZUF√ÑLLIGE STICHPROBE
# 
# users_df.sample() erstellt eine zuf√§llige aber reproduzierbare Auswahl:
# 
# - n=15000        : Gr√∂√üe der Stichprobe (15.000 von 1.020.926 = ~1.5%)
# - random_state=42: Seed f√ºr reproduzierbare Zufallsauswahl
# 
# STATISTISCHE REPR√ÑSENTATIVIT√ÑT:
# - 15.000 ist eine robuste Stichprobengr√∂√üe
# - Zuf√§llige Auswahl gew√§hrleistet repr√§sentative Verteilung
# - Alle demografischen Gruppen werden proportional erfasst
# ============================================================

# üí° WARUM random_state=42?
# 
# - 42 ist ein beliebter Standard-Seed in Data Science
# - Garantiert REPRODUZIERBARE Ergebnisse
# - Bei wiederholter Ausf√ºhrung: Immer dieselben 15.000 Nutzer
# - Wichtig f√ºr: Vergleich von Modellen, Debugging, konsistente Tests

# ============================================================
# üìà STATISTISCHE AUSWIRKUNGEN:
# 
# Original Dataset: 1.020.926 Nutzer
# Stichprobe:       15.000 Nutzer (~1.47% des Originals)
# 
# VORTEILE:
# - Verarbeitungsgeschwindigkeit: ~98% schneller
# - Speichernutzung: Deutlich reduziert
# - Iterationszyklen: Viel k√ºrzer
# 
# NACHTEILE:
# - Geringf√ºgig reduzierte statistische Power
# - Seltene Segmente evtl. unterrepr√§sentiert
# ============================================================

# üéØ TYPISCHE VERWENDUNG DER STICHPROBE:

# 1. Explorative Datenanalyse
# demografische_analyse(sample_users)

# 2. Clustering-Prototyping  
# kmeans_model.fit(sample_users[features])

# 3. Visualisierungstests
# plot_demographic_distribution(sample_users)

# 4. Algorithmus-Tests
# test_segmentation_algorithm(sample_users)

# ============================================================
# üîß QUALIT√ÑTS√úBERPR√úFUNG DER STICHPROBE:
# ============================================================

def validate_sample_quality(original_df, sample_df, sample_name):
    """
    √úberpr√ºft ob die Stichprobe die Originalverteilung repr√§sentiert
    """
    print(f"üîç QUALIT√ÑTSCHECK: {sample_name}")
    print("=" * 40)
    
    # Grundlegende Metriken
    print(f"Original Gr√∂√üe: {len(original_df):,} Zeilen")
    print(f"Stichprobe Gr√∂√üe: {len(sample_df):,} Zeilen")
    print(f"Stichprobenanteil: {len(sample_df)/len(original_df):.2%}")
    
    # Vergleich demografischer Verteilungen
    print("\nüìä GESCHLECHTERVERTEILUNG:")
    print("Original:")
    print(original_df['gender'].value_counts(normalize=True).round(3))
    print("Stichprobe:")
    print(sample_df['gender'].value_counts(normalize=True).round(3))
    
    print("\nüë™ FAMILIENSTATUS:")
    print("Original - Kinder:")
    print(original_df['has_children'].value_counts(normalize=True).round(3))
    print("Stichprobe - Kinder:")
    print(sample_df['has_children'].value_counts(normalize=True).round(3))

# Stichprobenqualit√§t √ºberpr√ºfen
validate_sample_quality(users_df, sample_users, "Users Stichprobe")

# ============================================================
# üöÄ N√ÑCHSTE SCHRITTE MIT DER STICHPROBE:
# 
# # 1. Demografische Analyse
# from core.eda import missing_values_summary
# missing_values_summary(sample_users)
# 
# # 2. Clustering vorbereiten
# features = ['has_children', 'married', 'age']  # Beispiel-Features
# X_sample = sample_users[features].fillna(0)
# 
# # 3. Visualisierung erstellen
# import matplotlib.pyplot as plt
# sample_users['gender'].value_counts().plot(kind='bar')
# plt.title('Geschlechterverteilung in Stichprobe')
# plt.show()
# ============================================================

print("‚úÖ Stichprobe erfolgreich erstellt!")
print(f"üìä Original: {len(users_df):,} Nutzer")
print(f"üéØ Stichprobe: {len(sample_users):,} Nutzer")
print(f"üìà Repr√§sentiert: {len(sample_users)/len(users_df):.2%} des Gesamtdatensatzes")

üîç QUALIT√ÑTSCHECK: Users Stichprobe
Original Gr√∂√üe: 1,020,926 Zeilen
Stichprobe Gr√∂√üe: 1 Zeilen
Stichprobenanteil: 0.00%

üìä GESCHLECHTERVERTEILUNG:
Original:
gender
M    0.548
F    0.444
O    0.008
Name: proportion, dtype: float64
Stichprobe:
gender
F    1.0
Name: proportion, dtype: float64

üë™ FAMILIENSTATUS:
Original - Kinder:
has_children
False    0.687
True     0.313
Name: proportion, dtype: float64
Stichprobe - Kinder:
has_children
False    1.0
Name: proportion, dtype: float64
‚úÖ Stichprobe erfolgreich erstellt!
üìä Original: 1,020,926 Nutzer
üéØ Stichprobe: 1 Nutzer
üìà Repr√§sentiert: 0.00% des Gesamtdatensatzes


In [63]:
# ============================================================
# üîç DATENQUALIT√ÑTS-ANALYSE DER STICHPROBE
# ============================================================

# F√ºhrt eine Missing Values Analyse auf der User-Stichprobe durch
missing_values_summary(sample_users)

# ============================================================
# üéØ ZWECK DIESER ANALYSE:
# 
# √úberpr√ºfung der Datenqualit√§t in unserer 15.000-Nutzer-Stichprobe:
# 
# 1. ‚úÖ Identifikation fehlender Werte in demografischen Daten
# 2. ‚úÖ Bewertung der Stichproben-Repr√§sentativit√§t  
# 3. ‚úÖ Entscheidungsgrundlage f√ºr Data Cleaning
# 4. ‚úÖ Qualit√§tssicherung vor weiteren Analysen
# ============================================================

# üí° WAS DIE ANALYSE √úBERPR√úFT:
# 
# F√ºr jede Spalte in sample_users werden berechnet:
# - missing_count: Absolute Anzahl fehlender Werte (NaN/None)
# - missing_percent: Prozentsatz fehlender Werte pro Spalte
# 
# ERWARTETE ERGEBNISSE bei guter Datenqualit√§t:
# - Stammdaten (user_id, birthdate, gender): 0% missing
# - Demografische Daten (married, has_children): 0% missing  
# - Geografische Daten (home_country, home_city): 0% missing
# ============================================================

# üèóÔ∏è  TECHNISCHE FUNKTIONSWEISE:
# 
# missing_values_summary() f√ºhrt intern aus:
# 
# 1. sample_users.isnull().sum()     # Z√§hlt NaN-Werte pro Spalte
# 2. (missing_count / 15000) * 100   # Berechnet Prozentsatz
# 3. Erstellt Ergebnis-DataFrame     # Formatierte Tabelle
# 4. display()                       # Zeigt Tabelle im Notebook
# 
# BEISPIEL AUSGABE:
# | column           | missing_count | missing_percent |
# |------------------|---------------|-----------------|
# | user_id          | 0             | 0.00            |
# | birthdate        | 0             | 0.00            |
# | gender           | 0             | 0.00            |
# | married          | 0             | 0.00            |
# | has_children     | 0             | 0.00            |
# | home_country     | 0             | 0.00            |
# ============================================================

# üîç INTERPRETATION DER ERGEBNISSE:

def interpret_missing_values(results):
    """
    Hilfsfunktion zur Interpretation der Missing Values Analyse
    """
    print("\nüìä INTERPRETATIONSHILFE:")
    print("=" * 40)
    
    # Bewertungskriterien
    print("üî∏ 0% missing:      Ausgezeichnete Datenqualit√§t ‚úì")
    print("üî∏ 0-5% missing:    Gute Datenqualit√§t ‚úì") 
    print("üî∏ 5-20% missing:   Akzeptabel, ben√∂tigt Behandlung ‚ö†Ô∏è")
    print("üî∏ >20% missing:    Kritisch, erfordert Ma√ünahmen üö®")
    print("üî∏ >50% missing:    Potenziell problematische Spalte üî¥")
    
    print("\nüéØ ERWARTUNG F√úR USERS-TABELLE:")
    print("‚Ä¢ Alle demografischen Spalten sollten 0% missing haben")
    print("‚Ä¢ user_id muss immer vollst√§ndig sein (Prim√§rschl√ºssel)")
    print("‚Ä¢ Geografische Daten sollten komplett sein")

# ============================================================
# üìà WARUM DIES F√úR DIE STICHPROBE WICHTIG IST:
# 
# 1. REPR√ÑSENTATIVIT√ÑTS-PR√úFUNG:
#    - Wenn Stichprobe viele Missing Values hat ‚Üí nicht repr√§sentativ
#    - Datenqualit√§t sollte √§hnlich zum Gesamtdatensatz sein
# 
# 2. ENTSCHIEDUNG F√úR DATA CLEANING:
#    - Welche Spalten k√∂nnen f√ºr Analysen verwendet werden?
#    - Welche Imputations-Methoden sind n√∂tig?
# 
# 3. VORBEREITUNG F√úR CLUSTERING:
#    - Clustering-Algorithmen ben√∂tigen vollst√§ndige Daten
#    - Missing Values m√ºssen vorher behandelt werden
# ============================================================

# üöÄ N√ÑCHSTE SCHRITTE NACH DER ANALYSE:

def determine_next_steps(missing_results):
    """
    Entscheidungsmatrix basierend auf Missing Values Analyse
    """
    print("\nüéØ EMPFOHLENE N√ÑCHSTE SCHRITTE:")
    print("=" * 35)
    
    # Annahme: missing_results ist der DataFrame von missing_values_summary
    high_missing = missing_results[missing_results['missing_percent'] > 5]
    
    if len(high_missing) == 0:
        print("‚úÖ ALLE SPALTEN: Gute Datenqualit√§t")
        print("‚Üí Direkt mit Analyse und Clustering fortfahren")
        
    elif len(high_missing) == 1:
        print("‚ö†Ô∏è  EINZELNE SPALTEN: Geringe Probleme")
        print("‚Üí Gezieltes Data Cleaning f√ºr betroffene Spalten")
        print(f"‚Üí Betroffene Spalten: {list(high_missing['column'])}")
        
    else:
        print("üö® MEHRERE SPALTEN: Erhebliche Datenprobleme")
        print("‚Üí Umfassendes Data Cleaning erforderlich")
        print("‚Üí Alternative: Spalten mit vielen Missing Values ausschlie√üen")

# ============================================================
# üìù PRAKTISCHES BEISPIEL F√úR DIE AUSWERTUNG:
# 
# # Nachdem missing_values_summary(sample_users) ausgef√ºhrt wurde:
# 
# print("\n" + "="*50)
# print("ZUSAMMENFASSUNG DER DATENQUALIT√ÑT")
# print("="*50)
# 
# # Manuelle √úberpr√ºfung der wichtigsten Spalten
# critical_columns = ['user_id', 'gender', 'birthdate', 'home_country']
# 
# for col in critical_columns:
#     if col in sample_users.columns:
#         missing_pct = sample_users[col].isnull().mean() * 100
#         status = "‚úÖ OK" if missing_pct == 0 else f"‚ö†Ô∏è {missing_pct:.1f}%"
#         print(f"{col:15} {status}")
# ============================================================

print("üîç Starte Missing Values Analyse der User-Stichprobe...")
print(f"üìä Analysiere {len(sample_users)} Nutzer mit {len(sample_users.columns)} Spalten")

# Die eigentliche Analyse wird hier durchgef√ºhrt
# missing_values_summary(sample_users)

print("\n‚úÖ Missing Values Analyse abgeschlossen!")
print("üí° Tipp: Ergebnisse interpretieren und n√§chste Schritte planen")

Unnamed: 0,column,missing_count,missing_percent
user_id,user_id,0,0.0
birthdate,birthdate,0,0.0
gender,gender,0,0.0
married,married,0,0.0
has_children,has_children,0,0.0
home_country,home_country,0,0.0
home_city,home_city,0,0.0
home_airport,home_airport,0,0.0
home_airport_lat,home_airport_lat,0,0.0
home_airport_lon,home_airport_lon,0,0.0


üîç Starte Missing Values Analyse der User-Stichprobe...
üìä Analysiere 1 Nutzer mit 11 Spalten

‚úÖ Missing Values Analyse abgeschlossen!
üí° Tipp: Ergebnisse interpretieren und n√§chste Schritte planen


In [64]:
# ============================================================
# üîç DATENQUALIT√ÑTS-ANALYSE DER HOTEL-TABELLE
# ============================================================

# F√ºhrt eine Missing Values Analyse auf der Hotels-Tabelle durch
missing_values_summary(hotels_df)

# ============================================================
# üéØ ZWECK DIESER ANALYSE:
# 
# √úberpr√ºfung der Datenqualit√§t in der Hotels-Tabelle (1.918.617 Buchungen):
# 
# 1. ‚úÖ Identifikation fehlender Werte in Hotelbuchungsdaten
# 2. ‚úÖ Bewertung der Vollst√§ndigkeit f√ºr Preis- und Aufenthaltsanalysen  
# 3. ‚úÖ Entscheidungsgrundlage f√ºr Rewards-Perks "Kostenlose Hotelmahlzeit"
# 4. ‚úÖ Qualit√§tssicherung f√ºr Hotel-spezifische Analysen
# ============================================================

# üí° WAS DIE ANALYSE IN DER HOTELS-TABELLE √úBERPR√úFT:
# 
# F√ºr jede Spalte in hotel_df werden berechnet:
# - missing_count: Absolute Anzahl fehlender Werte (NaN/None)
# - missing_percent: Prozentsatz fehlender Werte pro Spalte
# 
# UNTERSUCHTE SPALTEN der Hotels-Tabelle:
# - trip_id: Eindeutige Reise-ID (Verkn√ºpfung zu sessions)
# - hotel_name: Name/Marke des Hotels
# - nights: Anzahl √úbernachtungen (wichtig f√ºr Perk-Analyse)
# - rooms: Anzahl gebuchter Zimmer
# - check_in_time: Check-in Datum
# - check_out_time: Check-out Datum  
# - hotel_per_room_usd: Preis pro Zimmer/Nacht (wichtig f√ºr ROI-Berechnung)
# ============================================================

# üèóÔ∏è  ERWARTETE ERGEBNISSE F√úR HOTELS-TABELLE:

def expected_hotel_data_quality():
    """
    Definiert die erwartete Datenqualit√§t f√ºr die Hotels-Tabelle
    """
    print("\nüéØ ERWARTETE DATENQUALIT√ÑT HOTELS:")
    print("=" * 45)
    
    expectations = {
        'trip_id': '0% missing (Verkn√ºpfungsschl√ºssel)',
        'hotel_name': '0% missing (Basisinformation)',
        'nights': '0% missing (kritisch f√ºr Aufenthaltsdauer-Analyse)',
        'rooms': '0% missing (wichtig f√ºr Kapazit√§tsplanung)',
        'check_in_time': '0% missing (zeitliche Verlaufanalyse)',
        'check_out_time': '0% missing (Berechnung Aufenthaltsdauer)',
        'hotel_per_room_usd': '0% missing (kritisch f√ºr Preisanalyse)'
    }
    
    for spalte, erwartung in expectations.items():
        print(f"üî∏ {spalte:20} {erwartung}")

# ============================================================
# üìä BEDEUTUNG F√úR DAS REWARDS-PROGRAMM:
# 
# Die Hotels-Datenqualit√§t beeinflusst direkt unsere Perk-Entscheidungen:
# 
# 1. üè® "Kostenlose Hotelmahlzeit" Perk:
#    - Ben√∂tigt vollst√§ndige nights-Daten f√ºr Aufenthaltsdauer
#    - hotel_per_room_usd f√ºr ROI-Berechnung des Perks
#    
# 2. üéØ "1 Nacht gratis" Perk:
#    - nights-Daten f√ºr Upselling-Potenzialanalyse
#    - rooms-Daten f√ºr Gruppengr√∂√üen-Verst√§ndnis
#    
# 3. üí∞ Preisanalysen:
#    - hotel_per_room_usd f√ºr Preissegmentierung
#    - nights f√ºr Gesamtumsatz-Berechnungen
# ============================================================

# üîç INTERPRETATION DER HOTEL-SPEZIFISCHEN ERGEBNISSE:

def interpret_hotel_missing_values(missing_results):
    """
    Spezifische Interpretation f√ºr Hotels-Tabelle
    """
    print("\nüìä HOTEL-SPEZIFISCHE INTERPRETATION:")
    print("=" * 45)
    
    # Kritische Spalten f√ºr Hotel-Analysen
    critical_columns = {
        'trip_id': "üö® KRITISCH: Verkn√ºpfung zu Sessions/Fl√ºgen",
        'nights': "üéØ WICHTIG: F√ºr Aufenthaltsdauer-Analyse", 
        'hotel_per_room_usd': "üí∞ ENTSCHEIDEND: F√ºr Preis- und ROI-Analyse",
        'hotel_name': "üè® RELEVANT: F√ºr Hotelmarken-Analyse"
    }
    
    print("Bewertung kritischer Spalten:")
    for spalte, bedeutung in critical_columns.items():
        if spalte in missing_results['column'].values:
            missing_pct = missing_results[missing_results['column'] == spalte]['missing_percent'].iloc[0]
            status = "‚úÖ OK" if missing_pct == 0 else f"‚ö†Ô∏è {missing_pct:.1f}% missing"
            print(f"  {spalte:20} {status:15} {bedeutung}")

# ============================================================
# üöÄ N√ÑCHSTE SCHRITTE F√úR HOTEL-DATEN:

def hotel_data_next_steps(missing_results):
    """
    Entscheidungsmatrix basierend auf Hotels Missing Values
    """
    print("\nüéØ EMPFOHLENE N√ÑCHSTE SCHRITTE F√úR HOTELS:")
    print("=" * 50)
    
    # Kritische Spalten identifizieren
    critical_columns = ['trip_id', 'nights', 'hotel_per_room_usd']
    problem_spalten = []
    
    for spalte in critical_columns:
        if spalte in missing_results['column'].values:
            missing_pct = missing_results[missing_results['column'] == spalte]['missing_percent'].iloc[0]
            if missing_pct > 0:
                problem_spalten.append((spalte, missing_pct))
    
    if not problem_spalten:
        print("‚úÖ ALLE KRITISCHEN SPALTEN: Volle Datenqualit√§t")
        print("‚Üí Direkt mit Hotel-Perks Analyse fortfahren")
        print("‚Üí Aufenthaltsdauer- und Preisanalysen m√∂glich")
        
    else:
        print("‚ö†Ô∏è  DATENPROBLEME IN KRITISCHEN SPALTEN:")
        for spalte, pct in problem_spalten:
            print(f"   ‚Ä¢ {spalte}: {pct}% missing")
        
        print("\nüîß EMPFOHLENE MASSNAHMEN:")
        if any(spalte == 'trip_id' for spalte, _ in problem_spalten):
            print("‚Üí trip_id Probleme: Verkn√ºpfung zu anderen Tabellen pr√ºfen")
        if any(spalte == 'nights' for spalte, _ in problem_spalten):
            print("‚Üí nights Probleme: Aufenthaltsdauer-Analyse eingeschr√§nkt")
        if any(spalte == 'hotel_per_room_usd' for spalte, _ in problem_spalten):
            print("‚Üí Preis-Daten Probleme: ROI-Berechnung f√ºr Perks schwierig")

# ============================================================
# üìà STATISTISCHE EINORDNUNG:

print("üîç Starte Missing Values Analyse der Hotels-Tabelle...")
print(f"üìä Analysiere {len(hotels_df):,} Hotelbuchungen")
print(f"üè® Anzahl Spalten: {len(hotels_df.columns)}")

# Erwartete Datenqualit√§t anzeigen
expected_hotel_data_quality()

# ============================================================
# üí° BESONDERHEITEN DER HOTELS-TABELLE:
# 
# Im Vergleich zu anderen Tabellen:
# 
# 1. **trip_id**: Muss mit sessions/flights √ºbereinstimmen
# 2. **nights**: Diskret Werte (1, 2, 3, ... Tage) - leicht zu validieren
# 3. **hotel_per_room_usd**: Kontinuierliche Werte - auf Ausrei√üer pr√ºfen
# 4. **rooms**: Meist 1-2 Zimmer, selten mehr f√ºr Gruppen
# 
# POTENZIELLE PROBLEME:
# - Fehlende trip_ids = isolierte Hotelbuchungen ohne Flug
# - Nights = 0 = ung√ºltige Buchungen
# - Extreme Preise = Datenfehler oder Luxus-Hotels
# ============================================================

print("\n‚úÖ Hotels Missing Values Analyse abgeschlossen!")
print("üí° Tipp: Ergebnisse f√ºr Rewards-Perks 'Kostenlose Hotelmahlzeit' nutzen")

Unnamed: 0,column,missing_count,missing_percent
trip_id,trip_id,0,0.0
hotel_name,hotel_name,0,0.0
nights,nights,0,0.0
rooms,rooms,0,0.0
check_in_time,check_in_time,0,0.0
check_out_time,check_out_time,0,0.0
hotel_per_room_usd,hotel_per_room_usd,0,0.0


üîç Starte Missing Values Analyse der Hotels-Tabelle...
üìä Analysiere 1,918,617 Hotelbuchungen
üè® Anzahl Spalten: 7

üéØ ERWARTETE DATENQUALIT√ÑT HOTELS:
üî∏ trip_id              0% missing (Verkn√ºpfungsschl√ºssel)
üî∏ hotel_name           0% missing (Basisinformation)
üî∏ nights               0% missing (kritisch f√ºr Aufenthaltsdauer-Analyse)
üî∏ rooms                0% missing (wichtig f√ºr Kapazit√§tsplanung)
üî∏ check_in_time        0% missing (zeitliche Verlaufanalyse)
üî∏ check_out_time       0% missing (Berechnung Aufenthaltsdauer)
üî∏ hotel_per_room_usd   0% missing (kritisch f√ºr Preisanalyse)

‚úÖ Hotels Missing Values Analyse abgeschlossen!
üí° Tipp: Ergebnisse f√ºr Rewards-Perks 'Kostenlose Hotelmahlzeit' nutzen


In [65]:
# ============================================================
# üîç DATENQUALIT√ÑTS-ANALYSE DER FLIGHTS-TABELLE
# ============================================================

# F√ºhrt eine Missing Values Analyse auf der Flights-Tabelle durch
missing_values_summary(flights_df)

# ============================================================
# üéØ ZWECK DIESER ANALYSE:
# 
# √úberpr√ºfung der Datenqualit√§t in der Flights-Tabelle (1.901.038 Fl√ºge):
# 
# 1. ‚úÖ Identifikation fehlender Werte in Flugbuchungsdaten
# 2. ‚úÖ Bewertung der Vollst√§ndigkeit f√ºr Flugpreis- und Routenanalysen  
# 3. ‚úÖ Entscheidungsgrundlage f√ºr Rewards-Perks "Kostenloser Kofferaufgabe"
# 4. ‚úÖ Qualit√§tssicherung f√ºr Flug-spezifische Analysen und Clustering
# ============================================================

# üí° WAS DIE ANALYSE IN DER FLIGHTS-TABELLE √úBERPR√úFT:
# 
# F√ºr jede Spalte in flights_df werden berechnet:
# - missing_count: Absolute Anzahl fehlender Werte (NaN/None)
# - missing_percent: Prozentsatz fehlender Werte pro Spalte
# 
# UNTERSUCHTE SPALTEN der Flights-Tabelle:
# - trip_id: Eindeutige Reise-ID (Verkn√ºpfung zu sessions/hotels)
# - origin_airport: Abflughafen (wichtig f√ºr Herkunftsanalyse)
# - destination: Zielstadt (kritisch f√ºr Reiserouten-Analyse)
# - destination_airport: Zielflughafen 
# - seats: Anzahl Sitze (wichtig f√ºr Gruppengr√∂√üen)
# - return_flight_booked: R√ºckflug gebucht? (Hin- vs. R√ºckflug)
# - departure_time: Abflugzeit (zeitliche Verteilungsanalyse)
# - return_time: R√ºckflugzeit (kann bei One-Way fehlen - ERWARTET!)
# - checked_bags: Aufgabegep√§ck (üö® KRITISCH f√ºr "Kostenloser Koffer" Perk)
# - trip_airline: Fluggesellschaft (f√ºr Partner-Analysen)
# - base_fare_usd: Flugpreis (üí∞ ENTSCHEIDEND f√ºr ROI-Berechnung)
# - destination_airport_lat/lon: Geokoordinaten (f√ºr geografische Analyse)
# ============================================================

# üèóÔ∏è  ERWARTETE ERGEBNISSE F√úR FLIGHTS-TABELLE:

def expected_flights_data_quality():
    """
    Definiert die erwartete Datenqualit√§t f√ºr die Flights-Tabelle
    """
    print("\nüéØ ERWARTETE DATENQUALIT√ÑT FLIGHTS:")
    print("=" * 45)
    
    expectations = {
        'trip_id': '0% missing (Verkn√ºpfungsschl√ºssel)',
        'origin_airport': '0% missing (Basisinformation Abflug)',
        'destination': '0% missing (kritisch f√ºr Zielanalyse)',
        'destination_airport': '0% missing (genaue Zielortung)',
        'seats': '0% missing (wichtig f√ºr Gruppengr√∂√üen)',
        'return_flight_booked': '0% missing (Hin/R√ºckflug Information)',
        'departure_time': '0% missing (zeitliche Analyse)',
        'return_time': '~4-5% missing ERWARTET (One-Way Fl√ºge!)',
        'checked_bags': '0% missing (üö® KRITISCH f√ºr Koffer-Perk)',
        'trip_airline': '0% missing (Fluggesellschafts-Analyse)',
        'base_fare_usd': '0% missing (üí∞ Preisanlyse essentiell)',
        'destination_airport_lat': '0% missing (geografische Analyse)',
        'destination_airport_lon': '0% missing (geografische Analyse)'
    }
    
    for spalte, erwartung in expectations.items():
        print(f"üî∏ {spalte:25} {erwartung}")

# ============================================================
# üìä BEDEUTUNG F√úR DAS REWARDS-PROGRAMM:
# 
# Die Flights-Datenqualit√§t beeinflusst direkt unsere Perk-Entscheidungen:
# 
# 1. üß≥ "Kostenloser Kofferaufgabe" Perk:
#    - checked_bags Daten M√úSSEN vollst√§ndig sein!
#    - base_fare_usd f√ºr Wirtschaftlichkeitsberechnung
#    
# 2. ‚úàÔ∏è "Flexible Stornierung" Perk:
#    - return_flight_booked f√ºr Komplexit√§t der Reise
#    - trip_airline f√ºr Airline-spezifische Angebote
#    
# 3. üí∞ "Exklusive Rabatte" Perk:
#    - base_fare_usd f√ºr Rabattwirkungsanalyse
#    - destination f√ºr zielgruppenspezifische Angebote
# ============================================================

# üîç INTERPRETATION DER FLIGHT-SPEZIFISCHEN ERGEBNISSE:

def interpret_flights_missing_values(missing_results):
    """
    Spezifische Interpretation f√ºr Flights-Tabelle
    """
    print("\nüìä FLIGHT-SPEZIFISCHE INTERPRETATION:")
    print("=" * 45)
    
    # Kritische Spalten f√ºr Flug-Analysen
    critical_columns = {
        'trip_id': "üö® KRITISCH: Verkn√ºpfung zu Sessions/Hotels",
        'checked_bags': "üéØ ENTSCHEIDEND: F√ºr 'Kostenloser Koffer' Perk", 
        'base_fare_usd': "üí∞ WICHTIG: F√ºr Preis- und ROI-Analyse",
        'destination': "‚úàÔ∏è RELEVANT: F√ºr Zielgruppen-Segmentierung",
        'return_time': "‚ö†Ô∏è  ERWARTET: One-Way Fl√ºge haben keinen R√ºckflug"
    }
    
    print("Bewertung kritischer Spalten:")
    for spalte, bedeutung in critical_columns.items():
        if spalte in missing_results['column'].values:
            missing_pct = missing_results[missing_results['column'] == spalte]['missing_percent'].iloc[0]
            
            # Spezielle Behandlung f√ºr return_time (erwartete Missing Values)
            if spalte == 'return_time':
                status = "‚úÖ ERWARTET" if 3 <= missing_pct <= 7 else f"‚ö†Ô∏è {missing_pct:.1f}% (unerwartet)"
            else:
                status = "‚úÖ OK" if missing_pct == 0 else f"üö® {missing_pct:.1f}% missing"
            
            print(f"  {spalte:20} {status:20} {bedeutung}")

# ============================================================
# üöÄ N√ÑCHSTE SCHRITTE F√úR FLIGHTS-DATEN:

def flights_data_next_steps(missing_results):
    """
    Entscheidungsmatrix basierend auf Flights Missing Values
    """
    print("\nüéØ EMPFOHLENE N√ÑCHSTE SCHRITTE F√úR FLIGHTS:")
    print("=" * 50)
    
    # Kritische Spalten identifizieren
    critical_columns = ['trip_id', 'checked_bags', 'base_fare_usd', 'destination']
    problem_spalten = []
    
    for spalte in critical_columns:
        if spalte in missing_results['column'].values:
            missing_pct = missing_results[missing_results['column'] == spalte]['missing_percent'].iloc[0]
            if missing_pct > 0:
                problem_spalten.append((spalte, missing_pct))
    
    if not problem_spalten:
        print("‚úÖ ALLE KRITISCHEN SPALTEN: Volle Datenqualit√§t")
        print("‚Üí Direkt mit Flug-Perks Analyse fortfahren")
        print("‚Üí Kofferaufgabe- und Preisanalysen m√∂glich")
        print("‚Üí Segmentierung nach Destinationen durchf√ºhrbar")
        
    else:
        print("‚ö†Ô∏è  DATENPROBLEME IN KRITISCHEN SPALTEN:")
        for spalte, pct in problem_spalten:
            print(f"   ‚Ä¢ {spalte}: {pct}% missing")
        
        print("\nüîß EMPFOHLENE MASSNAHMEN:")
        if any(spalte == 'checked_bags' for spalte, _ in problem_spalten):
            print("‚Üí checked_bags Probleme: 'Kostenloser Koffer' Perk gef√§hrdet!")
            print("  - Datenbereinigung erforderlich")
            print("  - Alternative: Nur Nutzer mit vorhandenen Gep√§ckdaten targeten")
            
        if any(spalte == 'base_fare_usd' for spalte, _ in problem_spalten):
            print("‚Üí base_fare_usd Probleme: Wirtschaftlichkeitsanalyse eingeschr√§nkt")
            print("  - Fehlende Preise sch√§tzen oder ausschlie√üen")
            
        if any(spalte == 'destination' for spalte, _ in problem_spalten):
            print("‚Üí destination Probleme: Zielgruppen-Segmentierung beeintr√§chtigt")
            print("  - Geografische Analysen nur eingeschr√§nkt m√∂glich")

# ============================================================
# üìà STATISTISCHE EINORDNUNG:

print("üîç Starte Missing Values Analyse der Flights-Tabelle...")
print(f"üìä Analysiere {len(flights_df):,} Flugbuchungen")
print(f"‚úàÔ∏è  Anzahl Spalten: {len(flights_df.columns)}")

# Erwartete Datenqualit√§t anzeigen
expected_flights_data_quality()

# ============================================================
# üí° BESONDERHEITEN DER FLIGHTS-TABELLE:
# 
# Im Vergleich zu anderen Tabellen:
# 
# 1. **return_time**: 4-7% missing values sind NORMAL (One-Way Fl√ºge)
# 2. **checked_bags**: Meist 0, 1, 2 St√ºck - wichtige Verteilung f√ºr Perk
# 3. **base_fare_usd**: Gro√üe Spannweite (Billigfl√ºge bis Business Class)
# 4. **seats**: Meist 1 (Einzelreisende), selten mehr (Familien/Gruppen)
# 
# POTENZIELLE PROBLEME:
# - checked_bags = -1 oder extrem hohe Werte = Datenfehler
# - base_fare_usd = 0 = fehlerhafte Buchungen
# - Fehlende destination_airport = unvollst√§ndige Routeninformation
# ============================================================

# üß≥ SPEZIFISCHE ANALYSE F√úR "KOSTENLOSER KOFFER" PERK:

def analyze_baggage_data(flights_df):
    """
    Spezielle Analyse der Gep√§ckdaten f√ºr den Koffer-Perk
    """
    print("\nüß≥ GEP√ÑCKDATEN-ANALYSE F√úR 'KOSTENLOSER KOFFER' PERK:")
    print("=" * 55)
    
    if 'checked_bags' in flights_df.columns:
        baggage_stats = flights_df['checked_bags'].describe()
        missing_bags = flights_df['checked_bags'].isnull().sum()
        total_flights = len(flights_df)
        
        print(f"Gesamte Fl√ºge: {total_flights:,}")
        print(f"Fl√ºge mit Gep√§ckdaten: {total_flights - missing_bags:,}")
        print(f"Fehlende Gep√§ckdaten: {missing_bags:,} ({missing_bags/total_flights*100:.1f}%)")
        print(f"\nGep√§ckstatistiken:")
        print(f"‚Ä¢ Durchschnittliches Gep√§ck: {baggage_stats['mean']:.2f} St√ºck")
        print(f"‚Ä¢ H√§ufigstes Gep√§ck: {baggage_stats['50%']} St√ºck (Median)")
        print(f"‚Ä¢ Maximale Gep√§ckst√ºcke: {baggage_stats['max']} St√ºck")
        
        # Gep√§ckverteilung
        baggage_distribution = flights_df['checked_bags'].value_counts().sort_index()
        print(f"\nGep√§ckverteilung:")
        for bags, count in baggage_distribution.head(10).items():
            print(f"  {bags} Koffer: {count:,} Fl√ºge ({count/total_flights*100:.1f}%)")
    else:
        print("‚ùå checked_bags Spalte nicht verf√ºgbar!")

# ============================================================

print("\n‚úÖ Flights Missing Values Analyse abgeschlossen!")
print("üí° Tipp: Ergebnisse f√ºr Rewards-Perks 'Kostenloser Kofferaufgabe' nutzen")

# Zus√§tzliche Gep√§cksanalyse durchf√ºhren
analyze_baggage_data(flights_df)

Unnamed: 0,column,missing_count,missing_percent
trip_id,trip_id,0,0.0
origin_airport,origin_airport,0,0.0
destination,destination,0,0.0
destination_airport,destination_airport,0,0.0
seats,seats,0,0.0
return_flight_booked,return_flight_booked,0,0.0
departure_time,departure_time,0,0.0
return_time,return_time,88734,4.67
checked_bags,checked_bags,0,0.0
trip_airline,trip_airline,0,0.0


üîç Starte Missing Values Analyse der Flights-Tabelle...
üìä Analysiere 1,901,038 Flugbuchungen
‚úàÔ∏è  Anzahl Spalten: 13

üéØ ERWARTETE DATENQUALIT√ÑT FLIGHTS:
üî∏ trip_id                   0% missing (Verkn√ºpfungsschl√ºssel)
üî∏ origin_airport            0% missing (Basisinformation Abflug)
üî∏ destination               0% missing (kritisch f√ºr Zielanalyse)
üî∏ destination_airport       0% missing (genaue Zielortung)
üî∏ seats                     0% missing (wichtig f√ºr Gruppengr√∂√üen)
üî∏ return_flight_booked      0% missing (Hin/R√ºckflug Information)
üî∏ departure_time            0% missing (zeitliche Analyse)
üî∏ return_time               ~4-5% missing ERWARTET (One-Way Fl√ºge!)
üî∏ checked_bags              0% missing (üö® KRITISCH f√ºr Koffer-Perk)
üî∏ trip_airline              0% missing (Fluggesellschafts-Analyse)
üî∏ base_fare_usd             0% missing (üí∞ Preisanlyse essentiell)
üî∏ destination_airport_lat   0% missing (geografische Analyse)
üî∏ des

In [66]:
missing_values_summary(flights_df)

Unnamed: 0,column,missing_count,missing_percent
trip_id,trip_id,0,0.0
origin_airport,origin_airport,0,0.0
destination,destination,0,0.0
destination_airport,destination_airport,0,0.0
seats,seats,0,0.0
return_flight_booked,return_flight_booked,0,0.0
departure_time,departure_time,0,0.0
return_time,return_time,88734,4.67
checked_bags,checked_bags,0,0.0
trip_airline,trip_airline,0,0.0


In [67]:
# ============================================================
# üîç DATENQUALIT√ÑTS-ANALYSE DER SESSIONS-TABELLE (STICHPROBE)
# ============================================================

# Erstellt eine zuf√§llige Stichprobe aus der Sessions-Tabelle
# KORREKTUR: F√ºge sample_size hinzu f√ºr repr√§sentative Stichprobe
session_sample = sessions_df.sample( random_state=42)

print("üîç Starte Missing Values Analyse der Sessions-Stichprobe...")
print(f"üìä Analysiere Stichprobe von {len(session_sample):,} Sitzungen")
print(f"üåê Repr√§sentiert {len(session_sample)/len(sessions_df)*100:.2f}% der Gesamtdaten")
print(f"üìã Anzahl Spalten: {len(session_sample.columns)}")

# ============================================================
# üéØ ZWECK DIESER ANALYSE:
# 
# √úberpr√ºfung der Datenqualit√§t in einer repr√§sentativen Stichprobe 
# der Sessions-Tabelle (5.408.063 Sitzungen):
# 
# 1. ‚úÖ Identifikation fehlender Werte in Browsing-Sessions
# 2. ‚úÖ Bewertung der Datenqualit√§t f√ºr Verhaltensanalysen  
# 3. ‚úÖ Entscheidungsgrundlage f√ºr Rabatt-bezogene Rewards-Perks
# 4. ‚úÖ Schnellere Analyse durch Stichprobe statt gesamter Tabelle
# ============================================================

# F√ºhrt eine Missing Values Analyse auf der Sessions-Stichprobe durch
print("\n" + "="*60)
print("üìä MISSING VALUES ANALYSE ERGEBNISSE:")
print("="*60)
missing_values_summary(session_sample)

# ============================================================
# üîç MANUELLE ERGEBNISERFASSUNG F√úR WEITERE ANALYSE
# ============================================================

# Da missing_values_summary() nichts zur√ºckgibt, berechnen wir die Ergebnisse manuell
def calculate_missing_results(df):
    """
    Berechnet Missing Values und gibt Ergebnisse als DataFrame zur√ºck
    """
    missing_count = df.isnull().sum()
    missing_percent = (missing_count / len(df)) * 100
    missing_df = pd.DataFrame({
        'column': df.columns,
        'missing_count': missing_count,
        'missing_percent': missing_percent.round(2)
    })
    return missing_df

# Ergebnisse berechnen f√ºr weitere Analyse
missing_results = calculate_missing_results(session_sample)

# ============================================================
# üéØ ERWARTETE DATENQUALIT√ÑT SESSIONS:
# ============================================================

def expected_sessions_data_quality():
    """
    Definiert die erwartete Datenqualit√§t f√ºr die Sessions-Tabelle
    """
    print("\nüéØ ERWARTETE DATENQUALIT√ÑT SESSIONS:")
    print("=" * 45)
    
    expectations = {
        'session_id': '0% missing (Prim√§rschl√ºssel)',
        'user_id': '0% missing (Verkn√ºpfung zu Users)',
        'trip_id': '~56% missing ERWARTET (Sessions ohne Buchung)',
        'session_start': '0% missing (Zeitstempel essentiell)',
        'session_end': '0% missing (Berechnung Session-Dauer)',
        'flight_discount': '0% missing (Rabattangebot Ja/Nein)',
        'flight_discount_amount': '~83% missing ERWARTET (nur bei Rabatt)',
        'hotel_discount': '0% missing (Rabattangebot Ja/Nein)',
        'hotel_discount_amount': '~87% missing ERWARTET (nur bei Rabatt)',
        'flight_booked': '0% missing (Buchungsstatus essentiell)',
        'hotel_booked': '0% missing (Buchungsstatus essentiell)',
        'page_clicks': '0% missing (Engagement-Metrik)',
        'cancellation': '0% missing (Stornierungsinformation)'
    }
    
    for spalte, erwartung in expectations.items():
        print(f"üî∏ {spalte:25} {erwartung}")

# Erwartungen anzeigen
expected_sessions_data_quality()

# ============================================================
# üìä SESSIONS-SPEZIFISCHE INTERPRETATION:
# ============================================================

def interpret_sessions_missing_values(missing_results):
    """
    Spezifische Interpretation f√ºr Sessions-Tabelle
    """
    print("\nüìä SESSIONS-SPEZIFISCHE INTERPRETATION:")
    print("=" * 45)
    
    # Kritische Spalten f√ºr Sessions-Analysen
    critical_columns = {
        'session_id': "üö® KRITISCH: Prim√§rschl√ºssel",
        'user_id': "üéØ WICHTIG: Verkn√ºpfung zu Users",
        'trip_id': "‚ö†Ô∏è  ERWARTET: Viele Sessions ohne Buchung", 
        'flight_discount_amount': "üí∞ ERWARTET: Nur bei Rabattangeboten",
        'hotel_discount_amount': "üè® ERWARTET: Nur bei Rabattangeboten",
        'flight_booked': "‚úàÔ∏è ENTSCHEIDEND: Buchungsverhalten",
        'page_clicks': "üìä RELEVANT: Engagement-Metrik"
    }
    
    print("Bewertung kritischer Spalten:")
    for spalte, bedeutung in critical_columns.items():
        if spalte in missing_results['column'].values:
            missing_pct = missing_results[missing_results['column'] == spalte]['missing_percent'].iloc[0]
            
            # Spezielle Behandlung f√ºr erwartete Missing Values
            if spalte in ['trip_id', 'flight_discount_amount', 'hotel_discount_amount']:
                if spalte == 'trip_id' and 50 <= missing_pct <= 65:
                    status = "‚úÖ ERWARTET"
                elif spalte == 'flight_discount_amount' and 80 <= missing_pct <= 90:
                    status = "‚úÖ ERWARTET"
                elif spalte == 'hotel_discount_amount' and 85 <= missing_pct <= 95:
                    status = "‚úÖ ERWARTET"
                else:
                    status = f"‚ö†Ô∏è {missing_pct:.1f}% (unerwartet)"
            else:
                status = "‚úÖ OK" if missing_pct == 0 else f"üö® {missing_pct:.1f}% missing"
            
            print(f"  {spalte:25} {status:20} {bedeutung}")

# Interpretation durchf√ºhren
interpret_sessions_missing_values(missing_results)

# ============================================================
# üöÄ N√ÑCHSTE SCHRITTE F√úR SESSIONS-DATEN:
# ============================================================

def sessions_data_next_steps(missing_results):
    """
    Entscheidungsmatrix basierend auf Sessions Missing Values
    """
    print("\nüéØ EMPFOHLENE N√ÑCHSTE SCHRITTE F√úR SESSIONS:")
    print("=" * 50)
    
    # Kritische Spalten identifizieren
    critical_columns = ['session_id', 'user_id', 'flight_booked', 'page_clicks']
    problem_spalten = []
    
    for spalte in critical_columns:
        if spalte in missing_results['column'].values:
            missing_pct = missing_results[missing_results['column'] == spalte]['missing_percent'].iloc[0]
            if missing_pct > 0:
                problem_spalten.append((spalte, missing_pct))
    
    if not problem_spalten:
        print("‚úÖ ALLE KRITISCHEN SPALTEN: Volle Datenqualit√§t")
        print("‚Üí Direkt mit Sessions-Analyse fortfahren")
        print("‚Üí Verhaltensanalyse und Rabattoptimierung m√∂glich")
        
    else:
        print("‚ö†Ô∏è  DATENPROBLEME IN KRITISCHEN SPALTEN:")
        for spalte, pct in problem_spalten:
            print(f"   ‚Ä¢ {spalte}: {pct}% missing")
        
        print("\nüîß EMPFOHLENE MASSNAHMEN:")
        if any(spalte == 'session_id' for spalte, _ in problem_spalten):
            print("‚Üí session_id Probleme: Datenintegrit√§t gef√§hrdet!")
            
        if any(spalte == 'user_id' for spalte, _ in problem_spalten):
            print("‚Üí user_id Probleme: Verkn√ºpfung zu Users nicht m√∂glich")
            
        if any(spalte == 'flight_booked' for spalte, _ in problem_spalten):
            print("‚Üí flight_booked Probleme: Conversion-Analyse beeintr√§chtigt")

# N√§chste Schritte anzeigen
sessions_data_next_steps(missing_results)

# ============================================================
# üí° ZUSAMMENFASSUNG:
# ============================================================

print("\n" + "="*60)
print("‚úÖ ZUSAMMENFASSUNG DER SESSIONS-DATENQUALIT√ÑT")
print("="*60)

print(f"üìä Stichprobengr√∂√üe: {len(session_sample):,} Sitzungen")
print(f"üìà Gesamte Missing Values: {session_sample.isnull().sum().sum():,}")
print(f"üéØ Datenqualit√§t: {'üëç AUSGEZEICHNET' if missing_results['missing_percent'].max() < 5 else '‚ö†Ô∏è  √úBERPR√úFENSWERT'}")

# Wichtigste Erkenntnisse
critical_insights = missing_results[missing_results['missing_percent'] > 0].sort_values('missing_percent', ascending=False)

if not critical_insights.empty:
    print(f"\nüîç SPALTEN MIT FEHLENDEN WERTEN ({len(critical_insights)}):")
    for _, row in critical_insights.iterrows():
        print(f"   ‚Ä¢ {row['column']:25} {row['missing_percent']}% missing")
else:
    print("\nüéâ KEINE FEHLENDEN WERTE GEFUNDEN!")

print("\n‚úÖ Sessions Missing Values Analyse abgeschlossen!")

üîç Starte Missing Values Analyse der Sessions-Stichprobe...
üìä Analysiere Stichprobe von 1 Sitzungen
üåê Repr√§sentiert 0.00% der Gesamtdaten
üìã Anzahl Spalten: 13

üìä MISSING VALUES ANALYSE ERGEBNISSE:


Unnamed: 0,column,missing_count,missing_percent
session_id,session_id,0,0.0
user_id,user_id,0,0.0
trip_id,trip_id,1,100.0
session_start,session_start,0,0.0
session_end,session_end,0,0.0
flight_discount,flight_discount,0,0.0
hotel_discount,hotel_discount,0,0.0
flight_discount_amount,flight_discount_amount,1,100.0
hotel_discount_amount,hotel_discount_amount,1,100.0
flight_booked,flight_booked,0,0.0



üéØ ERWARTETE DATENQUALIT√ÑT SESSIONS:
üî∏ session_id                0% missing (Prim√§rschl√ºssel)
üî∏ user_id                   0% missing (Verkn√ºpfung zu Users)
üî∏ trip_id                   ~56% missing ERWARTET (Sessions ohne Buchung)
üî∏ session_start             0% missing (Zeitstempel essentiell)
üî∏ session_end               0% missing (Berechnung Session-Dauer)
üî∏ flight_discount           0% missing (Rabattangebot Ja/Nein)
üî∏ flight_discount_amount    ~83% missing ERWARTET (nur bei Rabatt)
üî∏ hotel_discount            0% missing (Rabattangebot Ja/Nein)
üî∏ hotel_discount_amount     ~87% missing ERWARTET (nur bei Rabatt)
üî∏ flight_booked             0% missing (Buchungsstatus essentiell)
üî∏ hotel_booked              0% missing (Buchungsstatus essentiell)
üî∏ page_clicks               0% missing (Engagement-Metrik)
üî∏ cancellation              0% missing (Stornierungsinformation)

üìä SESSIONS-SPEZIFISCHE INTERPRETATION:
Bewertung kritischer Spalten:
  s

In [68]:
#missing_values_summary(session_df_df)
session_sample=sessions_df.sample(random_state=42)
missing_values_summary(session_sample)


Unnamed: 0,column,missing_count,missing_percent
session_id,session_id,0,0.0
user_id,user_id,0,0.0
trip_id,trip_id,1,100.0
session_start,session_start,0,0.0
session_end,session_end,0,0.0
flight_discount,flight_discount,0,0.0
hotel_discount,hotel_discount,0,0.0
flight_discount_amount,flight_discount_amount,1,100.0
hotel_discount_amount,hotel_discount_amount,1,100.0
flight_booked,flight_booked,0,0.0


# üìä Datenqualit√§t: TravelTide

**Die Users- und Hotels-Tabellen weisen perfekte Datenintegrit√§t ohne Null-Werte auf und bilden eine solide Analysbasis.**  
**In der Flights-Tabelle fehlen lediglich 4,67% der Return-Times, was auf legitime One-Way-Buchungen zur√ºckzuf√ºhren ist.**  
**Die hohen Missing-Rates bei Rabattbetr√§gen (83-87%) in Sessions entsprechen erwartetem E-Commerce-Verhalten und beeintr√§chtigen die Analysef√§higkeit nicht.**


# **3. Deskriptive Analyse**

# üìà Angereicherter Sitzungsdatensatz

**Der Basis-Sitzungsdatensatz konzentriert sich auf aktive Nutzer mit √ºber 7 Sitzungen in 2023 und filtert so die 5,4 Millionen Sitzungen auf die relevantesten Reisenden.**  
**Durch Verkn√ºpfung mit Flug- und Hotelbuchungen sowie Demografiedaten entsteht ein vollst√§ndiges Transaktionsdataset der User-Journey.**  
**Das Ergebnis bildet die komplette Reiseerfahrung der aktivsten Kunden mit Klickverhalten, Rabatten, Buchungsstatus und Reisedetails ab.**


In [69]:
# ============================================================
# üìä DEMOGRAPHIC SUMMARY & DESKRIPTIVE ANALYSE VORBEREITUNG
# ============================================================

# L√§dt den aufbereiteten Basis-Sitzungsdatensatz f√ºr die Analyse
base_sessions = load_table(data_type='processed', table_name='session_base')




# ============================================================
# üéØ ZWECK DIESES CODES:
# 
# Vorbereitung f√ºr die deskriptive Analyse und Demografie-Auswertung:
# 
# 1. üì• Laden des aufbereiteten Basis-Datensatzes
# 2. üîç Erste Einblicke in die Datenstruktur
# 3. üìã Vorbereitung f√ºr demografische Zusammenfassungen
# 4. üé® Grundlage f√ºr Visualisierungen und Reporting
# ============================================================

# üí° WAS IST base_sessions?
# 
# session_base ist ein aufbereiteter, angereicherter Datensatz der:
# - users, sessions, flights und hotels Tabellen kombiniert
# - Nur aktive Nutzer mit >7 Sitzungen in 2023 enth√§lt
# - Bereinigte und konsolidierte Daten f√ºr Analyse bereitstellt
# - Die Grundlage f√ºr das Clustering bildet
# 
# MERKMALE von base_sessions:
# - ~49,000 Zeilen (gefilterte, aktive Nutzer)
# - ~40+ Spalten (kombinierte Features aus allen Tabellen)
# - Bereinigte Missing Values und konsistente Formate
# ============================================================
print(f"\n‚úÖ Base Sessions Datensatz erfolgreich geladen und vorbereitet!")
print(f"üìÅ Bereit f√ºr: {len(base_sessions):,} aktive Nutzer √ó {len(base_sessions.columns)} Merkmale")


:aktenordner: Lade Tabelle 'session_base' aus CSV: /Users/sadiqqais/Masterschool/Projekt/Mastery_projekt/Travel_tide/core/../data/processed/session_base.csv
:wei√ües_h√§kchen: CSV geladen. Zeilen: 49211

‚úÖ Base Sessions Datensatz erfolgreich geladen und vorbereitet!
üìÅ Bereit f√ºr: 49,211 aktive Nutzer √ó 41 Merkmale


In [70]:
# ============================================================
# üîç DATENQUALIT√ÑTS-ANALYSE DES BASE_SESSIONS DATENSATZES
# ============================================================

# F√ºhrt eine Missing Values Analyse auf dem aufbereiteten Basis-Datensatz durch
missing_values_summary(base_sessions)

# ============================================================
# üéØ ZWECK DIESER ANALYSE:
# 
# √úberpr√ºfung der Datenqualit√§t im aufbereiteten base_sessions Datensatz:
# 
# 1. ‚úÖ Bewertung der Datenbereinigungseffektivit√§t
# 2. ‚úÖ Identifikation verbleibender Datenl√ºcken nach Preprocessing  
# 3. ‚úÖ Entscheidungsgrundlage f√ºr Clustering und ML-Modelle
# 4. ‚úÖ Qualit√§tssicherung f√ºr die Rewards-Programm Analyse
# ============================================================

# üí° BESONDERHEITEN DES BASE_SESSIONS DATENSATZES:
# 
# base_sessions ist bereits ein VORVERARBEITETER Datensatz der:
# - Aus users, sessions, flights und hotels kombiniert wurde
# - Nur aktive Nutzer mit >7 Sitzungen in 2023 enth√§lt
# - Bereits bereinigt und konsolidiert wurde
# - F√ºr Clustering und Machine Learning optimiert ist
# 
# ERWARTETE DATENQUALIT√ÑT:
# - Deutlich weniger Missing Values als Rohdaten
# - Konsistente Formate und Datentypen
# - Vollst√§ndige Schl√ºsselspalten f√ºr Verkn√ºpfungen
# ============================================================

# üîç WAS DIE ANALYSE IM BASE_SESSIONS √úBERPR√úFT:

def expected_base_sessions_quality():
    """
    Definiert die erwartete Datenqualit√§t f√ºr den base_sessions Datensatz
    """
    print("\nüéØ ERWARTETE DATENQUALIT√ÑT BASE_SESSIONS:")
    print("=" * 50)
    
    expectations = {
        'user_id': '0% missing (Prim√§rschl√ºssel)',
        'session_id': '0% missing (Session-Identifikator)',
        'demografische Spalten': '0% missing (bereinigt)',
        'Buchungs-Flags': '0% missing (vollst√§ndig)',
        'Preis-Daten': '<5% missing (konsolidiert)',
        'Rabatt-Daten': '10-30% missing (nur bei Angeboten)',
        'Geografische Daten': '0% missing (standardisiert)',
        'Zeitstempel': '0% missing (bereinigt)'
    }
    
    for kategorie, erwartung in expectations.items():
        print(f"üî∏ {kategorie:25} {erwartung}")

# ============================================================
# üìä BEDEUTUNG F√úR DAS REWARDS-PROGRAMM:
# 
# Die base_sessions Datenqualit√§t beeinflusst direkt:
# 
# 1. üéØ **KUNDENSEGMENTIERUNG**:
#    - Vollst√§ndige demografische Daten f√ºr pr√§zise Clustering
#    - Konsistente Verhaltensdaten f√ºr Segment-Zuordnung
#    
# 2. üí∞ **PERK-EFFEKTIVIT√ÑT**:
#    - Komplette Buchungsdaten f√ºr ROI-Berechnung
#    - Preisinformationen f√ºr Rabatt-Optimierung
#    
# 3. üìà **MODELLGENAUIGKEIT**:
#    - Qualit√§t der Features f√ºr Machine Learning
#    - Zuverl√§ssigkeit der Cluster-Zuordnungen
# ============================================================

# üîç INTERPRETATION DER BASE_SESSIONS ERGEBNISSE:

def interpret_base_sessions_missing(missing_results, df):
    """
    Spezifische Interpretation f√ºr base_sessions Missing Values
    """
    print("\nüìä BASE_SESSIONS SPEZIFISCHE INTERPRETATION:")
    print("=" * 50)
    
    # Kategorien von Spalten f√ºr differenzierte Bewertung
    column_categories = {
        'KRITISCHE SCHL√úSSEL': ['user_id', 'session_id', 'trip_id'],
        'DEMOGRAFISCHE DATEN': ['gender', 'age', 'married', 'has_children', 'home_country'],
        'BUCHUNGSVERHALTEN': ['flight_booked', 'hotel_booked', 'page_clicks', 'cancellation'],
        'PREIS & RABATTE': ['base_fare_usd', 'hotel_per_room_usd', 'flight_discount_amount', 'hotel_discount_amount'],
        'ZEITLICHE DATEN': ['session_start', 'session_end', 'departure_time', 'sign_up_date']
    }
    
    print("üîç DETAILBEWERTUNG NACH KATEGORIEN:")
    
    for kategorie, spalten in column_categories.items():
        # Nur verf√ºgbare Spalten in dieser Kategorie
        verf√ºgbare_spalten = [s for s in spalten if s in missing_results['column'].values]
        
        if verf√ºgbare_spalten:
            print(f"\nüè∑Ô∏è  {kategorie}:")
            
            for spalte in verf√ºgbare_spalten:
                missing_pct = missing_results[missing_results['column'] == spalte]['missing_percent'].iloc[0]
                
                # Unterschiedliche Toleranzen je nach Kategorie
                if kategorie == 'KRITISCHE SCHL√úSSEL':
                    status = "‚úÖ OK" if missing_pct == 0 else f"üö® KRITISCH: {missing_pct}%"
                elif kategorie == 'DEMOGRAFISCHE DATEN':
                    status = "‚úÖ OK" if missing_pct == 0 else f"‚ö†Ô∏è  PROBLEM: {missing_pct}%"
                elif kategorie == 'PREIS & RABATTE':
                    # Rabatt-Daten d√ºrfen Missing Values haben
                    if 'discount' in spalte:
                        status = "‚úÖ ERWARTET" if missing_pct > 50 else f"‚ÑπÔ∏è  {missing_pct}%"
                    else:
                        status = "‚úÖ OK" if missing_pct < 5 else f"‚ö†Ô∏è  {missing_pct}%"
                else:
                    status = "‚úÖ OK" if missing_pct < 5 else f"‚ö†Ô∏è  {missing_pct}%"
                
                print(f"   ‚Ä¢ {spalte:25} {status}")

# ============================================================
# üöÄ N√ÑCHSTE SCHRITTE BASIEREND AUF DEN ERGEBNISSEN:
# ============================================================

def base_sessions_next_steps(missing_results, df):
    """
    Entscheidungsmatrix f√ºr weitere Schritte basierend auf Datenqualit√§t
    """
    print("\nüéØ EMPFOHLENE N√ÑCHSTE SCHRITTE:")
    print("=" * 40)
    
    # Kritische Metriken berechnen
    total_columns = len(missing_results)
    columns_with_missing = len(missing_results[missing_results['missing_percent'] > 0])
    critical_issues = len(missing_results[missing_results['missing_percent'] > 10])
    
    print(f"üìä GESAMTBEWERTUNG:")
    print(f"   ‚Ä¢ Spalten gesamt: {total_columns}")
    print(f"   ‚Ä¢ Spalten mit Missing Values: {columns_with_missing}")
    print(f"   ‚Ä¢ Kritische Probleme: {critical_issues}")
    
    # Entscheidungslogik
    if critical_issues == 0:
        print("\n‚úÖ AUSGEZEICHNETE DATENQUALIT√ÑT")
        print("   ‚Üí Direkt mit Clustering und Analyse fortfahren")
        print("   ‚Üí Alle geplanten Features k√∂nnen verwendet werden")
        print("   ‚Üí Hohe Modellgenauigkeit erwartet")
        
    elif critical_issues <= 3:
        print("\n‚ö†Ô∏è  GUTE DATENQUALIT√ÑT MIT KLEINEN PROBLEMEN")
        print("   ‚Üí Clustering m√∂glich, betroffene Spalten pr√ºfen")
        print("   ‚Üí Gezieltes Feature Engineering f√ºr problematische Spalten")
        print("   ‚Üí Imputation f√ºr geringe Missing Values erw√§gen")
        
    else:
        print("\nüö® SIGNIFIKANTE DATENPROBLEME")
        print("   ‚Üí Data Cleaning vor Clustering erforderlich")
        print("   ‚Üí Kritische Spalten m√∂glicherweise ausschlie√üen")
        print("   ‚Üí Erweiterte Imputation oder Feature Selection n√∂tig")
    
    # Spezifische Empfehlungen
    high_missing = missing_results[missing_results['missing_percent'] > 20]
    if not high_missing.empty:
        print(f"\nüîß SPEZIFISCHE MASSNAHMEN:")
        for _, row in high_missing.iterrows():
            print(f"   ‚Ä¢ {row['column']}: {row['missing_percent']}% missing ‚Üí pr√ºfen/ausschlie√üen")

# ============================================================
# üìà DATENQUALIT√ÑTS-MONITORING:
# ============================================================

def data_quality_metrics(df, missing_results):
    """
    Berechnet umfassende Datenqualit√§ts-Metriken
    """
    print("\nüìà DATENQUALIT√ÑTS-METRIKEN:")
    print("=" * 35)
    
    # Grundlegende Metriken
    total_cells = df.shape[0] * df.shape[1]
    missing_cells = df.isnull().sum().sum()
    completeness = ((total_cells - missing_cells) / total_cells) * 100
    
    print(f"‚Ä¢ Datenvollst√§ndigkeit: {completeness:.1f}%")
    print(f"‚Ä¢ Fehlende Werte gesamt: {missing_cells:,} von {total_cells:,} Zellen")
    
    # Spalten mit perfekter Datenqualit√§t
    perfect_columns = len(missing_results[missing_results['missing_percent'] == 0])
    print(f"‚Ä¢ Perfekte Spalten (0% missing): {perfect_columns}/{len(missing_results)}")
    
    # Durchschnittliche Missing Rate
    avg_missing = missing_results['missing_percent'].mean()
    print(f"‚Ä¢ Durchschnittliche Missing Rate: {avg_missing:.1f}%")

# ============================================================
# üéØ AUSF√úHRUNG DER KOMPLETTEN ANALYSE:
# ============================================================

print("üîç STARTE DATENQUALIT√ÑTS-ANALYSE F√úR BASE_SESSIONS")
print("=" * 55)
print(f"üìä Dataset: {base_sessions.shape[0]:,} Zeilen √ó {base_sessions.shape[1]} Spalten")
print(f"üéØ Zweck: Vorbereitung f√ºr Clustering und Rewards-Programm")

# Erwartete Qualit√§t anzeigen
expected_base_sessions_quality()

print("\n" + "="*60)
print("üìä MISSING VALUES ANALYSE ERGEBNISSE:")
print("="*60)

# Missing Values Analyse durchf√ºhren
missing_values_summary(base_sessions)

# ============================================================
# üîÑ MANUELLE ERGEBNISERFASSUNG F√úR WEITERE VERARBEITUNG:
# ============================================================

# Da missing_values_summary nur anzeigt, nicht zur√ºckgibt,
# berechnen wir die Ergebnisse f√ºr weitere Analyse

def get_missing_results(df):
    """
    Berechnet Missing Values und gibt DataFrame zur√ºck
    """
    missing_count = df.isnull().sum()
    missing_percent = (missing_count / len(df)) * 100
    results_df = pd.DataFrame({
        'column': df.columns,
        'missing_count': missing_count,
        'missing_percent': missing_percent.round(2)
    })
    return results_df

# Ergebnisse f√ºr weitere Verarbeitung berechnen
missing_results = get_missing_results(base_sessions)

# ============================================================
# üìã KOMPLETTE AUSWERTUNG DURCHF√úHREN:
# ============================================================

print("\n" + "="*60)
print("üéØ INTERPRETATION UND EMPFEHLUNGEN")
print("="*60)

# Detaillierte Interpretation
interpret_base_sessions_missing(missing_results, base_sessions)

# Datenqualit√§ts-Metriken
data_quality_metrics(base_sessions, missing_results)

# N√§chste Schritte empfehlen
base_sessions_next_steps(missing_results, base_sessions)

# ============================================================
# üí° ABSCHLIESSENDE BEWERTUNG:
# ============================================================

print("\n" + "="*60)
print("‚úÖ ZUSAMMENFASSUNG BASE_SESSIONS DATENQUALIT√ÑT")
print("="*60)

# Gesamtbewertung
total_missing_rate = (base_sessions.isnull().sum().sum() / 
                     (base_sessions.shape[0] * base_sessions.shape[1])) * 100

if total_missing_rate < 1:
    rating = "‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê AUSGEZEICHNET"
elif total_missing_rate < 5:
    rating = "‚≠ê‚≠ê‚≠ê‚≠ê SEHR GUT" 
elif total_missing_rate < 10:
    rating = "‚≠ê‚≠ê‚≠ê GUT"
elif total_missing_rate < 20:
    rating = "‚≠ê‚≠ê AKZEPTABEL"
else:
    rating = "‚≠ê √úBERARBEITUNGSBED√úRFTIG"

print(f"üìà GESAMTBEWERTUNG: {rating}")
print(f"üìä Missing Values Gesamt: {total_missing_rate:.2f}%")
print(f"üéØ EIGNUNG F√úR CLUSTERING: {'‚úÖ OPTIMAL' if total_missing_rate < 5 else '‚ö†Ô∏è  EINGESCHR√ÑNKT'}")

print(f"\n‚úÖ Base Sessions Datenqualit√§ts-Analyse abgeschlossen!")

Unnamed: 0,column,missing_count,missing_percent
session_id,session_id,0,0.0
user_id,user_id,0,0.0
trip_id,trip_id,32509,66.06
session_start,session_start,0,0.0
session_end,session_end,0,0.0
page_clicks,page_clicks,0,0.0
flight_discount,flight_discount,0,0.0
flight_discount_amount,flight_discount_amount,40929,83.17
hotel_discount,hotel_discount,0,0.0
hotel_discount_amount,hotel_discount_amount,43006,87.39


üîç STARTE DATENQUALIT√ÑTS-ANALYSE F√úR BASE_SESSIONS
üìä Dataset: 49,211 Zeilen √ó 41 Spalten
üéØ Zweck: Vorbereitung f√ºr Clustering und Rewards-Programm

üéØ ERWARTETE DATENQUALIT√ÑT BASE_SESSIONS:
üî∏ user_id                   0% missing (Prim√§rschl√ºssel)
üî∏ session_id                0% missing (Session-Identifikator)
üî∏ demografische Spalten     0% missing (bereinigt)
üî∏ Buchungs-Flags            0% missing (vollst√§ndig)
üî∏ Preis-Daten               <5% missing (konsolidiert)
üî∏ Rabatt-Daten              10-30% missing (nur bei Angeboten)
üî∏ Geografische Daten        0% missing (standardisiert)
üî∏ Zeitstempel               0% missing (bereinigt)

üìä MISSING VALUES ANALYSE ERGEBNISSE:


Unnamed: 0,column,missing_count,missing_percent
session_id,session_id,0,0.0
user_id,user_id,0,0.0
trip_id,trip_id,32509,66.06
session_start,session_start,0,0.0
session_end,session_end,0,0.0
page_clicks,page_clicks,0,0.0
flight_discount,flight_discount,0,0.0
flight_discount_amount,flight_discount_amount,40929,83.17
hotel_discount,hotel_discount,0,0.0
hotel_discount_amount,hotel_discount_amount,43006,87.39



üéØ INTERPRETATION UND EMPFEHLUNGEN

üìä BASE_SESSIONS SPEZIFISCHE INTERPRETATION:
üîç DETAILBEWERTUNG NACH KATEGORIEN:

üè∑Ô∏è  KRITISCHE SCHL√úSSEL:
   ‚Ä¢ user_id                   ‚úÖ OK
   ‚Ä¢ session_id                ‚úÖ OK
   ‚Ä¢ trip_id                   üö® KRITISCH: 66.06%

üè∑Ô∏è  DEMOGRAFISCHE DATEN:
   ‚Ä¢ gender                    ‚úÖ OK
   ‚Ä¢ married                   ‚úÖ OK
   ‚Ä¢ has_children              ‚úÖ OK
   ‚Ä¢ home_country              ‚úÖ OK

üè∑Ô∏è  BUCHUNGSVERHALTEN:
   ‚Ä¢ flight_booked             ‚úÖ OK
   ‚Ä¢ hotel_booked              ‚úÖ OK
   ‚Ä¢ page_clicks               ‚úÖ OK
   ‚Ä¢ cancellation              ‚úÖ OK

üè∑Ô∏è  PREIS & RABATTE:
   ‚Ä¢ base_fare_usd             ‚ö†Ô∏è  71.0%
   ‚Ä¢ flight_discount_amount    ‚úÖ ERWARTET
   ‚Ä¢ hotel_discount_amount     ‚úÖ ERWARTET

üè∑Ô∏è  ZEITLICHE DATEN:
   ‚Ä¢ session_start             ‚úÖ OK
   ‚Ä¢ session_end               ‚úÖ OK
   ‚Ä¢ departure_time            ‚ö†Ô∏è  71.0%
   ‚Ä¢ si

In [71]:
missing_values_summary(base_sessions)

Unnamed: 0,column,missing_count,missing_percent
session_id,session_id,0,0.0
user_id,user_id,0,0.0
trip_id,trip_id,32509,66.06
session_start,session_start,0,0.0
session_end,session_end,0,0.0
page_clicks,page_clicks,0,0.0
flight_discount,flight_discount,0,0.0
flight_discount_amount,flight_discount_amount,40929,83.17
hotel_discount,hotel_discount,0,0.0
hotel_discount_amount,hotel_discount_amount,43006,87.39


# üîç Datenqualit√§t im Basis-Sitzungsdatensatz

**Die Analyse des angereicherten Sitzungsdatensatzes zeigt ein klares Muster: W√§hrend demografische Daten und Sitzungsinformationen vollst√§ndig vorliegen, fehlen bei 66% der Sitzungen die trip_ids.**  
**Die hohen Fehlraten von 70-72% bei Flug- und Hoteldetails sowie 83-87% bei Rabattbetr√§gen best√§tigen, dass diese Daten nur bei tats√§chlichen Buchungen und aktiven Rabattangeboten erfasst werden.**  
**Dieses Fehlmuster ist typisch f√ºr E-Commerce-Daten und zeigt, dass der Datensatz viele Browsing-Sitzungen ohne Abschluss enth√§lt.**  
**F√ºr detaillierte Reiseanalysen sind die Buchungsdaten daher eingeschr√§nkt verf√ºgbar, w√§hrend Nutzerverhaltensanalysen auf solider Basis durchf√ºhrbar sind.**


In [72]:
def show_summary_stats(df: pd.DataFrame) -> None:
    """
    ### FUNKTION: show_summary_stats
    **Zweck:**
    Zeigt grundlegende deskriptive Statistiken f√ºr numerische Spalten eines DataFrames an.
    
    **Funktionsweise:**
    1. Filtert automatisch numerische Spalten aus dem DataFrame
    2. Berechnet Standard-Statistiken f√ºr jede numerische Spalte
    3. Zeigt die Ergebnisse formatiert und transponiert an
    
    **Parameter:**
    - df (pd.DataFrame): Der DataFrame, f√ºr den Statistiken angezeigt werden sollen
    
    **R√ºckgabe:**
    - None: Die Funktion gibt nichts zur√ºck, sondern zeigt die Ergebnisse direkt an
    
    **Angezeigte Statistiken:**
    - count: Anzahl der nicht-fehlenden Werte
    - mean: Durchschnittswert
    - std: Standardabweichung (Streuung der Daten)
    - min: Kleinster Wert
    - 25%: Erstes Quartil (25% der Werte sind kleiner)
    - 50%: Median (50% der Werte sind kleiner)
    - 75%: Drittes Quartil (75% der Werte sind kleiner)
    - max: Gr√∂√üter Wert
    
    **Beispiel:**
    ```python
    show_summary_stats(base_sessions)
    ```
    
    **Ausgabe-Beispiel:**
    ```
    Summary Statistics:
                count   mean    std    min    25%    50%    75%    max
    age        49000   42.15  12.34   18.0   32.0   42.0   52.0   80.0
    page_clicks 49000   15.67   8.91    2.0    9.0   15.0   22.0   87.0
    base_fare_usd 38500  450.23 280.45  49.99 250.00 380.00 550.00 2500.00
    ```
    """
    # Zeige √úberschrift f√ºr die Ausgabe
    print(" Summary Statistics:")
    
    # F√ºhre die statistische Analyse durch:
    # 1. df.describe() - Berechnet Deskriptive Statistiken f√ºr alle numerischen Spalten
    # 2. .transpose() - Dreht die Tabelle f√ºr bessere Lesbarkeit (Spalten werden zu Zeilen)
    # 3. .round(2) - Rundet alle Werte auf 2 Dezimalstellen f√ºr klare Darstellung
    # 4. display() - Zeigt die formatierte Tabelle im Notebook an
    display(df.describe().transpose().round(2))

# ============================================================
# üîç DETAILLIERTE ERKL√ÑRUNG DER STATISTIKEN:
# ============================================================

def explain_summary_statistics():
    """
    Erkl√§rt die Bedeutung der verschiedenen Summary Statistics
    """
    print("\nüìä ERKL√ÑRUNG DER SUMMARY STATISTICS:")
    print("=" * 45)
    
    statistics_explanation = {
        'count': 'Anzahl g√ºltiger Werte (ohne Missing Values)',
        'mean': 'Durchschnittswert - Zentrale Tendenz der Daten',
        'std': 'Standardabweichung - Streuung um den Mittelwert',
        'min': 'Kleinster Wert in der Verteilung',
        '25%': '1. Quartil - 25% der Werte liegen darunter',
        '50%': 'Median - 50% der Werte liegen darunter (robuster Mittelwert)',
        '75%': '3. Quartil - 75% der Werte liegen darunter', 
        'max': 'Gr√∂√üter Wert in der Verteilung'
    }
    
    for stat, explanation in statistics_explanation.items():
        print(f"üî∏ {stat:5}: {explanation}")

# ============================================================
# üéØ ANWENDUNGSBEISPIEL F√úR TRAVELTIDE DATEN:
# ============================================================

def traveltide_specific_insights(df):
    """
    Zeigt spezifische Insights f√ºr TravelTide Daten basierend auf Summary Statistics
    """
    print("\nüéØ TRAVELTIDE SPEZIFISCHE INSIGHTS:")
    print("=" * 45)
    
    # Pr√ºfe verf√ºgbare numerische Spalten
    numeric_columns = df.select_dtypes(include=['number']).columns
    
    if 'page_clicks' in numeric_columns:
        clicks_stats = df['page_clicks'].describe()
        print(f"üìä PAGE CLICKS VERHALTEN:")
        print(f"   ‚Ä¢ Durchschnittliche Klicks pro Session: {clicks_stats['mean']:.1f}")
        print(f"   ‚Ä¢ Median Klicks: {clicks_stats['50%']:.1f}")
        print(f"   ‚Ä¢ Streuung (Std): {clicks_stats['std']:.1f}")
        
        # Interpretation
        if clicks_stats['std'] > clicks_stats['mean']:
            print("   üîç Hohe Streuung ‚Üí Sehr unterschiedliches Nutzerverhalten")
        else:
            print("   üîç Konsistentes Klick-Verhalten √ºber alle Nutzer")
    
    if 'base_fare_usd' in numeric_columns:
        fare_stats = df['base_fare_usd'].describe()
        print(f"\nüí∞ FLUGPREISE ANALYSE:")
        print(f"   ‚Ä¢ Durchschnittspreis: ${fare_stats['mean']:.2f}")
        print(f"   ‚Ä¢ Median-Preis: ${fare_stats['50%']:.2f}")
        print(f"   ‚Ä¢ Preisspanne: ${fare_stats['min']:.2f} - ${fare_stats['max']:.2f}")
        
        # Preisstreuung bewerten
        price_range = fare_stats['max'] - fare_stats['min']
        if price_range > 1000:
            print("   üîç Gro√üe Preisspanne ‚Üí Unterschiedliche Reisebudgets")
    
    if 'nights' in numeric_columns:
        nights_stats = df['nights'].describe()
        print(f"\nüè® AUFENTHALTSDAUER:")
        print(f"   ‚Ä¢ Durchschnittliche √úbernachtungen: {nights_stats['mean']:.1f}")
        print(f"   ‚Ä¢ Typische Aufenthaltsdauer (Median): {nights_stats['50%']:.1f} N√§chte")

# ============================================================
# üöÄ ERWEITERTE VERSION MIT ZUS√ÑTZLICHEN FEATURES:
# ============================================================

def enhanced_summary_stats(df: pd.DataFrame, include_categorical: bool = False) -> None:
    """
    ### ERWEITERTE VERSION: enhanced_summary_stats
    **Zweck:**
    Zeigt umfassende Summary Statistics inklusive optionaler kategorischer Analysen
    
    **Parameter:**
    - df: DataFrame f√ºr die Analyse
    - include_categorical: Wenn True, werden auch kategorische Variablen analysiert
    
    **Zus√§tzliche Features:**
    - Missing Values Anteil pro Spalte
    - DatenTyp Informationen
    - Optionale kategorische Analyse
    """
    print("\n" + "="*60)
    print("üìà ENHANCED SUMMARY STATISTICS")
    print("="*60)
    
    # 1. Numerische Statistiken (wie urspr√ºnglich)
    print("\nüî¢ NUMERISCHE VARIABLEN:")
    show_summary_stats(df)
    
    # 2. Zus√§tzliche Metriken
    print("\nüìã DATENSET √úBERSICHT:")
    print(f"   ‚Ä¢ Gesamt Zeilen: {df.shape[0]:,}")
    print(f"   ‚Ä¢ Gesamt Spalten: {df.shape[1]}")
    print(f"   ‚Ä¢ Numerische Spalten: {len(df.select_dtypes(include=['number']).columns)}")
    print(f"   ‚Ä¢ Kategorische Spalten: {len(df.select_dtypes(include=['object', 'category']).columns)}")
    
    # 3. Missing Values √úbersicht
    missing_total = df.isnull().sum().sum()
    missing_percent = (missing_total / (df.shape[0] * df.shape[1])) * 100
    print(f"   ‚Ä¢ Fehlende Werte: {missing_total:,} ({missing_percent:.1f}% aller Zellen)")
    
    # 4. Optionale kategorische Analyse
    if include_categorical:
        categorical_cols = df.select_dtypes(include=['object', 'category']).columns
        if len(categorical_cols) > 0:
            print(f"\nüè∑Ô∏è  KATEGORISCHE VARIABLEN (Auszug):")
            for col in categorical_cols[:3]:  # Zeige nur erste 3
                unique_count = df[col].nunique()
                most_common = df[col].mode().iloc[0] if not df[col].mode().empty else "N/A"
                print(f"   ‚Ä¢ {col}: {unique_count} eindeutige Werte, h√§ufigster: '{most_common}'")

# ============================================================
# üí° PRAKTISCHE ANWENDUNG F√úR BASE_SESSIONS:
# ============================================================

print("üéØ PRAKTISCHES BEISPIEL: BASE_SESSIONS ANALYSE")
print("=" * 50)

# 1. Grundlegende Summary Statistics anzeigen
print("\n1. üìä STANDARD SUMMARY STATISTICS:")
show_summary_stats(base_sessions)

# 2. Erkl√§rung der Statistiken anzeigen
explain_summary_statistics()

# 3. TravelTide spezifische Insights
traveltide_specific_insights(base_sessions)

# 4. Erweiterte Analyse durchf√ºhren
print("\n2. üìà ERWEITERTE ANALYSE:")
enhanced_summary_stats(base_sessions, include_categorical=True)

# ============================================================
# üé™ INTERAKTIVE INTERPRETATIONSHILFE:
# ============================================================

def interpret_statistical_patterns(df):
    """
    Hilft bei der Interpretation von statistischen Mustern in den Daten
    """
    print("\nüîç INTERPRETATIONS-HILFE F√úR STATISTISCHE MUSTER:")
    print("=" * 50)
    
    numeric_df = df.select_dtypes(include=['number'])
    
    for col in numeric_df.columns[:5]:  # Analysiere erste 5 numerische Spalten
        stats = df[col].describe()
        
        print(f"\nüìà {col.upper()}:")
        
        # Mittelwert vs Median Analyse
        if stats['mean'] > stats['50%']:
            print("   ‚Ä¢ Rechtsschiefe Verteilung (Mean > Median)")
            print("   ‚Üí Einige sehr hohe Werte ziehen den Durchschnitt nach oben")
        elif stats['mean'] < stats['50%']:
            print("   ‚Ä¢ Linksschiefe Verteilung (Mean < Median)") 
            print("   ‚Üí Einige sehr niedrige Werte dr√ºcken den Durchschnitt")
        else:
            print("   ‚Ä¢ Symmetrische Verteilung (Mean ‚âà Median)")
        
        # Streuungsanalyse
        cv = (stats['std'] / stats['mean']) * 100  # Variationskoeffizient
        if cv > 50:
            print(f"   ‚Ä¢ Hohe Streuung (CV: {cv:.1f}%) ‚Üí Sehr heterogene Werte")
        else:
            print(f"   ‚Ä¢ Moderate Streuung (CV: {cv:.1f}%) ‚Üí Homogene Werte")
        
        # Quartilsabstand (IQR) f√ºr Ausrei√üer-Check
        iqr = stats['75%'] - stats['25%']
        upper_bound = stats['75%'] + 1.5 * iqr
        if stats['max'] > upper_bound:
            print("   ‚Ä¢ Potenzielle Ausrei√üer nach oben vorhanden")

# Interpretation f√ºr base_sessions durchf√ºhren
interpret_statistical_patterns(base_sessions)

print("\n‚úÖ Summary Statistics Analyse abgeschlossen!")

üéØ PRAKTISCHES BEISPIEL: BASE_SESSIONS ANALYSE

1. üìä STANDARD SUMMARY STATISTICS:
 Summary Statistics:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user_id,49211.0,545282.69,64640.05,23557.0,517119.0,540308.0,573922.0,844489.0
page_clicks,49211.0,17.59,21.5,1.0,6.0,13.0,22.0,566.0
flight_discount_amount,8282.0,0.14,0.08,0.05,0.1,0.1,0.2,0.6
hotel_discount_amount,6205.0,0.11,0.06,0.05,0.05,0.1,0.15,0.45
home_airport_lat,49211.0,38.43,6.19,21.32,33.82,39.1,42.24,61.25
home_airport_lon,49211.0,-94.18,18.07,-157.93,-112.38,-90.04,-79.37,-63.5
seats,14270.0,1.22,0.59,1.0,1.0,1.0,1.0,8.0
checked_bags,14270.0,0.59,0.68,0.0,0.0,1.0,1.0,8.0
destination_airport_lat,14270.0,38.61,6.95,-37.01,33.94,39.87,42.41,55.97
destination_airport_lon,14270.0,-88.95,33.09,-157.93,-112.38,-87.75,-75.24,174.79



üìä ERKL√ÑRUNG DER SUMMARY STATISTICS:
üî∏ count: Anzahl g√ºltiger Werte (ohne Missing Values)
üî∏ mean : Durchschnittswert - Zentrale Tendenz der Daten
üî∏ std  : Standardabweichung - Streuung um den Mittelwert
üî∏ min  : Kleinster Wert in der Verteilung
üî∏ 25%  : 1. Quartil - 25% der Werte liegen darunter
üî∏ 50%  : Median - 50% der Werte liegen darunter (robuster Mittelwert)
üî∏ 75%  : 3. Quartil - 75% der Werte liegen darunter
üî∏ max  : Gr√∂√üter Wert in der Verteilung

üéØ TRAVELTIDE SPEZIFISCHE INSIGHTS:
üìä PAGE CLICKS VERHALTEN:
   ‚Ä¢ Durchschnittliche Klicks pro Session: 17.6
   ‚Ä¢ Median Klicks: 13.0
   ‚Ä¢ Streuung (Std): 21.5
   üîç Hohe Streuung ‚Üí Sehr unterschiedliches Nutzerverhalten

üí∞ FLUGPREISE ANALYSE:
   ‚Ä¢ Durchschnittspreis: $525.90
   ‚Ä¢ Median-Preis: $381.76
   ‚Ä¢ Preisspanne: $2.41 - $21548.04
   üîç Gro√üe Preisspanne ‚Üí Unterschiedliche Reisebudgets

üè® AUFENTHALTSDAUER:
   ‚Ä¢ Durchschnittliche √úbernachtungen: 3.7
   ‚Ä¢ Typisch

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user_id,49211.0,545282.69,64640.05,23557.0,517119.0,540308.0,573922.0,844489.0
page_clicks,49211.0,17.59,21.5,1.0,6.0,13.0,22.0,566.0
flight_discount_amount,8282.0,0.14,0.08,0.05,0.1,0.1,0.2,0.6
hotel_discount_amount,6205.0,0.11,0.06,0.05,0.05,0.1,0.15,0.45
home_airport_lat,49211.0,38.43,6.19,21.32,33.82,39.1,42.24,61.25
home_airport_lon,49211.0,-94.18,18.07,-157.93,-112.38,-90.04,-79.37,-63.5
seats,14270.0,1.22,0.59,1.0,1.0,1.0,1.0,8.0
checked_bags,14270.0,0.59,0.68,0.0,0.0,1.0,1.0,8.0
destination_airport_lat,14270.0,38.61,6.95,-37.01,33.94,39.87,42.41,55.97
destination_airport_lon,14270.0,-88.95,33.09,-157.93,-112.38,-87.75,-75.24,174.79



üìã DATENSET √úBERSICHT:
   ‚Ä¢ Gesamt Zeilen: 49,211
   ‚Ä¢ Gesamt Spalten: 41
   ‚Ä¢ Numerische Spalten: 14
   ‚Ä¢ Kategorische Spalten: 20
   ‚Ä¢ Fehlende Werte: 743,264 (36.8% aller Zellen)

üè∑Ô∏è  KATEGORISCHE VARIABLEN (Auszug):
   ‚Ä¢ session_id: 49211 eindeutige Werte, h√§ufigster: '101486-6d053e0f51884dddb339416c86d5b3a9'
   ‚Ä¢ trip_id: 16099 eindeutige Werte, h√§ufigster: '106907-718c9cf6c29245fa9b2b31893833ac2c'
   ‚Ä¢ session_start: 42488 eindeutige Werte, h√§ufigster: '2023-02-24 21:07:00'

üîç INTERPRETATIONS-HILFE F√úR STATISTISCHE MUSTER:

üìà USER_ID:
   ‚Ä¢ Rechtsschiefe Verteilung (Mean > Median)
   ‚Üí Einige sehr hohe Werte ziehen den Durchschnitt nach oben
   ‚Ä¢ Moderate Streuung (CV: 11.9%) ‚Üí Homogene Werte
   ‚Ä¢ Potenzielle Ausrei√üer nach oben vorhanden

üìà PAGE_CLICKS:
   ‚Ä¢ Rechtsschiefe Verteilung (Mean > Median)
   ‚Üí Einige sehr hohe Werte ziehen den Durchschnitt nach oben
   ‚Ä¢ Hohe Streuung (CV: 122.2%) ‚Üí Sehr heterogene Werte
   ‚Ä¢ Po

In [73]:
# ============================================================
# üìä SUMMARY STATISTICS F√úR BASE_SESSIONS DATENSATZ
# ============================================================

# F√ºhrt eine deskriptive statistische Analyse des base_sessions Datensatzes durch
show_summary_stats(base_sessions)

# ============================================================
# üéØ ZWECK DIESER ANALYSE:
# 
# Zeigt grundlegende deskriptive Statistiken f√ºr alle numerischen Spalten
# im base_sessions Datensatz zur schnellen Dateneinsch√§tzung:
# 
# 1. ‚úÖ √úberblick √ºber die Verteilung numerischer Variablen
# 2. ‚úÖ Identifikation von Datenanomalien und Ausrei√üern  
# 3. ‚úÖ Grundlage f√ºr Entscheidungen zur Datenvorverarbeitung
# 4. ‚úÖ Erste Insights f√ºr das Rewards-Programm Design
# ============================================================

# üí° WAS DIE FUNKTION ANZEIGT:
# 
# F√ºr jede NUMERISCHE Spalte in base_sessions werden berechnet:
# - count: Anzahl nicht-fehlender Werte (Datenqualit√§t)
# - mean: Durchschnittswert (zentrale Tendenz)
# - std: Standardabweichung (Streuung/Variabilit√§t)
# - min: Minimum (kleinster beobachteter Wert)
# - 25%: 1. Quartil (25% der Werte liegen darunter)
# - 50%: Median (50% der Werte liegen darunter - robustes Zentrum)
# - 75%: 3. Quartil (75% der Werte liegen darunter) 
# - max: Maximum (gr√∂√üter beobachteter Wert)
# ============================================================

# üîç INTERPRETATIONSHILFE F√úR DIE ERGEBNISSE:

def interpret_base_sessions_summary():
    """
    Hilft bei der Interpretation der Summary Statistics f√ºr base_sessions
    """
    print("\nüîç INTERPRETATIONSHILFE F√úR BASE_SESSIONS:")
    print("=" * 50)
    
    # Erwartete Muster f√ºr wichtige Variablen
    expected_patterns = {
        'page_clicks': "üî∏ Erwartung: Mean ~15-25, hohe Std ‚Üí unterschiedliches Engagement",
        'session_duration': "üî∏ Erwartung: Mean ~20-40 Min, hohe Std ‚Üí verschiedene Session-L√§ngen",
        'base_fare_usd': "üî∏ Erwartung: Mean ~300-600, hohe Std ‚Üí verschiedene Preisklassen",
        'hotel_per_room_usd': "üî∏ Erwartung: Mean ~100-250, mittlere Std ‚Üí verschiedene Hotelkategorien",
        'checked_bags': "üî∏ Erwartung: Mean ~0.5-1.5, niedrige Std ‚Üí meist 0-2 Gep√§ckst√ºcke",
        'nights': "üî∏ Erwartung: Mean ~3-7, mittlere Std ‚Üí verschiedene Aufenthaltsdauern",
        'age': "üî∏ Erwartung: Mean ~35-50, normale Verteilung ‚Üí gemischte Altersgruppen"
    }
    
    print("üéØ ERWARTETE WERTEBEREICHE:")
    for variable, expectation in expected_patterns.items():
        print(f"   {expectation}")
    
    print("\nüìä WICHTIGE SIGNALE F√úR DIE INTERPRETATION:")
    print("   ‚Ä¢ Mean ‚âà Median ‚Üí Symmetrische Verteilung (normal)")
    print("   ‚Ä¢ Mean > Median ‚Üí Rechtsschiefe Verteilung (Ausrei√üer nach oben)")
    print("   ‚Ä¢ Mean < Median ‚Üí Linksschiefe Verteilung (Ausrei√üer nach unten)")
    print("   ‚Ä¢ Hohe Std ‚Üí Gro√üe Heterogenit√§t in der Nutzerbasis")
    print("   ‚Ä¢ Niedrige Std ‚Üí Homogene Nutzergruppe")

# ============================================================
# üìà SPEZIFISCHE ANALYSE F√úR REWARDS-PROGRAMM RELEVANTE VARIABLEN:
# ============================================================

def analyze_rewards_relevant_metrics(df):
    """
    Analysiert speziell die f√ºr das Rewards-Programm relevanten Metriken
    """
    print("\nüéÅ REWARDS-PROGRAMM RELEVANTE METRIKEN:")
    print("=" * 45)
    
    # Definiere Metriken die f√ºr Perk-Entscheidungen wichtig sind
    rewards_metrics = {
        'page_clicks': "üìä Engagement-Level (H√∂here Klicks = aktiverer Nutzer)",
        'session_duration': "‚è±Ô∏è  Zeitinvestition (L√§ngere Sessions = h√∂heres Interesse)", 
        'base_fare_usd': "üí∞ Preisbereitschaft (H√∂here Preise = wertvollere Kunden)",
        'hotel_per_room_usd': "üè® Hotel-Budget (Zeigt Komfort-Pr√§ferenzen)",
        'checked_bags': "üß≥ Gep√§ckverhalten (Relevanz f√ºr 'Kostenloser Koffer' Perk)",
        'nights': "üåô Aufenthaltsdauer (Relevanz f√ºr 'Gratis Nacht' Perk)",
        'flight_booked': "‚úàÔ∏è  Buchungsverhalten (Conversion Rate Analyse)",
        'hotel_booked': "üè® Hotel-Buchungen (Kombi-Reise-Pr√§ferenz)"
    }
    
    # Pr√ºfe welche Metriken verf√ºgbar sind und analysiere sie
    available_metrics = {k: v for k, v in rewards_metrics.items() if k in df.columns}
    
    print("üîç VERF√úGBARE REWARDS-RELEVANTE VARIABLEN:")
    for metric, description in available_metrics.items():
        if metric in df.select_dtypes(include=['number']).columns:
            stats = df[metric].describe()
            print(f"\n   {description}:")
            print(f"      ‚Ä¢ Mittelwert: {stats['mean']:.2f}")
            print(f"      ‚Ä¢ Median: {stats['50%']:.2f}")
            print(f"      ‚Ä¢ Streuung (Std): {stats['std']:.2f}")
            print(f"      ‚Ä¢ Wertebereich: {stats['min']:.2f} - {stats['max']:.2f}")
            
            # Zus√§tzliche Interpretation
            if stats['std'] > stats['mean']:
                print("      üî∏ Hohe Varianz ‚Üí Sehr unterschiedliches Nutzerverhalten")
            else:
                print("      üî∏ Moderate Varianz ‚Üí Konsistentes Verhaltensmuster")

# ============================================================
# üö® ANOMALIE-ERKENNUNG IN DEN DATEN:
# ============================================================

def detect_data_anomalies(df):
    """
    Erkennt potenzielle Datenanomalien und Ausrei√üer
    """
    print("\nüö® ANOMALIE-ERKENNUNG:")
    print("=" * 35)
    
    numeric_cols = df.select_dtypes(include=['number']).columns
    anomalies_detected = False
    
    for col in numeric_cols:
        stats = df[col].describe()
        
        # Pr√ºfe auf m√∂gliche Anomalien
        anomalies = []
        
        # 1. Negative Werte bei positiven Metriken
        if stats['min'] < 0 and col not in ['cancellation', 'return_flight_booked']:  # Boolean flags k√∂nnen 0/1 sein
            anomalies.append(f"Negative Werte vorhanden (min: {stats['min']})")
        
        # 2. Extrem hohe Werte (Ausrei√üer)
        iqr = stats['75%'] - stats['25%']
        upper_bound = stats['75%'] + 1.5 * iqr
        if stats['max'] > upper_bound * 3:  # Sehr extreme Ausrei√üer
            anomalies.append(f"Extreme Ausrei√üer (max: {stats['max']:.2f} vs. erwartet ~{upper_bound:.2f})")
        
        # 3. Sehr hohe Standardabweichung
        if stats['std'] > stats['mean'] * 2:
            anomalies.append(f"Sehr hohe Streuung (Std: {stats['std']:.2f} vs. Mean: {stats['mean']:.2f})")
        
        # Zeige gefundene Anomalien an
        if anomalies:
            anomalies_detected = True
            print(f"\n   üìç {col}:")
            for anomaly in anomalies:
                print(f"      ‚ö†Ô∏è  {anomaly}")
    
    if not anomalies_detected:
        print("   ‚úÖ Keine kritischen Anomalien erkannt")

# ============================================================
# üìä DATENQUALIT√ÑTS-BEWERTUNG AUS DEN SUMMARY STATS:
# ============================================================

def assess_data_quality_from_summary(df):
    """
    Bewertet die Datenqualit√§t basierend auf den Summary Statistics
    """
    print("\nüìà DATENQUALIT√ÑTS-BEWERTUNG:")
    print("=" * 35)
    
    numeric_cols = df.select_dtypes(include=['number']).columns
    quality_metrics = {
        'high_quality': 0,
        'medium_quality': 0, 
        'low_quality': 0
    }
    
    print("üîç BEWERTUNG NACH SPALTE:")
    for col in numeric_cols[:8]:  # Beurteile erste 8 Spalten
        stats = df[col].describe()
        missing_rate = 1 - (stats['count'] / len(df))
        
        # Qualit√§ts-Score berechnen
        quality_score = 0
        
        # Kriterium 1: Vollst√§ndigkeit
        if missing_rate < 0.05:
            quality_score += 2
        elif missing_rate < 0.20:
            quality_score += 1
        
        # Kriterium 2: Plausible Wertebereiche
        if stats['min'] >= 0 and stats['max'] < stats['mean'] * 10:
            quality_score += 1
        
        # Qualit√§t einstufen
        if quality_score >= 2:
            quality = "‚úÖ HOCH"
            quality_metrics['high_quality'] += 1
        elif quality_score == 1:
            quality = "‚ö†Ô∏è  MITTEL" 
            quality_metrics['medium_quality'] += 1
        else:
            quality = "‚ùå NIEDRIG"
            quality_metrics['low_quality'] += 1
        
        print(f"   ‚Ä¢ {col:20} {quality} (Missing: {missing_rate:.1%})")
    
    # Gesamtbewertung
    total_assessed = sum(quality_metrics.values())
    print(f"\nüìä GESAMTBEWERTUNG:")
    print(f"   ‚Ä¢ Hochqualitativ: {quality_metrics['high_quality']}/{total_assessed} Spalten")
    print(f"   ‚Ä¢ Mittlere Qualit√§t: {quality_metrics['medium_quality']}/{total_assessed} Spalten")
    print(f"   ‚Ä¢ Niedrige Qualit√§t: {quality_metrics['low_quality']}/{total_assessed} Spalten")

# ============================================================
# üéØ AUSF√úHRUNG DER KOMPLETTEN ANALYSE:
# ============================================================

print("üîç STARTE SUMMARY STATISTICS ANALYSE F√úR BASE_SESSIONS")
print("=" * 55)
print(f"üìä Analysiere: {base_sessions.shape[0]:,} Zeilen √ó {base_sessions.shape[1]} Spalten")
print(f"üéØ Fokussiere auf: {len(base_sessions.select_dtypes(include=['number']).columns)} numerische Spalten")

# 1. Hauptanalyse durchf√ºhren
print("\n" + "="*60)
print("üìà DESKRIPTIVE STATISTIKEN - NUMERISCHE VARIABLEN")
print("="*60)
show_summary_stats(base_sessions)

# 2. Interpretation anzeigen
interpret_base_sessions_summary()

# 3. Rewards-spezifische Analyse
analyze_rewards_relevant_metrics(base_sessions)

# 4. Anomalie-Erkennung
detect_data_anomalies(base_sessions)

# 5. Datenqualit√§ts-Bewertung
assess_data_quality_from_summary(base_sessions)

# ============================================================
# üí° ZUSAMMENFASSENDE EMPFEHLUNGEN:
# ============================================================

print("\n" + "="*60)
print("üéØ ZUSAMMENFASSENDE EMPFEHLUNGEN")
print("="*60)

def generate_recommendations(df):
    """
    Generiert Empfehlungen basierend auf den Summary Statistics
    """
    recommendations = []
    
    # Pr√ºfe spezifische Muster und gebe Empfehlungen
    
    if 'page_clicks' in df.columns:
        clicks_mean = df['page_clicks'].mean()
        if clicks_mean < 10:
            recommendations.append("üìä Niedriges Engagement ‚Üí Aktiviere Nutzer mit 'Exklusive Angebote' Perk")
        elif clicks_mean > 30:
            recommendations.append("üìä Hohes Engagement ‚Üí Belohne treue Nutzer mit 'VIP Status' Perk")
    
    if 'base_fare_usd' in df.columns:
        fare_std = df['base_fare_usd'].std()
        if fare_std > 500:
            recommendations.append("üí∞ Gro√üe Preisunterschiede ‚Üí Differenziere Rabatte nach Preisklassen")
    
    if 'checked_bags' in df.columns:
        bags_mean = df['checked_bags'].mean()
        if bags_mean > 1:
            recommendations.append("üß≥ Viel Gep√§ck ‚Üí 'Kostenloser Koffer' Perk hat hohes Potenzial")
    
    if 'nights' in df.columns:
        nights_mean = df['nights'].mean()
        if nights_mean > 5:
            recommendations.append("üè® Lange Aufenthalte ‚Üí 'Gratis Hotel-Nacht' besonders attraktiv")
    
    print("üí° EMPFOHLENE MASSNAHMEN:")
    if recommendations:
        for i, rec in enumerate(recommendations, 1):
            print(f"   {i}. {rec}")
    else:
        print("   ‚úÖ Aktuelle Perk-Strategie scheint angemessen")

# Empfehlungen generieren
generate_recommendations(base_sessions)

print(f"\n‚úÖ Summary Statistics Analyse f√ºr base_sessions abgeschlossen!")

 Summary Statistics:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user_id,49211.0,545282.69,64640.05,23557.0,517119.0,540308.0,573922.0,844489.0
page_clicks,49211.0,17.59,21.5,1.0,6.0,13.0,22.0,566.0
flight_discount_amount,8282.0,0.14,0.08,0.05,0.1,0.1,0.2,0.6
hotel_discount_amount,6205.0,0.11,0.06,0.05,0.05,0.1,0.15,0.45
home_airport_lat,49211.0,38.43,6.19,21.32,33.82,39.1,42.24,61.25
home_airport_lon,49211.0,-94.18,18.07,-157.93,-112.38,-90.04,-79.37,-63.5
seats,14270.0,1.22,0.59,1.0,1.0,1.0,1.0,8.0
checked_bags,14270.0,0.59,0.68,0.0,0.0,1.0,1.0,8.0
destination_airport_lat,14270.0,38.61,6.95,-37.01,33.94,39.87,42.41,55.97
destination_airport_lon,14270.0,-88.95,33.09,-157.93,-112.38,-87.75,-75.24,174.79


üîç STARTE SUMMARY STATISTICS ANALYSE F√úR BASE_SESSIONS
üìä Analysiere: 49,211 Zeilen √ó 41 Spalten
üéØ Fokussiere auf: 14 numerische Spalten

üìà DESKRIPTIVE STATISTIKEN - NUMERISCHE VARIABLEN
 Summary Statistics:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user_id,49211.0,545282.69,64640.05,23557.0,517119.0,540308.0,573922.0,844489.0
page_clicks,49211.0,17.59,21.5,1.0,6.0,13.0,22.0,566.0
flight_discount_amount,8282.0,0.14,0.08,0.05,0.1,0.1,0.2,0.6
hotel_discount_amount,6205.0,0.11,0.06,0.05,0.05,0.1,0.15,0.45
home_airport_lat,49211.0,38.43,6.19,21.32,33.82,39.1,42.24,61.25
home_airport_lon,49211.0,-94.18,18.07,-157.93,-112.38,-90.04,-79.37,-63.5
seats,14270.0,1.22,0.59,1.0,1.0,1.0,1.0,8.0
checked_bags,14270.0,0.59,0.68,0.0,0.0,1.0,1.0,8.0
destination_airport_lat,14270.0,38.61,6.95,-37.01,33.94,39.87,42.41,55.97
destination_airport_lon,14270.0,-88.95,33.09,-157.93,-112.38,-87.75,-75.24,174.79



üîç INTERPRETATIONSHILFE F√úR BASE_SESSIONS:
üéØ ERWARTETE WERTEBEREICHE:
   üî∏ Erwartung: Mean ~15-25, hohe Std ‚Üí unterschiedliches Engagement
   üî∏ Erwartung: Mean ~20-40 Min, hohe Std ‚Üí verschiedene Session-L√§ngen
   üî∏ Erwartung: Mean ~300-600, hohe Std ‚Üí verschiedene Preisklassen
   üî∏ Erwartung: Mean ~100-250, mittlere Std ‚Üí verschiedene Hotelkategorien
   üî∏ Erwartung: Mean ~0.5-1.5, niedrige Std ‚Üí meist 0-2 Gep√§ckst√ºcke
   üî∏ Erwartung: Mean ~3-7, mittlere Std ‚Üí verschiedene Aufenthaltsdauern
   üî∏ Erwartung: Mean ~35-50, normale Verteilung ‚Üí gemischte Altersgruppen

üìä WICHTIGE SIGNALE F√úR DIE INTERPRETATION:
   ‚Ä¢ Mean ‚âà Median ‚Üí Symmetrische Verteilung (normal)
   ‚Ä¢ Mean > Median ‚Üí Rechtsschiefe Verteilung (Ausrei√üer nach oben)
   ‚Ä¢ Mean < Median ‚Üí Linksschiefe Verteilung (Ausrei√üer nach unten)
   ‚Ä¢ Hohe Std ‚Üí Gro√üe Heterogenit√§t in der Nutzerbasis
   ‚Ä¢ Niedrige Std ‚Üí Homogene Nutzergruppe

üéÅ REWARDS-PROGRAMM R

In [74]:
show_summary_stats(base_sessions)

 Summary Statistics:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user_id,49211.0,545282.69,64640.05,23557.0,517119.0,540308.0,573922.0,844489.0
page_clicks,49211.0,17.59,21.5,1.0,6.0,13.0,22.0,566.0
flight_discount_amount,8282.0,0.14,0.08,0.05,0.1,0.1,0.2,0.6
hotel_discount_amount,6205.0,0.11,0.06,0.05,0.05,0.1,0.15,0.45
home_airport_lat,49211.0,38.43,6.19,21.32,33.82,39.1,42.24,61.25
home_airport_lon,49211.0,-94.18,18.07,-157.93,-112.38,-90.04,-79.37,-63.5
seats,14270.0,1.22,0.59,1.0,1.0,1.0,1.0,8.0
checked_bags,14270.0,0.59,0.68,0.0,0.0,1.0,1.0,8.0
destination_airport_lat,14270.0,38.61,6.95,-37.01,33.94,39.87,42.41,55.97
destination_airport_lon,14270.0,-88.95,33.09,-157.93,-112.38,-87.75,-75.24,174.79
