# ======================================================
# 1_data_exploration.ipynb
# ======================================================

# Zelle 1: Bibliotheken und Setup
import pandas as pd
import matplotlib.pyplot as plt
import os

# Für inline-Plots im Jupyter Notebook
# %matplotlib inline

# Beispiel: Pfad zu deinen Rohdaten (CSV)
RAW_DATA_DIR = "../data/raw"
sample_file = os.path.join(RAW_DATA_DIR, "chatlogs_raw.csv")  # z. B.: user_message, bot_response

# ===========================================
# Zelle 2: Daten einlesen
# ===========================================
df = pd.read_csv(sample_file)

print("Anzahl Datensätze:", len(df))
display(df.head())

# Angenommen, unsere CSV hat Spalten wie:
#   conversation_id, user_message, bot_response, timestamp
# Passe das ggf. an die reale Struktur an.

# ===========================================
# Zelle 3: Basis-Statistiken
# ===========================================
print("\nSpalten/Datentypen:")
display(df.info())

print("\nAnzahl fehlender Werte:")
display(df.isnull().sum())

# Beispiel: Wie lang sind die User-Nachrichten?
df["len_user_msg"] = df["user_message"].astype(str).apply(len)
df["len_bot_resp"] = df["bot_response"].astype(str).apply(len)

print("\nStatistiken zur Länge der User-Nachrichten:")
display(df["len_user_msg"].describe())

print("\nStatistiken zur Länge der Bot-Antworten:")
display(df["len_bot_resp"].describe())

# ===========================================
# Zelle 4: Visualisierung
# ===========================================
# Einfaches Histogramm für die Länge der User-Nachrichten
plt.figure(figsize=(8,4))
plt.hist(df["len_user_msg"], bins=50)
plt.xlabel("Zeichenlänge der User-Message")
plt.ylabel("Anzahl")
plt.title("Verteilung der User-Messages-Länge")
plt.show()

# Und analog für die Bot-Antworten
plt.figure(figsize=(8,4))
plt.hist(df["len_bot_resp"], bins=50, color="orange")
plt.xlabel("Zeichenlänge der Bot-Response")
plt.ylabel("Anzahl")
plt.title("Verteilung der Bot-Responses-Länge")
plt.show()

# ===========================================
# Zelle 5: Beispielhafte Konversationen
# ===========================================
# Schau dir mal ein paar Zeilen an, um Gefühl für den Chatverlauf zu bekommen.
print("\nBeispielhafte Chat-Logs:")
sample_chats = df.sample(3, random_state=42)
for idx, row in sample_chats.iterrows():
    print(f"\nConversation ID: {row.get('conversation_id', '(unbekannt)')}")
    print(f"User: {row['user_message']}")
    print(f"Bot:  {row['bot_response']}")

# ===========================================
# Zelle 6: Dialogverläufe gruppieren (optional)
# ===========================================
# Falls du mehrzeilige Konversationen hast, kannst du conversation_id nutzen,
# um den Verlauf anzuzeigen. Beispiel:
if "conversation_id" in df.columns:
    grouped = df.groupby("conversation_id")
    example_conv_id = df["conversation_id"].dropna().unique()[0]  # nimm eine ID
    conv_data = grouped.get_group(example_conv_id)
    print("\nBeispielhafter Dialog mit conversation_id:", example_conv_id)
    for i, row in conv_data.iterrows():
        print(f"User: {row['user_message']}")
        print(f"Bot:  {row['bot_response']}\n")
else:
    print("\nHinweis: Keine 'conversation_id' Spalte gefunden - Überspringe Dialog-Gruppierung.")

# ===========================================
# Zelle 7: Fazit & Nächste Schritte
# ===========================================
# Nachdem du nun:
#  - Die Daten grob inspiziert
#  - Fehlende Werte & Längenverteilung geprüft
#  - Einige Beispiele angeschaut
#
# ... kannst du Entscheidungen treffen wie:
#  - Entferne sehr kurze Zeilen?
#  - Sind manche Chatlogs unvollständig oder doppelt?
#  - Wie lang sind User/Eingaben maximal - relevant für dein Modell?
#
# Im nächsten Notebook (2_data_preprocessing.ipynb) 
# kannst du mit der konkreten Vorverarbeitung (Säuberung, Tokenisierung, Splitting) beginnen.

print("\nFazit: Datenexploration abgeschlossen. Siehe nächste Schritte in 2_data_preprocessing.ipynb.")
