# ===========================================
# 1_data_exploration.ipynb
# ===========================================

# Zelle 1: Bibliotheken importieren
import pandas as pd
import matplotlib.pyplot as plt
import os

# Wir definieren einen Pfad zum "raw"-Ordner,
# wo unsere Originaldaten liegen.
RAW_DATA_DIR = "../data/raw"

# ===========================================
# Zelle 2: Beispieldatei einlesen
# ===========================================

# Nehmen wir an, wir haben eine CSV-Datei mit Textdaten.
# (Anpassung an deinen Dateinamen notwendig)
csv_file_path = os.path.join(RAW_DATA_DIR, "sample_texts.csv")

# Einlesen der CSV
df = pd.read_csv(csv_file_path)

# Ausgabe der ersten Zeilen, um einen Eindruck zu bekommen
print("Erste Zeilen der Daten:")
display(df.head())

# ===========================================
# Zelle 3: Basis-Statistiken
# ===========================================

# Zeige die Dimensionen des DataFrames
print("Form des DataFrames:", df.shape)

# Zeige Spalteninformationen
print("\nSpalten und Datentypen:")
display(df.info())

# Anzahl fehlender Werte pro Spalte
print("\nAnzahl fehlender Werte pro Spalte:")
display(df.isnull().sum())

# ===========================================
# Zelle 4: Beispielhafte Textanalyse
# ===========================================

# Nehmen wir an, die relevante Textspalte heißt "text"
text_column = "text"

# Zähle die Zeichen- oder Wortlängen zur Exploration
df["text_length"] = df[text_column].apply(lambda x: len(str(x).split()))

print("\nStatistiken zur Textlänge (Wortanzahl):")
display(df["text_length"].describe())

# ===========================================
# Zelle 5: Verteilung der Textlängen plotten
# ===========================================

# Wir plotten ein einfaches Histogramm mit matplotlib (keine Subplots, kein seaborn):
plt.figure(figsize=(8, 5))
plt.hist(df["text_length"], bins=50)  # 50 Bins für etwas feinere Auflösung
plt.xlabel("Wortanzahl pro Eintrag")
plt.ylabel("Anzahl Datensätze")
plt.title("Verteilung der Textlängen (in Wörtern)")
plt.show()

# ===========================================
# Zelle 6: Beispielzeilen mit extremen Werten
# ===========================================

# Längste Texte
long_texts = df.nlargest(5, "text_length")
print("Beispiele für sehr lange Texte:")
display(long_texts[[text_column, "text_length"]])

# Kürzeste Texte
short_texts = df.nsmallest(5, "text_length")
print("Beispiele für sehr kurze Texte:")
display(short_texts[[text_column, "text_length"]])

# ===========================================
# Zelle 7: Fazit & Ausblick
# ===========================================

# Hier kannst du deine Beobachtungen notieren:
# - Welche Auffälligkeiten gibt es? (z.B. extrem lange/kurze Texte)
# - Wie ist die durchschnittliche Wortlänge?
# - Gibt es viele fehlende Werte?
# - Gibt es Sonderzeichen oder Encoding-Probleme?

print("Kurzes Fazit:")
print("- Die meisten Texte liegen im Bereich ~", df['text_length'].median(), "Wörtern.")
print("- Wir haben ggf. einige sehr kurze Texte, die man filtern könnte.")
print("- Encoding-Probleme: Noch nicht festgestellt, aber ggf. kontrollieren.")
