# Datenexploration: Tagesschau-Datensatz

In diesem Notebook erkunden wir die Struktur des awesome-tagesschau Datensatzes.


In [None]:
import pandas as pd
import numpy as np
from datasets import load_dataset
import matplotlib.pyplot as plt
import seaborn as sns

# Setze Style
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)


## 1. Datensatz laden


In [None]:
# Lade den Datensatz
dataset = load_dataset("stefan-it/awesome-tagesschau", year=2023)

print("Dataset-Struktur:")
print(f"Splits: {dataset.keys()}")


## 2. Struktur erkunden


In [None]:
# Zeige Features für jeden Split
for split_name in dataset.keys():
    split = dataset[split_name]
    print(f"\n=== {split_name} ===")
    print(f"Anzahl Einträge: {len(split)}")
    print(f"Features: {split.features}")


In [None]:
# Konvertiere zu DataFrame
df = dataset['train'].to_pandas()

print(f"DataFrame Shape: {df.shape}")
print(f"\nSpalten: {df.columns.tolist()}")
print(f"\nDatentypen:")
print(df.dtypes)


## 3. Erste Zeilen anzeigen


In [None]:
# Zeige erste Zeilen
df.head()


## 4. Statistische Übersicht


In [None]:
# Basis-Statistiken
print("Basis-Statistiken:")
print(df.describe(include='all'))


## 5. Text-Vorbereitung

Identifiziere die Text-Spalte und bereite sie für die weitere Verarbeitung vor.


In [None]:
# Finde Text-Spalte
text_columns = [col for col in df.columns if df[col].dtype == 'object']
print(f"Mögliche Text-Spalten: {text_columns}")

# Analysiere Text-Längen
for col in text_columns:
    if df[col].notna().sum() > 0:
        lengths = df[col].dropna().str.len()
        print(f"\n{col}:")
        print(f"  Nicht-Null Werte: {df[col].notna().sum()}")
        print(f"  Durchschnittliche Länge: {lengths.mean():.0f} Zeichen")
        print(f"  Median Länge: {lengths.median():.0f} Zeichen")
        print(f"  Min Länge: {lengths.min()} Zeichen")
        print(f"  Max Länge: {lengths.max()} Zeichen")


## 6. Visualisierungen


In [None]:
# Visualisiere Text-Längen-Verteilung
if len(text_columns) > 0:
    main_text_col = text_columns[0]
    lengths = df[main_text_col].dropna().str.len()
    
    plt.figure(figsize=(12, 5))
    
    plt.subplot(1, 2, 1)
    plt.hist(lengths, bins=50, edgecolor='black')
    plt.xlabel('Text-Länge (Zeichen)')
    plt.ylabel('Anzahl Artikel')
    plt.title('Verteilung der Text-Längen')
    plt.axvline(lengths.mean(), color='r', linestyle='--', label=f'Mean: {lengths.mean():.0f}')
    plt.legend()
    
    plt.subplot(1, 2, 2)
    plt.boxplot(lengths)
    plt.ylabel('Text-Länge (Zeichen)')
    plt.title('Boxplot der Text-Längen')
    
    plt.tight_layout()
    plt.show()


In [None]:
# Speichere als CSV
import os
from pathlib import Path

data_dir = Path('../data')
data_dir.mkdir(exist_ok=True)

csv_path = data_dir / 'tagesschau_2023_prepared.csv'
df.to_csv(csv_path, index=False)
print(f"Daten gespeichert: {csv_path}")
