# 04_merge_splits.ipynb – Zusammenführen der Splits zu einem Gesamtdatensatz

**Ziel:** Die gesplitteten Datensätze (train, valid, test) aus allen Kategorien werden jeweils zusammengeführt, mit einer `category`-Spalte versehen und als `all_train.jsonl`, `all_valid.jsonl` und `all_test.jsonl` gespeichert.

---


## 1. Laden und Zusammenführen der Splits
Wir laden die Splits aus allen Kategorien, fügen sie zusammen und ergänzen die Kategorie-Spalte.


In [4]:
from pathlib import Path
import json

SPLIT_DIR = Path('../data/processed')
CATEGORIES = ['Automotive', 'Video_Games', 'Books']
splits = ['train', 'valid', 'test']

for split in splits:
    out_path = SPLIT_DIR / f'all_{split}.jsonl'
    # Zieldatei leeren bzw. neu anlegen
    open(out_path, 'w').close()
    for cat in CATEGORIES:
        in_path = SPLIT_DIR / f'{cat}_{split}.jsonl'
        with open(in_path, 'r', encoding='utf-8') as fin, open(out_path, 'a', encoding='utf-8') as fout:
            for line in fin:
                if line.strip():                      # leere Zeilen überspringen
                    data = json.loads(line)
                    data['category'] = cat           # Kategorie ergänzen
                    fout.write(json.dumps(data, ensure_ascii=False) + '\n')
    print(f'{split}: zusammengeführt und gespeichert unter {out_path}')




train: zusammengeführt und gespeichert unter ..\data\processed\all_train.jsonl
valid: zusammengeführt und gespeichert unter ..\data\processed\all_valid.jsonl
test: zusammengeführt und gespeichert unter ..\data\processed\all_test.jsonl


---
**Ergebnis:** Im Ordner `data/processed/` liegen jetzt nur noch drei Gesamtdatensätze: `all_train.jsonl`, `all_valid.jsonl` und `all_test.jsonl`. Diese Dateien enthalten eine zusätzliche Spalte `category`, damit dein Modell weiß, aus welcher Produktgruppe jede Rezension stammt.
