# Data Preprocessing for Bengali Empathetic LLM

This notebook preprocesses the raw Bengali conversation data for fine-tuning an empathetic language model.

## Cell 1 – Load and Inspect Raw JSON

In [9]:
import json
import pandas as pd
from sklearn.model_selection import train_test_split
from pathlib import Path

raw_path = Path("../data/raw/bengali_conversations.json")
with raw_path.open("r", encoding="utf-8") as f:
    conversations = json.load(f)

print("Total examples:", len(conversations))
conversations[:3]

Total examples: 15


[{'user': 'আমি খুবই দুঃখী বোধ করছি, কিছুই ভালো লাগছে না।',
  'assistant': 'আমি বুঝতে পারছি আপনি খুব কঠিন সময়ের মধ্য দিয়ে যাচ্ছেন। এভাবে অনুভব করা স্বাভাবিক, কিন্তু আপনি একা নন। যদি পারেন, কারও বিশ্বস্ত মানুষের সাথে আপনার অনুভূতিগুলো ভাগ করুন।'},
 {'user': 'আমার পড়াশোনা ভালো যাচ্ছে না, আমি নিজেকে ব্যর্থ মনে করছি।',
  'assistant': 'নিজেকে ব্যর্থ মনে হওয়া খুব কষ্টের অনুভূতি। কিন্তু একটি খারাপ সময় আপনার সব দক্ষতা বা ভবিষ্যৎ নষ্ট করে না। ধীরে ধীরে ছোট লক্ষ্য নিয়ে এগোতে চেষ্টা করুন, প্রয়োজনে সাহায্য নিন।'},
 {'user': 'আমার পরিবার আমাকে বুঝে না বলে মনে হয়।',
  'assistant': 'পরিবারের দ্বারা না বোঝা হওয়া সত্যিই কষ্টদায়ক। আপনার অনুভূতিগুলো শান্তভাবে তুলে ধরার চেষ্টা করুন এবং তাদের দৃষ্টিভঙ্গিও বোঝার চেষ্টা করুন। যাই হোক, আপনার অনুভূতি গুরুত্বপূর্ণ এবং মূল্যবান।'}]

## Cell 2 – Convert to Instruction Format

In [10]:
formatted = []
for conv in conversations:
    user = conv["user"]
    assistant = conv["assistant"]
    text = f"""Below is a conversation between a user and an empathetic assistant.

### User:
{user}

### Assistant:
{assistant}
"""
    formatted.append({"text": text})

df = pd.DataFrame(formatted)
print(df.head())
print("Total formatted examples:", len(df))

                                                text
0  Below is a conversation between a user and an ...
1  Below is a conversation between a user and an ...
2  Below is a conversation between a user and an ...
3  Below is a conversation between a user and an ...
4  Below is a conversation between a user and an ...
Total formatted examples: 15


## Cell 3 – Split into Train / Val / Test

In [11]:
train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42)
val_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42)

print("Train size:", len(train_df))
print("Val size:", len(val_df))
print("Test size:", len(test_df))

Train size: 10
Val size: 2
Test size: 3


## Cell 4 – Save Splits

In [12]:
out_dir = Path("../data/processed")
out_dir.mkdir(parents=True, exist_ok=True)

train_df.to_json(out_dir / "train.json", orient="records", force_ascii=False, indent=2)
val_df.to_json(out_dir / "val.json", orient="records", force_ascii=False, indent=2)
test_df.to_json(out_dir / "test.json", orient="records", force_ascii=False, indent=2)

print("Saved:", list(out_dir.iterdir()))

Saved: [WindowsPath('../data/processed/test.json'), WindowsPath('../data/processed/train.json'), WindowsPath('../data/processed/val.json')]
