# 1000_samples_for_fine_tuning

In [1]:
import random
import json
import pandas as pd

# داده‌های پایه برای تولید نسخه‌های درست
patients = ["علی رضایی", "سمیه مرادی", "حسین احمدی", "مهدیه توکلی", "یاسر اکبری",
            "زهرا کریمی", "محمدرضا تهرانی", "نگار سلطانی", "پریسا حیدری", "رضا علوی"]

diagnoses = ["عفونت تنفسی", "دندان درد", "سرفه خشک", "التهاب مفاصل", "تب و سردرد",
             "عفونت قارچی", "عفونت ادراری", "قرمزی چشم", "حساسیت پوستی", "گلودرد"]

drugs = [
    {"name": "آموکسی‌سیلین", "dose": "500mg", "form": "قرص", "frequency": "هر 8 ساعت"},
    {"name": "دیکلوفناک", "dose": "50mg", "form": "کپسول", "frequency": "هر 12 ساعت"},
    {"name": "دیفن‌هیدرامین", "dose": "5mg", "form": "شربت", "frequency": "هر 6 ساعت"},
    {"name": "دگزامتازون", "dose": "8mg", "form": "آمپول", "frequency": "روزی یک بار"},
    {"name": "پاراستامول", "dose": "500mg", "form": "قرص", "frequency": "هنگام درد"},
    {"name": "کلوتریمازول", "dose": "", "form": "پماد", "frequency": "روزی دو بار"},
    {"name": "لووفلوکساسین", "dose": "250mg", "form": "قرص", "frequency": "روزی یک عدد"},
    {"name": "نفازولین", "dose": "", "form": "قطره", "frequency": "هر 8 ساعت"},
    {"name": "بتامتازون", "dose": "", "form": "کرم", "frequency": "روزی دو بار"},
    {"name": "سفیکسیم", "dose": "200mg", "form": "کپسول", "frequency": "هر 12 ساعت"}
]

usages = ["به مدت ۵ روز مصرف شود.", "بعد از غذا مصرف شود.", "قبل از خواب مصرف شود.",
          "روی ناحیه آسیب‌دیده استفاده شود.", "با آب فراوان مصرف شود.",
          "از نور خورشید دور نگه داشته شود.", "در یخچال نگهداری شود."]

def introduce_typos(text):
    replacements = {
        "آموکسی‌سیلین": ["آموکسیسلین", "آموکسلین"],
        "دیفن‌هیدرامین": ["دیفن هیدرامین", "دیفن هیدرامن"],
        "دگزامتازون": ["دگزامتاژون", "دگزامتازن"],
        "پاراستامول": ["پاراستامولل", "پراستامول"],
        "کلوتریمازول": ["کلتریمازول", "کلوتریمازور"],
        "لووفلوکساسین": ["لووفلوکسسین", "لووفلکساسین"],
        "نفازولین": ["نفظولین", "نفازالین"],
        "بتامتازون": ["بتامتاظون", "بتمتازون"],
        "سفیکسیم": ["سفیگسیم", "سفکسیسم"],
        "هر": ["هز", "هرر"],
        "عدد": ["عد", "عدذ"],
        "قاشق": ["قشق", "قاصق"],
        "مرباخوری": ["مربا خوری", "مربخوری"],
        "مصرف شود": ["مصرفه", "مصرف گردد"],
        "تزریق": ["تزیق", "تضریق"],
        "نگهداری": ["نگه داری", "نگهداذی"],
        "خشک": ["خضک", "خچک"],
        "چشم": ["چصم", "چشمم"],
        "خورشید": ["خرشید", "خورشیدد"],
        "قبل": ["قثبل", "قبلل"],
        "بعد": ["بغد", "بغعد"],
        "بیمار": ["بمار", "بیماز"],
    }

    for key, typos in replacements.items():
        if key in text and random.random() < 0.7:
            text = text.replace(key, random.choice(typos))
    text = text.replace("500mg", random.choice(["5000", "50mg", "500"]))
    text = text.replace("250mg", random.choice(["25000", "25mg"]))
    text = text.replace("200mg", random.choice(["20000", "20mg"]))
    text = text.replace("12 ساعت", random.choice(["112 ساعت", "21 ساعت"]))
    return text

# ساخت دیتاست
dataset = []
csv_rows = []

for _ in range(1000):
    patient = random.choice(patients)
    diagnosis = random.choice(diagnoses)
    drug = random.choice(drugs)
    usage = random.choice(usages)

    correct = f"""بیمار: {patient}
تشخیص: {diagnosis}
نسخه: {drug['form']} {drug['name']} {drug['dose']} {drug['frequency']}
توصیه: {usage}"""

    corrupted = introduce_typos(correct)

    user_msg = f"نسخه زیر دارای غلط‌های مختلف است. لطفاً آن را اصلاح کن:\n{corrupted}"

    dataset.append({
        "messages": [
            {"role": "user", "content": user_msg},
            {"role": "assistant", "content": correct}
        ]
    })

    csv_rows.append({
        "input_text": user_msg,
        "output_text": correct
    })

# ذخیره در JSONL
jsonl_path = "diverse_medical_typos_dataset.jsonl"
with open(jsonl_path, "w", encoding="utf-8") as f:
    for entry in dataset:
        f.write(json.dumps(entry, ensure_ascii=False) + "\n")

# ذخیره در CSV
df = pd.DataFrame(csv_rows)
csv_path = "diverse_medical_typos_dataset.csv"
df.to_csv(csv_path, index=False, encoding="utf-8")

# 1000_samples_for_fine_tuning_better_than_the_previous_one

In [None]:
# Re-run after kernel reset
import random
import json
import pandas as pd

# داده‌های پایه
patients = ["علی رضایی", "سمیه مرادی", "حسین احمدی", "مهدیه توکلی", "یاسر اکبری",
            "زهرا کریمی", "محمدرضا تهرانی", "نگار سلطانی", "پریسا حیدری", "رضا علوی"]

diagnoses = ["عفونت تنفسی", "دندان درد", "سرفه خشک", "التهاب مفاصل", "تب و سردرد",
             "عفونت قارچی", "عفونت ادراری", "قرمزی چشم", "حساسیت پوستی", "گلودرد"]

drugs = [
    {"name": "آموکسی‌سیلین", "dose": "500mg", "form": "قرص", "frequency": "هر 8 ساعت"},
    {"name": "دیکلوفناک", "dose": "50mg", "form": "کپسول", "frequency": "هر 12 ساعت"},
    {"name": "دیفن‌هیدرامین", "dose": "5mg", "form": "شربت", "frequency": "هر 6 ساعت"},
    {"name": "دگزامتازون", "dose": "8mg", "form": "آمپول", "frequency": "روزی یک بار"},
    {"name": "پاراستامول", "dose": "500mg", "form": "قرص", "frequency": "هنگام درد"},
    {"name": "کلوتریمازول", "dose": "", "form": "پماد", "frequency": "روزی دو بار"},
    {"name": "لووفلوکساسین", "dose": "250mg", "form": "قرص", "frequency": "روزی یک عدد"},
    {"name": "نفازولین", "dose": "", "form": "قطره", "frequency": "هر 8 ساعت"},
    {"name": "بتامتازون", "dose": "", "form": "کرم", "frequency": "روزی دو بار"},
    {"name": "سفیکسیم", "dose": "200mg", "form": "کپسول", "frequency": "هر 12 ساعت"}
]

usages = ["به مدت ۵ روز مصرف شود.", "بعد از غذا مصرف شود.", "قبل از خواب مصرف شود.",
          "روی ناحیه آسیب‌دیده استفاده شود.", "با آب فراوان مصرف شود.",
          "از نور خورشید دور نگه داشته شود.", "در یخچال نگهداری شود."]

def introduce_typos(text):
    replacements = {
        "آموکسی‌سیلین": ["آموکسیسلین", "آموکسلین"],
        "دیفن‌هیدرامین": ["دیفن هیدرامین", "دیفن هیدرامن"],
        "دگزامتازون": ["دگزامتاژون", "دگزامتازن"],
        "پاراستامول": ["پاراستامولل", "پراستامول"],
        "کلوتریمازول": ["کلتریمازول", "کلوتریمازور"],
        "لووفلوکساسین": ["لووفلوکسسین", "لووفلکساسین"],
        "نفازولین": ["نفظولین", "نفازالین"],
        "بتامتازون": ["بتامتاظون", "بتمتازون"],
        "سفیکسیم": ["سفیگسیم", "سفکسیسم"],
        "هر": ["هز", "هرر"],
        "عدد": ["عد", "عدذ"],
        "مصرف شود": ["مصرفه", "مصرف گردد"],
        "نگهداری": ["نگه داری", "نگهداذی"],
        "خشک": ["خضک", "خچک"],
        "چشم": ["چصم", "چشمم"],
        "خورشید": ["خرشید", "خورشیدد"],
        "قبل": ["قثبل", "قبلل"],
        "بعد": ["بغد", "بغعد"],
        "بیمار": ["بمار", "بیماز"],
    }

    for key, typos in replacements.items():
        if key in text and random.random() < 0.7:
            text = text.replace(key, random.choice(typos))
    text = text.replace("500mg", random.choice(["5000", "50mg", "500"]))
    text = text.replace("250mg", random.choice(["25000", "25mg"]))
    text = text.replace("200mg", random.choice(["20000", "20mg"]))
    text = text.replace("12 ساعت", random.choice(["112 ساعت", "21 ساعت"]))
    return text

dataset = []
csv_rows = []

for _ in range(500):
    patient = random.choice(patients)
    diagnosis = random.choice(diagnoses)
    num_drugs = random.randint(1, 2)
    selected_drugs = random.sample(drugs, num_drugs)
    usage_instructions = [random.choice(usages) for _ in range(num_drugs)]

    output = f"نام بیمار: {patient}\nتشخیص بیماری: {diagnosis}\n–––––––"
    for i, drug in enumerate(selected_drugs):
        output += f"\nاسم دارو: {drug['name'] or 'نامشخص'}"
        output += f"\nدوز: {drug['dose'] or 'نامشخص'}"
        output += f"\nنحوه مصرف و توصیه: {drug['frequency']}، {usage_instructions[i]}"
        output += f"\nنوع: {drug['form'] or 'نامشخص'}"
        if i != len(selected_drugs) - 1:
            output += "\n–––––––"

    corrupted = f"بیمار {patient} به دلیل {diagnosis} مراجعه کرده است.\n"
    for i, drug in enumerate(selected_drugs):
        corrupted += f"{drug['form']} {drug['name']} {drug['dose']}، {drug['frequency']}، {usage_instructions[i]}\n"
    corrupted = introduce_typos(corrupted.strip())

    dataset.append({
        "messages": [
            {"role": "user", "content": corrupted},
            {"role": "assistant", "content": output}
        ]
    })

    csv_rows.append({
        "input_text": corrupted,
        "output_text": output
    })

# Save both formats
jsonl_path = "formatted_medical_typos_dataset.jsonl"
csv_path = "formatted_medical_typos_dataset.csv"

with open(jsonl_path, "w", encoding="utf-8") as f:
    for entry in dataset:
        f.write(json.dumps(entry, ensure_ascii=False) + "\n")

pd.DataFrame(csv_rows).to_csv(csv_path, index=False, encoding="utf-8")
