# ۱ – آماده‌سازی داده


In [2]:
import pandas as pd
import re
from pathlib import Path
import os

In [3]:
raw_path = Path('../data/raw/archive_v2.csv')
subset_path = Path('../data/processed/news_subset.csv')

if not raw_path.exists():
    print(f"File not found: {raw_path}. Please upload the dataset.")
    # Dummy data creation for demonstration if file is missing
    print("Creating dummy data for demonstration...")
    os.makedirs(raw_path.parent, exist_ok=True)
    df_dummy = pd.DataFrame({
        'title': [f'خبر آزمایشی {i}' for i in range(100)],
        'text': [f'این متن خبر شماره {i} است که در مورد موضوعات مختلف صحبت می‌کند.' for i in range(100)],
        'category': ['General'] * 100,
        'date': ['1402-01-01'] * 100
    })
    df_dummy.to_csv(raw_path, index=False)

In [4]:
df = pd.read_csv(raw_path)
df.head()

Unnamed: 0,id,title,short_link,service,subgroup,abstract,body,tags,published_datetime,agency_name
0,1,پیروزی قاطع مس سونگون /نارنجی‌پوشان 6 تایی کردند,http://fna.ir/f1v1mt,استانها,آذربایجان شرقی,تیم مس سونگون برابر مهمان خود به برتری پرگل دس...,به گزارش خبرگزاری فارس از تبریز، در هفته چهارم...,"لیگ برتر, مس, تبریز, اصفهان, مس سونگون, ورزقان...",2021-01-01 11:53:52,FarsNews
1,2,پخت و توزیع آش نذری به‌مناسبت سالگرد شهادت سرد...,http://fna.ir/f1v1mk,استانها,مازندران,پخت آش نذری در مرکز مازندران توسط یکی از عشاق ...,خبرگزاری فارس مازندران ـ نذری پزون یکی از سنت...,"مازندران, حاج قاسم, شهید",2021-01-01 11:51:50,FarsNews
2,3,ترامپ از تجمع بزرگ روز چهارشنبه طرفدارانش در و...,http://fna.ir/f1v1mv,بین الملل,آمریکا، اروپا,رئیس جمهور آمریکا در پیامی در توییتر از تجمع ب...,به گزارش گروه بین‌الملل خبرگزاری فارس، «دونالد...,"واشنگتن, توییتر, آمریکا, مایک پنس",2021-01-01 11:51:41,FarsNews
3,4,پیام تسلیت نماینده ولی‌فقیه در قرارگاه ثارالله...,http://fna.ir/f1v1mh,فرهنگ,حج و زیارت و وقف,نماینده ولی فقیه در قرارگاه ثارالله در پی پیام...,به گزارش خبرگزاری فارس، آیت الله محمدتقی مصباح...,"علی شیرازی, نماینده سابق ولی فقیه در نیروی قدس...",2021-01-01 11:50:42,FarsNews
4,5,بایرن با موسیالا قرارداد حرفه ای منعقد می کند,http://fna.ir/f1v1mq,ورزشی,فوتبال جهان,باشگاه فوتبال بایرن مونیخ با پدیده کم سن و سال...,به گزارش خبرگزاری فارس، «جمال موسیالا» در بازی...,"بایرن مونیخ, فوتبال, بایرن, بوندس‌لیگا",2021-01-01 11:50:00,FarsNews


In [7]:
if 'body' in df.columns:
    df = df.rename(columns={'body': 'text'})

df = df.dropna(subset=['text', 'title'])
df = df[df['text'].str.len() > 50]

print(f"Remaining rows: {len(df)}")
df.head()

Remaining rows: 265723


Unnamed: 0,id,title,short_link,service,subgroup,abstract,text,tags,published_datetime,agency_name
0,1,پیروزی قاطع مس سونگون /نارنجی‌پوشان 6 تایی کردند,http://fna.ir/f1v1mt,استانها,آذربایجان شرقی,تیم مس سونگون برابر مهمان خود به برتری پرگل دس...,به گزارش خبرگزاری فارس از تبریز، در هفته چهارم...,"لیگ برتر, مس, تبریز, اصفهان, مس سونگون, ورزقان...",2021-01-01 11:53:52,FarsNews
1,2,پخت و توزیع آش نذری به‌مناسبت سالگرد شهادت سرد...,http://fna.ir/f1v1mk,استانها,مازندران,پخت آش نذری در مرکز مازندران توسط یکی از عشاق ...,خبرگزاری فارس مازندران ـ نذری پزون یکی از سنت...,"مازندران, حاج قاسم, شهید",2021-01-01 11:51:50,FarsNews
2,3,ترامپ از تجمع بزرگ روز چهارشنبه طرفدارانش در و...,http://fna.ir/f1v1mv,بین الملل,آمریکا، اروپا,رئیس جمهور آمریکا در پیامی در توییتر از تجمع ب...,به گزارش گروه بین‌الملل خبرگزاری فارس، «دونالد...,"واشنگتن, توییتر, آمریکا, مایک پنس",2021-01-01 11:51:41,FarsNews
3,4,پیام تسلیت نماینده ولی‌فقیه در قرارگاه ثارالله...,http://fna.ir/f1v1mh,فرهنگ,حج و زیارت و وقف,نماینده ولی فقیه در قرارگاه ثارالله در پی پیام...,به گزارش خبرگزاری فارس، آیت الله محمدتقی مصباح...,"علی شیرازی, نماینده سابق ولی فقیه در نیروی قدس...",2021-01-01 11:50:42,FarsNews
4,5,بایرن با موسیالا قرارداد حرفه ای منعقد می کند,http://fna.ir/f1v1mq,ورزشی,فوتبال جهان,باشگاه فوتبال بایرن مونیخ با پدیده کم سن و سال...,به گزارش خبرگزاری فارس، «جمال موسیالا» در بازی...,"بایرن مونیخ, فوتبال, بایرن, بوندس‌لیگا",2021-01-01 11:50:00,FarsNews


In [8]:
if len(df) > 10000:
    df_subset = df.sample(n=10000, random_state=42)
else:
    df_subset = df.copy()

In [9]:
def normalize_text(text):
    if not isinstance(text, str):
        return ""
    text = text.replace('ي', 'ی')
    text = text.replace('ك', 'ک')
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df_subset['title'] = df_subset['title'].apply(normalize_text)
df_subset['text'] = df_subset['text'].apply(normalize_text)

In [10]:
subset_path.parent.mkdir(parents=True, exist_ok=True)
df_subset.to_csv(subset_path, index=False)
print(f"Saved to {subset_path}")

Saved to ..\data\processed\news_subset.csv
