In [None]:
import pandas as pd
import os

# نام فایل‌های CSV 
file_names = {
    'anger': 'anger.csv',
    'disgust': 'disgust.csv',
    'fear': 'fear.csv',
    'joy': 'joy.csv',
    'sad': 'sad.csv',
    'surprise': 'surprise.csv'
}

all_data = []
print("در حال خواندن و ادغام فایل‌ها با ستون‌های مشخص شده...")

for sentiment, file_name in file_names.items():
    try:
        # 1. خواندن فایل با فرض وجود هدر (header=0)
        df_temp = pd.read_csv(file_name, encoding='utf-8')
        
        # 2. انتخاب ستون‌های اصلی و تغییر نام ستون متن برای یکپارچگی
        # ما فقط ستون‌های 'tweet' و 'emotion' را نیاز داریم.
        df_temp = df_temp[['tweet', 'emotion']]
        
        # نکته: چون هر فایل فقط شامل یک نوع احساس (بر اساس نام فایل) است، 
        # ستون 'emotion' در واقع فقط یک مقدار ثابت (مثل 'anger') خواهد داشت.
        # ما از ستون 'emotion' اصلی استفاده می کنیم که در دیتاست وجود دارد.

        df_temp = df_temp.rename(columns={'tweet': 'Text_Content', 'emotion': 'Sentiment_Label'})
        
        all_data.append(df_temp)
        print(f"✅ فایل {file_name} با {len(df_temp)} رکورد بارگذاری شد. احساس: {sentiment}")

    except FileNotFoundError:
        print(f"❌ خطا: فایل {file_name} پیدا نشد. مطمئن شوید که تمام شش فایل در مسیر درست هستند.")
    except Exception as e:
        print(f"❌ خطایی در خواندن فایل {file_name} رخ داد: {e}")

# ادغام تمام DataFrameها به یک DataFrame نهایی
if all_data:
    df_merged = pd.concat(all_data, ignore_index=True)
    print("\n------------------------------------")
    print(f"✅ ادغام با موفقیت انجام شد. تعداد کل رکوردها: {len(df_merged)}")
    
    # نمایش ۵ سطر تصادفی از مجموعه داده نهایی
    print("\n۵ سطر تصادفی از مجموعه داده نهایی:")
    print(df_merged.sample(5))
    
    # نمایش توزیع برچسب‌ها
    print("\nتوزیع احساسات:")
    print(df_merged['Sentiment_Label'].value_counts())
    
    # حذف ردیف‌های تکراری احتمالی
    initial_count = len(df_merged)
    df_merged.drop_duplicates(subset=['Text_Content', 'Sentiment_Label'], inplace=True)
    print(f"\nتعداد رکوردهای تکراری حذف شده: {initial_count - len(df_merged)}")
else:
    print("هیچ فایلی برای ادغام وجود نداشت.")

# ذخیره سازی DataFrame ادغام شده در یک فایل جدید
output_file_path = 'persian_tweets_merged.csv'
df_merged.to_csv(output_file_path, index=False, encoding='utf-8')

print(f"\n✅ داده‌های ادغام شده در فایل '{output_file_path}' ذخیره شدند.")

در حال خواندن و ادغام فایل‌ها با ستون‌های مشخص شده...
✅ فایل anger.csv با 20069 رکورد بارگذاری شد. احساس: anger
✅ فایل disgust.csv با 925 رکورد بارگذاری شد. احساس: disgust
✅ فایل fear.csv با 17624 رکورد بارگذاری شد. احساس: fear
✅ فایل joy.csv با 28024 رکورد بارگذاری شد. احساس: joy
✅ فایل sad.csv با 34328 رکورد بارگذاری شد. احساس: sad
✅ فایل surprise.csv با 12859 رکورد بارگذاری شد. احساس: surprise

------------------------------------
✅ ادغام با موفقیت انجام شد. تعداد کل رکوردها: 113829

۵ سطر تصادفی از مجموعه داده نهایی:
                                             Text_Content Sentiment_Label
106222  بهاره جان تیتر بزن مخازن آمونیاک هم سرگردان شد...        surprise
73337    اگر میخواست میگفت رای بدید! #دروغ_ممنوع \nاین...             sad
50737   مولای بزرگ ما، ارباب خوب خوبی‌ها، آزاده‌ی از ه...             joy
20100     تا حالا تو آینه به خودت نگاه کردی و اون چهره...         disgust
50393   امشب داشتم ترانه سرزمین من از داود سرخوش خوانن...             joy

توزیع احساسات:
Sentiment_Lab

In [3]:
import re
from hazm import Normalizer

# ۱. تعریف نرمالایزر Hazm
normalizer = Normalizer()

def clean_and_normalize(text):
    # الف) تبدیل به رشته (در صورت نیاز)
    if not isinstance(text, str):
        text = str(text)
        
    # ب) حذف لینک‌ها
    text = re.sub(r"http\S+|www\S+|https\S+", '', text, flags=re.MULTILINE)
    
    # پ) حذف منشن‌ها (@username) و هشتگ‌ها (#tag)
    text = re.sub(r'@\w+|#\w+', '', text)
    
    # ت) حذف علائم نگارشی و کاراکترهای اضافی غیر از حروف و اعداد
    text = re.sub(r'[^\w\s\u0600-\u06FF]', ' ', text) 
    
    # ث) حذف فاصله‌های اضافی
    text = re.sub(r'\s+', ' ', text).strip()
    
    # ج) نرمال‌سازی با Hazm
    text = normalizer.normalize(text)
    
    return text

# اعمال تابع تمیزکاری و نرمال‌سازی روی ستون متن ادغام شده
# توجه: اگر کد ۱.۵ را اجرا کرده باشید، df_merged در حافظه موجود است.
df_merged['Clean_Text'] = df_merged['Text_Content'].apply(clean_and_normalize)

# نمایش نتایج برای اطمینان
print("\n------------------------------------")
print("✅ ستون Clean_Text ایجاد شد.")
print("\nنمونه‌ای از تمیزکاری:")
sample_row = df_merged.sample(1)
print(f"متن اصلی: {sample_row['Text_Content'].iloc[0]}")
print(f"متن تمیز شده: {sample_row['Clean_Text'].iloc[0]}")


------------------------------------
✅ ستون Clean_Text ایجاد شد.

نمونه‌ای از تمیزکاری:
متن اصلی: اگر واقعاً همان مردمی هستید که در روز تشییع شهید #حاج_ قاسم سلیمانی به او قول دادید انتقام سختی می گیرید روز ۲۸ خرداد ۱۴۰۰ روز #انتقام_ سخت است!
#به_عشق_امام_رضا https://t.co/HdBvayzX9W
متن تمیز شده: اگر واقعا همان مردمی هستید که در روز تشییع شهید قاسم سلیمانی به او قول دادید انتقام سختی می‌گیرید روز ۲۸ خرداد ۱۴۰۰ روز سخت است


In [4]:
# اجرای مجدد تمیزکاری برای اطمینان از وجود ستون Clean_Text
# فرض می‌کنیم تمیزکاری در سلول قبل اجرا شده است.

# ذخیره سازی نهایی DataFrame با ستون‌های تمیز شده
final_output_file = 'persian_tweets_cleaned_for_model.csv'

# index=False: برای حذف ستون‌های اضافی ایندکس
# encoding='utf-8-sig': این همان UTF-8 with BOM است که برای سازگاری با Excel بهتر است.
df_merged.to_csv(final_output_file, index=False, encoding='utf-8-sig')

print(f"\n✅ داده‌های تمیز شده و آماده مدل‌سازی در فایل '{final_output_file}' با اِنکدینگ سازگار ذخیره شدند.")
print("حالا می توانیم وارد فاز مدل‌سازی شویم.")


✅ داده‌های تمیز شده و آماده مدل‌سازی در فایل 'persian_tweets_cleaned_for_model.csv' با اِنکدینگ سازگار ذخیره شدند.
حالا می توانیم وارد فاز مدل‌سازی شویم.


In [1]:
import pandas as pd

# نام فایل نهایی که قبلاً ساختیم
file_path_cleaned = 'persian_tweets_cleaned_for_model.csv'

# ۱. بارگذاری فایل (با اطمینان از اِنکدینگ)
try:
    df_final = pd.read_csv(file_path_cleaned, encoding='utf-8-sig')
    print("✅ داده‌ها با موفقیت بارگذاری شدند.")
except Exception as e:
    print(f"❌ خطایی در بارگذاری فایل رخ داد: {e}")
    # اگر در بارگذاری مشکل دارید، فقط encoding='utf-8' را امتحان کنید.
    df_final = pd.read_csv(file_path_cleaned, encoding='utf-8')


# ۲. نمایش ستون‌های فعلی برای تأیید
print("\nستون‌های فعلی قبل از حذف:")
print(df_final.columns.tolist())

# ۳. حذف ستون Text_Content (و هر ستون اضافی دیگری که نیاز نیست)
# ما فقط ستون‌های Clean_Text و Sentiment_Label را نگه می‌داریم.
columns_to_keep = ['Clean_Text', 'Sentiment_Label']
df_optimized = df_final[columns_to_keep]

print(f"✅ ستون‌های اضافی حذف شدند. DataFrame به {len(df_optimized.columns)} ستون کاهش یافت.")

# ۴. ذخیره سازی نهایی و بهینه سازی شده
optimized_file_path = 'persian_tweets_optimized_for_training.csv'
df_optimized.to_csv(optimized_file_path, index=False, encoding='utf-8-sig')

print(f"\n✅ مجموعه داده بهینه شده در فایل '{optimized_file_path}' ذخیره شد.")
print("این فایل فقط شامل ستون‌های Clean_Text و Sentiment_Label است.")

✅ داده‌ها با موفقیت بارگذاری شدند.

ستون‌های فعلی قبل از حذف:
['Text_Content', 'Sentiment_Label', 'Clean_Text']
✅ ستون‌های اضافی حذف شدند. DataFrame به 2 ستون کاهش یافت.

✅ مجموعه داده بهینه شده در فایل 'persian_tweets_optimized_for_training.csv' ذخیره شد.
این فایل فقط شامل ستون‌های Clean_Text و Sentiment_Label است.
