In [None]:
import pandas as pd

file_path = 'dataset/training.1600000.processed.noemoticon.csv'

try:
    df = pd.read_csv(file_path, header=None, encoding='latin1')
    df.columns = ['sentiment', 'id', 'date', 'query', 'user', 'text']
    print("فایل با موفقیت بارگیری شد (از پوشه 'data'):")
    print(df.head())
    print(df.info())
except FileNotFoundError:
    print(f"خطا: فایل '{file_path}' یافت نشد. لطفاً از صحت نام پوشه ('data') و نام فایل ('training.1600000.processed.noemoticon') اطمینان حاصل کنید.")
except Exception as e:
    print(f"یک خطای غیرمنتظره رخ داد: {e}")

In [None]:
import pandas as pd

file_path = 'dataset/training.1600000.processed.noemoticon.csv'

try:
    df = pd.read_csv(file_path, header=None, encoding='latin1', skiprows=[0]) # skiprows=[0] برای حذف ردیف اول
    df.columns = ['sentiment', 'id', 'date', 'query', 'user', 'text']
    print("فایل با موفقیت بارگیری شد (با حذف ردیف اول و تعیین سرستون):")
    print(df.head())
    print(df.info())
    print("\n--------------------\n")
    print("تعداد مقادیر منحصربه‌فرد در ستون احساس:")
    print(df['sentiment'].value_counts())
    print("\n--------------------\n")
    print("نوع داده‌های هر ستون:")
    print(df.dtypes)
except FileNotFoundError:
    print(f"خطا: فایل '{file_path}' یافت نشد.")
except Exception as e:
    print(f"یک خطای غیرمنتظره رخ داد: {e}")

In [None]:
# اجرای خط مورد نظر شما
df['text_lower'] = df['text'].str.lower()

# نمایش چند سطر اول برای بررسی
print(df[['text', 'text_lower']].head())

In [4]:
import string
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [5]:
def remove_punctuation(text):
    translator = str.maketrans('', '', string.punctuation)
    return text.translate(translator)

test_text = "این یک متن نمونه با علائم نگارشی!؟،."
cleaned_text = remove_punctuation(test_text)
print(f"متن اصلی: {test_text}")
print(f"متن بدون علائم نگارشی: {cleaned_text}")

متن اصلی: این یک متن نمونه با علائم نگارشی!؟،.
متن بدون علائم نگارشی: این یک متن نمونه با علائم نگارشی؟،


In [None]:
# اجرای خط مورد نظر شما
df['text_no_punct'] = df['text_lower'].apply(remove_punctuation)

# نمایش چند سطر اول برای بررسی
print(df[['text_lower', 'text_no_punct']].head())

In [7]:
import re

def remove_punctuation_regex(text):
    return re.sub(r'[!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~؟،.]', '', text)

test_text = "این یک متن نمونه با علائم نگارشی!؟،."
cleaned_text = remove_punctuation_regex(test_text)
print(f"متن بدون علائم نگارشی (با regex): {cleaned_text}")

متن بدون علائم نگارشی (با regex): این یک متن نمونه با علائم نگارشی


In [8]:
sentiment_dict = {
    'happy': 1,
    'good': 1,
    'great': 1,
    'love': 1,
    'like': 1,
    'best': 1,
    'amazing': 1,
    'wonderful': 1,
    'excellent': 1,
    'enjoy': 1,
    'fun': 1,
    'bad': -1,
    'terrible': -1,
    'awful': -1,
    'hate': -1,
    'dislike': -1,
    'worst': -1,
    'horrible': -1,
    'sad': -1,
    'angry': -1,
    'upset': -1
    # می‌توانید کلمات بیشتری اضافه کنید
}

print(sentiment_dict)
print(f"امتیاز کلمه 'happy': {sentiment_dict.get('happy')}")
print(f"امتیاز کلمه 'bad': {sentiment_dict.get('bad')}")
print(f"امتیاز کلمه 'neutral': {sentiment_dict.get('neutral', 0)}") # اگر کلمه نباشد 0 برمی‌گرداند

{'happy': 1, 'good': 1, 'great': 1, 'love': 1, 'like': 1, 'best': 1, 'amazing': 1, 'wonderful': 1, 'excellent': 1, 'enjoy': 1, 'fun': 1, 'bad': -1, 'terrible': -1, 'awful': -1, 'hate': -1, 'dislike': -1, 'worst': -1, 'horrible': -1, 'sad': -1, 'angry': -1, 'upset': -1}
امتیاز کلمه 'happy': 1
امتیاز کلمه 'bad': -1
امتیاز کلمه 'neutral': 0


In [None]:
def calculate_sentiment_score(text):
    words = text.split()
    score = 0
    for word in words:
        if word in sentiment_dict:
            score += sentiment_dict[word]
    return score

# اعمال تابع محاسبه امتیاز بر روی ستون متن بدون علائم نگارشی
df['sentiment_score'] = df['text_no_punct'].apply(calculate_sentiment_score)

# نمایش چند سطر اول DataFrame به همراه امتیاز احساسی محاسبه شده
print(df[['text', 'text_no_punct', 'sentiment_score']].head())

In [None]:
def categorize_sentiment(score):
    if score > 0:
        return 'positive'
    elif score < 0:
        return 'negative'
    else:
        return 'neutral'

# اعمال تابع دسته‌بندی احساس بر روی ستون امتیاز احساسی
df['predicted_sentiment'] = df['sentiment_score'].apply(categorize_sentiment)

# نمایش چند سطر اول DataFrame به همراه احساس پیش‌بینی شده
print(df[['text', 'sentiment_score', 'predicted_sentiment']].head())

# نمایش تعداد نظرات در هر دسته احساسی پیش‌بینی شده
print("\nتعداد نظرات در هر دسته احساسی پیش‌بینی شده:")
print(df['predicted_sentiment'].value_counts())