حله، حالا که دیتا رو پیدا کردی، بریم مرحله به مرحله ببینیم چیکار باید بکنی. جوری توضیح میدم که انگار داری یه بازی مرحله‌ای انجام میدی و هر مرحله رو باید درست رد کنی تا بری بعدی.  


---

## 🚀 **مرحله ۱: بررسی اولیه دیتاست** (مثل نگاه کردن به نقشه قبل از شروع بازی)  
قبل از اینکه هر کاری بکنی، باید یه نگاه کلی به دیتاستت بندازی. این کار کمک می‌کنه که بفهمی:  
- **چند تا داده داری؟** (خب گفتی ۱۳,۰۰۰ تا، اوکی)  
- **ستون‌های دیتاست چی هستن؟** (مثلاً، ستون متن توییت، ستون برچسب احساسات و ...)  
- **مقدار داده‌ها در هر کلاس احساسات چطوره؟** (مثلاً، نکنه ۹۰٪ توییت‌ها "خوشحال" باشن و فقط ۱۰٪ بقیه؟ این باعث عدم تعادل میشه)  

📌 **کد پیشنهادی برای بررسی اولیه:**  
```python
import pandas as pd  

df = pd.read_csv("your_dataset.csv")  # اینو با اسم فایلت عوض کن
print(df.head())  # نمایش ۵ سطر اول
print(df.info())  # نمایش اطلاعات کلی درباره دیتاست
print(df['label'].value_counts())  # بررسی توزیع برچسب‌ها
```
✍ **اگر توزیع داده‌ها نامتعادل بود، باید روش‌هایی مثل oversampling یا undersampling رو انجام بدی (بعداً بهش می‌رسیم).**  

📌 **منبع پیشنهادی برای بررسی اولیه دیتاست:**  
[راهنمای بررسی اولیه دیتا در پانداس](https://towardsdatascience.com/a-gentle-introduction-to-exploratory-data-analysis-f11d843b8184)  

---

## 🔍 **مرحله ۲: پاکسازی داده‌ها (Data Cleaning)** (مثل تمیز کردن صفحه بازی قبل از شروع)  
باید مطمئن بشی که دیتای خامت مشکل خاصی نداره. مشکلات رایج اینا هستن:  
✅ **مقادیر خالی (Missing Values)**  
✅ **داده‌های تکراری (Duplicate Data)**  
✅ **توییت‌های بی‌معنی (مثلاً شامل فقط @ و # و لینک‌ها بدون متن مفید)**  

📌 **کد پیشنهادی برای پاکسازی:**  
```python
# حذف مقادیر خالی
df = df.dropna()

# حذف مقادیر تکراری
df = df.drop_duplicates()

# بررسی نمونه‌هایی که فقط شامل لینک و منشن هستن
import re
df = df[~df['text'].str.match(r'^\s*(http|@|#).*$', case=False)]
```
📌 **منبع پیشنهادی:**  
[آموزش Data Cleaning در پانداس](https://towardsdatascience.com/the-ultimate-guide-to-data-cleaning-3969843991d4)  

---

## 🛠 **مرحله ۳: پیش‌پردازش متن (Text Preprocessing)** (مثل تنظیمات اولیه کاراکتر توی بازی)  
الان باید متن‌های توییت رو برای مدل آماده کنیم. توییت‌ها معمولاً کثیف هستن و پر از چیزهای اضافی مثل:  
❌ لینک‌ها (https://...)  
❌ نام‌های کاربری (@user)  
❌ هشتگ‌ها (#موضوع)  
❌ ایموجی‌ها (😂😡❤️)  
❌ حروف اضافی کشیده ("عاااالیییی")  

📌 **کد پیشنهادی برای تمیز کردن متن:**  
```python
import re  

def clean_text(text):
    text = re.sub(r"http\S+|www\S+", "", text)  # حذف لینک‌ها
    text = re.sub(r"@\S+", "", text)  # حذف منشن‌ها
    text = re.sub(r"#\S+", "", text)  # حذف هشتگ‌ها
    text = re.sub(r"[^\w\s]", "", text)  # حذف ی
    text = re.sub(r"\s+", " ", text).strip()  # حذف فاصله‌های اضافی
    return text

df["clean_text"] = df["text"].apply(clean_text)
```

📌 **منبع پیشنهادی:**  
[راهنمای پیش‌پردازش متن](https://www.analyticsvidhya.com/blog/2021/06/text-preprocessing-in-nlp-with-python/)  

---

## 📊 **مرحله ۴: تحلیل داده‌ها (Exploratory Data Analysis - EDA)** (مثل بررسی ویژگی‌های بازی قبل از شروع)  
باید یه کم روی دیتات آنالیز انجام بدی که بفهمی:  
- **کدوم کلمات بیشتر استفاده شدن؟**  
- **طول جملات چقدره؟**  
- **احساسات چقدر توزیع شدن؟**  

📌 **کد پیشنهادی برای بررسی کلمات پر تکرار:**  
```python
from collections import Counter
import matplotlib.pyplot as plt
from wordcloud import WordCloud

all_words = " ".join(df["clean_text"])
word_freq = Counter(all_words.split())

wordcloud = WordCloud(width=800, height=400, background_color="white").generate_from_frequencies(word_freq)
plt.figure(figsize=(10,5))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()
```
📌 **منبع پیشنهادی:**  
[EDA در NLP](https://towardsdatascience.com/exploratory-data-analysis-eda-for-text-data-b8a26c6a00e7)  

---

## 🔢 **مرحله ۵: تبدیل متن به عدد (Tokenization & Embedding)** (مثل آماده کردن کاراکترهای بازی برای حرکت)  
مدل‌های یادگیری ماشین فقط عدد می‌فهمن، پس باید متن رو به عدد تبدیل کنیم. روش‌های مختلفی وجود داره:  
- **Bag of Words (BoW)** – مدل ساده‌ای که فقط تعداد کلمات رو می‌شمره  
- **TF-IDF** – مقدار اهمیت هر کلمه در متن  
- **Word Embeddings (مثل Word2Vec یا BERT)** – تبدیل کلمات به بردار عددی  

📌 **اگر از BERT استفاده کنی:**  
```python
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")
tokens = tokenizer(df["clean_text"].tolist(), padding=True, truncation=True, return_tensors="pt")
```
📌 **منبع پیشنهادی:**  
[مقدمه‌ای بر Tokenization](https://towardsdatascience.com/tokenization-for-natural-language-processing-a179a891bad4)  

---

## 🏗 **مرحله ۶: مدل‌سازی (Training a Model)** (مثل ساختن شخصیت بازی)  
باید تصمیم بگیری که از چه مدلی استفاده کنی:  
✅ **مدل‌های ساده (مثل Naive Bayes, SVM)** – اگر دیتاست کوچیک باشه  
✅ **مدل‌های پیچیده‌تر (مثل LSTM, BERT)** – اگر دیتاست بزرگ باشه و دقت بالا بخوای  

📌 **اگر از مدل ساده استفاده کنی:**  
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

vectorizer = TfidfVectorizer()
model = MultinomialNB()

pipeline = Pipeline([
    ("vectorizer", vectorizer),
    ("classifier", model)
])

pipeline.fit(df["clean_text"], df["label"])
```
📌 **اگر از BERT استفاده کنی:**  
[راهنمای آموزش مدل BERT برای تحلیل احساسات](https://huggingface.co/docs/transformers/training)  

---

## ✅ **مرحله ۷: ارزیابی مدل (Evaluation & Testing)** (مثل بررسی امتیاز بازی)  
بعد از آموزش مدل، باید ببینی چقدر خوب کار میکنه. از معیارهای **دقت (Accuracy)، دقت مثبت (Precision)، یادآوری (Recall)** استفاده کن.  

📌 **کد ارزیابی مدل:**  
```python
from sklearn.metrics import classification_report

y_pred = pipeline.predict(df_test["clean_text"])
print(classification_report(df_test["label"], y_pred))
```
📌 **منبع پیشنهادی:**  
[راهنمای ارزیابی مدل‌های NLP](https://towardsdatascience.com/evaluation-metrics-for-text-classification-1b215e31d685)  

---

### **حالا تو بگو، تو کدوم مرحله سوال داری؟** 😎