# 🧠 آشنایی با پردازش زبان طبیعی (Natural Language Processing - NLP)

**پردازش زبان طبیعی (NLP)** یکی از شاخه‌های مهم **هوش مصنوعی 🤖** است که به تعامل و ارتباط کامپیوتر با زبان انسان‌ها 🗣️ می‌پردازد. در واقع NLP سعی دارد به کامپیوترها کمک کند تا زبان طبیعی انسان‌ها را بفهمند، تفسیر کنند و به آن پاسخ دهند.

---

## 🎯 اهداف اصلی NLP
- 🧾 درک معنی و مفهوم متن
- 📌 استخراج اطلاعات مهم از متن
- 🌐 ترجمه زبان‌ها به یکدیگر
- 😊 تشخیص و طبقه‌بندی احساسات
- ✂️ خلاصه‌سازی متون طولانی
- 📝 تولید متن و گفتار به زبان طبیعی

---

## 💼 کاربردهای رایج NLP
- 🌍 **مترجم‌های آنلاین:** مانند Google Translate
- 🎙️ **دستیارهای صوتی هوشمند:** مانند Siri، Alexa و Google Assistant
- 💬 **سیستم‌های تحلیل احساسات:** تحلیل نظرات کاربران در شبکه‌های اجتماعی
- 🤖 **ربات‌های چت (Chatbots):** پاسخ‌گویی خودکار به کاربران
- 🎯 **سیستم‌های پیشنهاددهنده:** توصیه فیلم، کتاب، موسیقی و...
- ⚖️ **تحلیل متن‌های حقوقی و پزشکی:** استخراج اطلاعات کلیدی از اسناد تخصصی

---

## 🧰 تکنیک‌ها و ابزارهای معروف در NLP

### 🧹 پیش‌پردازش متن (Text Preprocessing)
- حذف نویز 🧽
- ریشه‌یابی کلمات (Stemming) 🌱
- ریشه‌یابی معنایی (Lemmatization) 📚
- حذف کلمات توقف (Stop Words) 🛑

### 🧠 بردارهای جاسازی کلمات (Word Embeddings)
- Word2Vec 🔡  
- GloVe 🧤  
- FastText ⚡

### 🤖 مدل‌های یادگیری ماشین و یادگیری عمیق
- 📊 مدل‌های کلاسیک: SVM، Naive Bayes، Logistic Regression  
- 🔁 مدل‌های عمیق: RNN، LSTM، CNN  
- 🚀 مدل‌های ترنسفورمر: BERT، GPT و سایر مدل‌های HuggingFace

---

## ⚠️ چالش‌های NLP
- 🌀 ابهام و پیچیدگی زبان طبیعی  
- 🔤 وجود معانی مختلف برای یک کلمه (Ambiguity)  
- 📏 تفاوت‌های گرامری و نحوی در زبان‌ها  
- 🤔 دشواری درک کنایه، طنز و احساسات پنهان

---

## 🐍 کتابخانه‌های معروف NLP در پایتون
- 📦 **NLTK** – ابزارهای پایه‌ای برای پیش‌پردازش متن  
- ⚡ **spaCy** – سریع و مناسب برای پروژه‌های واقعی  
- 🤗 **Transformers (Hugging Face)** – مدل‌های پیشرفته BERT و GPT  
- 📚 **Gensim** – برای بردارسازی و مدل‌سازی موضوعات (Topic Modeling)

---

> 📝 یادگیری NLP پلی است میان علوم انسانی و علوم کامپیوتر! ترکیبی از زبان، آمار، و هوش مصنوعی برای درک بهتر جهان انسانی 🌍


## 🔁 مدل مارکوف پنهان (Hidden Markov Model - HMM) در تحلیل احساسات

**مدل مارکوف پنهان (HMM)** یکی از مدل‌های آماری پرکاربرد در پردازش زبان طبیعی (NLP) است که می‌تواند به‌صورت مؤثری برای **تحلیل احساسات (Sentiment Analysis)** در متون به‌کار رود.

### 🧠 ایده‌ی اصلی HMM
HMM مدلی است که فرض می‌کند:
- در پشت داده‌های قابل مشاهده (مثلاً کلمات یک جمله 📝)، حالاتی پنهان وجود دارند (مثلاً احساس نویسنده 😊😐😡)
- این حالت‌های پنهان به‌صورت زنجیره‌ای و با وابستگی زمانی ظاهر می‌شوند 🔗
- ما فقط خروجی‌ها را می‌بینیم، نه حالت‌ها را — و مدل باید آن‌ها را **تخمین بزند**

---

### 🔧 اجزای مدل HMM برای تحلیل احساسات
1. **حالت‌های پنهان (Hidden States):**  
   احساساتی مانند مثبت 😊، منفی 😠، خنثی 😐

2. **داده‌های قابل مشاهده (Observations):**  
   کلمات یا جملات متن مثل "عالی"، "بد"، "بی‌تفاوت"

3. **ماتریس انتقال (Transition Probabilities):**  
   احتمال تغییر احساس در طول جمله‌ها یا متن – مثلاً از "مثبت" به "منفی"

4. **ماتریس انتشار (Emission Probabilities):**  
   احتمال ظاهر شدن یک کلمه خاص در یک احساس خاص – مثلاً احتمال اینکه "عالی" در حالت مثبت ظاهر شود

5. **احتمال شروع (Initial Probabilities):**  
   احتمال اینکه متن با چه احساسی شروع شود

---

### 💡 کاربرد HMM در Sentiment Analysis

مدل HMM می‌تواند برای تحلیل احساسات در **متون دنباله‌دار یا داستانی** بسیار مفید باشد. برخلاف روش‌های ساده که هر جمله را جدا بررسی می‌کنند، HMM وابستگی بین جملات و تغییر احساسات در طول متن را نیز در نظر می‌گیرد.

#### ✅ مثال:
فرض کنید یک نقد فیلم به‌صورت زیر است:
> "فیلم شروع کُندی داشت، ولی با گذشت زمان جذاب‌تر شد. پایان‌بندی واقعاً احساسی بود."

HMM می‌تواند الگوی تغییر احساسات را در این نقد شناسایی کند:
- ابتدا: منفی 😒  
- میانه: خنثی 😐 یا رو به مثبت 😊  
- انتها: مثبت 😍

---

### 📈 مزایای استفاده از HMM در تحلیل احساسات:
- مدل‌سازی دنباله‌ای و زمانی احساسات
- امکان پیش‌بینی احساس جمله بعدی
- درک بهتر از تغییرات احساسی در متن‌های طولانی مثل نقد، داستان یا گفتگو

---

### 📌 جمع‌بندی
مدل مارکوف پنهان با ساختار زنجیره‌ای خود، ابزاری قدرتمند برای **تحلیل احساسات دنباله‌دار** در متون طبیعی است. این مدل به‌ویژه زمانی کاربرد دارد که تغییرات احساسی در طول متن مهم باشند و تحلیل جمله‌ای کافی نباشد.



In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np

# لود کردن مدل از Hugging Face
model_name = "HooshvareLab/bert-base-parsbert-sentiment-snappfood"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# جمله‌ی ورودی برای تحلیل احساس
text = "این فیلم واقعاً فوق‌العاده بود! بازی بازیگران عالی بود و داستان من را هیجان‌زده کرد."

# تبدیل جمله به توکن‌های ورودی مدل
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)

# پیش‌بینی احساس
with torch.no_grad():
    logits = model(**inputs).logits

# اعمال Softmax برای تبدیل به احتمال
probs = torch.nn.functional.softmax(logits, dim=1)

# نمایش نتایج
labels = ["منفی 😠", "خنثی 😐", "مثبت 😊"]
predicted_label = labels[torch.argmax(probs)]

print("جمله:", text)
print("تحلیل احساس:", predicted_label)
print("احتمال‌ها:", dict(zip(labels, np.round(probs.numpy()[0], 3))))
