# **Preprocessing**

In [1]:
!pip install hazm
!pip install torch
!pip install gensim

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting hazm
  Downloading hazm-0.7.0-py3-none-any.whl (316 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.7/316.7 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting nltk==3.3 (from hazm)
  Downloading nltk-3.3.0.zip (1.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m32.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting libwapiti>=0.2.1 (from hazm)
  Downloading libwapiti-0.2.1.tar.gz (233 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m233.6/233.6 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: nltk, libwapiti
  Building wheel for nltk (setup.py) ... [?25l[?25hdone
  Created wheel for nltk: filename=nltk-3.3-py3-none-any.whl size=1394472 sha2

In [2]:
from hazm import word_tokenize
from gensim.models import Word2Vec

# مجموعه داده‌ها
sentences = [
    "جمله اول برای آموزش مدل.",
    "جمله دوم برای آموزش مدل.",
    "جمله سوم برای آموزش مدل."
]

# توکن‌بندی جملات
tokenized_sentences = [word_tokenize(sentence) for sentence in sentences]

# آموزش مدل Word2Vec
embedding_dim = 100  # ابعاد بردار تعبیه
model = Word2Vec(tokenized_sentences, vector_size=embedding_dim, min_count=1)

# تست واژگان
word = "جمله"
if word in model.wv.key_to_index:
    word_embedding = model.wv[word]
    print(f"بردار تعبیه واژه '{word}': {word_embedding}")
else:
    print(f"واژه '{word}' در مدل وجود ندارد.")


بردار تعبیه واژه 'جمله': [-0.00713902  0.00124103 -0.00717672 -0.00224462  0.0037193   0.00583312
  0.00119818  0.00210273 -0.00411039  0.00722533 -0.00630704  0.00464722
 -0.00821997  0.00203647 -0.00497705 -0.00424769 -0.00310898  0.00565521
  0.0057984  -0.00497465  0.00077333 -0.00849578  0.00780981  0.00925729
 -0.00274233  0.00080022  0.00074665  0.00547788 -0.00860608  0.00058446
  0.00686942  0.00223159  0.00112468 -0.00932216  0.00848237 -0.00626413
 -0.00299237  0.00349379 -0.00077263  0.00141129  0.00178199 -0.0068289
 -0.00972481  0.00904058  0.00619805 -0.00691293  0.00340348  0.00020606
  0.00475375 -0.00711994  0.00402695  0.00434743  0.00995737 -0.00447374
 -0.00138926 -0.00731732 -0.00969783 -0.00908026 -0.00102275 -0.00650329
  0.00484973 -0.00616403  0.00251919  0.00073944 -0.00339215 -0.00097922
  0.00997913  0.00914589 -0.00446183  0.00908303 -0.00564176  0.00593092
 -0.00309722  0.00343175  0.00301723  0.00690046 -0.00237388  0.00877504
  0.00758943 -0.00954765 -0

In [3]:
from hazm import Normalizer, word_tokenize, Stemmer, Lemmatizer, stopwords_list
import torch
import numpy as np

# تنظیمات پیش‌پردازش
normalizer = Normalizer()
stemmer = Stemmer()
lemmatizer = Lemmatizer()
stopwords = set(stopwords_list())

# تابع پیش‌پردازش
def preprocess_text(text):
    # تمیزکاری متن
    normalized_text = normalizer.normalize(text)

    # توکن‌بندی
    tokens = word_tokenize(normalized_text)

    # عصاره‌گیری و حذف کلمات توقف
    preprocessed_tokens = []
    for token in tokens:
        stemmed_token = stemmer.stem(token)
        lemmatized_token = lemmatizer.lemmatize(token)
        if stemmed_token not in stopwords:
            preprocessed_tokens.append(stemmed_token)

    # تبدیل به متن پیش‌پردازش شده
    preprocessed_text = ' '.join(preprocessed_tokens)

    return preprocessed_text

# متن نمونه
text = "متن نمونه برای پیش‌پردازش."

# پیش‌پردازش متن
preprocessed_text = preprocess_text(text)

# چاپ متن پیش‌پردازش شده
print(preprocessed_text)

# تبدیل متن به بردار تعبیه شده
embedding_dim = 20  # ابعاد بردار تعبیه
embedding = np.zeros(embedding_dim)

# در اینجا باید بردار تعبیه شده متناظر هر کلمه را از مدل خود بدست آورید
# به عنوان مثال، اینجا بردار صفر به عنوان بردار تعبیه استفاده شده است
text_embedding = [embedding] * len(preprocessed_text.split())

# تبدیل به تنسور پایتورچ
text_tensor = torch.tensor(text_embedding)

# چاپ تنسور متن
print(text_tensor)


متن نمونه برا پیش‌پرداز .
tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],
       dtype=torch.float64)


  text_tensor = torch.tensor(text_embedding)


In [8]:
from hazm import word_tokenize
from gensim.models import Word2Vec
import numpy as np

# مجموعه داده‌ها
sentences = [
    "جمله اول برای پیش‌پردازش.",
    "جمله دوم برای پیش‌پردازش.",
    "جمله سوم برای پیش‌پردازش."
]

# توکن‌بندی جملات
tokenized_sentences = [word_tokenize(sentence) for sentence in sentences]

# آموزش مدل Word2Vec
embedding_dim = 100  # ابعاد بردار تعبیه
model = Word2Vec(tokenized_sentences, vector_size=embedding_dim, min_count=1)
model.save("/content/word2vec.bin")
# تابع پیش‌پردازش
def preprocess_text(text):
    # توکن‌بندی
    tokens = word_tokenize(text)
    
    # بردارهای تعبیه واژه‌ها
    embeddings = []
    for token in tokens:
        if token in model.wv.key_to_index:
            embeddings.append(model.wv[token])
    
    # تبدیل به آرایه NumPy
    embeddings = np.array(embeddings)
    
    # میانگین بردارها
    averaged_embedding = np.mean(embeddings, axis=0)
    
    return averaged_embedding

# داده نمونه
text = "متن نمونه برای پیش‌پردازش."

# پیش‌پردازش متن
preprocessed_text = preprocess_text(text)

# چاپ متن پیش‌پردازش شده
print(preprocessed_text)


[-3.0204502e-03  2.3265027e-03  1.1601817e-03  4.4585788e-03
  1.9441992e-03 -1.9793429e-03  1.2970553e-03  5.8876630e-03
 -5.3908867e-03 -1.2437898e-03  7.7764346e-04 -4.3555154e-03
 -2.7507017e-04  4.8439936e-03  1.9943765e-03 -2.2148299e-04
  4.9457885e-03  6.1485004e-03 -6.8439380e-03 -5.0487821e-03
  8.6508709e-04 -1.4371508e-03  3.7892789e-03 -5.8771838e-03
  7.0237289e-03 -1.7783059e-03  8.4814453e-04  5.1431214e-03
 -5.2704266e-03  2.2443922e-03  2.6411507e-03 -4.2396891e-03
  5.1100488e-04 -5.1633506e-03 -2.3695752e-03 -2.4423216e-04
  4.8550260e-03  1.1566350e-03  3.6751830e-03  1.2127521e-03
 -2.4331918e-03 -8.3944760e-05 -6.2709427e-03  6.8205176e-04
  2.7955804e-04  4.0425453e-03 -9.6116994e-05  1.7897360e-03
  7.0872699e-04  3.3303676e-03  3.6556335e-04 -2.5534711e-03
 -3.8054781e-03 -1.1705410e-03 -5.2073196e-04 -6.7187037e-04
  3.8936157e-03 -1.5247840e-03 -3.5736070e-03  4.4638556e-03
 -1.9409339e-03 -7.0196234e-05 -1.3346660e-04 -3.7458800e-03
 -1.7202515e-03  5.75799

In [9]:
from hazm import word_tokenize
from gensim.models import Word2Vec
import numpy as np

# مجموعه داده‌ها
sentences = [
    "جمله اول برای پیش‌پردازش.",
    "جمله دوم برای پیش‌پردازش.",
    "جمله سوم برای پیش‌پردازش."
]

# توکن‌بندی جملات
tokenized_sentences = [word_tokenize(sentence) for sentence in sentences]

# آموزش مدل Word2Vec
embedding_dim = 100  # ابعاد بردار تعبیه
model = Word2Vec(tokenized_sentences, vector_size=embedding_dim, min_count=1)
model.save("/content/word2vec.bin")

# تابع پیش‌پردازش
def preprocess_text(text):
    # توکن‌بندی
    tokens = word_tokenize(text)
    
    # بردارهای تعبیه واژه‌ها
    embeddings = []
    for token in tokens:
        if token in model.wv.key_to_index:
            embeddings.append(model.wv[token])
    
    # تبدیل به آرایه NumPy
    embeddings = np.array(embeddings)
    
    # میانگین بردارها
    averaged_embedding = np.mean(embeddings, axis=0)
    
    return averaged_embedding

# تابع بازگرداندن به متن
def get_original_text(embedding):
    # جستجوی نزدیک‌ترین بردار تعبیه به بردار ورودی
    similar_word = model.wv.similar_by_vector(embedding, topn=1)[0][0]
    
    return similar_word

# داده نمونه
text = "متن نمونه برای پیش‌پردازش."

# پیش‌پردازش متن
preprocessed_text = preprocess_text(text)

# بازگرداندن به متن اصلی
original_text = get_original_text(preprocessed_text)

# چاپ متن اصلی
print(preprocessed_text)

# چاپ متن اصلی
print(original_text)


[-3.0204502e-03  2.3265027e-03  1.1601817e-03  4.4585788e-03
  1.9441992e-03 -1.9793429e-03  1.2970553e-03  5.8876630e-03
 -5.3908867e-03 -1.2437898e-03  7.7764346e-04 -4.3555154e-03
 -2.7507017e-04  4.8439936e-03  1.9943765e-03 -2.2148299e-04
  4.9457885e-03  6.1485004e-03 -6.8439380e-03 -5.0487821e-03
  8.6508709e-04 -1.4371508e-03  3.7892789e-03 -5.8771838e-03
  7.0237289e-03 -1.7783059e-03  8.4814453e-04  5.1431214e-03
 -5.2704266e-03  2.2443922e-03  2.6411507e-03 -4.2396891e-03
  5.1100488e-04 -5.1633506e-03 -2.3695752e-03 -2.4423216e-04
  4.8550260e-03  1.1566350e-03  3.6751830e-03  1.2127521e-03
 -2.4331918e-03 -8.3944760e-05 -6.2709427e-03  6.8205176e-04
  2.7955804e-04  4.0425453e-03 -9.6116994e-05  1.7897360e-03
  7.0872699e-04  3.3303676e-03  3.6556335e-04 -2.5534711e-03
 -3.8054781e-03 -1.1705410e-03 -5.2073196e-04 -6.7187037e-04
  3.8936157e-03 -1.5247840e-03 -3.5736070e-03  4.4638556e-03
 -1.9409339e-03 -7.0196234e-05 -1.3346660e-04 -3.7458800e-03
 -1.7202515e-03  5.75799

# **Text classification**

In [14]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from hazm import word_tokenize
from gensim.models import Word2Vec

# تنظیمات پیش‌پردازش
embedding_dim = 100  # ابعاد بردار تعبیه
model_path = '/content/word2vec.bin'  # مسیر مدل Word2Vec ذخیره شده

# تابع پیش‌پردازش
def preprocess_text(text):
    # بارگیری مدل Word2Vec
    model = Word2Vec.load(model_path)
    
    # توکن‌بندی
    tokens = word_tokenize(text)
    
    # بردارهای تعبیه واژه‌ها
    embeddings = []
    for token in tokens:
        if token in model.wv.key_to_index:
            embeddings.append(model.wv[token])
    
    # تبدیل به آرایه NumPy
    embeddings = np.array(embeddings)
    
    # میانگین بردارها
    averaged_embedding = np.mean(embeddings, axis=0)
    
    # تبدیل به Tensor PyTorch
    tensor_embedding = torch.Tensor(averaged_embedding)
    
    return tensor_embedding

# تعریف معماری مدل کلاس‌بندی
class ClassifierModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(ClassifierModel, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_dim, output_dim)
        self.softmax = nn.Softmax(dim=1)
    
    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        x = self.softmax(x)
        return x

# تعریف مجموعه داده
class CustomDataset(Dataset):
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, index):
        x = self.data[index]
        y = self.labels[index]
        return x, y

# تنظیمات آموزش
input_dim = embedding_dim  # تعداد ویژگی‌ها
hidden_dim = 50  # ابعاد لایه مخفی
output_dim = 2  # تعداد کلاس‌ها
learning_rate = 0.001
num_epochs = 10
batch_size = 32

# بارگیری مدل Word2Vec
model = Word2Vec.load(model_path)

# مجموعه داده‌ها
texts = [
    "جمله اول برای پیش‌پردازش.",
    "جمله دوم برای پیش‌پردازش.",
    "جمله سوم برای پیش‌پردازش."
]
labels=[
    0,1,0
]

# تابع پیش‌پردازش داده‌ها
preprocessed_data = [preprocess_text(text) for text in texts]

# تبدیل برچسب‌ها به Tensor PyTorch
labels = torch.Tensor(labels)

# اندازه داده‌ها و برچسب‌ها
data_size = len(preprocessed_data)

# اندازه مجموعه‌های آموزش و اعتبارسنجی
train_size = int(0.8 * data_size)
val_size = data_size - train_size

# تقسیم داده‌ها به مجموعه‌های آموزش و اعتبارسنجی
train_data = preprocessed_data[:train_size]
train_labels = labels[:train_size]
val_data = preprocessed_data[train_size:]
val_labels = labels[train_size:]

# تبدیل داده‌ها به شیوه دیتاست سفارشی
train_dataset = CustomDataset(train_data, train_labels)
val_dataset = CustomDataset(val_data, val_labels)

# ساخت لودر داده برای آموزش و اعتبارسنجی
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)

# تعریف مدل
model = ClassifierModel(input_dim, hidden_dim, output_dim)

# تعریف تابع هزینه و بهینه‌ساز
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# آموزش مدل
for epoch in range(num_epochs):
    train_loss = 0.0
    val_loss = 0.0
    train_correct = 0
    val_correct = 0
    
    # حالت آموزش
    model.train()
    for inputs, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels.long())
        loss.backward()
        optimizer.step()
        
        train_loss += loss.item() * inputs.size(0)
        _, predicted = torch.max(outputs.data, 1)
        train_correct += (predicted == labels).sum().item()
    
    # حالت اعتبارسنجی
    model.eval()
    with torch.no_grad():
        for inputs, labels in val_loader:
            outputs = model(inputs)
            loss = criterion(outputs, labels.long())
            
            val_loss += loss.item() * inputs.size(0)
            _, predicted = torch.max(outputs.data, 1)
            val_correct += (predicted == labels).sum().item()
    
    # محاسبه معدل دقت و خطا
    train_loss = train_loss / train_size
    val_loss = val_loss / val_size
    train_accuracy = train_correct / train_size
    val_accuracy = val_correct / val_size
    
    # چاپ نتایج
    print(f'Epoch {epoch+1}/{num_epochs}')
    # چاپ نتایج
    print(f'Epoch {epoch+1}/{num_epochs}')
    print(f'Train Loss: {train_loss:.4f} | Train Accuracy: {train_accuracy:.4f}')
    print(f'Val Loss: {val_loss:.4f} | Val Accuracy: {val_accuracy:.4f}')
    print('-----------------------')

    # ذخیره‌سازی مدل
    torch.save(model.state_dict(), '/content/model.pt')

Epoch 1/10
Epoch 1/10
Train Loss: 0.6936 | Train Accuracy: 0.5000
Val Loss: 0.6669 | Val Accuracy: 1.0000
-----------------------
Epoch 2/10
Epoch 2/10
Train Loss: 0.6935 | Train Accuracy: 0.5000
Val Loss: 0.6689 | Val Accuracy: 1.0000
-----------------------
Epoch 3/10
Epoch 3/10
Train Loss: 0.6934 | Train Accuracy: 0.5000
Val Loss: 0.6708 | Val Accuracy: 1.0000
-----------------------
Epoch 4/10
Epoch 4/10
Train Loss: 0.6933 | Train Accuracy: 0.5000
Val Loss: 0.6726 | Val Accuracy: 1.0000
-----------------------
Epoch 5/10
Epoch 5/10
Train Loss: 0.6932 | Train Accuracy: 0.5000
Val Loss: 0.6745 | Val Accuracy: 1.0000
-----------------------
Epoch 6/10
Epoch 6/10
Train Loss: 0.6931 | Train Accuracy: 0.5000
Val Loss: 0.6763 | Val Accuracy: 1.0000
-----------------------
Epoch 7/10
Epoch 7/10
Train Loss: 0.6931 | Train Accuracy: 0.5000
Val Loss: 0.6781 | Val Accuracy: 1.0000
-----------------------
Epoch 8/10
Epoch 8/10
Train Loss: 0.6930 | Train Accuracy: 0.5000
Val Loss: 0.6799 | Val A