# Hazm 📚
🎓 Persian NLP toolkit

🛠️ Normalises script

🔍 Tokenises & stems

🏷️ POS tagging, lemmatisation

🌐 Basic dependency parsing

In [None]:
!pip install hazm


In [None]:
from hazm import *


In [None]:
normalizer = Normalizer()
normalizer.normalize('مي‌ رود 123٤۵۶')


'می\u200cرود ۱۲۳۴۵۶'

In [None]:
spacy_chunker = SpacyChunker(model_path = 'model_path')
tree = spacy_chunker.parse(sentence = [('نامه', 'NOUN,EZ'), ('ایشان', 'PRON'), ('را', 'ADP'), ('دریافت', 'NOUN'), ('داشتم', 'VERB'), ('.', 'PUNCT')])
print(tree)


In [None]:
from hazm import word_tokenize

sent = "کتابم را به او می‌دهم."
word_tokenize(sent)

['کتابم', 'را', 'به', 'او', 'می\u200cدهم', '.']

In [None]:
!pip install stanza

In [None]:
from stanza import Pipeline
nlp = Pipeline('fa', processors='tokenize,pos,lemma')
doc = nlp("کتاب‌هایمان را می‌آورند")
[ (w.text, w.lemma) for w in doc.iter_words() ]

[('کتاب\u200cهای', 'کتاب'),
 ('مان', 'ما'),
 ('را', 'را'),
 ('می\u200cآورند', 'آورد')]

# Stanza‑fa 🧠
⚡ GPU‑ready UD pipeline

🔍 Tokenize + multi‑word split

🏷️ POS, lemma, morphology

🌳 BiLSTM dependency parser

🆔 NER finetuned on PEYMA

In [None]:
!pip install stanza


In [None]:
import stanza, spacy
# Stanza pipeline with GPU
nlp = stanza.Pipeline('fa', processors='tokenize,mwt,pos,lemma,depparse', use_gpu=True)
doc = nlp("دیروز کتاب جذابی برای علی خریدم.")

# spaCy visual (RTL)
nlp_sp = spacy.blank("fa_udpipe")
# nlp_sp.add_pipe("dependency_parser")
doc.sentences[0].print_dependencies()
spacy.displacy.render(nlp_sp(doc.text), style="dep", options={'direction':'rtl'})

('دیروز', 6, 'obl')
('کتاب', 6, 'obj')
('جذابی', 2, 'amod')
('برای', 5, 'case')
('علی', 6, 'obl')
('خریدم', 0, 'root')
('.', 6, 'punct')


# Parsivar 📚
* Rule‑based Persian pre‑processor

* Normalization, tokenization, stemming

* POS tagger and lemmatizer

* NER with CRF model

* Lightweight, pure‑Python friendly

In [None]:
!pip install parsivar


Collecting parsivar
  Downloading parsivar-0.2.3.1-py3-none-any.whl.metadata (242 bytes)
Downloading parsivar-0.2.3.1-py3-none-any.whl (18.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.0/18.0 MB[0m [31m104.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: parsivar
Successfully installed parsivar-0.2.3.1


In [None]:
tmp_text = " 123 ۱۲۳ اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند"

from parsivar import Normalizer
my_normalizer = Normalizer()
print(my_normalizer.normalize(tmp_text))


123 123 اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند


In [None]:
my_normalizer = Normalizer(statistical_space_correction=True)
print(my_normalizer.normalize(tmp_text))


123 123 اصلاح‌نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند


In [None]:
my_normalizer = Normalizer(date_normalizing_needed=True)
print(my_normalizer.normalize(tmp_text))


15129 اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند


In [None]:
my_normalizer = Normalizer(pinglish_conversion_needed=True)
print(my_normalizer.normalize("farda asman abri ast."))


فردا اسمان ابری است .


In [None]:
from parsivar import FindStems
my_stemmer = FindStems()
print(my_stemmer.convert_to_stem("بیابیم"))


یافت&یاب


# BERT‑fa 🤖
* Transformer Persian language backbone

* Pretrained on 3 B‑token corpus

* Embeddings for NER, sentiment

* HF id: bert-fa-base

* Fine‑tune, deploy with ease

In [None]:
!pip install --upgrade transformers


In [None]:
from transformers import pipeline

model_id = "HooshvareLab/bert-fa-base-uncased-ner-peyma"   # PEYMA‑only
# model_id = "HooshvareLab/bert-fa-zwnj-base-ner"          # mixed ARMAN+PEYMA+WikiANN
ner = pipeline("ner", model=model_id, aggregation_strategy="simple")

text = "دکتر سارا گل‌محمدی در تهران سخنرانی کرد."
print(ner(text))


[{'entity_group': 'B_PER', 'score': np.float32(0.999181), 'word': 'سارا', 'start': 5, 'end': 9}, {'entity_group': 'I_PER', 'score': np.float32(0.9997402), 'word': 'گلمحمدی', 'start': 10, 'end': 18}, {'entity_group': 'B_LOC', 'score': np.float32(0.99893755), 'word': 'تهران', 'start': 22, 'end': 27}]


In [None]:
from transformers import pipeline
sent = pipeline('sentiment-analysis',
                model='HooshvareLab/bert-fa-base-uncased-sentiment-digikala')

print(sent("این گوشی واقعاً بی‌نظیره!"))

[{'label': 'recommended', 'score': 0.9822326898574829}]


# GPT2‑fa ✍️
* Autoregressive Persian language model

* 124 M parameters, GPT‑2 architecture

* Trained on 500 M Persian tokens

* Text generation, continuation, summarisation

* HF id: HooshvareLab/gpt2-fa








In [1]:
# Editable prompt and generation settings
system_instruction = "شما یک دستیار فارسی هستید که به سؤالات با لحن دوستانه پاسخ می‌دهید."
user_prompt = "سلام! میشه دربارهٔ هوش مصنوعی توضیح بدی؟"
full_prompt = system_instruction + "\n\n" + user_prompt


from transformers import AutoTokenizer, AutoModelForCausalLM

# Load pre-trained Farsi text generation model
model_name = "HooshvareLab/gpt2-fa"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Encode input and generate output
inputs = tokenizer(full_prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=500, do_sample=True)

# Decode and remove prompt from output
decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
generated_text = decoded[len(full_prompt):].strip()

print("🟢 پاسخ:\n", generated_text)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/728 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/808 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.16M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/875k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.75M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/14.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/104 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/485M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:5 for open-end generation.


model.safetensors:   0%|          | 0.00/485M [00:00<?, ?B/s]

🟢 پاسخ:
 با خوندن پست دیگه، این پست هم دوباره به سر شما گرم میشه و بعد از مدتی در مورد هوش مصنوعی توضیح دادیم. به این نتیجه رسیدیم که ما باید روی هوش مصنوعی و یادگیری ماشین مسلط باشیم و به طور کلی هم باید به دو فاکتور مهم با هم کار کنیم. به این فکر کردیم که یه نرم‌افزار برای یادگیری زبان به چه صورتی ساخته میشه و با چه نرم‌افزارهایی می‌تونیم زبان انگلیسی رو آموزش بدیم. در آخر به این نتیجه رسیدیم که در آینده یادگیری با یادگیری ماشین بسیار کاربردی می‌شه؛ پس بهتره که از آموزش‌هایی که با استفاده از زبان‌های برنامه‌نویسی رایج به وجود اومدن استفاده کنیم. من و بهرام همونی که در مورد یادگیری ماشین با کمک نرم‌افزارهای معروفی مثل AIoTagger و AIoTagger و … صحبت می‌کردیم، به این نتیجه رسیدیم که باید یک برنامهٔ کاربردی برای یادگیری ماشین بنویسیم و با استفاده از همین برنامه، یک نسخهٔ یادگیری ماشین از آن رو بنویسیم. پس از اون برای نوشتن یک پروسس (project) یک نمونه از یک نرم‌افزار، کافی‌ست یک پروسس داشته باشید؛ یا مثلا یک پروسس برای اینکه یک پروسس ایجاد کند، لازم نیست حتما یک نسخهٔ یادگیری ماشین از آن 