In [1]:
from platform import python_version

print(python_version())

3.7.6


In [2]:
!pip install parsivar



In [3]:
from parsivar import Normalizer

In [4]:
my_normalizer = Normalizer()

In [5]:
text = "به گزارش ایسنا سمینار شیمی آلی از امروز ۱۱ شهریور ۱۳۹۶ در دانشگاه علم و صنعت ایران آغاز به کار کرد. این سمینار تا ۱۳ شهریور ادامه می یابد."

In [6]:
print(my_normalizer.normalize(text))

به گزارش ایسنا سمینار شیمی آلی از امروز 11 شهریور 1396 در دانشگاه علم و صنعت ایران آغاز به کار کرد . این سمینار تا 13 شهریور ادامه می‌یابد .


In [7]:
my_normalizer = Normalizer(date_normalizing_needed=True)

In [8]:
print(my_normalizer.normalize(text))

به گزارش ایسنا سمینار شیمی آلی از امروز y1396m6d11 در دانشگاه علم و صنعت ایران آغاز به کار کرد . این سمینار تا y0m6d13 ادامه می‌یابد .


In [9]:
 my_normalizer = Normalizer(pinglish_conversion_needed = True)

In [10]:
print(my_normalizer.normalize("hale delash abri ast."))

هاله دلش ابری است .


In [11]:
from parsivar import Tokenizer

In [12]:
my_tokenizer = Tokenizer()

In [13]:
sents = my_tokenizer.tokenize_sentences(my_normalizer.normalize(text))

In [14]:
print(sents)

['به گزارش ایسنا سمینار شیمی آلی از امروز 11 شهریور 1396 در دانشگاه علم و صنعت ایران آغاز به کار کرد ', ' این سمینار تا 13 شهریور ادامه می\u200cیابد ', '']


In [15]:
words = my_tokenizer.tokenize_words(my_normalizer.normalize(text))

In [16]:
print(words)

['به', 'گزارش', 'ایسنا', 'سمینار', 'شیمی', 'آلی', 'از', 'امروز', '11', 'شهریور', '1396', 'در', 'دانشگاه', 'علم', 'و', 'صنعت', 'ایران', 'آغاز', 'به', 'کار', 'کرد', '.', 'این', 'سمینار', 'تا', '13', 'شهریور', 'ادامه', 'می\u200cیابد', '.']


In [17]:
from parsivar import FindStems

In [18]:
my_stemmer = FindStems()

In [19]:
print(my_stemmer.convert_to_stem("می رسم"))

رسید&رس


In [20]:
word_tests = ['درختان','اژدها','رفتارها','برقص','بنواز','کفار','برآشفتن']
for word in word_tests:
    print( word,'>>', my_stemmer.convert_to_stem(word))

درختان >> درخت
اژدها >> اژدها
رفتارها >> رفتار
برقص >> رقصید&رقص
بنواز >> نواخت&نواز
کفار >> کفار
برآشفتن >> برآشفتن


In [21]:
from parsivar import POSTagger

In [22]:
my_tagger = POSTagger(tagging_model="wapiti")

In [23]:
text = "این سمینار تا 13 شهریور ادامه می‌یابد ."
print(text)

این سمینار تا 13 شهریور ادامه می‌یابد .


In [24]:
text_tags = my_tagger.parse(my_tokenizer.tokenize_words(text))

In [25]:
print(text_tags)

[('این', 'DET'), ('سمینار', 'N'), ('تا', 'PO'), ('13', 'N'), ('شهریور', 'N'), ('ادامه', 'N'), ('می\u200cیابد', 'V_PR'), ('.', '.')]


In [26]:
from parsivar import FindChunks

In [27]:
my_chunker = FindChunks()

In [28]:
chunks = my_chunker.chunk_sentence(text_tags)

In [29]:
print(my_chunker.convert_nestedtree2rawstring(chunks))

[این سمینار DNP] تا [13 شهریور ادامه NP] [می‌یابد VP] .


In [30]:
from parsivar import DependencyParser

In [31]:
myparser = DependencyParser()

In [32]:
sents = "اسبی که سراسیمه می دوید."

In [33]:
sent_list = my_tokenizer.tokenize_sentences(sents)

In [34]:
parsed_sents = myparser.parse_sents(sent_list)

In [35]:
for depgraph in parsed_sents:
    print(depgraph.tree())

(اسبی (که (دوید سراسیمه می)))


In [36]:
from parsivar import SpellCheck

In [37]:
myspell_checker = SpellCheck()

In [38]:
res = myspell_checker.spell_corrector("نمازگذاران وارد مسلی شدند.")

In [39]:
res

'نمازگزاران وارد مصلی شدند .'