In [1]:
from platform import python_version

print(python_version())

3.9.6


In [2]:
!pip install wapiti3 parsivar



You should consider upgrading via the 'c:\users\mohammad\appdata\local\programs\python\python39\python.exe -m pip install --upgrade pip' command.


In [3]:
pip show wapiti3

Name: wapiti3
Version: 3.0.9
Summary: A web application vulnerability scanner
Home-page: https://wapiti.sourceforge.io/
Author: Nicolas Surribas
Author-email: nicolas.surribas@gmail.com
License: GPLv2
Location: c:\users\mohammad\appdata\local\programs\python\python39\lib\site-packages
Requires: aiocache, aiosqlite, beautifulsoup4, browser-cookie3, cryptography, dnspython, httpcore, httpx, httpx-socks, humanize, importlib-metadata, loguru, mako, markupsafe, PySocks, six, sqlalchemy, sslyze, tld, yaswfp
Required-by: 
Note: you may need to restart the kernel to use updated packages.


In [4]:
from parsivar import Normalizer

In [5]:
my_normalizer = Normalizer()

In [6]:
text = """محمد دهقانی علاقه ی زیادی به کار با مت ون پارسی دارد.
علاقه دیگر وی، تحلیل داده 1 می باشد.
حال عمدا واژه ی صبر را سبر می نویسد تا قدرت هضم را بررسی کنیم."""

In [7]:
print(text)

محمد دهقانی علاقه ی زیادی به کار با مت ون پارسی دارد.
علاقه دیگر وی، تحلیل داده 1 می باشد.
حال عمدا واژه ی صبر را سبر می نویسد تا قدرت هضم را بررسی کنیم.


In [8]:
print(my_normalizer.normalize(text))

محمد دهقانی علاقه ی زیادی به کار با مت ون پارسی دارد .
 علاقه دیگر وی ، تحلیل داده 1 می‌باشد .
 حال عمدا واژه ی صبر را سبر می‌نویسد تا قدرت هضم را بررسی کنیم .


In [9]:
my_normalizer = Normalizer(date_normalizing_needed=True)

In [10]:
print(my_normalizer.normalize(text))

محمد دهقانی علاقه ی زیادی به کار با مت ون پارسی دارد . علاقه دیگر وی ، تحلیل داده 1 می‌باشد . حال عمدا واژه ی صبر را سبر می‌نویسد تا قدرت هضم را بررسی کنیم .


In [11]:
 my_normalizer = Normalizer(pinglish_conversion_needed = True)

In [12]:
print(my_normalizer.normalize("hale delash abri ast."))

هاله دلش ابری است .


In [13]:
from parsivar import Tokenizer

In [14]:
my_tokenizer = Tokenizer()

In [15]:
sents = my_tokenizer.tokenize_sentences(my_normalizer.normalize(text))

In [16]:
print(sents)

['محمد دهقانی علاقه ی زیادی به کار با مت ون پارسی دارد  .', ' علاقه دیگر وی ، تحلیل داده 1 می\u200cباشد  .', ' حال عمدا واژه ی صبر را سبر می\u200cنویسد تا قدرت هضم را بررسی کنیم  .']


In [17]:
words = my_tokenizer.tokenize_words(my_normalizer.normalize(text))

In [18]:
print(words)

['محمد', 'دهقانی', 'علاقه', 'ی', 'زیادی', 'به', 'کار', 'با', 'مت', 'ون', 'پارسی', 'دارد', '.', 'علاقه', 'دیگر', 'وی', '،', 'تحلیل', 'داده', '1', 'می\u200cباشد', '.', 'حال', 'عمدا', 'واژه', 'ی', 'صبر', 'را', 'سبر', 'می\u200cنویسد', 'تا', 'قدرت', 'هضم', 'را', 'بررسی', 'کنیم', '.']


In [19]:
from parsivar import FindStems

In [20]:
my_stemmer = FindStems()

In [21]:
print(my_stemmer.convert_to_stem("آقایان"))

آقا


In [22]:
word_tests = ['درختان' ,'اژدها' ,'رفتارها' ,'برقص' ,'بنواز' ,'کفار' ,'برآشفتن']
for word in word_tests:
    print(word, '>>', my_stemmer.convert_to_stem(word))

درختان >> درخت
اژدها >> اژدها
رفتارها >> رفتار
برقص >> رقصید&رقص
بنواز >> نواخت&نواز
کفار >> کفار
برآشفتن >> برآشفتن


In [23]:
from parsivar import POSTagger

In [24]:
my_tagger = POSTagger(tagging_model="wapiti")

In [25]:
text = "این سمینار تا 13 شهریور ادامه می‌یابد ."
print(text)

این سمینار تا 13 شهریور ادامه می‌یابد .


In [26]:
text_tags = my_tagger.parse(my_tokenizer.tokenize_words(text))

In [27]:
print(text_tags)

[('این', 'DET'), ('سمینار', 'N'), ('تا', 'PO'), ('13', 'N'), ('شهریور', 'N'), ('ادامه', 'N'), ('می\u200cیابد', 'V_PR'), ('.', '.')]


In [28]:
from parsivar import FindChunks

In [29]:
my_chunker = FindChunks()

In [30]:
chunks = my_chunker.chunk_sentence(text_tags)

In [31]:
print(my_chunker.convert_nestedtree2rawstring(chunks))

[این سمینار DNP] تا [13 شهریور ادامه NP] [می‌یابد VP] .


In [32]:
from parsivar import DependencyParser

In [33]:
myparser = DependencyParser()

In [34]:
sents = "اسبی که سراسیمه می دوید."

In [35]:
sent_list = my_tokenizer.tokenize_sentences(sents)

In [36]:
sent_list

['اسبی که سراسیمه می دوید .']

In [37]:
parsed_sents = myparser.parse_sents(sent_list)

In [38]:
for depgraph in parsed_sents:
    print(depgraph.tree())

(اسبی (که (دوید سراسیمه می)))


In [39]:
from parsivar import SpellCheck

To use the spell checker module download it's resources from
https://www.dropbox.com/s/tlyvnzv1ha9y1kl/spell.zip?dl=0
and after extraction copy the spell/ directory to parsivar/resource.

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Mohammad\\AppData\\Local\\Programs\\Python\\Python39\\Lib\\site-packages\\parsivar/resource/spell/mybigram_lm.pckl'

C:\Users\Mohammad\AppData\Local\Programs\Python\Python39\Lib\site-packages\parsivar\resource

In [40]:
myspell_checker = SpellCheck()

In [41]:
res = myspell_checker.spell_corrector("نمازگذاران وارد مسلی شدند.")

In [42]:
res

'نمازگزاران وارد مصلی شدند .'