In [1]:
import nltk
from parsivar import SpellCheck , Normalizer , Tokenizer , POSTagger , FindChunks , DependencyParser

In [2]:
import os
java_path = "C:\Program Files\Java\jdk-12.0.1\\bin\java.exe"
os.environ['JAVAHOME'] = java_path

In [3]:
myspell_checker = SpellCheck()
my_tokenizer = Tokenizer()
my_tagger = POSTagger(tagging_model="wapiti")
my_chunker = FindChunks()
myparser = DependencyParser()

In [4]:
pinglish_normalizer  = Normalizer(
half_space_char='\u200c',
pinglish_conversion_needed=True)


In [5]:
space_normalizer  = Normalizer(
half_space_char='\u200c',
statistical_space_correction=True)

In [6]:
persian_txt = "به گذارش ایسنا، در دانشگاه تهران مسابقه برنامه نویسی برگزار خواهد شد. این مسابقه تا 12 شهریور ادامه خواهد داشت."
pinglish_txt = "salaam. in mosabeghe jazzab ast"
full_txt = persian_txt + pinglish_txt

In [7]:
print(persian_txt)
print("-----------------------------------")
print(pinglish_txt)
print("-----------------------------------")
print(full_txt)

به گذارش ایسنا، در دانشگاه تهران مسابقه برنامه نویسی برگزار خواهد شد. این مسابقه تا 12 شهریور ادامه خواهد داشت.
-----------------------------------
salaam. in mosabeghe jazzab ast
-----------------------------------
به گذارش ایسنا، در دانشگاه تهران مسابقه برنامه نویسی برگزار خواهد شد. این مسابقه تا 12 شهریور ادامه خواهد داشت.salaam. in mosabeghe jazzab ast


In [9]:
full_txt = pinglish_normalizer.normalize(full_txt)
full_txt

'به گذارش ایسنا ، در دانشگاه تهران مسابقه برنامه نویسی برگزار خواهد شد . این مسابقه تا 12 شهریور ادامه خواهد داشت . سلام . این مسابقه جذاب است'

In [10]:
full_txt = myspell_checker.spell_corrector(full_txt)
full_txt

'به گزارش ایسنا ، در دانشگاه تهران مسابقه برنامه نویسی برگزار خواهد شد . این مسابقه تا 12 شهریور ادامه خواهد داشت . سلام . این مسابقه جذاب است'

In [11]:
full_txt = space_normalizer.normalize(full_txt)
full_txt

'به گزارش ایسنا ، در دانشگاه تهران مسابقه برنامه\u200cنویسی برگزار خواهد شد . این مسابقه تا 12 شهریور ادامه خواهد داشت . \u200cسلام . این مسابقه جذاب است'

In [14]:
sents = my_tokenizer.tokenize_sentences(full_txt)
print_sents(sents)

به گزارش ایسنا ، در دانشگاه تهران مسابقه برنامه‌نویسی برگزار خواهد شد  .
 این مسابقه تا 12 شهریور ادامه خواهد داشت  .
 ‌سلام  .
 این مسابقه جذاب است


In [15]:
for sent in sents:
    tagged_txt =my_tagger.parse(my_tokenizer.tokenize_words(sent));
    chunks = my_chunker.chunk_sentence(tagged_txt)
    print(my_chunker.convert_nestedtree2rawstring(chunks))


به [گزارش ایسنا NP] ، در [دانشگاه تهران مسابقه برنامه‌نویسی برگزار NP] [خواهد شد VP] .
[این مسابقه DNP] تا [12 شهریور ادامه NP] [خواهد داشت VP] .
[سلام NP] .
[این مسابقه جذاب DNP] [است VP]


In [16]:
parsed_sents = myparser.parse_sents(sents)
for sent in parsed_sents:
    print(sent.tree())

(شد
  (ایسنا به گزارش ،)
  (در (دانشگاه تهران))
  مسابقه
  برنامه‌نویسی
  برگزار
  خواهد
  .)
(داشت (مسابقه این) (تا (12 شهریور)) ادامه خواهد .)
(سلام .)
(است (مسابقه این) جذاب)


In [17]:
def print_sents(sents):
    for sent in sents:
        print(sent)