# INSTALL DADMATOOLS

In [1]:
! pip install dadmatools

Collecting dadmatools
  Downloading dadmatools-2.0.4-py3-none-any.whl (883 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.0/883.0 kB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting bpemb>=0.3.3 (from dadmatools)
  Downloading bpemb-0.3.5-py3-none-any.whl (19 kB)
Collecting Deprecated==1.2.6 (from dadmatools)
  Downloading Deprecated-1.2.6-py2.py3-none-any.whl (8.1 kB)
Collecting pyconll>=3.1.0 (from dadmatools)
  Downloading pyconll-3.2.0-py3-none-any.whl (27 kB)
Collecting pytorch-transformers>=1.1.0 (from dadmatools)
  Downloading pytorch_transformers-1.2.0-py3-none-any.whl (176 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m176.4/176.4 kB[0m [31m14.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting segtok>=1.5.7 (from dadmatools)
  Downloading segtok-1.5.11-py3-none-any.whl (24 kB)
Collecting supar==1.1.2 (from dadmatools)
  Downloading supar-1.1.2-py3-none-any.whl (87 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

# IMPORT LIBRARIES

In [2]:
from dadmatools.normalizer import Normalizer
from dadmatools.pipeline.informal2formal.main import Informal2Formal
import dadmatools.pipeline.language as language

Downloading file cache/dadmatools/fa_tokenizer.pt: : 639kB [00:01, 552kB/s]


# NORMALIZER

In [3]:
normalizer = Normalizer(
    full_cleaning=False,
    unify_chars=True,
    refine_punc_spacing=True,
    remove_extra_space=True,
    remove_puncs=True,
    remove_html=True,
    remove_stop_word=True,
    replace_email_with="<EMAIL>",
    replace_number_with="<NUMBER>",
    replace_url_with="<URL>",
    replace_mobile_number_with="<MOBILE>",
    replace_emoji_with="<EMOJI>",
    replace_home_number_with="<HOME>"
)

sample = """
<div>
مقاله‌ای که در سال ۲۰۲۱ منتشر شد، نشان داد که ۴۲٪ از کاربران از ایمیل‌های ناشناس استفاده می‌کنند.
برای اطلاعات بیشتر به سایت ما مراجعه کنید: https://www.example.com
می‌توانید از طریق ایمیل contact@example.com با ما تماس بگیرید.
شماره تلفن همراه: ۰۹۱۲۳۴۵۶۷۸۹
شماره تلفن منزل: ۰۲۱۸۷۶۵۴۳۲۱
ما در شبکه‌های اجتماعی نیز فعال هستیم. 😊
</div>
"""

print('input:', sample)
print('normalized input:', normalizer.normalize(sample))

input: 
<div>
مقاله‌ای که در سال ۲۰۲۱ منتشر شد، نشان داد که ۴۲٪ از کاربران از ایمیل‌های ناشناس استفاده می‌کنند.
برای اطلاعات بیشتر به سایت ما مراجعه کنید: https://www.example.com
می‌توانید از طریق ایمیل contact@example.com با ما تماس بگیرید.
شماره تلفن همراه: ۰۹۱۲۳۴۵۶۷۸۹
شماره تلفن منزل: ۰۲۱۸۷۶۵۴۳۲۱
ما در شبکه‌های اجتماعی نیز فعال هستیم. 😊
</div>

normalized input: مقاله‌ای سال <NUMBER> منتشر <NUMBER>٪ کاربران ایمیل‌های ناشناس اطلاعات سایت مراجعه <URL> می‌توانید ایمیل <EMAIL> تماس شماره تلفن همراه <MOBILE> شماره تلفن منزل <HOME><NUMBER> شبکه‌های اجتماعی فعال <EMOJI>


INFORMAL2FORMAL

In [5]:
formalizer = Informal2Formal()

informal_sample = 'این یه جمله غیررسمیه که اگه خواستین میتونین به رسمی تبدیلش کنین'

print('input:', informal_sample)
print('formalized input:', formalizer.translate(informal_sample))

3gram.bin: 2.30GB [01:36, 25.7MB/s]
assets.pkl: 3.14MB [00:00, 17.3MB/s]
irregular_verb_mapper.csv: 100%|██████████| 1.57k/1.57k [00:00<00:00, 4.14MB/s]
verbs.csv: 100%|██████████| 39.4k/39.4k [00:00<00:00, 7.81MB/s]
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
input: این یه جمله غیررسمیه که اگه خواستین میتونین به رسمی تبدیلش کنین
formalized input:  این یک جمله غیررسمی است که اگر خواستید می‌توانید به رسمی تبدیلش بکنید


# Setup NLP pipeline with various modules

In [7]:
pips = 'ner,sent,pos,spellchecker,dep,kasreh,itf,lem'
nlp = language.Pipeline(pips)

# Example text for NLP pipeline
nlp_text = "من در دانشگاه علم و صنعت درس می‌خوانم. این یک جمله تستی است."

# Apply the NLP pipeline to the text
doc = nlp(nlp_text)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Loading lemmatizer for persian
Loading NER tagger for persian
Loading Kasreh tagger for persian




file cache/dadmatools/3gram.bin already exist
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Active language: persian


1it [00:00,  1.96it/s]


# 1. SpellChecker Module

In [9]:
sample = 'نمازگذاران به پا خواستند.'
doc = nlp(sample)
doc['spellchecker']

1it [00:00,  1.91it/s]


{'orginal': 'نمازگذاران به پا خواستند.',
 'corrected': 'نمازگذاران به پا خواستند.',
 'checked_words': []}

as you know, the corrected sentence should be: <br>
نمازگزاران به پاخاستند. <br>
while spellchecker module returned:<br>
نمازگذاران به پا خواستند.

#2. LEM Module


In [11]:
sample = 'پرستو در آسمان پراوز می‌کرد'
doc = nlp(sample)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['lemma'])

1it [00:00,  1.98it/s]


پرست#پرس
در
آسمان
پراوزت#پراو
کرد#کن


as you can see the module has lemmatized word پرستو which is incorrect.

# 3. NER Module

In [13]:
sample = 'دوستان فیلم خوب هالیوودی چی پیشنهاد می‌دین؟ ژانرش مهم نیست.'
doc = nlp(sample)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
        print(f"token:{token['text']}     ner:{token['ner']}")

1it [00:00,  2.33it/s]


token:دوستان     ner:O
token:فیلم     ner:O
token:خوب     ner:O
token:هالیوودی     ner:O
token:چی     ner:O
token:پیشنهاد     ner:O
token:می‌دین     ner:O
token:؟     ner:O
token:ژانرش     ner:O
token:مهم     ner:O
token:نیست     ner:O
token:.     ner:O


as you can see, ner module has returned 0 for every single token. not the true ner lables.

# 4. POS Module

In [14]:
sample = 'یکی از تلخ‌ترین سرگذشت‌هایی بود که شنیدم.'
doc = nlp(sample)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
        print(f"token:{token['text']}     upos:{token['upos']}     xpos:{token['xpos']}")

1it [00:00,  2.83it/s]


token:یکی     upos:NUM     xpos:NUM
token:از     upos:AUX     xpos:V_PRS
token:تلخ‌ترین     upos:ADJ     xpos:ADJ_SUP
token:سرگذشت‌هایی     upos:NOUN     xpos:N_PL
token:بود     upos:VERB     xpos:V_PA
token:که     upos:SCONJ     xpos:CON
token:شنیدم     upos:VERB     xpos:V_PA
token:.     upos:PUNCT     xpos:DELM


the word سرگذشت should have object tag.

# 5. ITF Module

In [17]:
sample = 'اگر گرفتیش به منم قرضش بده'
doc = nlp(sample)
doc['itf']

1it [00:00,  3.63it/s]


' اگر گرفتیش به منم قرضش بده'

as you can see, the returned sentence is not in formal form.

# 6. DEP Module

In [21]:
sample = 'مهلا کتاب به دست به سمت کتابخانه حرکت کرد.'
doc = nlp(sample)
print(f"Text    Head    Deprel")
for sentence in doc['sentences']:
  dependency_parsing = sentence['tokens']
  for token in dependency_parsing:
    print(token['text'],'\t',token['head'],'\t',token['deprel'])

1it [00:00,  2.79it/s]


Text    Head    Deprel
مهلا 	 9 	 nsubj
کتاب 	 1 	 fixed
به 	 2 	 fixed
دست 	 1 	 fixed
به 	 7 	 case
سمت 	 5 	 fixed
کتابخانه 	 9 	 obl
حرکت 	 5 	 compound:lvc
کرد 	 0 	 root
. 	 3 	 punct


the adverb کتاب به دست is not correctly recognized.

# 7. TOK Module

In [22]:
sample = 'پارسال تابستان به واشنگتن دی سی رفته بودم'
doc = nlp(sample)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['text'])

1it [00:00,  3.86it/s]


پارسال
تابستان
به
واشنگتن
دی
سی
رفته
بودم


the word واشنگتن دی سی should be a single token.

# 8. SENT Module

In [23]:
sample = 'برخلاف ایرادات متعددی که در ساخت فیلم وجود داشت توانست نظر منتقدین را جلب کند'
doc = nlp(sample)
doc['sentiment']

1it [00:00,  2.05it/s]


[{'label': 'negative', 'score': 0.388910710811615}]

sentence does not contain negative sentiment.

9. KASREH Module

In [24]:
sample =  'کتاب تخصصی زیست شناسی مریم را قرض گرفتم.'
doc = nlp(sample)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
        print(f"{token['text']}     kasreh:{token['kasreh']}")

1it [00:00,  1.29it/s]


کتاب     kasreh:S-kasreh
تخصصی     kasreh:S-kasreh
زیست     kasreh:S-kasreh
شناسی     kasreh:S-kasreh
مریم     kasreh:O
را     kasreh:O
قرض     kasreh:S-kasreh
گرفتم     kasreh:O
.     kasreh:O


the word قرض doesn't contain kasreh.