# **DadmaTools:  A Python NLP Library for Persian**
1. Download the toolkit via `pip`

In [1]:
!pip install dadmatools

Collecting dadmatools
  Downloading dadmatools-2.0.4-py3-none-any.whl (883 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.0/883.0 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting bpemb>=0.3.3 (from dadmatools)
  Downloading bpemb-0.3.5-py3-none-any.whl (19 kB)
Collecting Deprecated==1.2.6 (from dadmatools)
  Downloading Deprecated-1.2.6-py2.py3-none-any.whl (8.1 kB)
Collecting pyconll>=3.1.0 (from dadmatools)
  Downloading pyconll-3.2.0-py3-none-any.whl (27 kB)
Collecting pytorch-transformers>=1.1.0 (from dadmatools)
  Downloading pytorch_transformers-1.2.0-py3-none-any.whl (176 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m176.4/176.4 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting segtok>=1.5.7 (from dadmatools)
  Downloading segtok-1.5.11-py3-none-any.whl (24 kB)
Collecting supar==1.1.2 (from dadmatools)
  Downloading supar-1.1.2-py3-none-any.whl (87 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

DadmaTools has different NLP models: *normalizer, tokenizer, lemmatizer, pos tagger, dependancy parser, and constituency parser.*

The normalizer can be used with the code below:

In [2]:
from dadmatools.normalizer import Normalizer

normalizer = Normalizer(
    full_cleaning=False,
    unify_chars=True,
    refine_punc_spacing=True,
    remove_extra_space=True,
    remove_puncs=False,
    remove_html=False,
    remove_stop_word=False,
    replace_email_with="<EMAIL>",
    replace_number_with=None,
    replace_url_with="",
    replace_mobile_number_with=None,
    replace_emoji_with=None,
    replace_home_number_with=None
)

text = """
<p>
دادماتولز اولین نسخش سال ۱۴۰۰ منتشر شده.
امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه
لطفا با ایمیل dadmatools@dadmatech.ir با ما در ارتباط باشید
آدرس گیت‌هاب هم که خب معرف حضور مبارک هست:
 https://github.com/Dadmatech/DadmaTools
</p>
"""
print('input text : ', text)
print('output text when replace emails and remove urls : ', normalizer.normalize(text))

#full cleaning
normalizer = Normalizer(full_cleaning=True)
print('output text when using full_cleaning parameter', normalizer.normalize(text))

input text :  
<p>
دادماتولز اولین نسخش سال ۱۴۰۰ منتشر شده.
امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه
لطفا با ایمیل dadmatools@dadmatech.ir با ما در ارتباط باشید
آدرس گیت‌هاب هم که خب معرف حضور مبارک هست:
 https://github.com/Dadmatech/DadmaTools
</p>

output text when replace emails and remove urls :  <p> دادماتولز اولین نسخش سال 1400 منتشر شده. امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه لطفا با ایمیل <EMAIL> با ما در ارتباط باشید آدرس گیت‌هاب هم که خب معرف حضور مبارک هست: </p>
output text when using full_cleaning parameter دادماتولز نسخش سال منتشر تولز بتونه کار متن براتون شیرین‌تر راحت‌تر کنه ایمیل ارتباط آدرس گیت‌هاب معرف حضور مبارک


**Other NLP models can be used via pipeline. Each task has its own abbreviation.**

In [3]:
from dadmatools.pipeline.informal2formal.main import Informal2Formal
translator = Informal2Formal()

print(translator.translate('اینو اگه خواستین میتونین واسه تبدیل تست کنین '))

Downloading file cache/dadmatools/fa_tokenizer.pt: : 639kB [00:01, 499kB/s]                           


3gram.bin: 2.30GB [00:33, 74.3MB/s]
assets.pkl: 3.14MB [00:00, 14.5MB/s]
irregular_verb_mapper.csv: 100%|██████████| 1.57k/1.57k [00:00<00:00, 6.10MB/s]
verbs.csv: 100%|██████████| 39.4k/39.4k [00:00<00:00, 9.23MB/s]
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
 این را اگر خواستید می‌توانید برای تبدیل تست بکنید


In [4]:
import dadmatools.pipeline.language as language

# as tokenizer is the default tool, it will be loaded even without calling
pips = 'lem,pos,ner,dep,cons,spellchecker,kasreh,sent,itf'
nlp = language.Pipeline(pips)

Downloading:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

persian.vocabs.json:   0%|          | 0.00/6.10k [00:00<?, ?B/s]

persian_lemmatizer.pt:   0%|          | 0.00/2.89M [00:00<?, ?B/s]

persian_mwt_expander.pt:   0%|          | 0.00/589k [00:00<?, ?B/s]

persian.tagger.mdl:   0%|          | 0.00/17.0M [00:00<?, ?B/s]

persian.tokenizer.mdl:   0%|          | 0.00/9.51M [00:00<?, ?B/s]

persian.kasreh.mdl:   0%|          | 0.00/10.4M [00:00<?, ?B/s]

persian.kasreh-vocab.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

persian.ner.mdl:   0%|          | 0.00/10.5M [00:00<?, ?B/s]

persian.ner-vocab.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

persian.sent.mdl:   0%|          | 0.00/10.4M [00:00<?, ?B/s]

Loading pretrained XLM-Roberta, this may take a while...


Downloading:   0%|          | 0.00/512 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Loading lemmatizer for persian
Loading NER tagger for persian
Loading Kasreh tagger for persian


config.json:   0%|          | 0.00/841 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

state_dict_nevise.pt:   0%|          | 0.00/959M [00:00<?, ?B/s]

vocab.pkl:   0%|          | 0.00/3.80M [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.20M [00:00<?, ?B/s]



config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

3gram.bin: 2.30GB [00:37, 66.4MB/s]
assets.pkl: 3.14MB [00:00, 38.4MB/s]                   
irregular_verb_mapper.csv: 100%|██████████| 1.57k/1.57k [00:00<00:00, 5.87MB/s]
verbs.csv: 100%|██████████| 39.4k/39.4k [00:00<00:00, 10.3MB/s]
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Active language: persian


In [5]:
# text = 'من صادق جعفری‌زاده به عنوان توسعه‌دهنده دادماتولز از شرکت دادماتک هستم. من به لوزامبورگ خواهم رفت.'
# doc = nlp(text)
# doc

# 1. Named Entity Recognition

In [None]:
text = 'من در دانشگاه علم می آموزم'
doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['text'],'\t',token['ner'])

1it [00:00, 40.09it/s]


من 	 O
در 	 O
دانشگاه 	 B-LOC
علم 	 E-LOC
می 	 O
آموزم 	 O


دانشگاه علم به صورت یک کلمه در نظر گرفته شده ولی این دو جدا از هم می باشند و علم مفعول می باشد.

# 2. Part of speech tagging

In [None]:
text = "من بازی دوس دارم"
doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['text'],'\t',token['upos'],'\t',token['xpos'])

1it [00:00, 42.56it/s]


من 	 PRON 	 PRO
بازی 	 NOUN 	 N_SING
دوس 	 NOUN 	 N_SING
دارم 	 VERB 	 V_PRS


بازی در نقش مفعول می باشد که تشخیص داده نشده است.

# 3. Dependency parsing

In [None]:
text = 'من در خانه نشسته بودم که طوفان شد'
doc = nlp(text)
for sentence in doc['sentences']:
  dependency_parse = sentence['tokens']
  for token in dependency_parse:
    print(token['text'],'\t',token['head'],'\t',token['deprel'])

1it [00:00, 27.35it/s]


من 	 8 	 nsubj
در 	 8 	 case
خانه 	 8 	 obl
نشسته 	 2 	 fixed
بودم 	 2 	 aux
که 	 8 	 mark
طوفان 	 8 	 advcl
شد 	 0 	 root


# 4. Kasreh Ezafe Detection

In [None]:
text = 'معجزه دوش آب سرد بعد از یک فوتبال طولانی'
doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['text'],'\t',token['kasreh'])

1it [00:00, 60.23it/s]


معجزه 	 S-kasreh
دوش 	 S-kasreh
آب 	 S-kasreh
سرد 	 O
بعد 	 O
از 	 O
یک 	 O
فوتبال 	 S-kasreh
طولانی 	 S-kasreh


در اینجا طولانی نباید کسره بگیرد

# 5. Lemmatizing

In [None]:
text = "رفتیم بیرون تا کمی غذا بخریم و لباس بدوزیم"
doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['lemma'])

1it [00:00, 57.18it/s]


رفت#رو
بیرون
تا
کم
غذا
_
و
لباس
_


بخریم و بدوزیم تفسیر نشده اند.

# 6. Tokenizing

In [None]:
text = 'بندر عباس در خلیج فارس می باشد'
doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['text'])

1it [00:00, 10.60it/s]


بندر
عباس
در
خلیج
فارس
می
باشد


بندر عباس یک اسم می باشد

# 7. Spellchecker

In [None]:
text = 'من علافه زیادی به تحسیل در حوضه مدیرت دارم'
doc = nlp(text)
doc['spellchecker']

1it [00:00, 39.01it/s]


{'orginal': 'من علافه زیادی به تحسیل در حوضه مدیرت دارم',
 'corrected': 'من علاقه زیادی به تحصیل در حوضه مدیریت دارم',
 'checked_words': [('علافه', 'علاقه'),
  ('تحسیل', 'تحصیل'),
  ('مدیرت', 'مدیریت')]}

علارقم اینکه اشتباهاتی مانند علافه و تحسیل تشخیص داده شده اند، اما حوضه که درست آن حوزه می باشد تشخیص داده نشده است.

# 8. informal2formal

In [6]:
text = "کجا میخوای بری"
doc = nlp(text)
doc['itf']

1it [00:01,  1.07s/it]


' کجا می\u200cخواهی بری'

به جای بری باید بروی قرار بگیرد

# 9. Sentiment analysis

In [12]:
text = 'ایران کشوری بزرگ و عجیب می باشد'
doc = nlp(text)
doc['sentiment']

1it [00:00, 26.42it/s]


[{'label': 'negative', 'score': 0.5307673215866089}]

جمله مثبت می باشد اما تگ منفی گرفته است.

# Loading Persian NLP Datasets

In [None]:
from dadmatools.datasets import get_all_datasets_info, get_dataset_info
from dadmatools.datasets import ARMAN
from dadmatools.datasets import TEP
from dadmatools.datasets import PerSentLexicon
from dadmatools.datasets import FaSpell
from dadmatools.datasets import WikipediaCorpus
from dadmatools.datasets import PersianNer
from dadmatools.datasets import PersianNews
from dadmatools.datasets import PnSummary
from dadmatools.datasets import FarsTail
from dadmatools.datasets import SnappfoodSentiment
from dadmatools.datasets import get_all_datasets_info
from dadmatools.datasets import Peyma
from dadmatools.datasets import PerUDT
from dadmatools.datasets import PersianTweets
from pprint import pprint

In [None]:
pprint(get_all_datasets_info(tasks=['NER', 'Sentiment-Analysis']))

{'ARMAN': {'description': 'ARMAN dataset holds 7,682 sentences with 250,015 '
                          'sentences tagged over six different classes.\n'
                          '\n'
                          'Organization\n'
                          'Location\n'
                          'Facility\n'
                          'Event\n'
                          'Product\n'
                          'Person',
           'filenames': ['train_fold1.txt',
                         'train_fold2.txt',
                         'train_fold3.txt',
                         'test_fold1.txt',
                         'test_fold2.txt',
                         'test_fold3.txt'],
           'name': 'ARMAN',
           'size': {'test': 7680, 'train': 15361},
           'splits': ['train', 'test'],
           'task': 'NER',
           'version': '1.0.0'},
 'PersianNer': {'description': 'source: '
                               'https://github.com/Text-Mining/Persian-NER',
                'filenames'

In [None]:
pprint(get_dataset_info('PerUDT'))

{'description': 'The Persian Universal Dependency Treebank (PerUDT) is the '
                'result of automatic coversion of Persian Dependency Treebank '
                '(PerDT) with extensive manual corrections',
 'filenames': ['fa_perdt-ud-train.conllu',
               'fa_perdt-ud-dev.conllu',
               'fa_perdt-ud-test.conllu'],
 'name': 'PerUDT',
 'size': {'dev': 1456, 'test': 1455, 'train': 26196},
 'splits': ['train', 'test', 'dev'],
 'task': 'Treebank',
 'version': '1.0.0'}


In [None]:
print('*** WikipediaCorpus dataset ****')
print()
wiki = WikipediaCorpus()
print('len data ', len(wiki.data))
print()
print('sample: ', next(wiki.data))
print()
print('****** dataset details:********\n ')
print(wiki.info)

*** WikipediaCorpus dataset ****



Downloading...
From (original): https://drive.google.com/uc?id=1jHje8Q07tQWEpt8cEpFR_TOuqjFs79Vb
From (redirected): https://drive.google.com/uc?id=1jHje8Q07tQWEpt8cEpFR_TOuqjFs79Vb&confirm=t&uuid=9a596dac-8f91-43e2-85c2-532f1fd3e5d3
To: /root/.dadmatools/datasets/WikipediaCorpus/wikipedia.tar.xz
100%|██████████| 186M/186M [00:07<00:00, 25.2MB/s]


len data  2184117

sample:  {'title': 'صفحهٔ اصلی', 'content': '&nbsp;مقاله\u200cهای برگزیده &ndash; مقالهٔ امروز\nامروز: ،  میلادی برابر  هجری خورشیدی و  (UTC)\n→ روز قبل &ndash; روز بعد ←یادبودهای  &ndash; یادبودهای بیشتر...\n بایگانی   &ndash; نگاره\u200cهای برگزیدهٔ بیشتر\n __NOTOC__ __NOEDITSECTION__'}

****** dataset details:********
 
name: WikipediaCorpus
version: 20211201
task: Corpus
description: fawiki dump progress on 20211201 / All pages, current versions only.
size: 2184117
filenames: ['cleaned_wiki.txt']


In [None]:
arman = ARMAN()
print('**** Arman dataset **** ')
print('splits: ', arman.info.splits)
print(len(arman.train))
print(next(arman.test))

ArmanPersoNERCorpus.zip: 100%|██████████| 1.84M/1.84M [00:00<00:00, 10.9MB/s]
**** Arman dataset **** 
splits:  ['train', 'test']
15361
[{'token': 'به', 'tag': 'O'}, {'token': 'عنوان', 'tag': 'O'}, {'token': 'مثال', 'tag': 'O'}, {'token': 'وقتی', 'tag': 'O'}, {'token': 'نشریات', 'tag': 'O'}, {'token': 'مدافع', 'tag': 'O'}, {'token': 'اصول', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'ارزشها', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'منادی', 'tag': 'O'}, {'token': 'انقلاب', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'اسلام', 'tag': 'O'}, {'token': 'در', 'tag': 'O'}, {'token': 'بالاترین', 'tag': 'O'}, {'token': 'درجه', 'tag': 'O'}, {'token': '،', 'tag': 'O'}, {'token': 'اولین', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'درشت\u200cترین', 'tag': 'O'}, {'token': 'تیتر', 'tag': 'O'}, {'token': 'نشریه', 'tag': 'O'}, {'token': 'خود', 'tag': 'O'}, {'token': 'را', 'tag': 'O'}, {'token': 'در', 'tag': 'O'}, {'token': 'صدر', 'tag': 'O'}, {'token': 'صفحه', 'tag': 

# Using Pre-Trained Persian Word Embeddings

In [None]:
from dadmatools.embeddings import get_embedding, get_all_embeddings_info, get_embedding_info

In [None]:
pprint(get_all_embeddings_info())

{'fasttext-commoncrawl-bin': {'algorithm': 'fasttext',
                              'corpus': 'CommonCrawl',
                              'desc': '',
                              'dim': 300,
                              'filename': 'cc.fa.300.bin',
                              'format': 'bin',
                              'url': 'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fa.300.bin.gz'},
 'fasttext-commoncrawl-vec': {'algorithm': 'fasttext',
                              'corpus': 'CommonCrawl',
                              'desc': '',
                              'dim': 300,
                              'filename': 'cc.fa.300.vec',
                              'format': 'vec',
                              'url': 'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fa.300.vec.gz'},
 'glove-wiki': {'algorithm': 'glove',
                'corpus': 'wikipedia',
                'desc': 'source: https://github.com/Text-Mining',
                'dim': 50,
      

In [None]:
pprint(get_embedding_info('glove-wiki'))

{'algorithm': 'glove',
 'corpus': 'wikipedia',
 'desc': 'source: https://github.com/Text-Mining',
 'dim': 50,
 'filename': 'vectors.txt',
 'format': 'txt',
 'url': 'https://raw.githubusercontent.com/Text-Mining/Persian-Wikipedia-Corpus/master/models/glove/vectors.zip'}


In [None]:
embedding = get_embedding('glove-wiki')
print(embedding['ابزار'])

vectors.zip: 100%|██████████| 45.9M/45.9M [00:00<00:00, 51.0MB/s]
[-0.308614 -0.168945 -2.576352  0.877447 -0.348502  0.582602  0.602845
  0.471903  0.533526  0.906185  0.907475 -0.167968 -0.095735 -0.475923
  0.276284  0.010084 -0.926263 -1.124971 -0.443414 -0.447227  0.259192
  0.078348  0.916888 -0.061847 -0.853357  0.996823 -0.26386   0.621702
  0.768682  0.250663  0.358242  0.571274 -0.321239  0.012563 -0.567481
  0.560345 -0.206234 -0.187835 -0.665903  0.234979 -0.442619  0.164727
 -0.262    -0.172979 -0.393394 -0.474647  0.480312  1.106502  0.767303
  0.046918]


In [None]:
print(embedding.embedding_text('ابزار پردازش متن فارسی'))

[ 8.2652763e-02  3.8418624e-01 -1.8762367e+00 -8.6866260e-02
  3.6461627e-01  7.5215775e-01  3.6994025e-01  4.9959701e-01
  1.2264743e-02  3.3335799e-01  5.5867076e-01  3.5873100e-01
  4.2627126e-01 -8.8378501e-01 -1.2670399e-01 -7.0495725e-01
 -6.2538046e-01 -5.5862820e-01 -3.2012752e-01 -1.8887758e-02
  2.8124401e-01  1.6167176e-01  5.9974694e-01  3.4806246e-01
 -1.4647543e-03  7.3103124e-01  1.9454075e-01  3.4274727e-01
  5.1055348e-01  5.3316355e-01  5.8826029e-01  1.2634257e+00
 -1.2206910e+00 -4.0682977e-01 -2.4609923e-01  6.5093577e-01
 -2.5686526e-01 -4.0690476e-01  4.8100728e-01  4.8069999e-02
 -6.2497050e-01 -2.3815494e-02  2.1647224e-01 -2.1010575e-01
 -8.5227352e-01 -4.0755576e-01  8.1856251e-02  1.1975710e+00
  5.1946604e-01  5.7960773e-01]


In [None]:
embedding.similarity('کتاب', 'کتب')

0.77167135

In [None]:
embedding.top_nearest('کتاب', 10)

[('کتابی', 0.9353402256965637),
 ('کتاب\u200cهای', 0.859483540058136),
 ('جلد', 0.8522471785545349),
 ('تالیف', 0.8399883508682251),
 ('نوشته', 0.8382429480552673),
 ('مقاله', 0.8335505127906799),
 ('نوشته\u200cاست', 0.8273731470108032),
 ('شرح', 0.8273376822471619),
 ('ترجمه', 0.8256694078445435),
 ('می\u200cنویسد', 0.8014416694641113)]