# **DadmaTools:  A Python NLP Library for Persian**
1. Download the toolkit via `pip`

In [1]:
!pip install dadmatools

Collecting dadmatools
  Downloading dadmatools-2.0.4-py3-none-any.whl (883 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.0/883.0 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting bpemb>=0.3.3 (from dadmatools)
  Downloading bpemb-0.3.5-py3-none-any.whl (19 kB)
Collecting Deprecated==1.2.6 (from dadmatools)
  Downloading Deprecated-1.2.6-py2.py3-none-any.whl (8.1 kB)
Collecting pyconll>=3.1.0 (from dadmatools)
  Downloading pyconll-3.2.0-py3-none-any.whl (27 kB)
Collecting pytorch-transformers>=1.1.0 (from dadmatools)
  Downloading pytorch_transformers-1.2.0-py3-none-any.whl (176 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m176.4/176.4 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting segtok>=1.5.7 (from dadmatools)
  Downloading segtok-1.5.11-py3-none-any.whl (24 kB)
Collecting supar==1.1.2 (from dadmatools)
  Downloading supar-1.1.2-py3-none-any.whl (87 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

DadmaTools has different NLP models: *normalizer, tokenizer, lemmatizer, pos tagger, dependancy parser, and constituency parser.*

The normalizer can be used with the code below:

In [2]:
from dadmatools.normalizer import Normalizer

normalizer = Normalizer(
    full_cleaning=False,
    unify_chars=True,
    refine_punc_spacing=True,
    remove_extra_space=True,
    remove_puncs=False,
    remove_html=False,
    remove_stop_word=False,
    replace_email_with="<EMAIL>",
    replace_number_with=None,
    replace_url_with="",
    replace_mobile_number_with=None,
    replace_emoji_with=None,
    replace_home_number_with=None
)

text = """
<p>
دادماتولز اولین نسخش سال ۱۴۰۰ منتشر شده.
امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه
لطفا با ایمیل dadmatools@dadmatech.ir با ما در ارتباط باشید
آدرس گیت‌هاب هم که خب معرف حضور مبارک هست:
 https://github.com/Dadmatech/DadmaTools
</p>
"""
print('input text : ', text)
print('output text when replace emails and remove urls : ', normalizer.normalize(text))

#full cleaning
normalizer = Normalizer(full_cleaning=True)
print('output text when using full_cleaning parameter', normalizer.normalize(text))

input text :  
<p>
دادماتولز اولین نسخش سال ۱۴۰۰ منتشر شده.
امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه
لطفا با ایمیل dadmatools@dadmatech.ir با ما در ارتباط باشید
آدرس گیت‌هاب هم که خب معرف حضور مبارک هست:
 https://github.com/Dadmatech/DadmaTools
</p>

output text when replace emails and remove urls :  <p> دادماتولز اولین نسخش سال 1400 منتشر شده. امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه لطفا با ایمیل <EMAIL> با ما در ارتباط باشید آدرس گیت‌هاب هم که خب معرف حضور مبارک هست: </p>
output text when using full_cleaning parameter دادماتولز نسخش سال منتشر تولز بتونه کار متن براتون شیرین‌تر راحت‌تر کنه ایمیل ارتباط آدرس گیت‌هاب معرف حضور مبارک


**Other NLP models can be used via pipeline. Each task has its own abbreviation.**

In [22]:
from dadmatools.pipeline.informal2formal.main import Informal2Formal
translator = Informal2Formal()

print(translator.translate('اینو اگه خواستین میتونین واسه تبدیل تست کنین '))

file cache/3gram.bin already exist
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
 این را اگر خواستید می‌توانید برای تبدیل تست بکنید


**Testing Informal2Formal**

In [19]:
print(translator.translate('اين استاده چرا انگيليسي حرف مي زنه همش'))

 این استاد است چرا انگیلیسی حرف می‌زند همه او


In [46]:
print(translator.translate('دروازه شمرون يه خونه بود كه معلممون اونجا يه مغازه گنده داشت'))

 دروازه شمرو هستند یک خونه بود که معلممون آن‌جا یک مغازه گنده داشت


**Testing Named Entity Recognition**

In [25]:
import dadmatools.pipeline.language as language

# as tokenizer is the default tool, it will be loaded even without calling
pips = 'ner'
nlp = language.Pipeline(pips)
text = 'محمد محمدزاده گرشاسبي به استانداري سن ديگو رفت'
doc = nlp(text)
doc

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Loading NER tagger for persian
Active language: persian


{'sentences': [{'id': 1,
   'tokens': [{'id': 1, 'text': 'محمد', 'ner': 'B-PER'},
    {'id': 2, 'text': 'محمدزاده', 'ner': 'I-PER'},
    {'id': 3, 'text': 'گرشاسبي', 'ner': 'E-PER'},
    {'id': 4, 'text': 'به', 'ner': 'O'},
    {'id': 5, 'text': 'استانداري', 'ner': 'B-ORG'},
    {'id': 6, 'text': 'سن', 'ner': 'I-ORG'},
    {'id': 7, 'text': 'ديگو', 'ner': 'E-ORG'},
    {'id': 8, 'text': 'رفت', 'ner': 'O'}]}],
 'lang': 'persian'}

In [47]:
# as tokenizer is the default tool, it will be loaded even without calling
pips = 'ner'
nlp = language.Pipeline(pips)
text = 'اي پيك نسيم صبا بار دگر گر به سر کوی دوست بگذري'
doc = nlp(text)
doc

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Loading NER tagger for persian
Active language: persian


{'sentences': [{'id': 1,
   'tokens': [{'id': 1, 'text': 'اي', 'ner': 'O'},
    {'id': 2, 'text': 'پيك', 'ner': 'O'},
    {'id': 3, 'text': 'نسيم', 'ner': 'O'},
    {'id': 4, 'text': 'صبا', 'ner': 'O'},
    {'id': 5, 'text': 'بار', 'ner': 'O'},
    {'id': 6, 'text': 'دگر', 'ner': 'O'},
    {'id': 7, 'text': 'گر', 'ner': 'O'},
    {'id': 8, 'text': 'به', 'ner': 'O'},
    {'id': 9, 'text': 'سر', 'ner': 'O'},
    {'id': 10, 'text': 'کوی', 'ner': 'O'},
    {'id': 11, 'text': 'دوست', 'ner': 'O'},
    {'id': 12, 'text': 'بگذري', 'ner': 'O'}]}],
 'lang': 'persian'}

**Testing Part of Speech Tagging**

In [48]:
# as tokenizer is the default tool, it will be loaded even without calling
pips = 'pos'
nlp = language.Pipeline(pips)
text = 'اي پيك نسيم صبا بار دگر گر به سر کوی دوست بگذري'
doc = nlp(text)
doc

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Active language: persian


{'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'اي',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 8,
     'deprel': 'root'},
    {'id': 2,
     'text': 'پيك',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'head': 8,
     'deprel': 'advmod'},
    {'id': 3,
     'text': 'نسيم',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 8,
     'deprel': 'nmod:poss'},
    {'id': 4,
     'text': 'صبا',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 8,
     'deprel': 'nmod:poss'},
    {'id': 5,
     'text': 'بار',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 8,
     'deprel': 'nmod:poss'},
    {'id': 6,
     'text': 'دگر',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 8,
     'deprel': 'nmod:poss'},
    {'id': 7,
     'text': 'گر',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats':

**Testing Dependency Parsing**

In [28]:
# as tokenizer is the default tool, it will be loaded even without calling
pips = 'dep'
nlp = language.Pipeline(pips)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Active language: persian


In [29]:
text = 'مرده آن است كه نبرند نامش به نكويي '
doc = nlp(text)
doc

{'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'مرده',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 0,
     'deprel': 'root'},
    {'id': 2,
     'text': 'آن',
     'upos': 'PRON',
     'xpos': 'PRO',
     'feats': 'Number=Sing|PronType=Dem',
     'head': 1,
     'deprel': 'nmod:poss'},
    {'id': 3,
     'text': 'است',
     'upos': 'VERB',
     'xpos': 'V_PRS',
     'feats': 'Number=Sing|Person=3|Tense=Pres',
     'head': 2,
     'deprel': 'aux'},
    {'id': 4,
     'text': 'كه',
     'upos': 'SCONJ',
     'xpos': 'CON',
     'head': 2,
     'deprel': 'mark'},
    {'id': 5,
     'text': 'نبرند',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 2,
     'deprel': 'ccomp'},
    {'id': 6,
     'text': 'نامش',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 2,
     'deprel': 'nsubj'},
    {'id': 7,
     'text': 'به',
     'upos': 'NOUN',
     'xpos': 'N_SING',


**Testing Kasreh Ezafe Detection**

In [30]:
# as tokenizer is the default tool, it will be loaded even without calling
pips = 'kasreh'
nlp = language.Pipeline(pips)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Loading Kasreh tagger for persian
Active language: persian


In [31]:
text = 'سپر عقب ماشين جلويي خورد به سپر جلوي ماشين عقبي'
doc = nlp(text)
doc

{'sentences': [{'id': 1,
   'tokens': [{'id': 1, 'text': 'سپر', 'kasreh': 'S-kasreh'},
    {'id': 2, 'text': 'عقب', 'kasreh': 'O'},
    {'id': 3, 'text': 'ماشين', 'kasreh': 'O'},
    {'id': 4, 'text': 'جلويي', 'kasreh': 'O'},
    {'id': 5, 'text': 'خورد', 'kasreh': 'O'},
    {'id': 6, 'text': 'به', 'kasreh': 'O'},
    {'id': 7, 'text': 'سپر', 'kasreh': 'S-kasreh'},
    {'id': 8, 'text': 'جلوي', 'kasreh': 'O'},
    {'id': 9, 'text': 'ماشين', 'kasreh': 'O'},
    {'id': 10, 'text': 'عقبي', 'kasreh': 'O'}]}],
 'lang': 'persian'}

**Testing Spellchecker**

In [32]:
# as tokenizer is the default tool, it will be loaded even without calling
pips = 'spellchecker'
nlp = language.Pipeline(pips)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian




Active language: persian


In [33]:
text = 'آميتيص پس از مدطي معتلي بلخره رسيد '
doc = nlp(text)
doc

1it [00:00,  2.55it/s]


{'spellchecker': {'orginal': 'آميتيص پس از مدطي معتلي بلخره رسيد ',
  'corrected': 'آميتيص پس از مدتی معتلي بالاخره رسید',
  'checked_words': [('مدطي', 'مدتی'), ('بلخره', 'بالاخره'), ('رسيد', 'رسید')]},
 'sentences': [{'id': 1,
   'tokens': [{'id': 1, 'text': 'آميتيص'},
    {'id': 2, 'text': 'پس'},
    {'id': 3, 'text': 'از'},
    {'id': 4, 'text': 'مدطي'},
    {'id': 5, 'text': 'معتلي'},
    {'id': 6, 'text': 'بلخره'},
    {'id': 7, 'text': 'رسيد'}]}],
 'lang': 'persian'}

**Testing Normalizer**

**Testing Tokenizer**

In [41]:
pips = 'tok'
nlp = language.Pipeline(pips)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Active language: persian


In [43]:
text = ''
doc = nlp(text)
doc

{'sentences': [{'id': 1, 'tokens': [{'id': 1, 'text': 'سوسك\u200cكش'}]}],
 'lang': 'persian'}

**Testing Lemmatizer**

In [36]:
pips = 'lem'
nlp = language.Pipeline(pips)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Loading lemmatizer for persian
Active language: persian


In [38]:
text = 'گردآوري كرديد'
doc = nlp(text)
doc

{'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'گردآوري',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 2,
     'deprel': 'root',
     'lemma': 'گردآوري'},
    {'id': 2,
     'text': 'كرديد',
     'upos': 'VERB',
     'xpos': 'V_PA',
     'head': 0,
     'deprel': 'root',
     'lemma': 'آرد#آ'}]}],
 'lang': 'persian'}

**Testing Sentiment Analysis**

In [34]:
pips = 'sent'
nlp = language.Pipeline(pips)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Active language: persian


In [35]:
text = 'آب توی دلش تکان نمی خورد'
doc = nlp(text)
doc

{'sentences': [{'id': 1,
   'tokens': [{'id': 1, 'text': 'آب'},
    {'id': 2, 'text': 'توی'},
    {'id': 3, 'text': 'دلش'},
    {'id': 4, 'text': 'تکان'},
    {'id': 5, 'text': 'نمی'},
    {'id': 6, 'text': 'خورد'}]}],
 'lang': 'persian',
 'sentiment': [{'label': 'negative', 'score': 0.527174711227417}]}

In [4]:
import dadmatools.pipeline.language as language

# as tokenizer is the default tool, it will be loaded even without calling
pips = 'lem,pos,ner,dep,cons,spellchecker,kasreh,sent,itf'
nlp = language.Pipeline(pips)

Downloading:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

persian.vocabs.json:   0%|          | 0.00/6.10k [00:00<?, ?B/s]

persian_lemmatizer.pt:   0%|          | 0.00/2.89M [00:00<?, ?B/s]

persian_mwt_expander.pt:   0%|          | 0.00/589k [00:00<?, ?B/s]

persian.tagger.mdl:   0%|          | 0.00/17.0M [00:00<?, ?B/s]

persian.tokenizer.mdl:   0%|          | 0.00/9.51M [00:00<?, ?B/s]

persian.kasreh.mdl:   0%|          | 0.00/10.4M [00:00<?, ?B/s]

persian.kasreh-vocab.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

persian.ner.mdl:   0%|          | 0.00/10.5M [00:00<?, ?B/s]

persian.ner-vocab.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

persian.sent.mdl:   0%|          | 0.00/10.4M [00:00<?, ?B/s]

Loading pretrained XLM-Roberta, this may take a while...


Downloading:   0%|          | 0.00/512 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Loading lemmatizer for persian
Loading NER tagger for persian
Loading Kasreh tagger for persian


config.json:   0%|          | 0.00/841 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

state_dict_nevise.pt:   0%|          | 0.00/959M [00:00<?, ?B/s]

vocab.pkl:   0%|          | 0.00/3.80M [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.20M [00:00<?, ?B/s]



config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

3gram.bin: 2.30GB [00:42, 58.6MB/s]
assets.pkl: 3.14MB [00:00, 17.0MB/s]
irregular_verb_mapper.csv: 100%|██████████| 1.57k/1.57k [00:00<00:00, 6.02MB/s]
verbs.csv: 100%|██████████| 39.4k/39.4k [00:00<00:00, 9.19MB/s]
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Active language: persian


In [5]:
text = 'من صادق جعفری‌زاده به عنوان توسعه‌دهنده دادماتولز از شرکت دادماتک هستم. من به لوزامبورگ خواهم رفت.'
doc = nlp(text)
doc

1it [00:01,  1.18s/it]


{'spellchecker': {'orginal': 'من صادق جعفری\u200cزاده به عنوان توسعه\u200cدهنده دادماتولز از شرکت دادماتک هستم. من به لوزامبورگ خواهم رفت.',
  'corrected': 'من صادق جعفری\u200cزاده به عنوان توسعه\u200cدهنده دادماتولز از شرکت دادماتک هستم.من به لوکزامبورگ خواهم رفت.',
  'checked_words': [('لوزامبورگ', 'لوکزامبورگ')]},
 'itf': ' من صادق جعفری زاده به عنوان توسعه\u200cدهنده دادماتولز از شرکت دادماتک هستم . من به لوزامبورگ خواهم رفت .',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'من',
     'upos': 'PRON',
     'xpos': 'PRO',
     'feats': 'Number=Sing|Person=1|PronType=Prs',
     'head': 2,
     'deprel': 'nsubj',
     'lemma': 'من',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 2,
     'text': 'صادق',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 0,
     'deprel': 'root',
     'lemma': 'صادق',
     'ner': 'B-PER',
     'kasreh': 'S-kasreh'},
    {'id': 3,
     'text': 'جعفری\u200cزاده',
     'upos': 'NOUN',
     'xpos': 'N_SING

# Loading Persian NLP Datasets

In [6]:
from dadmatools.datasets import get_all_datasets_info, get_dataset_info
from dadmatools.datasets import ARMAN
from dadmatools.datasets import TEP
from dadmatools.datasets import PerSentLexicon
from dadmatools.datasets import FaSpell
from dadmatools.datasets import WikipediaCorpus
from dadmatools.datasets import PersianNer
from dadmatools.datasets import PersianNews
from dadmatools.datasets import PnSummary
from dadmatools.datasets import FarsTail
from dadmatools.datasets import SnappfoodSentiment
from dadmatools.datasets import get_all_datasets_info
from dadmatools.datasets import Peyma
from dadmatools.datasets import PerUDT
from dadmatools.datasets import PersianTweets
from pprint import pprint

In [7]:
pprint(get_all_datasets_info(tasks=['NER', 'Sentiment-Analysis']))

{'ARMAN': {'description': 'ARMAN dataset holds 7,682 sentences with 250,015 '
                          'sentences tagged over six different classes.\n'
                          '\n'
                          'Organization\n'
                          'Location\n'
                          'Facility\n'
                          'Event\n'
                          'Product\n'
                          'Person',
           'filenames': ['train_fold1.txt',
                         'train_fold2.txt',
                         'train_fold3.txt',
                         'test_fold1.txt',
                         'test_fold2.txt',
                         'test_fold3.txt'],
           'name': 'ARMAN',
           'size': {'test': 7680, 'train': 15361},
           'splits': ['train', 'test'],
           'task': 'NER',
           'version': '1.0.0'},
 'PersianNer': {'description': 'source: '
                               'https://github.com/Text-Mining/Persian-NER',
                'filenames'

In [8]:
pprint(get_dataset_info('PerUDT'))

{'description': 'The Persian Universal Dependency Treebank (PerUDT) is the '
                'result of automatic coversion of Persian Dependency Treebank '
                '(PerDT) with extensive manual corrections',
 'filenames': ['fa_perdt-ud-train.conllu',
               'fa_perdt-ud-dev.conllu',
               'fa_perdt-ud-test.conllu'],
 'name': 'PerUDT',
 'size': {'dev': 1456, 'test': 1455, 'train': 26196},
 'splits': ['train', 'test', 'dev'],
 'task': 'Treebank',
 'version': '1.0.0'}


In [9]:
print('*** WikipediaCorpus dataset ****')
print()
wiki = WikipediaCorpus()
print('len data ', len(wiki.data))
print()
print('sample: ', next(wiki.data))
print()
print('****** dataset details:********\n ')
print(wiki.info)

*** WikipediaCorpus dataset ****



Downloading...
From (original): https://drive.google.com/uc?id=1jHje8Q07tQWEpt8cEpFR_TOuqjFs79Vb
From (redirected): https://drive.google.com/uc?id=1jHje8Q07tQWEpt8cEpFR_TOuqjFs79Vb&confirm=t&uuid=dabc6bc6-54a3-45a1-92a4-9abcb3ad5191
To: /root/.dadmatools/datasets/WikipediaCorpus/wikipedia.tar.xz
100%|██████████| 186M/186M [00:07<00:00, 25.1MB/s]


len data  2184117

sample:  {'title': 'صفحهٔ اصلی', 'content': '&nbsp;مقاله\u200cهای برگزیده &ndash; مقالهٔ امروز\nامروز: ،  میلادی برابر  هجری خورشیدی و  (UTC)\n→ روز قبل &ndash; روز بعد ←یادبودهای  &ndash; یادبودهای بیشتر...\n بایگانی   &ndash; نگاره\u200cهای برگزیدهٔ بیشتر\n __NOTOC__ __NOEDITSECTION__'}

****** dataset details:********
 
name: WikipediaCorpus
version: 20211201
task: Corpus
description: fawiki dump progress on 20211201 / All pages, current versions only.
size: 2184117
filenames: ['cleaned_wiki.txt']


In [10]:
arman = ARMAN()
print('**** Arman dataset **** ')
print('splits: ', arman.info.splits)
print(len(arman.train))
print(next(arman.test))

ArmanPersoNERCorpus.zip: 100%|██████████| 1.84M/1.84M [00:00<00:00, 12.5MB/s]
**** Arman dataset **** 
splits:  ['train', 'test']
15361
[{'token': 'افقی', 'tag': 'O'}, {'token': ':', 'tag': 'O'}, {'token': '0', 'tag': 'O'}, {'token': 'ـ', 'tag': 'O'}, {'token': 'از', 'tag': 'O'}, {'token': 'عوامل', 'tag': 'O'}, {'token': 'دوران', 'tag': 'O'}, {'token': 'پهلوی', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'نخست\u200cوزیر', 'tag': 'O'}, {'token': 'ایران', 'tag': 'B-loc'}, {'token': 'در', 'tag': 'O'}, {'token': 'سالهای', 'tag': 'O'}, {'token': 'ابتدائی', 'tag': 'O'}, {'token': 'دهه', 'tag': 'O'}, {'token': 'چهل', 'tag': 'O'}, {'token': 'خورشیدی', 'tag': 'O'}, {'token': 'كه', 'tag': 'O'}, {'token': 'جلد', 'tag': 'O'}, {'token': 'سوم', 'tag': 'O'}, {'token': 'یادداشتهایش', 'tag': 'O'}, {'token': 'هم', 'tag': 'O'}, {'token': 'چندی', 'tag': 'O'}, {'token': 'پیش', 'tag': 'O'}, {'token': 'در', 'tag': 'O'}, {'token': 'تهران', 'tag': 'B-loc'}, {'token': 'منتشر', 'tag': 'O'}, {'token': 'شد'

# Using Pre-Trained Persian Word Embeddings

In [11]:
from dadmatools.embeddings import get_embedding, get_all_embeddings_info, get_embedding_info

In [12]:
pprint(get_all_embeddings_info())

{'fasttext-commoncrawl-bin': {'algorithm': 'fasttext',
                              'corpus': 'CommonCrawl',
                              'desc': '',
                              'dim': 300,
                              'filename': 'cc.fa.300.bin',
                              'format': 'bin',
                              'url': 'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fa.300.bin.gz'},
 'fasttext-commoncrawl-vec': {'algorithm': 'fasttext',
                              'corpus': 'CommonCrawl',
                              'desc': '',
                              'dim': 300,
                              'filename': 'cc.fa.300.vec',
                              'format': 'vec',
                              'url': 'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fa.300.vec.gz'},
 'glove-wiki': {'algorithm': 'glove',
                'corpus': 'wikipedia',
                'desc': 'source: https://github.com/Text-Mining',
                'dim': 50,
      

In [13]:
pprint(get_embedding_info('glove-wiki'))

{'algorithm': 'glove',
 'corpus': 'wikipedia',
 'desc': 'source: https://github.com/Text-Mining',
 'dim': 50,
 'filename': 'vectors.txt',
 'format': 'txt',
 'url': 'https://raw.githubusercontent.com/Text-Mining/Persian-Wikipedia-Corpus/master/models/glove/vectors.zip'}


In [14]:
embedding = get_embedding('glove-wiki')
print(embedding['ابزار'])

vectors.zip: 100%|██████████| 45.9M/45.9M [00:00<00:00, 60.9MB/s]
[-0.308614 -0.168945 -2.576352  0.877447 -0.348502  0.582602  0.602845
  0.471903  0.533526  0.906185  0.907475 -0.167968 -0.095735 -0.475923
  0.276284  0.010084 -0.926263 -1.124971 -0.443414 -0.447227  0.259192
  0.078348  0.916888 -0.061847 -0.853357  0.996823 -0.26386   0.621702
  0.768682  0.250663  0.358242  0.571274 -0.321239  0.012563 -0.567481
  0.560345 -0.206234 -0.187835 -0.665903  0.234979 -0.442619  0.164727
 -0.262    -0.172979 -0.393394 -0.474647  0.480312  1.106502  0.767303
  0.046918]


In [15]:
print(embedding.embedding_text('ابزار پردازش متن فارسی'))

[ 8.2652763e-02  3.8418624e-01 -1.8762367e+00 -8.6866260e-02
  3.6461627e-01  7.5215775e-01  3.6994025e-01  4.9959701e-01
  1.2264743e-02  3.3335799e-01  5.5867076e-01  3.5873100e-01
  4.2627126e-01 -8.8378501e-01 -1.2670399e-01 -7.0495725e-01
 -6.2538046e-01 -5.5862820e-01 -3.2012752e-01 -1.8887758e-02
  2.8124401e-01  1.6167176e-01  5.9974694e-01  3.4806246e-01
 -1.4647543e-03  7.3103124e-01  1.9454075e-01  3.4274727e-01
  5.1055348e-01  5.3316355e-01  5.8826029e-01  1.2634257e+00
 -1.2206910e+00 -4.0682977e-01 -2.4609923e-01  6.5093577e-01
 -2.5686526e-01 -4.0690476e-01  4.8100728e-01  4.8069999e-02
 -6.2497050e-01 -2.3815494e-02  2.1647224e-01 -2.1010575e-01
 -8.5227352e-01 -4.0755576e-01  8.1856251e-02  1.1975710e+00
  5.1946604e-01  5.7960773e-01]


In [16]:
embedding.similarity('کتاب', 'کتب')

0.7716714

In [17]:
embedding.top_nearest('کتاب', 10)

[('کتابی', 0.9353402256965637),
 ('کتاب\u200cهای', 0.859483540058136),
 ('جلد', 0.8522471785545349),
 ('تالیف', 0.8399883508682251),
 ('نوشته', 0.8382429480552673),
 ('مقاله', 0.8335505127906799),
 ('نوشته\u200cاست', 0.8273731470108032),
 ('شرح', 0.8273376822471619),
 ('ترجمه', 0.8256694078445435),
 ('می\u200cنویسد', 0.8014416694641113)]