# **DadmaTools:  A Python NLP Library for Persian**
1. Download the toolkit via `pip`

In [2]:
!pip install dadmatools

Collecting dadmatools
  Downloading dadmatools-2.0.4-py3-none-any.whl (883 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.0/883.0 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting bpemb>=0.3.3 (from dadmatools)
  Downloading bpemb-0.3.5-py3-none-any.whl (19 kB)
Collecting Deprecated==1.2.6 (from dadmatools)
  Downloading Deprecated-1.2.6-py2.py3-none-any.whl (8.1 kB)
Collecting pyconll>=3.1.0 (from dadmatools)
  Downloading pyconll-3.2.0-py3-none-any.whl (27 kB)
Collecting pytorch-transformers>=1.1.0 (from dadmatools)
  Downloading pytorch_transformers-1.2.0-py3-none-any.whl (176 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m176.4/176.4 kB[0m [31m21.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting segtok>=1.5.7 (from dadmatools)
  Downloading segtok-1.5.11-py3-none-any.whl (24 kB)
Collecting supar==1.1.2 (from dadmatools)
  Downloading supar-1.1.2-py3-none-any.whl (87 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

DadmaTools has different NLP models: *normalizer, tokenizer, lemmatizer, pos tagger, dependancy parser, and constituency parser.*

The normalizer can be used with the code below:

In [13]:
from dadmatools.normalizer import Normalizer

normalizer = Normalizer(
    full_cleaning=False,
    unify_chars=True,
    refine_punc_spacing=True,
    remove_extra_space=True,
    remove_puncs=False,
    remove_html=True,
    remove_stop_word=False,
    replace_email_with="<EMAIL>",
    replace_number_with="<num>",
    replace_url_with="",
    replace_mobile_number_with=None,
    replace_emoji_with=None,
    replace_home_number_with=None
)

text = """
<p>
سلام شکیبا هستم اینم ایمیلم
Sh@gmail.com
اینم یکی دیگه
Sh@iust.ac.ir
حالا شماره تلفن ۹۹۲۲۴۴۳۳
</p>
"""
print('input text : ', text)
print('output text when replace emails and remove urls : ', normalizer.normalize(text))

#full cleaning
normalizer = Normalizer(full_cleaning=True)
print('output text when using full_cleaning parameter', normalizer.normalize(text))

input text :  
<p>
سلام شکیبا هستم اینم ایمیلم
Sh@gmail.com
اینم یکی دیگه
Sh@iust.ac.ir
حالا شماره تلفن ۹۹۲۲۴۴۳۳
</p>

output text when replace emails and remove urls :  سلام شکیبا هستم اینم ایمیلم <EMAIL> اینم یکی دیگه <EMAIL> حالا شماره تلفن <num>
output text when using full_cleaning parameter سلام شکیبا اینم ایمیلم اینم شماره تلفن


**Other NLP models can be used via pipeline. Each task has its own abbreviation.**

In [8]:
from dadmatools.pipeline.informal2formal.main import Informal2Formal
translator = Informal2Formal()

print(translator.translate('این کتابه برای توعه؟'))
print(translator.translate('غم میون دوتا چشمون قشنگت لونه کرده'))
# میونhas to be changed to  میان

file cache/3gram.bin already exist
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
 این کتاب است برای توعه ؟
 غم میون دوتا چشمان قشنگ تو لانه کرده


In [20]:
# from dadmatools.pipeline.informal2formal.main import tok
# translator = Tokenizer()
# print(translator.translate('این کتابه برای توعه؟'))

import dadmatools.pipeline.language as language

pips = 'tok'
nlp = language.Pipeline(pips)

text="توی یک دیوار سنگی دوتا پنجره اسیرن"

doc = nlp(text)
doc


Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Active language: persian


{'sentences': [{'id': 1,
   'tokens': [{'id': 1, 'text': 'توی'},
    {'id': 2, 'text': 'یک'},
    {'id': 3, 'text': 'دیوار'},
    {'id': 4, 'text': 'سنگی'},
    {'id': 5, 'text': 'دوتا'},
    {'id': 6, 'text': 'پنجره'},
    {'id': 7, 'text': 'اسیرن'}]}],
 'lang': 'persian'}

In [24]:
import dadmatools.pipeline.language as language

# as tokenizer is the default tool, it will be loaded even without calling
pips = 'lem,pos,ner,dep,cons,spellchecker,kasreh,sent,itf'
nlp = language.Pipeline(pips)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Loading lemmatizer for persian
Loading NER tagger for persian
Loading Kasreh tagger for persian


pytorch_model.bin:  58%|#####8    | 650M/1.11G [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

state_dict_nevise.pt:   0%|          | 0.00/959M [00:00<?, ?B/s]

vocab.pkl:   0%|          | 0.00/3.80M [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.20M [00:00<?, ?B/s]



config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

3gram.bin: 2.30GB [01:00, 41.0MB/s]
assets.pkl: 3.14MB [00:00, 9.67MB/s]
irregular_verb_mapper.csv: 100%|██████████| 1.57k/1.57k [00:00<00:00, 4.40MB/s]
verbs.csv: 100%|██████████| 39.4k/39.4k [00:00<00:00, 6.15MB/s]
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Active language: persian


In [34]:
text='از حزور شما سپاس گذارم'
doc = nlp(text)
doc
# sepasgozar is not corrected.

1it [00:00,  2.71it/s]


{'spellchecker': {'orginal': 'از حزور شما سپاس گذارم',
  'corrected': 'از حضور شما سپاس گذارم',
  'checked_words': [('حزور', 'حضور')]},
 'itf': ' از حزور شما سپاس گذارم',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'از',
     'upos': 'ADP',
     'xpos': 'P',
     'head': 0,
     'deprel': 'case',
     'lemma': 'از',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 2,
     'text': 'حزور',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 1,
     'deprel': 'fixed',
     'lemma': 'حزور',
     'ner': 'O',
     'kasreh': 'S-kasreh'},
    {'id': 3,
     'text': 'شما',
     'upos': 'PRON',
     'xpos': 'PRO',
     'feats': 'Number=Plur|Person=2|PronType=Prs',
     'head': 1,
     'deprel': 'nmod:poss',
     'lemma': 'شما',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 4,
     'text': 'سپاس',
     'upos': 'AUX',
     'xpos': 'V_PRS',
     'head': 1,
     'deprel': 'fixed',
     'lemma': 'سپاس',
     'ner': 'O',
     'kasreh': 'S-kasreh'}

In [29]:
text=translator.translate('خونه ما پشت کوه های صبوره')
text

' خونه ما پشت کوه های صبور است'

In [30]:

doc = nlp(text)
doc
# ner is always giving  '0' back !
# it is wrong for های 'deprel': 'fixed',

1it [00:00,  1.18it/s]


{'spellchecker': {'orginal': ' خونه ما پشت کوه های صبور است',
  'corrected': 'خونه ما پشت کوه های صبور است',
  'checked_words': []},
 'itf': ' خونه ما پشت کوه های صبور است',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'خونه',
     'upos': 'NOUN',
     'xpos': 'V_PP',
     'feats': 'Number=Plur|Person=1|VerbForm=Part',
     'head': 0,
     'deprel': 'root',
     'lemma': 'خونه',
     'ner': 'O',
     'kasreh': 'S-kasreh'},
    {'id': 2,
     'text': 'ما',
     'upos': 'PRON',
     'xpos': 'PRO',
     'feats': 'Number=Plur|Person=1|PronType=Prs',
     'head': 1,
     'deprel': 'nmod:poss',
     'lemma': 'ما',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 3,
     'text': 'پشت',
     'upos': 'ADP',
     'xpos': 'P',
     'head': 4,
     'deprel': 'case',
     'lemma': 'پشت',
     'ner': 'O',
     'kasreh': 'S-kasreh'},
    {'id': 4,
     'text': 'کوه',
     'upos': 'NOUN',
     'xpos': 'N_PL',
     'feats': 'Number=Plur',
     'head': 1,
     'deprel': 'nmod:poss',
   

In [31]:
text='.دست بالای دست پسیار است.'
doc = nlp(text)
doc
# kasreh is not correct for بسیار
# tokenizer did not tokenize the first word well :'text': '.دست',


1it [00:00,  1.62it/s]


{'spellchecker': {'orginal': '.دست بالای دست پسیار است.',
  'corrected': '.دست بالای دست بسیار است.',
  'checked_words': [('پسیار', 'بسیار')]},
 'itf': ' . دست بالای دست پسیار است .',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': '.دست',
     'upos': 'PUNCT',
     'xpos': 'DELM',
     'head': 5,
     'deprel': 'punct',
     'lemma': '.دست',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 2,
     'text': 'بالای',
     'upos': 'ADJ',
     'xpos': 'ADV_LOC',
     'feats': 'Case=Loc',
     'head': 4,
     'deprel': 'fixed',
     'lemma': 'بالا',
     'ner': 'O',
     'kasreh': 'S-kasreh'},
    {'id': 3,
     'text': 'دست',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing|Person=3|VerbForm=Part',
     'head': 2,
     'deprel': 'nmod:poss',
     'lemma': 'دست',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 4,
     'text': 'پسیار',
     'upos': 'VERB',
     'xpos': 'V_PRS',
     'feats': 'Number=Sing|Person=3|Tense=Pres',
     'head': 0,
     'deprel'

In [38]:
text='.دست بالای دست بسیار است.'
doc = nlp(text)
doc
# should not be adj بالای
# should not be verb دست

1it [00:00,  3.57it/s]


{'spellchecker': {'orginal': '.دست بالای دست بسیار است.',
  'corrected': '.دست بالای دست بسیار است.',
  'checked_words': []},
 'itf': ' . دست بالای دست بسیار است .',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': '.دست',
     'upos': 'VERB',
     'xpos': 'V_PRS',
     'head': 4,
     'deprel': 'punct',
     'lemma': 'دست',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 2,
     'text': 'بالای',
     'upos': 'ADJ',
     'xpos': 'ADV_LOC',
     'feats': 'Case=Loc',
     'head': 1,
     'deprel': 'nmod:poss',
     'lemma': 'بالا',
     'ner': 'O',
     'kasreh': 'S-kasreh'},
    {'id': 3,
     'text': 'دست',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 1,
     'deprel': 'nmod:poss',
     'lemma': 'دست',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 4,
     'text': 'بسیار',
     'upos': 'ADJ',
     'xpos': 'ADJ',
     'feats': 'Degree=Pos',
     'head': 0,
     'deprel': 'root',
     'lemma': 'بسیار',
     'ner': 'O',
     'kasreh

In [39]:
text='ما ز بالاییم و بالا می رویم'
doc = nlp(text)
doc
# spellchecker is not doing well. it has to convert ز to از
# lemmatizer did not write the correct lemma for رویم'lemma': 'روید#رو',
# 'deprel': 'root', is wrong for می

1it [00:00,  3.10it/s]


{'spellchecker': {'orginal': 'ما ز بالاییم و بالا می رویم',
  'corrected': 'ما ، بالاییم و بالا می رویم',
  'checked_words': []},
 'itf': ' ما ز بالاییم و بالا می\u200cرویم',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'ما',
     'upos': 'PRON',
     'xpos': 'PRO',
     'feats': 'Number=Plur|Person=1|PronType=Prs',
     'head': 6,
     'deprel': 'nsubj',
     'lemma': 'ما',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 2,
     'text': 'ز',
     'upos': 'ADP',
     'xpos': 'P',
     'head': 3,
     'deprel': 'case',
     'lemma': 'از',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 3,
     'text': 'بالاییم',
     'upos': 'VERB',
     'xpos': 'V_PRS',
     'feats': 'Number=Plur|Person=1|Tense=Pres',
     'head': 6,
     'deprel': 'aux',
     'lemma': '_',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 4,
     'text': 'و',
     'upos': 'CCONJ',
     'xpos': 'CON',
     'head': 6,
     'deprel': 'cc',
     'lemma': 'و',
     'ner': 'O',
     'kasreh': 'O'},
    {'i

In [45]:
text='چقدر عالی که دوباره بیکار شدم'
doc = nlp(text)
doc
#  'sentiment': [{'label': 'positive', 'score': 0.7788096070289612}]} is wrong !
# 'lemma': 'کرد#کن', is wrong for the verb

1it [00:00,  2.35it/s]


{'spellchecker': {'orginal': 'چقدر عالی که دوباره بیکار شدم',
  'corrected': 'چقدر عالی که دوباره بیکار شدم',
  'checked_words': []},
 'itf': ' چقدر عالی که دوباره بیکار شدم',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'چقدر',
     'upos': 'VERB',
     'xpos': 'V_PA',
     'feats': 'PronType=Int',
     'head': 6,
     'deprel': 'advcl',
     'lemma': 'چقدر',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 2,
     'text': 'عالی',
     'upos': 'INTJ',
     'xpos': 'INT',
     'feats': 'Number=Plur|Person=2|Tense=Past',
     'head': 1,
     'deprel': 'advmod',
     'lemma': 'عالی',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 3,
     'text': 'که',
     'upos': 'CCONJ',
     'xpos': 'CON',
     'head': 2,
     'deprel': 'fixed',
     'lemma': 'که',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 4,
     'text': 'دوباره',
     'upos': 'ADJ',
     'xpos': 'ADJ',
     'feats': 'Number=Sing|Person=3|VerbForm=Part',
     'head': 1,
     'deprel': 'advmod',
     'lemma':

In [48]:

text=' کتاب را معلم نیاورد'
doc = nlp(text)
doc
#  'feats': 'Number=Sing|Person=3|Tense=Pres', verb has to be negative
#  'sentiment': [{'label': 'neutral', 'score': 0.4507024884223938}]} has to be negative


1it [00:00,  5.90it/s]


{'spellchecker': {'orginal': ' کتاب را معلم نیاورد',
  'corrected': 'کتاب را معلوم نیاورد',
  'checked_words': [('معلم', 'معلوم')]},
 'itf': ' کتاب را معلم نیاورد',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'کتاب',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 4,
     'deprel': 'obj',
     'lemma': 'کتاب',
     'ner': 'O',
     'kasreh': 'S-kasreh'},
    {'id': 2,
     'text': 'را',
     'upos': 'PART',
     'xpos': 'CLITIC',
     'head': 1,
     'deprel': 'case',
     'lemma': 'را',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 3,
     'text': 'معلم',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 4,
     'deprel': 'nsubj',
     'lemma': 'معلم',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 4,
     'text': 'نیاورد',
     'upos': 'VERB',
     'xpos': 'V_PRS',
     'feats': 'Number=Sing|Person=3|Tense=Pres',
     'head': 0,
     'deprel': 'root',
     'lemma': 'آورد#آور',
     'ner':

# Loading Persian NLP Datasets

In [None]:
from dadmatools.datasets import get_all_datasets_info, get_dataset_info
from dadmatools.datasets import ARMAN
from dadmatools.datasets import TEP
from dadmatools.datasets import PerSentLexicon
from dadmatools.datasets import FaSpell
from dadmatools.datasets import WikipediaCorpus
from dadmatools.datasets import PersianNer
from dadmatools.datasets import PersianNews
from dadmatools.datasets import PnSummary
from dadmatools.datasets import FarsTail
from dadmatools.datasets import SnappfoodSentiment
from dadmatools.datasets import get_all_datasets_info
from dadmatools.datasets import Peyma
from dadmatools.datasets import PerUDT
from dadmatools.datasets import PersianTweets
from pprint import pprint

In [None]:
pprint(get_all_datasets_info(tasks=['NER', 'Sentiment-Analysis']))

{'ARMAN': {'description': 'ARMAN dataset holds 7,682 sentences with 250,015 '
                          'sentences tagged over six different classes.\n'
                          '\n'
                          'Organization\n'
                          'Location\n'
                          'Facility\n'
                          'Event\n'
                          'Product\n'
                          'Person',
           'filenames': ['train_fold1.txt',
                         'train_fold2.txt',
                         'train_fold3.txt',
                         'test_fold1.txt',
                         'test_fold2.txt',
                         'test_fold3.txt'],
           'name': 'ARMAN',
           'size': {'test': 7680, 'train': 15361},
           'splits': ['train', 'test'],
           'task': 'NER',
           'version': '1.0.0'},
 'PersianNer': {'description': 'source: '
                               'https://github.com/Text-Mining/Persian-NER',
                'filenames'

In [None]:
pprint(get_dataset_info('PerUDT'))

{'description': 'The Persian Universal Dependency Treebank (PerUDT) is the '
                'result of automatic coversion of Persian Dependency Treebank '
                '(PerDT) with extensive manual corrections',
 'filenames': ['fa_perdt-ud-train.conllu',
               'fa_perdt-ud-dev.conllu',
               'fa_perdt-ud-test.conllu'],
 'name': 'PerUDT',
 'size': {'dev': 1456, 'test': 1455, 'train': 26196},
 'splits': ['train', 'test', 'dev'],
 'task': 'Treebank',
 'version': '1.0.0'}


In [None]:
print('*** WikipediaCorpus dataset ****')
print()
wiki = WikipediaCorpus()
print('len data ', len(wiki.data))
print()
print('sample: ', next(wiki.data))
print()
print('****** dataset details:********\n ')
print(wiki.info)

*** WikipediaCorpus dataset ****



Downloading...
From (original): https://drive.google.com/uc?id=1jHje8Q07tQWEpt8cEpFR_TOuqjFs79Vb
From (redirected): https://drive.google.com/uc?id=1jHje8Q07tQWEpt8cEpFR_TOuqjFs79Vb&confirm=t&uuid=9a596dac-8f91-43e2-85c2-532f1fd3e5d3
To: /root/.dadmatools/datasets/WikipediaCorpus/wikipedia.tar.xz
100%|██████████| 186M/186M [00:07<00:00, 25.2MB/s]


len data  2184117

sample:  {'title': 'صفحهٔ اصلی', 'content': '&nbsp;مقاله\u200cهای برگزیده &ndash; مقالهٔ امروز\nامروز: ،  میلادی برابر  هجری خورشیدی و  (UTC)\n→ روز قبل &ndash; روز بعد ←یادبودهای  &ndash; یادبودهای بیشتر...\n بایگانی   &ndash; نگاره\u200cهای برگزیدهٔ بیشتر\n __NOTOC__ __NOEDITSECTION__'}

****** dataset details:********
 
name: WikipediaCorpus
version: 20211201
task: Corpus
description: fawiki dump progress on 20211201 / All pages, current versions only.
size: 2184117
filenames: ['cleaned_wiki.txt']


In [None]:
arman = ARMAN()
print('**** Arman dataset **** ')
print('splits: ', arman.info.splits)
print(len(arman.train))
print(next(arman.test))

ArmanPersoNERCorpus.zip: 100%|██████████| 1.84M/1.84M [00:00<00:00, 10.9MB/s]
**** Arman dataset **** 
splits:  ['train', 'test']
15361
[{'token': 'به', 'tag': 'O'}, {'token': 'عنوان', 'tag': 'O'}, {'token': 'مثال', 'tag': 'O'}, {'token': 'وقتی', 'tag': 'O'}, {'token': 'نشریات', 'tag': 'O'}, {'token': 'مدافع', 'tag': 'O'}, {'token': 'اصول', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'ارزشها', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'منادی', 'tag': 'O'}, {'token': 'انقلاب', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'اسلام', 'tag': 'O'}, {'token': 'در', 'tag': 'O'}, {'token': 'بالاترین', 'tag': 'O'}, {'token': 'درجه', 'tag': 'O'}, {'token': '،', 'tag': 'O'}, {'token': 'اولین', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'درشت\u200cترین', 'tag': 'O'}, {'token': 'تیتر', 'tag': 'O'}, {'token': 'نشریه', 'tag': 'O'}, {'token': 'خود', 'tag': 'O'}, {'token': 'را', 'tag': 'O'}, {'token': 'در', 'tag': 'O'}, {'token': 'صدر', 'tag': 'O'}, {'token': 'صفحه', 'tag': 

# Using Pre-Trained Persian Word Embeddings

In [None]:
from dadmatools.embeddings import get_embedding, get_all_embeddings_info, get_embedding_info

In [None]:
pprint(get_all_embeddings_info())

{'fasttext-commoncrawl-bin': {'algorithm': 'fasttext',
                              'corpus': 'CommonCrawl',
                              'desc': '',
                              'dim': 300,
                              'filename': 'cc.fa.300.bin',
                              'format': 'bin',
                              'url': 'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fa.300.bin.gz'},
 'fasttext-commoncrawl-vec': {'algorithm': 'fasttext',
                              'corpus': 'CommonCrawl',
                              'desc': '',
                              'dim': 300,
                              'filename': 'cc.fa.300.vec',
                              'format': 'vec',
                              'url': 'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fa.300.vec.gz'},
 'glove-wiki': {'algorithm': 'glove',
                'corpus': 'wikipedia',
                'desc': 'source: https://github.com/Text-Mining',
                'dim': 50,
      

In [None]:
pprint(get_embedding_info('glove-wiki'))

{'algorithm': 'glove',
 'corpus': 'wikipedia',
 'desc': 'source: https://github.com/Text-Mining',
 'dim': 50,
 'filename': 'vectors.txt',
 'format': 'txt',
 'url': 'https://raw.githubusercontent.com/Text-Mining/Persian-Wikipedia-Corpus/master/models/glove/vectors.zip'}


In [None]:
embedding = get_embedding('glove-wiki')
print(embedding['ابزار'])

vectors.zip: 100%|██████████| 45.9M/45.9M [00:00<00:00, 51.0MB/s]
[-0.308614 -0.168945 -2.576352  0.877447 -0.348502  0.582602  0.602845
  0.471903  0.533526  0.906185  0.907475 -0.167968 -0.095735 -0.475923
  0.276284  0.010084 -0.926263 -1.124971 -0.443414 -0.447227  0.259192
  0.078348  0.916888 -0.061847 -0.853357  0.996823 -0.26386   0.621702
  0.768682  0.250663  0.358242  0.571274 -0.321239  0.012563 -0.567481
  0.560345 -0.206234 -0.187835 -0.665903  0.234979 -0.442619  0.164727
 -0.262    -0.172979 -0.393394 -0.474647  0.480312  1.106502  0.767303
  0.046918]


In [None]:
print(embedding.embedding_text('ابزار پردازش متن فارسی'))

[ 8.2652763e-02  3.8418624e-01 -1.8762367e+00 -8.6866260e-02
  3.6461627e-01  7.5215775e-01  3.6994025e-01  4.9959701e-01
  1.2264743e-02  3.3335799e-01  5.5867076e-01  3.5873100e-01
  4.2627126e-01 -8.8378501e-01 -1.2670399e-01 -7.0495725e-01
 -6.2538046e-01 -5.5862820e-01 -3.2012752e-01 -1.8887758e-02
  2.8124401e-01  1.6167176e-01  5.9974694e-01  3.4806246e-01
 -1.4647543e-03  7.3103124e-01  1.9454075e-01  3.4274727e-01
  5.1055348e-01  5.3316355e-01  5.8826029e-01  1.2634257e+00
 -1.2206910e+00 -4.0682977e-01 -2.4609923e-01  6.5093577e-01
 -2.5686526e-01 -4.0690476e-01  4.8100728e-01  4.8069999e-02
 -6.2497050e-01 -2.3815494e-02  2.1647224e-01 -2.1010575e-01
 -8.5227352e-01 -4.0755576e-01  8.1856251e-02  1.1975710e+00
  5.1946604e-01  5.7960773e-01]


In [None]:
embedding.similarity('کتاب', 'کتب')

0.77167135

In [None]:
embedding.top_nearest('کتاب', 10)

[('کتابی', 0.9353402256965637),
 ('کتاب\u200cهای', 0.859483540058136),
 ('جلد', 0.8522471785545349),
 ('تالیف', 0.8399883508682251),
 ('نوشته', 0.8382429480552673),
 ('مقاله', 0.8335505127906799),
 ('نوشته\u200cاست', 0.8273731470108032),
 ('شرح', 0.8273376822471619),
 ('ترجمه', 0.8256694078445435),
 ('می\u200cنویسد', 0.8014416694641113)]