# **DadmaTools:  A Python NLP Library for Persian**
1. Download the toolkit via `pip`

In [1]:
!pip install dadmatools



In [2]:
import dadmatools.pipeline.language as language

Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt


DadmaTools has different NLP models: *normalizer, tokenizer, lemmatizer, pos tagger, dependancy parser, and constituency parser.*

The normalizer can be used with the code below:

In [2]:
from dadmatools.normalizer import Normalizer

normalizer = Normalizer(
    full_cleaning=False,
    unify_chars=True,
    refine_punc_spacing=True,
    remove_extra_space=True,
    remove_puncs=False,
    remove_html=False,
    remove_stop_word=False,
    replace_email_with="<EMAIL>",
    replace_number_with=None,
    replace_url_with="",
    replace_mobile_number_with=None,
    replace_emoji_with=None,
    replace_home_number_with=None
)

text = """
<p>
دادماتولز اولین نسخش سال ۱۴۰۰ منتشر شده.
امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه
لطفا با ایمیل dadmatools@dadmatech.ir با ما در ارتباط باشید
آدرس گیت‌هاب هم که خب معرف حضور مبارک هست:
 https://github.com/Dadmatech/DadmaTools
</p>
"""
print('input text : ', text)
print('output text when replace emails and remove urls : ', normalizer.normalize(text))

#full cleaning
normalizer = Normalizer(full_cleaning=True)
print('output text when using full_cleaning parameter', normalizer.normalize(text))

input text :  
<p>
دادماتولز اولین نسخش سال ۱۴۰۰ منتشر شده.
امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه
لطفا با ایمیل dadmatools@dadmatech.ir با ما در ارتباط باشید
آدرس گیت‌هاب هم که خب معرف حضور مبارک هست:
 https://github.com/Dadmatech/DadmaTools
</p>

output text when replace emails and remove urls :  <p> دادماتولز اولین نسخش سال 1400 منتشر شده. امیدواریم که این تولز بتونه کار با متن رو براتون شیرین‌تر و راحت‌تر کنه لطفا با ایمیل <EMAIL> با ما در ارتباط باشید آدرس گیت‌هاب هم که خب معرف حضور مبارک هست: </p>
output text when using full_cleaning parameter دادماتولز نسخش سال منتشر تولز بتونه کار متن براتون شیرین‌تر راحت‌تر کنه ایمیل ارتباط آدرس گیت‌هاب معرف حضور مبارک


**Other NLP models can be used via pipeline. Each task has its own abbreviation.**

In [3]:
from dadmatools.pipeline.informal2formal.main import Informal2Formal
translator = Informal2Formal()

print(translator.translate('اینو اگه خواستین میتونین واسه تبدیل تست کنین '))

Downloading file cache/dadmatools/fa_tokenizer.pt: : 639kB [00:02, 277kB/s]                         


3gram.bin: 2.30GB [00:50, 48.6MB/s]
assets.pkl: 3.14MB [00:00, 13.6MB/s]
irregular_verb_mapper.csv: 100%|██████████| 1.57k/1.57k [00:00<00:00, 5.32MB/s]
verbs.csv: 100%|██████████| 39.4k/39.4k [00:00<00:00, 6.97MB/s]
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
 این را اگر خواستید می‌توانید برای تبدیل تست بکنید


In [4]:
import dadmatools.pipeline.language as language

# as tokenizer is the default tool, it will be loaded even without calling
pips = 'lem,pos,ner,dep,cons,spellchecker,kasreh,sent,itf'
nlp = language.Pipeline(pips)

Downloading:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

persian.vocabs.json:   0%|          | 0.00/6.10k [00:00<?, ?B/s]

persian_lemmatizer.pt:   0%|          | 0.00/2.89M [00:00<?, ?B/s]

persian_mwt_expander.pt:   0%|          | 0.00/589k [00:00<?, ?B/s]

persian.tagger.mdl:   0%|          | 0.00/17.0M [00:00<?, ?B/s]

persian.tokenizer.mdl:   0%|          | 0.00/9.51M [00:00<?, ?B/s]

persian.kasreh.mdl:   0%|          | 0.00/10.4M [00:00<?, ?B/s]

persian.kasreh-vocab.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

persian.ner.mdl:   0%|          | 0.00/10.5M [00:00<?, ?B/s]

persian.ner-vocab.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

persian.sent.mdl:   0%|          | 0.00/10.4M [00:00<?, ?B/s]

Loading pretrained XLM-Roberta, this may take a while...


Downloading:   0%|          | 0.00/512 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Loading lemmatizer for persian
Loading NER tagger for persian
Loading Kasreh tagger for persian


config.json:   0%|          | 0.00/841 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

state_dict_nevise.pt:   0%|          | 0.00/959M [00:00<?, ?B/s]

vocab.pkl:   0%|          | 0.00/3.80M [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.20M [00:00<?, ?B/s]



config.json:   0%|          | 0.00/440 [00:00<?, ?B/s]

3gram.bin: 2.30GB [00:48, 51.0MB/s]
assets.pkl: 3.14MB [00:00, 29.9MB/s]
irregular_verb_mapper.csv: 100%|██████████| 1.57k/1.57k [00:00<00:00, 6.19MB/s]
verbs.csv: 100%|██████████| 39.4k/39.4k [00:00<00:00, 6.58MB/s]
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Active language: persian


In [5]:
text = 'من صادق جعفری‌زاده به عنوان توسعه‌دهنده دادماتولز از شرکت دادماتک هستم. من به لوزامبورگ خواهم رفت.'
doc = nlp(text)
doc

1it [00:00,  2.28it/s]


{'spellchecker': {'orginal': 'من صادق جعفری\u200cزاده به عنوان توسعه\u200cدهنده دادماتولز از شرکت دادماتک هستم. من به لوزامبورگ خواهم رفت.',
  'corrected': 'من صادق جعفری\u200cزاده به عنوان توسعه\u200cدهنده دادماتولز از شرکت دادماتک هستم.من به لوکزامبورگ خواهم رفت.',
  'checked_words': [('لوزامبورگ', 'لوکزامبورگ')]},
 'itf': ' من صادق جعفری زاده به عنوان توسعه\u200cدهنده دادماتولز از شرکت دادماتک هستم . من به لوزامبورگ خواهم رفت .',
 'sentences': [{'id': 1,
   'tokens': [{'id': 1,
     'text': 'من',
     'upos': 'PRON',
     'xpos': 'PRO',
     'feats': 'Number=Sing|Person=1|PronType=Prs',
     'head': 2,
     'deprel': 'nsubj',
     'lemma': 'من',
     'ner': 'O',
     'kasreh': 'O'},
    {'id': 2,
     'text': 'صادق',
     'upos': 'NOUN',
     'xpos': 'N_SING',
     'feats': 'Number=Sing',
     'head': 0,
     'deprel': 'root',
     'lemma': 'صادق',
     'ner': 'B-PER',
     'kasreh': 'S-kasreh'},
    {'id': 3,
     'text': 'جعفری\u200cزاده',
     'upos': 'NOUN',
     'xpos': 'N_SING

# Loading Persian NLP Datasets

In [None]:
from dadmatools.datasets import get_all_datasets_info, get_dataset_info
from dadmatools.datasets import ARMAN
from dadmatools.datasets import TEP
from dadmatools.datasets import PerSentLexicon
from dadmatools.datasets import FaSpell
from dadmatools.datasets import WikipediaCorpus
from dadmatools.datasets import PersianNer
from dadmatools.datasets import PersianNews
from dadmatools.datasets import PnSummary
from dadmatools.datasets import FarsTail
from dadmatools.datasets import SnappfoodSentiment
from dadmatools.datasets import get_all_datasets_info
from dadmatools.datasets import Peyma
from dadmatools.datasets import PerUDT
from dadmatools.datasets import PersianTweets
from pprint import pprint

In [None]:
pprint(get_all_datasets_info(tasks=['NER', 'Sentiment-Analysis']))

{'ARMAN': {'description': 'ARMAN dataset holds 7,682 sentences with 250,015 '
                          'sentences tagged over six different classes.\n'
                          '\n'
                          'Organization\n'
                          'Location\n'
                          'Facility\n'
                          'Event\n'
                          'Product\n'
                          'Person',
           'filenames': ['train_fold1.txt',
                         'train_fold2.txt',
                         'train_fold3.txt',
                         'test_fold1.txt',
                         'test_fold2.txt',
                         'test_fold3.txt'],
           'name': 'ARMAN',
           'size': {'test': 7680, 'train': 15361},
           'splits': ['train', 'test'],
           'task': 'NER',
           'version': '1.0.0'},
 'PersianNer': {'description': 'source: '
                               'https://github.com/Text-Mining/Persian-NER',
                'filenames'

In [None]:
pprint(get_dataset_info('PerUDT'))

{'description': 'The Persian Universal Dependency Treebank (PerUDT) is the '
                'result of automatic coversion of Persian Dependency Treebank '
                '(PerDT) with extensive manual corrections',
 'filenames': ['fa_perdt-ud-train.conllu',
               'fa_perdt-ud-dev.conllu',
               'fa_perdt-ud-test.conllu'],
 'name': 'PerUDT',
 'size': {'dev': 1456, 'test': 1455, 'train': 26196},
 'splits': ['train', 'test', 'dev'],
 'task': 'Treebank',
 'version': '1.0.0'}


In [None]:
print('*** WikipediaCorpus dataset ****')
print()
wiki = WikipediaCorpus()
print('len data ', len(wiki.data))
print()
print('sample: ', next(wiki.data))
print()
print('****** dataset details:********\n ')
print(wiki.info)

*** WikipediaCorpus dataset ****



Downloading...
From (original): https://drive.google.com/uc?id=1jHje8Q07tQWEpt8cEpFR_TOuqjFs79Vb
From (redirected): https://drive.google.com/uc?id=1jHje8Q07tQWEpt8cEpFR_TOuqjFs79Vb&confirm=t&uuid=9a596dac-8f91-43e2-85c2-532f1fd3e5d3
To: /root/.dadmatools/datasets/WikipediaCorpus/wikipedia.tar.xz
100%|██████████| 186M/186M [00:07<00:00, 25.2MB/s]


len data  2184117

sample:  {'title': 'صفحهٔ اصلی', 'content': '&nbsp;مقاله\u200cهای برگزیده &ndash; مقالهٔ امروز\nامروز: ،  میلادی برابر  هجری خورشیدی و  (UTC)\n→ روز قبل &ndash; روز بعد ←یادبودهای  &ndash; یادبودهای بیشتر...\n بایگانی   &ndash; نگاره\u200cهای برگزیدهٔ بیشتر\n __NOTOC__ __NOEDITSECTION__'}

****** dataset details:********
 
name: WikipediaCorpus
version: 20211201
task: Corpus
description: fawiki dump progress on 20211201 / All pages, current versions only.
size: 2184117
filenames: ['cleaned_wiki.txt']


In [None]:
arman = ARMAN()
print('**** Arman dataset **** ')
print('splits: ', arman.info.splits)
print(len(arman.train))
print(next(arman.test))

ArmanPersoNERCorpus.zip: 100%|██████████| 1.84M/1.84M [00:00<00:00, 10.9MB/s]
**** Arman dataset **** 
splits:  ['train', 'test']
15361
[{'token': 'به', 'tag': 'O'}, {'token': 'عنوان', 'tag': 'O'}, {'token': 'مثال', 'tag': 'O'}, {'token': 'وقتی', 'tag': 'O'}, {'token': 'نشریات', 'tag': 'O'}, {'token': 'مدافع', 'tag': 'O'}, {'token': 'اصول', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'ارزشها', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'منادی', 'tag': 'O'}, {'token': 'انقلاب', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'اسلام', 'tag': 'O'}, {'token': 'در', 'tag': 'O'}, {'token': 'بالاترین', 'tag': 'O'}, {'token': 'درجه', 'tag': 'O'}, {'token': '،', 'tag': 'O'}, {'token': 'اولین', 'tag': 'O'}, {'token': 'و', 'tag': 'O'}, {'token': 'درشت\u200cترین', 'tag': 'O'}, {'token': 'تیتر', 'tag': 'O'}, {'token': 'نشریه', 'tag': 'O'}, {'token': 'خود', 'tag': 'O'}, {'token': 'را', 'tag': 'O'}, {'token': 'در', 'tag': 'O'}, {'token': 'صدر', 'tag': 'O'}, {'token': 'صفحه', 'tag': 

# Using Pre-Trained Persian Word Embeddings

In [None]:
from dadmatools.embeddings import get_embedding, get_all_embeddings_info, get_embedding_info

In [None]:
pprint(get_all_embeddings_info())

{'fasttext-commoncrawl-bin': {'algorithm': 'fasttext',
                              'corpus': 'CommonCrawl',
                              'desc': '',
                              'dim': 300,
                              'filename': 'cc.fa.300.bin',
                              'format': 'bin',
                              'url': 'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fa.300.bin.gz'},
 'fasttext-commoncrawl-vec': {'algorithm': 'fasttext',
                              'corpus': 'CommonCrawl',
                              'desc': '',
                              'dim': 300,
                              'filename': 'cc.fa.300.vec',
                              'format': 'vec',
                              'url': 'https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.fa.300.vec.gz'},
 'glove-wiki': {'algorithm': 'glove',
                'corpus': 'wikipedia',
                'desc': 'source: https://github.com/Text-Mining',
                'dim': 50,
      

In [None]:
pprint(get_embedding_info('glove-wiki'))

{'algorithm': 'glove',
 'corpus': 'wikipedia',
 'desc': 'source: https://github.com/Text-Mining',
 'dim': 50,
 'filename': 'vectors.txt',
 'format': 'txt',
 'url': 'https://raw.githubusercontent.com/Text-Mining/Persian-Wikipedia-Corpus/master/models/glove/vectors.zip'}


In [None]:
embedding = get_embedding('glove-wiki')
print(embedding['ابزار'])

vectors.zip: 100%|██████████| 45.9M/45.9M [00:00<00:00, 51.0MB/s]
[-0.308614 -0.168945 -2.576352  0.877447 -0.348502  0.582602  0.602845
  0.471903  0.533526  0.906185  0.907475 -0.167968 -0.095735 -0.475923
  0.276284  0.010084 -0.926263 -1.124971 -0.443414 -0.447227  0.259192
  0.078348  0.916888 -0.061847 -0.853357  0.996823 -0.26386   0.621702
  0.768682  0.250663  0.358242  0.571274 -0.321239  0.012563 -0.567481
  0.560345 -0.206234 -0.187835 -0.665903  0.234979 -0.442619  0.164727
 -0.262    -0.172979 -0.393394 -0.474647  0.480312  1.106502  0.767303
  0.046918]


In [None]:
print(embedding.embedding_text('ابزار پردازش متن فارسی'))

[ 8.2652763e-02  3.8418624e-01 -1.8762367e+00 -8.6866260e-02
  3.6461627e-01  7.5215775e-01  3.6994025e-01  4.9959701e-01
  1.2264743e-02  3.3335799e-01  5.5867076e-01  3.5873100e-01
  4.2627126e-01 -8.8378501e-01 -1.2670399e-01 -7.0495725e-01
 -6.2538046e-01 -5.5862820e-01 -3.2012752e-01 -1.8887758e-02
  2.8124401e-01  1.6167176e-01  5.9974694e-01  3.4806246e-01
 -1.4647543e-03  7.3103124e-01  1.9454075e-01  3.4274727e-01
  5.1055348e-01  5.3316355e-01  5.8826029e-01  1.2634257e+00
 -1.2206910e+00 -4.0682977e-01 -2.4609923e-01  6.5093577e-01
 -2.5686526e-01 -4.0690476e-01  4.8100728e-01  4.8069999e-02
 -6.2497050e-01 -2.3815494e-02  2.1647224e-01 -2.1010575e-01
 -8.5227352e-01 -4.0755576e-01  8.1856251e-02  1.1975710e+00
  5.1946604e-01  5.7960773e-01]


In [None]:
embedding.similarity('کتاب', 'کتب')

0.77167135

In [None]:
embedding.top_nearest('کتاب', 10)

[('کتابی', 0.9353402256965637),
 ('کتاب\u200cهای', 0.859483540058136),
 ('جلد', 0.8522471785545349),
 ('تالیف', 0.8399883508682251),
 ('نوشته', 0.8382429480552673),
 ('مقاله', 0.8335505127906799),
 ('نوشته\u200cاست', 0.8273731470108032),
 ('شرح', 0.8273376822471619),
 ('ترجمه', 0.8256694078445435),
 ('می\u200cنویسد', 0.8014416694641113)]

# Assignment

find 1 sample error for each task. except `Constituency Parsing`, `Chunker`,and `normalizer`

* Named Entity Recognition
* Part of Speech Tagging
* Dependency Parsing
* Informal To Formal
* Constituency Parsing
* Chunking
* Kasreh Ezafe Detection
* Spellchecker
* Normalizer
* Tokenizer
* Lemmatizer
* Sentiment Analysis




In [7]:
import dadmatools.pipeline.language as language

# as tokenizer is the default tool, it will be loaded even without calling
pips = 'lem,pos,ner,dep,spellchecker,kasreh,sent,itf'
nlp = language.Pipeline(pips)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Loading lemmatizer for persian
Loading NER tagger for persian
Loading Kasreh tagger for persian




file cache/dadmatools/3gram.bin already exist
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Active language: persian


## Named Entity Recognition

In [3]:
pip = 'ner'
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Loading NER tagger for persian
Active language: persian


In [9]:
text = 'هیپهاپولوژیست دکتر رپفا است.'
doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(f"{token['text']}\t\t{token['ner']}")

هیپهاپولوژیست		O
دکتر		O
رپفا		S-PER
است		O
.		O


<div dir="rtl">
    در این متن کلمه هیپهاپولوژیست یک موجودیت نامدار است ولی مدل نتوانسته است آن را بشناسد. باید تگ PER
    به آخرت رپر ایران میزد ولی مدل به اشتباه
    O را برچسب زده است
</div>

## Part of Speech Tagging

In [10]:
pip = 'pos'
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Active language: persian


In [11]:
text = "نری دنبال مستی خودت درد شرابی واست میچ بریزم خودت باده نابی"
doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['text'],'\t',token['upos'],'\t',token['xpos'])

نری 	 NOUN 	 N_SING
دنبال 	 NOUN 	 N_SING
مستی 	 NOUN 	 N_SING
خودت 	 PRON 	 PRO
درد 	 NOUN 	 N_SING
شرابی 	 NOUN 	 N_SING
واست 	 NOUN 	 N_SING
میچ 	 NOUN 	 N_SING
بریزم 	 NOUN 	 N_SING
خودت 	 PRON 	 PRO
باده 	 NOUN 	 N_SING
نابی 	 NOUN 	 N_SING


<div dir="rtl">
    مدل این متن ترانه بانو حمیرا را خیلی اشتباه
    تگ POS زده است.
    صرفا به چند مورد اشاره میکنیم.
    نری، ی در شرابی، بریزم و ی در نابی VERB هستند ولی مدل گفته آنها NOUN هستند.
</div>

## Dependency Parsing

In [12]:
pip = 'dep'
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Active language: persian


In [17]:
text = "نری دنبال مستی. خودت درد شرابی."
doc = nlp(text)
for sentence in doc['sentences']:
  dependency_parse = sentence['tokens']
#   print(dependency_parse)
  for token in dependency_parse:
    print(token['text'],'\t',token['head'],'\t',token['deprel'])
  print("---------------")

نری 	 0 	 root
دنبال 	 1 	 obj
مستی 	 1 	 obj
. 	 1 	 nmod:poss
---------------
خودت 	 3 	 nsubj
درد 	 3 	 obj
شرابی 	 0 	 root
. 	 3 	 nmod:poss
---------------


<div dir="rtl">
    در این متن کلمه مستی با رابطه obj به نری نسبت داده شده است که اشتباه است.
    باید کلمه مستی به کلمه دنبال نسبت داده می شد یعنی باید
    head آن 2 باشد نه اینکه 1 باشد.
</div>

## Informal To Formal

In [18]:
pip = 'itf'
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
file cache/dadmatools/3gram.bin already exist
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Active language: persian


In [19]:
text = "نری دنبال مستی خودت درد شرابی واست میچ بریزم خودت باده نابی"
doc = nlp(text)
doc['itf']

' نروی درپی مستی خودت درد شرابی برای تو میچ بریزم خودت باده نابی'

<div dir="rtl">
    اشتباهات مدل:
    شرابی --> شراب هستی
    <br>
    نابی --> ناب هستی
</div>

## Kasreh Ezafe Detection

In [20]:
pip = 'kasreh'
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Loading Kasreh tagger for persian
Active language: persian


In [22]:
text = "نری دنبال مستی. خودت درد شرابی. واست میچ بریزم. خودت باده نابی."
doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['text'],'\t',token['kasreh'])

نری 	 O
دنبال 	 O
مستی 	 O
. 	 O
خودت 	 O
درد 	 O
شرابی 	 O
. 	 O
واست 	 O
میچ 	 O
بریزم 	 O
. 	 O
خودت 	 O
باده 	 O
نابی 	 O
. 	 O


<div dir="rtl">
    اشتباهات مدل:
    دنبال --> 1
    <br>
    درد --> 1
    <br>
    باده --> 1
</div>

## Spellchecker

In [23]:
pip = 'spellchecker'
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian




Active language: persian


In [24]:
text = "نری دنبال مسطی خودط درد شرابی واست میج بریزم خودت باده نابی"

doc = nlp(text)
doc['spellchecker']

1it [00:00,  2.03it/s]


{'orginal': 'نری دنبال مسطی خودط درد شرابی واست میج بریزم خودت باده نابی',
 'corrected': 'نری دنبال مسی خودت درد شرابی واست میج بریزم خودت باده نابی',
 'checked_words': [('مسطی', 'مسی'), ('خودط', 'خودت')]}

<div dir="rtl">
    کلمه مسطی باید به مستی درست میشد ولی مدل گفته کسی که معنی نمیده
    <br>
    همچنین میج باید تشخیص و درست میشد. باید تبدیل به میچ که به معنی نوعی شراب است تبدیل میشد.
</div>

## Tokenizer

In [33]:
pip = ''
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Active language: persian


In [39]:
# text = "نری دنبال مستی خودت درد شرابی واست میچ بریزم خودت باده نابی"
text = "اگه از درودیوار می‌ومستی بباره میدونم که زمونه واسم هیچ نداره"

doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['text'])

اگه
از
درودیوار
می‌ومستی
بباره
میدونم
که
زمونه
واسم
هیچ
نداره


<div dir="rtl">
    اشتباهات مدل:
    <br>
    درودیوار --> در # و # دیوار
    <br>
    می‌ومستی --> می # و # مستی
    <br>
    مدل باید این کلمات رو از همه جدا میکرد نه اینکه به هم چسبیده در نظر بگیرد.
</div>

## Lemmatizer

In [30]:
pip = 'lem'
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading tagger for persian
Loading multi-word expander for persian
Loading lemmatizer for persian
Active language: persian


In [32]:
text = "نری دنبال مستی خودت درد شرابی واست میچ بریزم خودت باده نابی"

doc = nlp(text)
for sentence in doc['sentences']:
  for token in sentence['tokens']:
    print(token['lemma'])

نری
دنبال
مستی
خودت
درد
شراب
واست
میچ
بریزم
خودت
باده
نابی


<div dir="rtl">
    مدل اشتباهات زیادی دارد که چند مورد را اشاره میکنیم:
    اشتباهات مدل:
    <br>
    نری --> رفت،رو
    <br>
    مستی --> مست
    <br>
    خودت --> خود
    <br>
    بریزم --> ریختن، بریز
</div>

## Sentiment Analysis

In [25]:
pip = 'sent'
nlp = language.Pipeline(pip)

Loading pretrained XLM-Roberta, this may take a while...
Model fa_tokenizer exists in cache/dadmatools/fa_tokenizer.pt
Loading tokenizer for persian
Loading multi-word expander for persian
Active language: persian


In [29]:
# text = 'جماعتی که نظر حرام می دانند     نظر حرام بکردند و خون خلق حلال'
# text = 'دل و جانم به تو مشغول و نظر در چپ و راست    تا نگویند رقیبان که تو منظور منی'
text = 'این روز ها موسیقی بی محتوا و جلف از نظر جوانان بی سواد در موسیقی بسیار جذاب و خوب است. در حالی که بنطر من آشغال است. '
doc = nlp(text)
doc['sentiment']

[{'label': 'positive', 'score': 0.7551775574684143}]

<div dir="rtl">
    جمله داده شده یک جکله انتقادی و منفی است ولی مدل به اشتباه مثبت تشخیص داده است.
</div>