In [None]:
!pip install hazm

In [1]:
from hazm import *
import requests

In [35]:
def download_model(url, file_name):
  response = requests.get(url)
  if response.status_code == 200:
      with open(file_name, "wb") as f:
          f.write(response.content)
  else:
    print("error")

In [36]:
normalizer = Normalizer()
print(normalizer.normalize('اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند'))

اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند


In [37]:
print(sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟'))

['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟']


In [38]:
print(word_tokenize('ولی برای پردازش، جدا بهتر نیست؟'))

['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟']


In [39]:
stemmer = Stemmer()
print(stemmer.stem('کتابها'))

کتاب


In [40]:
lemmatizer = Lemmatizer()
print(lemmatizer.lemmatize('می‌روم'))

رفت#رو


In [42]:
download_model('https://drive.usercontent.google.com/download?id=16hlAb_h7xdlxF4Ukhqk_fOV3g7rItVtk&export=download', 'pos_tagger.model')
tagger = POSTagger(model='pos_tagger.model')
print(tagger.tag(word_tokenize('ما بسیار کتاب می‌خوانیم')))

[('ما', 'B-NP'), ('بسیار', 'B-VP'), ('کتاب', 'I-VP'), ('می\u200cخوانیم', 'I-VP')]


In [44]:
download_model("https://drive.usercontent.google.com/download?id=16hlAb_h7xdlxF4Ukhqk_fOV3g7rItVtk&export=download", 'chunker.model')
chunker = Chunker(model='chunker.model')
tagged = tagger.tag(word_tokenize('کتاب خواندن را دوست داریم'))
print(tree2brackets(chunker.parse(tagged)))

[کتاب خواندن NP] [را POSTP] [دوست داریم VP]


In [47]:
# word_embedding = WordEmbedding(model_type = 'fasttext', model_path = 'word2vec.bin')
# print(word_embedding.doesnt_match(['سلام' ,'درود' ,'خداحافظ' ,'پنجره']))
# print(word_embedding.doesnt_match(['ساعت' ,'پلنگ' ,'شیر']))
# parser = DependencyParser(tagger=tagger, lemmatizer=lemmatizer)
# print(parser.parse(word_tokenize('زنگ‌ها برای که به صدا درمی‌آید؟')))

In [49]:
def normalizer_module(text, tokens=[]):
  normalizer = Normalizer() # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer
  print(f'text normalize: {normalizer.normalize(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.normalize
  print(f'correct spacing: {normalizer.correct_spacing(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.correct_spacing
  print(f'remove diacritics: {normalizer.remove_diacritics(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.remove_diacritics
  print(f'remove specials chars: {normalizer.remove_specials_chars(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.remove_specials_chars
  print(f'decrease repeated chars: {normalizer.decrease_repeated_chars(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.decrease_repeated_chars
  print(f'persian style: {normalizer.persian_style(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.persian_style
  print(f'persian number: {normalizer.persian_number(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.persian_number
  print(f'unicodes replacement: {normalizer.unicodes_replacement(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.unicodes_replacement
  print(f'seperate mi: {normalizer.seperate_mi(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.seperate_mi
  print(f'token spacing: {normalizer.token_spacing(tokens)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/normalizer.html#hazm.normalizer.Normalizer.token_spacing

def informal_normalizer_module(text):
  normalizer = InformalNormalizer() # https://www.roshan-ai.ir/hazm/docs/content/hazm/informal_normalizer.html
  print(f'split token words: {normalizer.split_token_words(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/informal_normalizer.html#hazm.informal_normalizer.InformalNormalizer.split_token_words
  print(f'normalized word: {normalizer.normalized_word(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/informal_normalizer.html#hazm.informal_normalizer.InformalNormalizer.normalized_word
  print(f'normalize: {normalizer.normalize(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/informal_normalizer.html#hazm.informal_normalizer.InformalNormalizer.normalize
  print(f'informal conjugations: {normalizer.informal_conjugations(text)}') # https://www.roshan-ai.ir/hazm/docs/content/hazm/informal_normalizer.html#hazm.informal_normalizer.InformalNormalizer.informal_conjugations


def stemmer_module(word):
  stemmer = Stemmer() # https://www.roshan-ai.ir/hazm/docs/content/hazm/stemmer.html
  print(f'stem: {stemmer.stem(word)}')


In [50]:
normalizer_module('هوش مصنوعی تصویربرداری شبکیه را ۱۰۰ برابر سریع‌تر می‌کند محققان مؤسسه ملی بهداشت ایالات متحده (NIH) از هوش مصنوعی (AI) برای بهبود تصویربرداری نسل بعدی از سلول‌های پشت چشم استفاده کرده‌اند. به گفته محققان، با هوش مصنوعی، تصویربرداری ۱۰۰ برابر سریع‌تر بوده و کنتراست تصویر را ۳.۵ برابر بهبود می‌بخشد؛ آنها گفتند که این پیشرفت ابزار بهتری برای ارزیابی دژنراسیون ماکولا مرتبط با سن و سایر بیماری‌های شبکیه در اختیار محققان قرار می‌دهد. جانی تام” سرپرست بخش تصویربرداری بالینی و ترجمه در موسسه ملی چشم NIH گفت: هوش مصنوعی به غلبه بر محدودیت کلیدی سلول‌های تصویربرداری در شبکیه کمک می‌کند. ما در حال توسعه فناوری به نام اپتیک تطبیقی   (AO) برای بهبود دستگاه‌های تصویربرداری مبتنی بر توموگرافی انسجام نوری (OCT) هستیم. توموگرافی انسجام نوری (optical coherence tomography; OCT) یک تکنیک تصویربرداری میکروسکوپی است، که سطح ضایعه پوست را با استفاده از نور مادون قرمز بزرگ می‌کند. هنگام استفاده از نمای بالینی و درموسکوپی، یا هر دو، برای بررسی سرطان پوستی مشکوک، OCT می‎‌تواند اطلاعات تشخیصی بیشتری را در مقایسه با تکنولوژی‌های دیگر ارائه دهد.')

text normalize: هوش مصنوعی تصویربرداری شبکیه را ۱۰۰ برابر سریع‌تر می‌کند محققان مؤسسه ملی بهداشت ایالات‌متحده (NIH) از هوش مصنوعی (AI) برای بهبود تصویربرداری نسل بعدی از سلول‌های پشت چشم استفاده کرده‌اند. به گفته محققان، با هوش مصنوعی، تصویربرداری ۱۰۰ برابر سریع‌تر بوده و کنتراست تصویر را ۳ ٫ ۵ برابر بهبود می‌بخشد؛ آنها گفتند که این پیشرفت ابزار بهتری برای ارزیابی دژنراسیون ماکولا مرتبط با سن و سایر بیماری‌های شبکیه در اختیار محققان قرار می‌دهد. جانی تام " سرپرست بخش تصویربرداری بالینی و ترجمه در موسسه ملی چشم NIH گفت: هوش مصنوعی به غلبه بر محدودیت کلیدی سلول‌های تصویربرداری در شبکیه کمک می‌کند. ما در حال توسعه فناوری به نام اپتیک تطبیقی (AO) برای بهبود دستگاه‌های تصویربرداری مبتنی بر توموگرافی انسجام نوری (OCT) هستیم. توموگرافی انسجام نوری (optical coherence tomography; OCT) یک تکنیک تصویربرداری میکروسکوپی است، که سطح ضایعه پوست را با استفاده از نور مادون‌قرمز بزرگ می‌کند. هنگام استفاده از نمای بالینی و درموسکوپی، یا هر دو، برای بررسی سرطان پوستی مشکوک، OCT می‎تواند اطلاعات تشخیصی بیش