# Prepear test dataset
Load word data for error precision test
Format - {word}{several spaces}{answer-words separeted by comma}

In [72]:
!pip install --upgrade pip



In [73]:
!pip install pandas
import pandas as pd



In [74]:
error_precision_test_incorrect_file = open('../data/test_sample_incorrect.txt', 'r', encoding="utf8")
error_precision_test_incorrect_lines = error_precision_test_incorrect_file.readlines()
error_precision_splitted_test_incorrect_lines = list(map(lambda x: x.split(maxsplit=1), error_precision_test_incorrect_lines))
error_precision_test_incorrect_words = list(map(lambda x: x[0], error_precision_splitted_test_incorrect_lines))
error_precision_test_incorrect_answers = list(map(lambda x: list(map(lambda y: y.strip(), x[1].split(', '))), error_precision_splitted_test_incorrect_lines))
error_precision_test_df = pd.DataFrame(error_precision_test_incorrect_words, columns=["test_word"])
error_precision_test_df["answers"] = error_precision_test_incorrect_answers

In [75]:
error_precision_test_df.head()

Unnamed: 0,test_word,answers
0,эктренном,[экстренном]
1,синусовго,[синусового]
2,даным,"[данным, данный, данные]"
3,шнутография,[шунтография]
4,сникопальных,[синкопальных]


In [76]:
error_precision_test_word_list = error_precision_test_df["test_word"].tolist()

In [77]:
error_precision_test_answers = error_precision_test_df["answers"].tolist()

Load word list for lexical precision test

In [93]:
lexical_precision_test_word_list = ["Привет"]

In [91]:
def compute_error_precision(original_word_list, corrected_word_list, answer_word_list):
    words_number = len(corrected_word_list)
    correct_words_number = 0
    print("Error precision")
    print("original_word_list --- corrected_word --- answer_word_list")
    for i, corrected_word in enumerate(corrected_word_list):
        print(f"{original_word_list[i]} --- {corrected_word} --- {answer_word_list[i]}")
        if corrected_word in answer_word_list[i]:
            correct_words_number += 1
    print(f"Right corrected words count - {correct_words_number} of {words_number} total")
    return correct_words_number/words_number

In [90]:
def compute_lexical_precision(original_word_list, corrected_word_list):
    words_number = len(corrected_word_list)
    correct_words_number = 0
    print("Lexical precision")
    print("original_word_list --- corrected_word")
    for i, corrected_word in enumerate(corrected_word_list):
        print(f"{original_word_list[i]} --- {corrected_word}")
        if corrected_word == original_word_list[i]:
            correct_words_number += 1
    print(f"Right corrected words count - {correct_words_number} of {words_number} total")
    return correct_words_number/words_number

In [81]:
!pip install tqdm
from tqdm import tqdm



In [86]:
def compute_all_metrics(error_precision_spellchecker_function,
                        lexical_precision_spellchecker_function,
                        error_precision_original_word_list,
                        error_precision_answer_word_list,
                        lexical_precision_original_word_list):

    error_precision_result = error_precision_spellchecker_function()
    error_precision_elapsed_time = error_precision_result["elapsed"]
    error_precision_corrected_word_list = error_precision_result["corrected_word_list"]
    error_precision = compute_error_precision(error_precision_original_word_list, error_precision_corrected_word_list, error_precision_answer_word_list)

    lexical_precision_result = lexical_precision_spellchecker_function()
    lexical_precision_elapsed_time = lexical_precision_result["elapsed"]
    lexical_precision_corrected_word_list = lexical_precision_result["corrected_word_list"]
    lexical_precision = compute_lexical_precision(lexical_precision_original_word_list, lexical_precision_corrected_word_list)

    return {"words_per_minute": 60 /
                                ((error_precision_elapsed_time + lexical_precision_elapsed_time) /
                                 (len(error_precision_original_word_list) + len(lexical_precision_original_word_list))),
            "error_precision": error_precision,
            "lexical_precision": lexical_precision,
            # "error_precision_original_word_list": error_precision_original_word_list,
            # "error_precision_corrected_word_list": error_precision_corrected_word_list,
            # "error_precision_answer_word_list": error_precision_answer_word_list,
            # "lexical_precision_original_word_list":lexical_precision_original_word_list
            }

# Spellchecker prototype initialization

In [2]:
!pip install pymorphy2 
!pip install gensim
!pip install python-levenshtein
!pip install stringdist

Collecting python-levenshtein
  Using cached python-Levenshtein-0.12.2.tar.gz (50 kB)
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: python-levenshtein
  Building wheel for python-levenshtein (setup.py) ... [?25ldone
[?25h  Created wheel for python-levenshtein: filename=python_Levenshtein-0.12.2-cp39-cp39-linux_x86_64.whl size=168591 sha256=1c310d11dcf61766d37a6f1c1c324b9daa53cd9a67f51440f95f1a00f5d9315f
  Stored in directory: /home/Dmitry.Pogrebnoy/.cache/pip/wheels/46/4a/6c/164a1d9dd67c82d208f19d869ad0a517a0c5a6117f608c53e6
Successfully built python-levenshtein
Installing collected packages: python-levenshtein
Successfully installed python-levenshtein-0.12.2


# Test SpellChecker Prototype v.2

In [3]:
from spellchecker_prototype_v2.spell_checker import SpellChecker

Download models (all files) from [link](https://drive.google.com/drive/folders/1ubVgiIC2pqDOpA-CbjEqV8Jo8uBbk0qi?usp=sharing) and move it to `data/spellchecker_prototype_v2/models` folder

In [70]:
def spellchecker_prototype_v2_correct_func(input_word_list):
    spellchecker_prototype = SpellChecker()
    input_text_for_prototype = " ".join(input_word_list)
    timer = tqdm()
    corrected_word_list = spellchecker_prototype.correct_words(input_text_for_prototype)
    return {"elapsed": timer.format_dict["elapsed"], "corrected_word_list": corrected_word_list}

spellchecker_prototype_v2_metrics = compute_all_metrics(
    lambda : spellchecker_prototype_v2_correct_func(error_precision_test_word_list),
    lambda : spellchecker_prototype_v2_correct_func(lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
spellchecker_prototype_v2_metrics

/home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/spellchecker_prototype_v2


0it [00:00, ?it/s]

['эктренном', 'синусовго', 'даным', 'шнутография', 'сникопальных', 'посление', 'ходавый', 'анмнезе', 'сентированный', 'самоч', 'перевдена', 'стентированеим', 'кардиол', 'переведна', 'догосптальном', 'миним', 'субфебриллитет', 'загрудиные', 'перферия', 'течени', 'оклюзия', 'жнщина', 'пциент', 'зарегистирована', 'сегмета', 'клекте', 'эпид', 'интелектуально', 'нижн', 'прводилась', 'неуст', 'госптализирован', 'вперые', 'послеоперационом', 'госпитализирова', 'ухудщение', 'рентг', 'дальнешем', 'троботическая', 'многосоудистое', 'миокрада', 'сопрвождались', 'дискмфорт', 'потлтвостью', 'левогожелудочка', 'рание', 'виед', 'ангинозныеболи', 'догоситальном', 'ввполнен', 'чаосв', 'октазалась', 'линика', 'ммента', 'проведеной', 'выполненяи', 'леченяи', 'обтилась', 'повтороно', 'зарегистриованы', 'отицает', 'дальнейщем', 'болисохраняются', 'частичынм', 'атерокслеротичсекая', 'деньс', 'назначаля', 'проведеняи', 'беспакоют', 'гипертензи', 'воленйбол', 'болезн', 'стенокардаа', 'продолжалсь', 'поворное'


0it [00:00, ?it/s][A
1it [00:25, 25.84s/it][A

Fast Text Exception for эктренном



2it [00:52, 26.15s/it][A

Fast Text Exception for синусовго



3it [01:06, 20.75s/it][A

Fast Text Exception for даным



4it [01:38, 25.36s/it][A

Fast Text Exception for шнутография



5it [02:12, 28.31s/it][A

try синкопальный



6it [02:35, 26.44s/it][A

Fast Text Exception for посление



7it [02:56, 24.61s/it][A

Fast Text Exception for ходавый



8it [03:15, 23.02s/it][A

Fast Text Exception for анмнезе



9it [03:52, 27.34s/it][A

Fast Text Exception for сентированный



10it [04:06, 23.08s/it][A

Fast Text Exception for самоч



11it [04:31, 23.72s/it][A

Fast Text Exception for перевдена



12it [05:08, 27.66s/it][A

Fast Text Exception for стентированеим



13it [05:26, 24.75s/it][A

Fast Text Exception for кардиол



14it [05:48, 24.07s/it][A

Fast Text Exception for переведна



15it [06:20, 26.30s/it][A

try догоспитальный



16it [06:33, 22.56s/it][A

Fast Text Exception for миним



17it [07:10, 26.65s/it][A

try субфебрилитет



18it [07:36, 26.51s/it][A

Fast Text Exception for загрудиные



19it [07:56, 24.75s/it][A

try периферия



20it [08:12, 22.00s/it][A

Fast Text Exception for течени



21it [08:30, 20.70s/it][A

try окклюзия



22it [08:45, 19.22s/it][A

try женщина



23it [09:01, 18.14s/it][A

try пациент



24it [09:41, 24.57s/it][A

try зарегистрировать



25it [09:59, 22.80s/it][A

Fast Text Exception for сегмета



26it [10:15, 20.66s/it][A

Fast Text Exception for клекте



27it [10:26, 17.73s/it][A

Fast Text Exception for эпид



28it [11:05, 24.21s/it][A

Fast Text Exception for интелектуально



29it [11:16, 20.27s/it][A

Fast Text Exception for нижн



30it [11:43, 22.28s/it][A

Fast Text Exception for прводилась



31it [11:58, 20.04s/it][A

Fast Text Exception for неуст



32it [12:37, 25.69s/it][A

try госпитализировать



33it [12:53, 22.79s/it][A

Fast Text Exception for вперые



34it [13:35, 28.45s/it][A

Fast Text Exception for послеоперационом



35it [14:12, 31.25s/it][A

try госпитализировать



36it [14:35, 28.60s/it][A

try ухудшение



37it [14:49, 24.28s/it][A

Fast Text Exception for рентг



38it [15:14, 24.61s/it][A

Fast Text Exception for дальнешем



39it [15:48, 27.37s/it][A

Fast Text Exception for троботическая



40it [16:26, 30.62s/it][A

Fast Text Exception for многосоудистое



41it [16:50, 28.51s/it][A

Fast Text Exception for миокрада



42it [17:25, 30.43s/it][A

Fast Text Exception for сопрвождались



43it [17:48, 28.27s/it][A

try дискомфорт



44it [18:18, 28.63s/it][A

try потливость



45it [18:58, 32.14s/it][A

Fast Text Exception for левогожелудочка



46it [19:13, 26.96s/it][A

Fast Text Exception for рание



47it [19:24, 22.24s/it][A

Fast Text Exception for виед



48it [20:02, 26.97s/it][A

Fast Text Exception for ангинозныеболи



49it [20:38, 29.57s/it][A

try догоспитальный



50it [20:58, 26.95s/it][A

Fast Text Exception for ввполнен



51it [21:11, 22.75s/it][A

Fast Text Exception for чаосв



52it [21:40, 24.53s/it][A

Fast Text Exception for октазалась



53it [21:56, 21.93s/it][A

Fast Text Exception for линика



54it [22:13, 20.45s/it][A

Fast Text Exception for ммента



55it [22:41, 22.58s/it][A

Fast Text Exception for проведеной



56it [23:08, 23.96s/it][A

Fast Text Exception for выполненяи



57it [23:27, 22.65s/it][A

Fast Text Exception for леченяи



58it [23:48, 21.96s/it][A

Fast Text Exception for обтилась



59it [24:12, 22.60s/it][A

Fast Text Exception for повтороно



60it [24:52, 28.00s/it][A

try зарегистрировать



61it [25:10, 24.99s/it][A

Fast Text Exception for отицает



62it [25:36, 25.24s/it][A

Fast Text Exception for дальнейщем



63it [26:15, 29.27s/it][A

Fast Text Exception for болисохраняются



64it [26:39, 27.66s/it][A

Fast Text Exception for частичынм



65it [27:31, 35.03s/it][A

Fast Text Exception for атерокслеротичсекая



66it [27:45, 28.78s/it][A

Fast Text Exception for деньс



67it [28:08, 27.12s/it][A

Fast Text Exception for назначаля



68it [28:34, 26.76s/it][A

Fast Text Exception for проведеняи



69it [28:59, 26.17s/it][A

Fast Text Exception for беспакоют



70it [29:26, 26.43s/it][A

Fast Text Exception for гипертензи



71it [29:52, 26.22s/it][A

Fast Text Exception for воленйбол



72it [30:09, 23.41s/it][A

Fast Text Exception for болезн



73it [30:39, 25.45s/it][A

try стенокардия



74it [31:08, 26.48s/it][A

try продолжать



75it [31:30, 25.13s/it][A

Fast Text Exception for поворное



76it [31:50, 23.62s/it][A

Fast Text Exception for ощуащет



77it [32:21, 25.75s/it][A

Fast Text Exception for ангигнозного



78it [33:00, 29.74s/it][A

try диагностический



79it [33:39, 32.69s/it][A

Fast Text Exception for поддерживающией



80it [34:11, 32.44s/it][A

try межлопаточный



81it [34:33, 29.19s/it][A

Fast Text Exception for бедреной



82it [34:52, 26.19s/it][A

Fast Text Exception for гшрядки



83it [35:13, 24.71s/it][A

Fast Text Exception for бассеине



84it [35:32, 22.87s/it][A

Fast Text Exception for возлуха



85it [35:51, 21.79s/it][A

try сентябрь



86it [36:16, 22.78s/it][A

Fast Text Exception for постояная



87it [36:51, 26.48s/it][A

try рекомендовать



88it [37:18, 26.62s/it][A

Fast Text Exception for поврждения



89it [37:48, 27.53s/it][A

Fast Text Exception for дискофморта



90it [38:24, 30.04s/it][A

try имплантировать



91it [38:54, 30.13s/it][A

Fast Text Exception for неочетливая



92it [39:26, 30.81s/it][A

Fast Text Exception for обесвеченный



93it [39:41, 25.88s/it][A

Fast Text Exception for серце



94it [39:56, 22.80s/it][A

try болезнь



95it [40:14, 21.08s/it][A

Fast Text Exception for лергия



96it [40:23, 17.55s/it][A

Fast Text Exception for ука



97it [40:36, 16.30s/it][A

try изжога



98it [40:50, 15.60s/it][A

Fast Text Exception for жение



99it [41:03, 14.92s/it][A

Fast Text Exception for кашел



100it [41:20, 15.51s/it][A

Fast Text Exception for рствор



101it [41:36, 15.58s/it][A

try пациент



102it [41:53, 15.92s/it][A

Fast Text Exception for пожлой



103it [42:13, 17.29s/it][A

try лекарство



104it [42:46, 21.94s/it][A

Fast Text Exception for нпреносимость



105it [43:06, 21.46s/it][A

try ампула



106it [43:16, 17.88s/it][A

Fast Text Exception for гел



107it [43:41, 20.03s/it][A

Fast Text Exception for конценрат



109it [43:53, 13.49s/it][A

Fast Text Exception for чссс



110it [44:04, 12.87s/it][A

Fast Text Exception for экгъ



111it [44:30, 16.27s/it][A

try фибрилляция



112it [44:50, 17.42s/it][A

try желудочек



113it [45:01, 15.69s/it][A

Fast Text Exception for хрон



114it [45:21, 16.90s/it][A

Fast Text Exception for гиподин



115it [45:38, 16.99s/it][A

Fast Text Exception for нерный



116it [45:50, 15.41s/it][A

Fast Text Exception for сист



117it [46:24, 20.75s/it][A

Fast Text Exception for диагоностика



118it [46:48, 21.86s/it][A

Fast Text Exception for гипоксмия



119it [47:10, 21.95s/it][A

Fast Text Exception for ледокоин



120it [47:30, 21.32s/it][A

try блокатор



121it [47:54, 22.14s/it][A

try тахикардия



122it [48:30, 26.33s/it][A

Fast Text Exception for малоинвозивный



123it [48:46, 23.13s/it][A

Fast Text Exception for алация



124it [48:55, 18.78s/it][A

Fast Text Exception for имь



125it [49:18, 20.27s/it][A

Fast Text Exception for паражение



126it [49:37, 19.83s/it][A

Fast Text Exception for тяжолый



127it [50:14, 24.87s/it][A

Fast Text Exception for гастрапластика



129it [50:30, 17.25s/it][A

Fast Text Exception for лешний



131it [50:45, 13.21s/it][A

Fast Text Exception for клапа



132it [50:57, 13.01s/it][A

Fast Text Exception for вент



134it [51:19, 12.31s/it][A

try перикард



135it [51:47, 15.61s/it][A

Fast Text Exception for метральный



136it [52:11, 17.63s/it][A

Fast Text Exception for ултразвук



137it [52:26, 17.06s/it][A

try хирург



138it [52:49, 18.54s/it][A

try кардиолог



139it [53:09, 18.98s/it][A

try килограмм



140it [53:31, 19.68s/it][A

Fast Text Exception for акенезия



141it [53:49, 19.44s/it][A

Fast Text Exception for врхушка



142it [54:15, 21.26s/it][A

try апикальный



143it [54:31, 19.62s/it][A

try сегмент



145it [54:47, 14.40s/it][A

Fast Text Exception for сьенка



146it [55:15, 17.78s/it][A

try циркулярный



147it [55:36, 18.39s/it][A

Fast Text Exception for сридиный



148it [55:58, 19.55s/it][A

Fast Text Exception for калапаный



149it [56:14, 18.59s/it][A

Fast Text Exception for апарат



150it [56:38, 20.10s/it][A

Fast Text Exception for потология



151it [56:59, 20.40s/it][A

try перикард



152it [57:33, 24.30s/it][A

try проксимальный



153it [57:50, 22.18s/it][A

Fast Text Exception for деаметр



154it [58:10, 21.50s/it][A

try коррекция



155it [58:35, 22.43s/it][A

Fast Text Exception for аслажнение



156it [58:52, 21.03s/it][A

try страдать



157it [59:29, 25.62s/it][A

try гипертонический



158it [59:44, 22.42s/it][A

Fast Text Exception for болезн



159it [1:00:14, 24.73s/it][A

Fast Text Exception for одоптировать



160it [1:00:33, 23.20s/it][A

try получить



161it [1:01:07, 26.40s/it][A

try консервативный



162it [1:01:25, 23.80s/it][A

Fast Text Exception for тичение



163it [1:01:50, 24.24s/it][A

try требование



164it [1:02:13, 23.67s/it][A

Fast Text Exception for отбиление



165it [1:02:42, 25.26s/it][A

try самочувствие



166it [1:03:04, 24.39s/it][A

try ухудшение



167it [1:03:17, 20.85s/it][A

Fast Text Exception for месро



168it [1:03:34, 19.70s/it][A

try пункция



169it [1:04:00, 21.82s/it][A

try особенность



170it [1:04:11, 18.53s/it][A

Fast Text Exception for шнут



171it [1:04:42, 22.21s/it][A

try шунтирование



172it [1:05:00, 21.02s/it][A

Fast Text Exception for готчина



173it [1:05:08, 17.03s/it][A

Fast Text Exception for эхэ



174it [1:05:34, 19.61s/it][A

Fast Text Exception for каранарный



175it [1:05:52, 19.23s/it][A

Fast Text Exception for ортерия



176it [1:06:12, 19.61s/it][A

Fast Text Exception for сначимый



177it [1:06:28, 18.54s/it][A

Fast Text Exception for стинос



178it [1:07:09, 25.15s/it][A

try госпитализировать



179it [1:07:19, 20.73s/it][A

Fast Text Exception for имья



180it [1:07:38, 20.04s/it][A

Fast Text Exception for олмазов



181it [1:08:08, 23.17s/it][A

Fast Text Exception for прдшствовать



182it [1:08:36, 24.42s/it][A

try стенокардия



183it [1:08:59, 24.07s/it][A

Fast Text Exception for пиринести



184it [1:09:14, 21.42s/it][A

try инфаркт



185it [1:09:34, 20.96s/it][A

Fast Text Exception for моикарда



186it [1:10:02, 22.91s/it][A

Fast Text Exception for лакализация



187it [1:10:19, 21.31s/it][A

try справка



188it [1:10:45, 22.57s/it][A

try дальнейший



189it [1:11:51, 35.84s/it][A

Fast Text Exception for хроническаянедостаточность



190it [1:12:31, 37.03s/it][A

Fast Text Exception for инфарктмиокарда



191it [1:12:48, 30.97s/it][A

Fast Text Exception for отузла



192it [1:13:27, 33.20s/it][A

try нарушение



193it [1:13:44, 28.56s/it][A

Fast Text Exception for вминуту



194it [1:14:31, 34.01s/it][A

Fast Text Exception for эндокриннойсистемы



195it [1:15:05, 33.96s/it][A

try сердечный



196it [1:15:49, 36.92s/it][A

try тахикардия



197it [1:16:27, 37.49s/it][A

Fast Text Exception for основныефакторы



198it [1:17:06, 37.87s/it][A

try остановка



199it [1:18:00, 42.68s/it][A

try фибрилляция



200it [1:18:24, 23.52s/it][A
0it [1:18:24, ?it/s]

Fast Text Exception for счастотой
original_word_list --- corrected_word --- answer_word_list
эктренном --- экстренный --- ['экстренном']
синусовго --- синусный --- ['синусового']
даным --- данные --- ['данным', 'данный', 'данные']
шнутография --- кистография --- ['шунтография']
сникопальных --- синкопальный --- ['синкопальных']
посление --- поселение --- ['поселение', 'последний']
ходавый --- холевый --- ['ходовый']
анмнезе --- намять --- ['анамнезе', 'анамнез']
сентированный --- ориентировать --- ['стентированный']
самоч --- самос --- ['самочувствие']
перевдена --- переедена --- ['переведена']
стентированеим --- тестирование --- ['стентированием', 'стентирование']
кардиол --- кардио- --- ['кардиолог,кардиологический']
переведна --- перевести --- ['переведена']
догосптальном --- догоспитальный --- ['догоспитальном']
миним --- синим --- ['минимум', 'минимальный']
субфебриллитет --- субфебрилитет --- ['субфебрилитет']
загрудиные --- загрудинный --- ['загрудинные', 'загрудинный']
перферия




{'words_per_minute': 2.5506935162686775,
 'error_precision': 0.405,
 'lexical_precision': 0.0,
 'original_word_list': ['эктренном',
  'синусовго',
  'даным',
  'шнутография',
  'сникопальных',
  'посление',
  'ходавый',
  'анмнезе',
  'сентированный',
  'самоч',
  'перевдена',
  'стентированеим',
  'кардиол',
  'переведна',
  'догосптальном',
  'миним',
  'субфебриллитет',
  'загрудиные',
  'перферия',
  'течени',
  'оклюзия',
  'жнщина',
  'пциент',
  'зарегистирована',
  'сегмета',
  'клекте',
  'эпид',
  'интелектуально',
  'нижн',
  'прводилась',
  'неуст',
  'госптализирован',
  'вперые',
  'послеоперационом',
  'госпитализирова',
  'ухудщение',
  'рентг',
  'дальнешем',
  'троботическая',
  'многосоудистое',
  'миокрада',
  'сопрвождались',
  'дискмфорт',
  'потлтвостью',
  'левогожелудочка',
  'рание',
  'виед',
  'ангинозныеболи',
  'догоситальном',
  'ввполнен',
  'чаосв',
  'октазалась',
  'линика',
  'ммента',
  'проведеной',
  'выполненяи',
  'леченяи',
  'обтилась',
  'пов

# Test Symspellpy - https://github.com/mammothb/symspellpy

In [5]:
!pip install -U symspellpy

Collecting symspellpy
  Downloading symspellpy-6.7.5-py3-none-any.whl (2.6 MB)
     |████████████████████████████████| 2.6 MB 508 kB/s            
[?25hCollecting editdistpy>=0.1.3
  Downloading editdistpy-0.1.3.tar.gz (57 kB)
     |████████████████████████████████| 57 kB 3.8 MB/s             
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hBuilding wheels for collected packages: editdistpy
  Building wheel for editdistpy (pyproject.toml) ... [?25ldone
[?25h  Created wheel for editdistpy: filename=editdistpy-0.1.3-cp39-cp39-linux_x86_64.whl size=137366 sha256=1cdcde1ac87d9131a60044421ede35f55c5707edce581c0730bd56e85706181a
  Stored in directory: /home/Dmitry.Pogrebnoy/.cache/pip/wheels/72/16/b1/ea6472dedd6ac13ad789dd294871a76fd6906fca3c010347d1
Successfully built editdistpy
Installing collected packages: editdistpy, symspellpy
Successfully i

In [48]:
!pip show symspellpy

Name: symspellpy
Version: 6.7.5
Summary: Python SymSpell
Home-page: https://github.com/mammothb/symspellpy
Author: mmb L
Author-email: 
License: MIT
Location: /home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/venv/lib/python3.9/site-packages
Requires: editdistpy
Required-by: 


### Test Symspellpy lookup on basic dict

In [61]:
basic_frequency_dict = '../data/symspell/ru-100k.txt'

In [62]:
from symspellpy import SymSpell, Verbosity

def test_symspell_py_lookup(frequency_dict_path, input_word_list):
    sym_spell_py = SymSpell()
    sym_spell_py.load_dictionary(frequency_dict_path, 0, 1, encoding="UTF8")

    result = []
    timer = tqdm(input_word_list)
    for word in timer:
        suggestions = sym_spell_py.lookup(word, Verbosity.TOP, max_edit_distance=2, include_unknown=True)
        result.append(suggestions[0].term)
    return  {"elapsed" : timer.format_dict["elapsed"], "corrected_word_list" : result}

In [63]:
test_symspell_py_lookup_result = compute_all_metrics(
    lambda : test_symspell_py_lookup(basic_frequency_dict, error_precision_test_word_list),
    lambda : test_symspell_py_lookup(basic_frequency_dict, lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
test_symspell_py_lookup_result

100%|██████████| 200/200 [00:00<00:00, 12771.16it/s]

original_word_list --- corrected_word --- answer_word_list
эктренном --- коренном --- ['экстренном']
синусовго --- синусовго --- ['синусового']
даным --- данным --- ['данным', 'данный', 'данные']
шнутография --- шнутография --- ['шунтография']
сникопальных --- сникопальных --- ['синкопальных']
посление --- последние --- ['поселение', 'последний']
ходавый --- подавай --- ['ходовый']
анмнезе --- анамнезе --- ['анамнезе', 'анамнез']
сентированный --- сентированный --- ['стентированный']
самоч --- самой --- ['самочувствие']
перевдена --- переведена --- ['переведена']
стентированеим --- стентированеим --- ['стентированием', 'стентирование']
кардиол --- кардинал --- ['кардиолог,кардиологический']
переведна --- переведена --- ['переведена']
догосптальном --- догосптальном --- ['догоспитальном']
миним --- синим --- ['минимум', 'минимальный']
субфебриллитет --- субфебриллитет --- ['субфебрилитет']
загрудиные --- загрудиные --- ['загрудинные', 'загрудинный']
перферия --- периферия --- ['перифери




{'words_per_minute': 747936.6362528605,
 'error_precision': 0.42,
 'lexical_precision': 0.0,
 'original_word_list': ['эктренном',
  'синусовго',
  'даным',
  'шнутография',
  'сникопальных',
  'посление',
  'ходавый',
  'анмнезе',
  'сентированный',
  'самоч',
  'перевдена',
  'стентированеим',
  'кардиол',
  'переведна',
  'догосптальном',
  'миним',
  'субфебриллитет',
  'загрудиные',
  'перферия',
  'течени',
  'оклюзия',
  'жнщина',
  'пциент',
  'зарегистирована',
  'сегмета',
  'клекте',
  'эпид',
  'интелектуально',
  'нижн',
  'прводилась',
  'неуст',
  'госптализирован',
  'вперые',
  'послеоперационом',
  'госпитализирова',
  'ухудщение',
  'рентг',
  'дальнешем',
  'троботическая',
  'многосоудистое',
  'миокрада',
  'сопрвождались',
  'дискмфорт',
  'потлтвостью',
  'левогожелудочка',
  'рание',
  'виед',
  'ангинозныеболи',
  'догоситальном',
  'ввполнен',
  'чаосв',
  'октазалась',
  'линика',
  'ммента',
  'проведеной',
  'выполненяи',
  'леченяи',
  'обтилась',
  'повто

In [None]:
def test_symspell_py_lookup_compound(frequency_dict_path, input_word_list):
    sym_spell_py = SymSpell()
    sym_spell_py.load_dictionary(frequency_dict_path, 0, 1, encoding="UTF8")

    result = []
    timer = tqdm(input_word_list)
    for word in timer:
        suggestions = sym_spell_py.lookup_compound(word, max_edit_distance=2)
        result.append(suggestions[0].term)
    return {"elapsed" : timer.format_dict["elapsed"], "corrected_word_list" : result}

In [64]:
test_symspell_py_lookup_compound_result = compute_all_metrics(
    lambda : test_symspell_py_lookup_compound(basic_frequency_dict, error_precision_test_word_list),
    lambda : test_symspell_py_lookup_compound(basic_frequency_dict, lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
test_symspell_py_lookup_compound_result

100%|██████████| 200/200 [00:00<00:00, 753.19it/s]

original_word_list --- corrected_word --- answer_word_list
эктренном --- коренном --- ['экстренном']
синусовго --- синус его --- ['синусового']
даным --- данным --- ['данным', 'данный', 'данные']
шнутография --- и фотография --- ['шунтография']
сникопальных --- они локальных --- ['синкопальных']
посление --- последние --- ['поселение', 'последний']
ходавый --- ход вый --- ['ходовый']
анмнезе --- анамнезе --- ['анамнезе', 'анамнез']
сентированный --- центров данный --- ['стентированный']
самоч --- самой --- ['самочувствие']
перевдена --- переведена --- ['переведена']
стентированеим --- стен титрованием --- ['стентированием', 'стентирование']
кардиол --- кардинал --- ['кардиолог,кардиологический']
переведна --- переведена --- ['переведена']
догосптальном --- до остальном --- ['догоспитальном']
миним --- синим --- ['минимум', 'минимальный']
субфебриллитет --- себе бриллиант --- ['субфебрилитет']
загрудиные --- за рудные --- ['загрудинные', 'загрудинный']
перферия --- периферия --- ['периф




{'words_per_minute': 45122.32114601385,
 'error_precision': 0.46,
 'lexical_precision': 0.0,
 'original_word_list': ['эктренном',
  'синусовго',
  'даным',
  'шнутография',
  'сникопальных',
  'посление',
  'ходавый',
  'анмнезе',
  'сентированный',
  'самоч',
  'перевдена',
  'стентированеим',
  'кардиол',
  'переведна',
  'догосптальном',
  'миним',
  'субфебриллитет',
  'загрудиные',
  'перферия',
  'течени',
  'оклюзия',
  'жнщина',
  'пциент',
  'зарегистирована',
  'сегмета',
  'клекте',
  'эпид',
  'интелектуально',
  'нижн',
  'прводилась',
  'неуст',
  'госптализирован',
  'вперые',
  'послеоперационом',
  'госпитализирова',
  'ухудщение',
  'рентг',
  'дальнешем',
  'троботическая',
  'многосоудистое',
  'миокрада',
  'сопрвождались',
  'дискмфорт',
  'потлтвостью',
  'левогожелудочка',
  'рание',
  'виед',
  'ангинозныеболи',
  'догоситальном',
  'ввполнен',
  'чаосв',
  'октазалась',
  'линика',
  'ммента',
  'проведеной',
  'выполненяи',
  'леченяи',
  'обтилась',
  'повто

# Test SymSpellCppPy - https://github.com/viig99/SymSpellCppPy

In [22]:
!pip install wheel setuptools



In [29]:
!pip install --upgrade SymSpellCppPy

Collecting SymSpellCppPy
  Using cached SymSpellCppPy-0.0.14.tar.gz (5.4 MB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: SymSpellCppPy
  Building wheel for SymSpellCppPy (setup.py) ... [?25lerror
[31m  ERROR: Command errored out with exit status 1:
   command: /home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/venv/bin/python -u -c 'import io, os, sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install-h03nugqd/symspellcpppy_7de71a60b9a84cd9aba25d717b40bd4e/setup.py'"'"'; __file__='"'"'/tmp/pip-install-h03nugqd/symspellcpppy_7de71a60b9a84cd9aba25d717b40bd4e/setup.py'"'"';f = getattr(tokenize, '"'"'open'"'"', open)(__file__) if os.path.exists(__file__) else io.StringIO('"'"'from setuptools import setup; setup()'"'"');code = f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' bdist_wheel -d /tmp/pip-wheel-6n1izgqg
       cwd: /tmp/pip-install-h03nugqd/symspellcpppy_7de71a60b9a

There was a problem with installing the package. It is still unclear what the reason is. However, this spellchecker should not provide more accuracy, only higher speed since it is implemented in C++. However, the speed of the Python implementation is still enough at this stage.  So I decided to leave it here for now and come back if there is a need for more speed.

# Test JumSpell - https://github.com/bakwc/JamSpell

#### Attention No Windows 10 support!

Not working with compound words

In [28]:
!pip install -I --no-cache-dir jamspell

Collecting jamspell
  Downloading jamspell-0.0.12.tar.gz (174 kB)
     |████████████████████████████████| 174 kB 464 kB/s            
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: jamspell
  Building wheel for jamspell (setup.py) ... [?25ldone
[?25h  Created wheel for jamspell: filename=jamspell-0.0.12-cp39-cp39-linux_x86_64.whl size=1901024 sha256=12f999b71c361ba070861480a02e92d3afc4e0f332bea2ec4b1851025bbabb54
  Stored in directory: /tmp/pip-ephem-wheel-cache-t_m_awed/wheels/fa/7e/8f/c23ae02f1556243d33cc2e3bddf98f8cc146e174e5855788b6
Successfully built jamspell
Installing collected packages: jamspell
Successfully installed jamspell-0.0.12


In [46]:
!pip show jamspell

Name: jamspell
Version: 0.0.12
Summary: spell checker
Home-page: https://github.com/bakwc/JamSpell
Author: Filipp Ozinov
Author-email: fippo@mail.ru
License: UNKNOWN
Location: /home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/venv/lib/python3.9/site-packages
Requires: 
Required-by: 


In [65]:
from jamspell import TSpellCorrector
jumspell_model_lib = "../data/junspell/ru_small.bin"

In [66]:
def test_jumspell(jumspell_model_lib, input_word_list):
    jumspell = TSpellCorrector()
    jumspell.LoadLangModel(jumspell_model_lib)

    result = []
    timer = tqdm(input_word_list)
    for word in timer:
        suggestions = jumspell.FixFragment(word)
        result.append(suggestions)
    return  {"elapsed" : timer.format_dict["elapsed"], "corrected_word_list" : result}

In [67]:
test_jumspell_result = compute_all_metrics(
    lambda : test_jumspell(jumspell_model_lib, error_precision_test_word_list),
    lambda : test_jumspell(jumspell_model_lib, lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
test_jumspell_result

100%|██████████| 200/200 [00:00<00:00, 1442.58it/s]


original_word_list --- corrected_word --- answer_word_list
эктренном --- экстренном --- ['экстренном']
синусовго --- синусовго --- ['синусового']
даным --- даным --- ['данным', 'данный', 'данные']
шнутография --- шнутография --- ['шунтография']
сникопальных --- сникопальных --- ['синкопальных']
посление --- последние --- ['поселение', 'последний']
ходавый --- ходовой --- ['ходовый']
анмнезе --- анмнезе --- ['анамнезе', 'анамнез']
сентированный --- сентированный --- ['стентированный']
самоч --- самом --- ['самочувствие']
перевдена --- переведена --- ['переведена']
стентированеим --- стентированеим --- ['стентированием', 'стентирование']
кардиол --- кардинал --- ['кардиолог,кардиологический']
переведна --- переведена --- ['переведена']
догосптальном --- догосптальном --- ['догоспитальном']
миним --- мини --- ['минимум', 'минимальный']
субфебриллитет --- субфебриллитет --- ['субфебрилитет']
загрудиные --- загрудиные --- ['загрудинные', 'загрудинный']
перферия --- периферия --- ['периферия

{'words_per_minute': 86250.78913546397,
 'error_precision': 0.395,
 'lexical_precision': 0.0,
 'original_word_list': ['эктренном',
  'синусовго',
  'даным',
  'шнутография',
  'сникопальных',
  'посление',
  'ходавый',
  'анмнезе',
  'сентированный',
  'самоч',
  'перевдена',
  'стентированеим',
  'кардиол',
  'переведна',
  'догосптальном',
  'миним',
  'субфебриллитет',
  'загрудиные',
  'перферия',
  'течени',
  'оклюзия',
  'жнщина',
  'пциент',
  'зарегистирована',
  'сегмета',
  'клекте',
  'эпид',
  'интелектуально',
  'нижн',
  'прводилась',
  'неуст',
  'госптализирован',
  'вперые',
  'послеоперационом',
  'госпитализирова',
  'ухудщение',
  'рентг',
  'дальнешем',
  'троботическая',
  'многосоудистое',
  'миокрада',
  'сопрвождались',
  'дискмфорт',
  'потлтвостью',
  'левогожелудочка',
  'рание',
  'виед',
  'ангинозныеболи',
  'догоситальном',
  'ввполнен',
  'чаосв',
  'октазалась',
  'линика',
  'ммента',
  'проведеной',
  'выполненяи',
  'леченяи',
  'обтилась',
  'повт

# Test Language-tool (language-tool-python) - https://github.com/jxmorris12/language_tool_python

In [49]:
!pip install language-tool-python

Collecting language-tool-python
  Downloading language_tool_python-2.6.2-py3-none-any.whl (30 kB)
Collecting requests
  Downloading requests-2.26.0-py2.py3-none-any.whl (62 kB)
     |████████████████████████████████| 62 kB 496 kB/s            
[?25hCollecting idna<4,>=2.5
  Downloading idna-3.3-py3-none-any.whl (61 kB)
     |████████████████████████████████| 61 kB 851 kB/s            
[?25hCollecting certifi>=2017.4.17
  Downloading certifi-2021.10.8-py2.py3-none-any.whl (149 kB)
     |████████████████████████████████| 149 kB 1.1 MB/s            
[?25hCollecting urllib3<1.27,>=1.21.1
  Downloading urllib3-1.26.7-py2.py3-none-any.whl (138 kB)
     |████████████████████████████████| 138 kB 3.0 MB/s            
[?25hCollecting charset-normalizer~=2.0.0
  Downloading charset_normalizer-2.0.9-py3-none-any.whl (39 kB)
Installing collected packages: urllib3, idna, charset-normalizer, certifi, requests, language-tool-python
Successfully installed certifi-2021.10.8 charset-

In [45]:
!pip show language-tool-python

Name: language-tool-python
Version: 2.6.2
Summary: Checks grammar using LanguageTool.
Home-page: https://github.com/jxmorris12/language_tool_python
Author: Jack Morris
Author-email: jxmorris12@gmail.com
License: GNU GPL
Location: /home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/venv/lib/python3.9/site-packages
Requires: requests, tqdm
Required-by: 


In [50]:
from language_tool_python import LanguageTool

In [68]:
def test_language_tool(input_word_list):
    tool = LanguageTool('ru')
    result = []
    timer = tqdm(input_word_list)
    for word in timer:
        suggestions = tool.correct(word)
        result.append(suggestions)
    return  {"elapsed" : timer.format_dict["elapsed"], "corrected_word_list" : result}

In [69]:
test_language_tool_result = compute_all_metrics(
    lambda : test_language_tool(error_precision_test_word_list),
    lambda : test_language_tool(lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
test_language_tool_result

100%|██████████| 200/200 [00:12<00:00, 15.67it/s]


original_word_list --- corrected_word --- answer_word_list
эктренном --- экстренном --- ['экстренном']
синусовго --- синусового --- ['синусового']
даным --- данным --- ['данным', 'данный', 'данные']
шнутография --- фотография --- ['шунтография']
сникопальных --- сник опальных --- ['синкопальных']
посление --- послание --- ['поселение', 'последний']
ходавый --- ходовой --- ['ходовый']
анмнезе --- анамнезе --- ['анамнезе', 'анамнез']
сентированный --- сен тированный --- ['стентированный']
самоч --- само --- ['самочувствие']
перевдена --- передвину --- ['переведена']
стентированеим --- агентированием --- ['стентированием', 'стентирование']
кардиол --- кардио --- ['кардиолог,кардиологический']
переведна --- переведена --- ['переведена']
догосптальном --- догоспитальном --- ['догоспитальном']
миним --- менем --- ['минимум', 'минимальный']
субфебриллитет --- субфебрилитет --- ['субфебрилитет']
загрудиные --- загруженные --- ['загрудинные', 'загрудинный']
перферия --- периферия --- ['перифери

{'words_per_minute': 940.002218728534,
 'error_precision': 0.64,
 'lexical_precision': 0.0,
 'original_word_list': ['эктренном',
  'синусовго',
  'даным',
  'шнутография',
  'сникопальных',
  'посление',
  'ходавый',
  'анмнезе',
  'сентированный',
  'самоч',
  'перевдена',
  'стентированеим',
  'кардиол',
  'переведна',
  'догосптальном',
  'миним',
  'субфебриллитет',
  'загрудиные',
  'перферия',
  'течени',
  'оклюзия',
  'жнщина',
  'пциент',
  'зарегистирована',
  'сегмета',
  'клекте',
  'эпид',
  'интелектуально',
  'нижн',
  'прводилась',
  'неуст',
  'госптализирован',
  'вперые',
  'послеоперационом',
  'госпитализирова',
  'ухудщение',
  'рентг',
  'дальнешем',
  'троботическая',
  'многосоудистое',
  'миокрада',
  'сопрвождались',
  'дискмфорт',
  'потлтвостью',
  'левогожелудочка',
  'рание',
  'виед',
  'ангинозныеболи',
  'догоситальном',
  'ввполнен',
  'чаосв',
  'октазалась',
  'линика',
  'ммента',
  'проведеной',
  'выполненяи',
  'леченяи',
  'обтилась',
  'повтор

# PySpelling (wrapper for Aspell and Hunspell) - https://facelessuser.github.io/pyspelling/

It is necessary to install for Linux
`sudo apt-get install aspell aspell-ru`
`sudo apt-get install hunspell hunspell-ru`

In [10]:
!pip install pyspelling

Collecting pyspelling
  Downloading pyspelling-2.7.3-py3-none-any.whl (45 kB)
     |████████████████████████████████| 45 kB 508 kB/s             
[?25hCollecting wcmatch>=6.0.3
  Downloading wcmatch-8.3-py3-none-any.whl (42 kB)
     |████████████████████████████████| 42 kB 736 kB/s            
[?25hCollecting lxml
  Downloading lxml-4.6.4-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.manylinux_2_24_x86_64.whl (6.9 MB)
     |████████████████████████████████| 6.9 MB 2.0 MB/s            
[?25hCollecting html5lib
  Downloading html5lib-1.1-py2.py3-none-any.whl (112 kB)
     |████████████████████████████████| 112 kB 2.2 MB/s            
[?25hCollecting markdown
  Downloading Markdown-3.3.6-py3-none-any.whl (97 kB)
     |████████████████████████████████| 97 kB 1.8 MB/s            
[?25hCollecting beautifulsoup4
  Downloading beautifulsoup4-4.10.0-py3-none-any.whl (97 kB)
     |████████████████████████████████| 97 kB 1.9 MB/s            
[?25hCollecting pyyaml


This is a console module, so it will be quite difficult to parse the output of the tool and get metrics.

In [13]:
!pyspelling --version

pyspelling 2.7.3


# Aspell wrapper for python - https://pypi.org/project/aspell-python-py3/

It is necessary to install for Linux
`sudo apt-get install libaspell-dev`

In [15]:
!pip install aspell-python-py3

Collecting aspell-python-py3
  Using cached aspell-python-py3-1.15.tar.bz2 (12 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: aspell-python-py3
  Building wheel for aspell-python-py3 (setup.py) ... [?25ldone
[?25h  Created wheel for aspell-python-py3: filename=aspell_python_py3-1.15-cp39-cp39-linux_x86_64.whl size=32277 sha256=88cebc3f0ae1fc6677ef7c879052e10d5ba53a6a4894d90256d63c3fc14cb599
  Stored in directory: /home/Dmitry.Pogrebnoy/.cache/pip/wheels/cd/bc/ba/22f1fcf521721e21edfc7373b9e8dd9cf4192bb6646f9224b6
Successfully built aspell-python-py3
Installing collected packages: aspell-python-py3
Successfully installed aspell-python-py3-1.15


In [31]:
!pip show aspell-python-py3

Name: aspell-python-py3
Version: 1.15
Summary: Wrapper around GNU Aspell for Python 3
Home-page: http://github.com/WojciechMula/aspell-python
Author: Wojciech Muła
Author-email: wojciech_mula@poczta.onet.pl
License: BSD (3 clauses)
Location: /home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/venv/lib/python3.9/site-packages
Requires: 
Required-by: 


In [22]:
from aspell import Speller

In [25]:
def test_aspell(input_word_list):
    speller = Speller(("lang", "ru"))
    result = []
    timer = tqdm(input_word_list)
    for word in timer:
        suggestions = speller.suggest(word)
        if len(suggestions) == 0:
            result.append(word)
        else:
            result.append(suggestions[0])
    return  {"elapsed" : timer.format_dict["elapsed"], "corrected_word_list" : result}

In [89]:
test_aspell_result = compute_all_metrics(
    lambda : test_aspell(error_precision_test_word_list),
    lambda : test_aspell(lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
test_aspell_result

100%|██████████| 200/200 [00:00<00:00, 271.01it/s]


original_word_list --- corrected_word --- answer_word_list
эктренном --- экстренном --- ['экстренном']
синусовго --- синусов го --- ['синусового']
даным --- данным --- ['данным', 'данный', 'данные']
шнутография --- нотография --- ['шунтография']
сникопальных --- сник опальных --- ['синкопальных']
посление --- поселение --- ['поселение', 'последний']
ходавый --- ходовой --- ['ходовый']
анмнезе --- анамнезе --- ['анамнезе', 'анамнез']
сентированный --- смонтированный --- ['стентированный']
самоч --- само --- ['самочувствие']
перевдена --- переведена --- ['переведена']
стентированеим --- смонтированном --- ['стентированием', 'стентирование']
кардиол --- кар диол --- ['кардиолог,кардиологический']
переведна --- переведена --- ['переведена']
догосптальном --- госпитальном --- ['догоспитальном']
миним --- мним --- ['минимум', 'минимальный']
субфебриллитет --- субфебриллитет --- ['субфебрилитет']
загрудиные --- загородные --- ['загрудинные', 'загрудинный']
перферия --- периферия --- ['перифер

100%|██████████| 6/6 [00:00<00:00, 1446.06it/s]

original_word_list --- corrected_word
П --- ПА
р --- ре
и --- и
в --- в
е --- ею
т --- тю
Right corrected words count - 2 of 6 total





{'words_per_minute': 16633.77792665577,
 'error_precision': 0.65,
 'lexical_precision': 0.3333333333333333}

# Test Hunspell wrapper for Python - https://pypi.org/project/hunspell/

It is necessary to install for Linux
`sudo apt-get install libhunspell-dev`

In [33]:
!pip install hunspell

Collecting hunspell
  Using cached hunspell-0.5.5.tar.gz (34 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: hunspell
  Building wheel for hunspell (setup.py) ... [?25ldone
[?25h  Created wheel for hunspell: filename=hunspell-0.5.5-cp39-cp39-linux_x86_64.whl size=71479 sha256=b553539242f8711480ca30cb24d3c79420f2086418638f8ee1fa653a8a74b1de
  Stored in directory: /home/Dmitry.Pogrebnoy/.cache/pip/wheels/26/15/2a/9342fc72db7e13be532f1e183ef0c7d18c3af0ecbd70fdb872
Successfully built hunspell
Installing collected packages: hunspell
Successfully installed hunspell-0.5.5


In [44]:
!pip show hunspell

Name: hunspell
Version: 0.5.5
Summary: Module for the Hunspell spellchecker engine
Home-page: http://github.com/blatinier/pyhunspell
Author: Benoît Latinier
Author-email: benoit@latinier.fr
License: LGPLv3
Location: /home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/venv/lib/python3.9/site-packages
Requires: 
Required-by: 


In [34]:
from hunspell import HunSpell

In [42]:
def test_hunspell(input_word_list):
    speller = HunSpell('../data/hunspell/index.dic', '../data/hunspell/index.aff')
    result = []
    timer = tqdm(input_word_list)
    for word in timer:
        suggestions = speller.suggest(word)
        if len(suggestions) == 0:
            result.append(word)
        else:
            result.append(suggestions[0])
    return  {"elapsed" : timer.format_dict["elapsed"], "corrected_word_list" : result}

In [43]:
test_hunspell_result = compute_all_metrics(
    lambda : test_hunspell(error_precision_test_word_list),
    lambda : test_hunspell(lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
test_hunspell_result

100%|██████████| 200/200 [00:16<00:00, 12.43it/s]


original_word_list --- corrected_word --- answer_word_list
эктренном --- экстренном --- ['экстренном']
синусовго --- синусов го --- ['синусового']
даным --- даны --- ['данным', 'данный', 'данные']
шнутография --- нотография --- ['шунтография']
сникопальных --- сник опальных --- ['синкопальных']
посление --- поселение --- ['поселение', 'последний']
ходавый --- хода вый --- ['ходовый']
анмнезе --- анамнезе --- ['анамнезе', 'анамнез']
сентированный --- сориентированный --- ['стентированный']
самоч --- само --- ['самочувствие']
перевдена --- перевидена --- ['переведена']
стентированеим --- сцементирован --- ['стентированием', 'стентирование']
кардиол --- кар диол --- ['кардиолог,кардиологический']
переведна --- переведена --- ['переведена']
догосптальном --- госпитальном --- ['догоспитальном']
миним --- мини --- ['минимум', 'минимальный']
субфебриллитет --- субфебрилитет --- ['субфебрилитет']
загрудиные --- нагрудные --- ['загрудинные', 'загрудинный']
перферия --- периферия --- ['периферия

{'words_per_minute': 745.7555003371791,
 'error_precision': 0.59,
 'lexical_precision': 0.0,
 'original_word_list': ['эктренном',
  'синусовго',
  'даным',
  'шнутография',
  'сникопальных',
  'посление',
  'ходавый',
  'анмнезе',
  'сентированный',
  'самоч',
  'перевдена',
  'стентированеим',
  'кардиол',
  'переведна',
  'догосптальном',
  'миним',
  'субфебриллитет',
  'загрудиные',
  'перферия',
  'течени',
  'оклюзия',
  'жнщина',
  'пциент',
  'зарегистирована',
  'сегмета',
  'клекте',
  'эпид',
  'интелектуально',
  'нижн',
  'прводилась',
  'неуст',
  'госптализирован',
  'вперые',
  'послеоперационом',
  'госпитализирова',
  'ухудщение',
  'рентг',
  'дальнешем',
  'троботическая',
  'многосоудистое',
  'миокрада',
  'сопрвождались',
  'дискмфорт',
  'потлтвостью',
  'левогожелудочка',
  'рание',
  'виед',
  'ангинозныеболи',
  'догоситальном',
  'ввполнен',
  'чаосв',
  'октазалась',
  'линика',
  'ммента',
  'проведеной',
  'выполненяи',
  'леченяи',
  'обтилась',
  'повто

# Pyspellchecker (Piter Norwig's algorithm) - https://github.com/barrust/pyspellchecker

In [52]:
!pip install pyspellchecker

Collecting pyspellchecker
  Downloading pyspellchecker-0.6.2-py3-none-any.whl (2.7 MB)
     |████████████████████████████████| 2.7 MB 281 kB/s            
[?25hInstalling collected packages: pyspellchecker
Successfully installed pyspellchecker-0.6.2


In [53]:
!pip show pyspellchecker

Name: pyspellchecker
Version: 0.6.2
Summary: Pure python spell checker based on work by Peter Norvig
Home-page: https://github.com/barrust/pyspellchecker
Author: Tyler Barrus
Author-email: barrust@gmail.com
License: MIT
Location: /home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/venv/lib/python3.9/site-packages
Requires: 
Required-by: 


In [54]:
import spellchecker

In [55]:
def test_pyspellshecker(input_word_list):
    speller = spellchecker.SpellChecker(language='ru')
    result = []
    timer = tqdm(input_word_list)
    for word in timer:
        suggestions = speller.correction(word)
        result.append(suggestions)
    return  {"elapsed" : timer.format_dict["elapsed"], "corrected_word_list" : result}

In [56]:
test_pyspellshecker_result = compute_all_metrics(
    lambda : test_pyspellshecker(error_precision_test_word_list),
    lambda : test_pyspellshecker(lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
test_pyspellshecker_result

100%|██████████| 200/200 [00:47<00:00,  4.17it/s]

original_word_list --- corrected_word --- answer_word_list
эктренном --- экстренное --- ['экстренном']
синусовго --- синусовый --- ['синусового']
даным --- давным --- ['данным', 'данный', 'данные']
шнутография --- шнутография --- ['шунтография']
сникопальных --- сникопальных --- ['синкопальных']
посление --- последние --- ['поселение', 'последний']
ходавый --- подавай --- ['ходовый']
анмнезе --- анмнезе --- ['анамнезе', 'анамнез']
сентированный --- сентированный --- ['стентированный']
самоч --- самое --- ['самочувствие']
перевдена --- переведено --- ['переведена']
стентированеим --- стентированеим --- ['стентированием', 'стентирование']
кардиол --- кардинал --- ['кардиолог,кардиологический']
переведна --- переведено --- ['переведена']
догосптальном --- догосптальном --- ['догоспитальном']
миним --- мини --- ['минимум', 'минимальный']
субфебриллитет --- субфебриллитет --- ['субфебрилитет']
загрудиные --- загрудиные --- ['загрудинные', 'загрудинный']
перферия --- перферия --- ['периферия




{'words_per_minute': 250.29052741295192,
 'error_precision': 0.335,
 'lexical_precision': 0.0,
 'original_word_list': ['эктренном',
  'синусовго',
  'даным',
  'шнутография',
  'сникопальных',
  'посление',
  'ходавый',
  'анмнезе',
  'сентированный',
  'самоч',
  'перевдена',
  'стентированеим',
  'кардиол',
  'переведна',
  'догосптальном',
  'миним',
  'субфебриллитет',
  'загрудиные',
  'перферия',
  'течени',
  'оклюзия',
  'жнщина',
  'пциент',
  'зарегистирована',
  'сегмета',
  'клекте',
  'эпид',
  'интелектуально',
  'нижн',
  'прводилась',
  'неуст',
  'госптализирован',
  'вперые',
  'послеоперационом',
  'госпитализирова',
  'ухудщение',
  'рентг',
  'дальнешем',
  'троботическая',
  'многосоудистое',
  'миокрада',
  'сопрвождались',
  'дискмфорт',
  'потлтвостью',
  'левогожелудочка',
  'рание',
  'виед',
  'ангинозныеболи',
  'догоситальном',
  'ввполнен',
  'чаосв',
  'октазалась',
  'линика',
  'ммента',
  'проведеной',
  'выполненяи',
  'леченяи',
  'обтилась',
  'пов

# PyEnchant - https://pypi.org/project/pyenchant/

In [57]:
!pip install pyenchant

Collecting pyenchant
  Downloading pyenchant-3.2.2-py3-none-any.whl (55 kB)
     |████████████████████████████████| 55 kB 328 kB/s             
[?25hInstalling collected packages: pyenchant
Successfully installed pyenchant-3.2.2


In [58]:
!pip show pyenchant

Name: pyenchant
Version: 3.2.2
Summary: Python bindings for the Enchant spellchecking system
Home-page: https://pyenchant.github.io/pyenchant/
Author: Dimitri Merejkowsky
Author-email: d.merej@gmail.com
License: LGPL
Location: /home/Dmitry.Pogrebnoy/Desktop/MedSpellChecker/venv/lib/python3.9/site-packages
Requires: 
Required-by: 


In [83]:
import enchant

In [84]:
def test_enchant(input_word_list):
    speller = enchant.Dict("ru")
    result = []
    timer = tqdm(input_word_list)
    for word in timer:
        suggestions = speller.suggest(word)
        if len(suggestions) == 0:
            result.append(word)
        else:
            result.append(suggestions[0])
    return  {"elapsed" : timer.format_dict["elapsed"], "corrected_word_list" : result}

In [94]:
test_enchant_result = compute_all_metrics(
    lambda : test_enchant(error_precision_test_word_list),
    lambda : test_enchant(lexical_precision_test_word_list),
    error_precision_test_word_list, error_precision_test_answers, lexical_precision_test_word_list)
test_enchant_result

100%|██████████| 200/200 [00:07<00:00, 27.12it/s]


Error precision
original_word_list --- corrected_word --- answer_word_list
эктренном --- экстренном --- ['экстренном']
синусовго --- синусов го --- ['синусового']
даным --- даны --- ['данным', 'данный', 'данные']
шнутография --- нотография --- ['шунтография']
сникопальных --- сник опальных --- ['синкопальных']
посление --- поселение --- ['поселение', 'последний']
ходавый --- хордовый --- ['ходовый']
анмнезе --- анамнезе --- ['анамнезе', 'анамнез']
сентированный --- сориентированный --- ['стентированный']
самоч --- само --- ['самочувствие']
перевдена --- перевидена --- ['переведена']
стентированеим --- сориентировавшим --- ['стентированием', 'стентирование']
кардиол --- кар диол --- ['кардиолог,кардиологический']
переведна --- переведена --- ['переведена']
догосптальном --- госпитальном --- ['догоспитальном']
миним --- мини --- ['минимум', 'минимальный']
субфебриллитет --- субмиллиметровый --- ['субфебрилитет']
загрудиные --- нагрудные --- ['загрудинные', 'загрудинный']
перферия --- пер

100%|██████████| 1/1 [00:00<00:00, 40.65it/s]

Lexical precision
original_word_list --- corrected_word
Привет --- Привет
Right corrected words count - 1 of 1 total





{'words_per_minute': 1629.4213886652708,
 'error_precision': 0.6,
 'lexical_precision': 1.0}

## Show results in table

In [49]:
!pip install tabulate



In [50]:
from tabulate import tabulate

In [51]:
header = ["Tool name", "Avg words per minute", "Error precision", "Lexical precision"]
table = [["Spellchecker prototype v2", spellchecker_prototype_v2_metrics["words_per_minute"], spellchecker_prototype_v2_metrics["error_precision"], spellchecker_prototype_v2_metrics["lexical_precision"]],
         ["Symspell lookup", test_symspell_py_lookup_result["words_per_minute"], test_symspell_py_lookup_result["error_precision"], test_symspell_py_lookup_result["lexical_precision"]],
         ["Symspell lookup compound", test_symspell_py_lookup_compound_result["words_per_minute"], test_symspell_py_lookup_compound_result["error_precision"], test_symspell_py_lookup_compound_result["lexical_precision"]],
         ["Jumspell", test_jumspell_result["words_per_minute"], test_jumspell_result["error_precision"], test_jumspell_result["lexical_precision"]],
         ["LanguageTool", test_language_tool_result["words_per_minute"], test_language_tool_result["error_precision"], test_language_tool_result["lexical_precision"]],
         ["Aspell", test_aspell_result["words_per_minute"], test_aspell_result["error_precision"], test_aspell_result["lexical_precision"]],
         ["Hunspell", test_hunspell_result["words_per_minute"], test_hunspell_result["error_precision"], test_hunspell_result["lexical_precision"]],
         ["PySpellChecker \n(Peter Norvig's)", test_pyspellshecker_result["words_per_minute"], test_pyspellshecker_result["error_precision"], test_pyspellshecker_result["lexical_precision"]],
         ["Enchant", test_enchant_result["words_per_minute"], test_enchant_result["error_precision"], test_enchant_result["lexical_precision"]],]
print(tabulate(table, headers=header))

NameError: name 'spellchecker_prototype_v2_metrics' is not defined