In [1]:
import os
# os.chdir('..')
from spell_checker.spell_checker import SpellChecker

In [2]:
import pandas as pd
import re
import pickle
import os
import pymorphy2
import numpy as np

morph = pymorphy2.MorphAnalyzer()

In [3]:
ABBREVIATIONS_FILE = os.path.abspath(r'med_abb.txt')
ABBS = pd.read_csv(ABBREVIATIONS_FILE, sep='\t', header=None, names=['abb', 'full'])
ABBS['first_abb'] = ABBS.abb.apply(lambda s: s.split('(')[0].split(',')[0].strip().lower())
ABBS_EXCEPTIONS = ABBS.first_abb.to_list()

all_abb_words = pickle.load(open('all_abb_words.pickle', 'rb')) 
medication_words = pickle.load(open('medication_words.pickle', 'rb')) 
total_word_dict = pickle.load(open('total_word_dict.pickle', 'rb'))
all_anamnesis = pickle.load(open('all_anam.pickle', 'rb'))

# exp = ABBS_EXCEPTIONS + all_abb_words + medication_words
exp= pickle.load(open('exp.pickle', 'rb'))

In [4]:
class TextProcessor:
    def __init__(self, exceptions=exp):
        if exceptions is None:
            self.exceptions = []
        else:
            self.exceptions = exceptions
        self.morph = pymorphy2.MorphAnalyzer()

    def process(self, string):
        string = string.lower()
        string = string.replace('ё', 'е')

        only_letters = [s for s in re.sub(r'[^а-яА-Я]', ' ', string).split(' ') if s]
        init_word_form = [w if w in self.exceptions else self.morph.normal_forms(w)[0]
                          for w in only_letters]
        return ' '.join(init_word_form)

In [5]:
textprocessor = TextProcessor()

## Инициализируем модуль исправления опечаток

In [6]:
checker = SpellChecker()

## Запускаем пример с гибридным методом исправления

In [7]:
list_of_files = os.listdir("C:\\Disease")
lines=[]
for file in list_of_files:
    f = open("C:\\Disease\\" + str(file), "r")
    lines.append(f.readlines())
    f.close()

In [8]:
Al_data = pd.DataFrame(np.array(lines))

In [9]:
Al_data = Al_data.rename({0: 'anamnesis_text'}, axis=1)

In [10]:
Al_data.head()

Unnamed: 0,anamnesis_text
0,"Анамнез ГБ около 5 лет, макс цифры АД 210/120..."
1,"Считает себя больным с 1991 года, когда посл..."
2,С 2009 - артериальная гипертензия с макс. циф...
3,"с и/б, анамнезом ознакомлен, дополнений нет. \n"
4,В течение нескольких лет отмечает эпизодическ...


In [11]:
Al_data_test = Al_data.sample(n = 50)

In [None]:
uncorrect_words = []
correction = []
correct_words = []
for anam in Al_data_test['anamnesis_text']: 
    clean_text = textprocessor.process(anam)
    result_hybrid = checker.correct_words(clean_text)
    print()
    print(result_hybrid[0])
    print(result_hybrid[1])
    
    uncorrect_words.append(result_hybrid[0])
    correction.append(result_hybrid[1])
    correct_words.append(result_hybrid[2])

31it [00:00, 300.21it/s]
35it [00:00, 347.42it/s]

['гб', 'около', 'лет', 'им', 'отрицать', 'плановый', 'терапия', 'не', 'получать', 'госпитализация', 'с', 'цель', 'лечение', 'повышение', 'ад', 'максимальный', 'мм', 'рт', 'т', 'рабочий', 'мм', 'рт', 'т', 'заболевание', 'почка', 'отрицать', 'ангинозный', 'боли', 'ранее', 'не', 'беспокоить']

[]
[]
['дебют', 'ибс', 'с', 'развитие', 'оим', 'от', 'февраль', 'год', 'в', 'апрель', 'выполнить', 'акш', 'светлый', 'период', 'до', 'март', 'год', 'появиться', 'эпизод', 'ангинозный', 'боль', 'по', 'утро', 'при', 'ходьба', 'сегодня', 'в', 'ангинозный', 'эпизод', 'длительность', 'около', 'минута', 'более', 'интенсивный', 'характер', 'давящий', 'боль', 'чем', 'обычно', 'эпизод', 'плохо', 'купироваться', 'нитрат', 'вызвать', 'ксп', 'ангинозный', 'боли', 'купировать', 'болюс', 'анальгина', 'пациент', 'экстренно', 'госпитализировать', 'в', 'фгу', 'фцскэ', 'лечение', 'тромбоасс', 'плавикс', 'конкор', 'престариум', 'крестор']


62it [00:00, 337.06it/s]
0it [00:00, ?it/s]


[]
[]
['длительный', 'анамнез', 'гб', 'адаптировать', 'к', 'ад', 'ммртст', 'максимальный', 'цифра', 'ад', 'мм', 'рт', 'ст', 'постоянно', 'принимать', 'эпросартан', 'бисопролол', 'дебют', 'ибс', 'июнь', 'год', 'появление', 'ангинозный', 'приступ', 'год', 'переносить', 'непроникающий', 'им', 'нижний', 'боков', 'локализация', 'в', 'условие', 'фмиц', 'выполнена', 'каг', 'с', 'одномоментный', 'тромбэкстракция', 'из', 'ма', 'коронаропластика', 'с', 'стентирование', 'ма', 'имплантировать', 'стент', 'без', 'литр', 'плата', 'реваскуляризация', 'неполный', 'обсудить', 'с', 'рентгенхирург', 'козулин', 'в', 'ю', 'показать', 'выполнение', 'стресс', 'эхокг', 'в', 'плановый', 'порядок', 'через', 'мес', 'для', 'решение', 'вопрос', 'о', 'дальнейший', 'этап', 'реваскуляризация', 'выписать', 'в', 'удовлетворительный', 'состояние', 'с', 'слово', 'рекомендация', 'придерживаться', 'год', 'повторный', 'госпитализация', 'в', 'фмиц', 'с', 'представление', 'о', 'нестабильный', 'стенокардия', 'дать', 'за', 'окс

16it [00:47,  2.96s/it]

Fast Text Exception for эпросартан


39it [01:56,  2.97s/it]

Fast Text Exception for тромбэкстракция


42it [03:14,  9.94s/it]

Fast Text Exception for коронаропластика


55it [04:15,  8.35s/it]

Fast Text Exception for рентгенхирург


56it [04:50, 16.49s/it]

Fast Text Exception for козулин


96it [04:58,  8.90s/it]

Fast Text Exception for ю


158it [05:40,  4.62s/it]

Fast Text Exception for тропонина


166it [06:51,  5.89s/it]

Fast Text Exception for коронаропластика


228it [07:07,  1.87s/it]
0it [00:00, ?it/s]

Fast Text Exception for нед

['эпросартан', 'тромбэкстракция', 'коронаропластика', 'рентгенхирург', 'козулин', 'ю', 'тропонина', 'коронаропластика', 'нед']
['пропереть', 'криоэкстракция', 'органопластик', 'регенсбург', 'базулин', 'q', 'тропацин', 'органопластик', 'седой']
['гб', 'около', 'лет', 'макс', 'ад', 'мм', 'рт', 'ст', 'привычный', 'мм', 'рт', 'ст', 'на', 'фон', 'регулярный', 'терапия', 'получать', 'конкор', 'мг', 'сут', 'кардиомагнил', 'мг', 'сут', 'онмк', 'не', 'переносить', 'быть', 'госпитализировать', 'в', 'фц', 'с', 'окс', 'с', 'подьть', 'сегмент', 'т', 'тн', 'при', 'поступление', 'нг', 'мл', 'на', 'экг', 'синус', 'ритм', 'с', 'элевация', 'т', 'в', 'область', 'нижней', 'стенка', 'литр', 'ж', 'по', 'экстренный', 'показание', 'выполняться', 'коронарография', 'коронарный', 'ангиопластика', 'с', 'стентирование', 'пка', 'стент', 'без', 'лп', 'реваскуляризация', 'неполный', 'сохраняться', 'стеноз', 'пмжа', 'в', 'ср', 'треть', 'периферия', 'удовлетворительный']


77it [00:29,  2.63it/s]
0it [00:00, ?it/s]

Fast Text Exception for подьть

['подьть']
['подать']
['у', 'пульмонолог', 'не', 'наблюдаться', 'госпитализировать', 'в', 'фмиц', 'в', 'экстренный', 'порядок', 'выполнена', 'каг', 'тромботический', 'окклюзия', 'пка', 'стеноз', 'пмжа', 'и', 'оа', 'до', 'на', 'обзорный', 'рентг', 'орган', 'грудной', 'клетка', 'в', 'палата', 'инфильтрация', 'лёгочный', 'ткани', 'нет', 'воздух', 'жидкость', 'в', 'плевральный', 'полость', 'нет', 'корни', 'структурный', 'диафрагма', 'чёткий', 'сердце', 'расширить', 'за', 'счёт', 'левый', 'желудочек', 'состояние', 'стабильный', 'представление', 'о', 'обострение', 'хобл', 'лечение', 'лазовнал', 'дексон', 'преднизолон', 'в', 'в', 'раз', 'сохраняться', 'диффузный', 'хрип', 'без', 'нарастание']


2it [00:49, 24.67s/it]

Fast Text Exception for пульмонолог


48it [01:13, 12.32s/it]

Fast Text Exception for рентг


56it [01:52, 10.11s/it]

Fast Text Exception for лазовнал


66it [02:18,  2.10s/it]
0it [00:00, ?it/s]

Fast Text Exception for дексон

['пульмонолог', 'рентг', 'лазовнал', 'дексон']
['пульмонология', 'рента', 'разогнал', 'дексона']
['в', 'течение', 'х', 'день', 'отмечать', 'появление', 'боль', 'давящий', 'за', 'грудина', 'при', 'физический', 'нагрузка', 'впервые', 'в', 'жизнь', 'боли', 'проходить', 'в', 'покой', 'сегодня', 'с', 'ночь', 'интенсивный', 'сжимать', 'боли', 'за', 'грудина', 'длиться', 'более', 'х', 'часы', 'купир', 'морфин', 'ввести', 'бригада', 'с', 'пом', 'повышение', 'ад', 'много', 'лет', 'максимальный', 'мм', 'рт', 'т', 'рабочий', 'мм', 'рт', 'т', 'заболевание', 'почка', 'отрицать', 'ангинозный', 'боли', 'впервые', 'ав', 'течение', 'х', 'день', 'инфаркт', 'миокард', 'ранее', 'отрицать', 'онмк', 'отрицать', 'лечение', 'постоянно', 'лекарство', 'не', 'принимать', 'на', 'с', 'пом', 'гепарин', 'т', 'ед', 'морфин', 'аспирин', 'мг', 'клопидогрель', 'мг', 'анаприллина', 'мг', 'госпитализировать', 'в', 'фцскэ', 'с', 'представление', 'о', 'ибс', 'оим', 'с', 'элевация']


33it [00:21,  1.53it/s]

Fast Text Exception for купир


70it [00:37,  1.02it/s]

Fast Text Exception for пом


74it [00:53,  1.88s/it]

Fast Text Exception for пом


81it [01:51,  3.82s/it]

Fast Text Exception for клопидогрель


94it [02:45,  1.76s/it]
0it [00:00, ?it/s]

Fast Text Exception for анаприллина

['купир', 'пом', 'пом', 'клопидогрель', 'анаприллина']
['копир', 'бом', 'бом', 'лопиреть', 'анаприлина']
['длительный', 'анамнез', 'аг', 'с', 'слово', 'в', 'и', 'год', 'им', 'в', 'последующий', 'стенокардия', 'напряжение', 'фк', 'экстренно', 'госпитализировать', 'с', 'представление', 'о', 'не', 'им', 'от', 'выполнена', 'каг', 'тяжёлый', 'многососудистый', 'поражение', 'экстренно', 'выполнена', 'стернотомия', 'мкш', 'пмжа', 'да', 'секвенциальный', 'аутовенозный', 'акш', 'рвв', 'пка', 'и', 'ма', 'оа', 'в', 'условие', 'экк', 'и', 'ккп', 'послеоперационный', 'период', 'без', 'осложнение', 'минимальный', 'к', 'в', 'жидкость', 'слева', 'в', 'синус', 'по', 'данна', 'эхокг', 'выпот', 'нет', 'поступить', 'для', 'дальнейший', 'лечение', 'и', 'реабилитация']


26it [01:08,  2.63s/it]

Fast Text Exception for многососудистый


34it [02:11,  4.21s/it]

Fast Text Exception for секвенциальный


68it [03:04,  2.71s/it]
0it [00:00, ?it/s]

Fast Text Exception for аутовенозный

['многососудистый', 'секвенциальный', 'аутовенозный']
['менингососудистый', 'секвентальный', 'аутогенный']
['анамнез', 'аг', 'нет', 'ад', 'макс', 'мм', 'рт', 'ст', 'адаптировать', 'к', 'ад', 'мм', 'рт', 'ст', 'клиника', 'стенокардия', 'напряжение', 'ф', 'к', 'с', 'год', 'без', 'регулярный', 'антиангинальна', 'терапия', 'принимать', 'бета', 'блокатор', 'год', 'после', 'выразить', 'фн', 'развитие', 'интесивный', 'ангинозный', 'боль', 'купироваться', 'в', 'покой', 'после', 'приема', 'нитроглицерин', 'сублингвальный', 'в', 'течение', 'минута', 'год', 'повторно', 'ангинозный', 'боли', 'стартовый', 'выразить', 'интенсивность', 'с', 'незначительный', 'эффектом', 'от', 'приема', 'нитроглицерин', 'вызвала', 'бригада', 'смп', 'с', 'представление', 'о', 'нестабильный', 'стенокардия', 'госпитализировать', 'в', 'гатчинский', 'црб', 'за', 'время', 'нахождение', 'в', 'реанимационный', 'отделение', 'ангинозный', 'боли', 'не', 'рецидивировать', 'после', 'перевод', 

24it [01:08,  2.85s/it]

Fast Text Exception for антиангинальна


34it [01:54,  3.37s/it]

try интенсивный


115it [03:02,  2.27s/it]

Fast Text Exception for сублингвальный


117it [03:54,  9.45s/it]

Fast Text Exception for одноэтапный


151it [04:14,  1.69s/it]
0it [00:00, ?it/s]

Fast Text Exception for интр

['антиангинальна', 'интесивный', 'сублингвальный', 'одноэтапный', 'интр']
['антиангинальный', 'интенсивный', 'субгингивальный', 'одноэтажный', 'инар']
['в', 'течение', 'х', 'лет', 'наблюдаться', 'в', 'фцскэ', 'по', 'повод', 'одышка', 'при', 'физический', 'нагрузка', 'стресс', 'эхокг', 'от', 'май', 'год', 'без', 'терапия', 'отрицательный', 'ад', 'регулярно', 'не', 'контролировать', 'привычный', 'цифра', 'ад', 'без', 'терапия', 'нарушение', 'ритм', 'последний', 'года', 'в', 'вид', 'пауза', 'и', 'экстрасистола', 'ухудшение', 'состояние', 'с', 'появиться', 'боли', 'ангинозный', 'характер', 'в', 'основное', 'при', 'выход', 'на', 'холод', 'ежедневный', 'затяжной', 'наиболее', 'значимый', 'приступ', 'обратиться', 'к', 'кардиолог', 'амбулаторно', 'снятой', 'экг', 'на', 'который', 'очаговый', 'изменение', 'пациент', 'госпитализировать', 'в', 'фцскэ', 'с', 'представление', 'о', 'окс', 'выполнена', 'коронарография', 'по', 'результат', 'который', 'субокклюзия', 'пмжа'

81it [00:48,  1.46s/it] 

Fast Text Exception for субокклюзия


83it [01:29,  7.07s/it]

стентировать
