# Пример использования утилиты извлечения аббревиатур

Весь функционал с предыдущего ноутбука был перенесен в отдельный класс `AbbreviationExtractor`. Основным методом класса является функция `extract_abbreviation`, в который нужно передать отдельный текст. Для лучшего извлечения, в класс можно передать базовый корпус текстов, или список аббревиатур, чтобы инициализировать множество базовых аббревиатур

In [136]:
from abbreviation_extractor import AbbreviationExtractor

In [156]:
text = 'О повышении АД максимально до 150/90 мм рт ст знает в течение 1 года, у врача не наблюдался. С 20.11.2015 г. впервые отметил кратковременный дискомфорт за грудиной, прошедший в покое. В последующие 2 дня несколько повторных ангинозных эпизодов длительностью до 10 минут, также прошедших в покое. За медицинской помощью не обращался. Утром 24.11.2015 г. затяжной приступ интенсивных болей за грудиной с иррадиацией в шею, глотку. Вызвал СП. При регистрации ЭКГ(на фоне синусового ритма отмечалась элевация сегмента ST в II, III, aVF отведениях с реципрокной депрессией сегмента ST в aVL) выявлен ОКС с подъемом сегмента ST, выполнена ТЛТ (метализе), гепарин, нитраты, АСК, клопидогрель, анаприлин. Болевой синдром купирован морфином. В динамике по ЭКГ - уменьшение элевации ST. С представлением об ОКС с подъемом сегмента ST пациент был госпитализирован в АРО №5 СЗФМИЦ им В.А.Алмазова. При поступлении - повышение уровня тропонина крови >50 нг/мл (высокочувствительным методом). В экстренном порядке выполнена КАГ, по результатам которой проведена коронаропластика со стентированием инфаркт-зависимой правой коронарной артерии - имплантировано 2 стента без л/п. Интраоперационно и в раннем послеоперационном периоде без осложнений. На фоне проводимой терапии ангинозные эпизоды не рецидивировали, по ЭКГ - динамика инфаркта миокарда нижней стенки ЛЖ. по данным ЭХО-КГ от 24.11.2015 г. ФВ ЛЖ 48%, акинезия в базальном и срединном сегментах нижне-боковой стенки ЛЖ и всех сегментах нижней стенки ЛЖ.МР 1 ст, ТР 0-1 ст. 26.11.2015 г. пациент переведен в палату КО№7 для продолжения терапии, расширения двигательного режима по согласованию с врачом ЛФК.'

In [157]:
text

'О повышении АД максимально до 150/90 мм рт ст знает в течение 1 года, у врача не наблюдался. С 20.11.2015 г. впервые отметил кратковременный дискомфорт за грудиной, прошедший в покое. В последующие 2 дня несколько повторных ангинозных эпизодов длительностью до 10 минут, также прошедших в покое. За медицинской помощью не обращался. Утром 24.11.2015 г. затяжной приступ интенсивных болей за грудиной с иррадиацией в шею, глотку. Вызвал СП. При регистрации ЭКГ(на фоне синусового ритма отмечалась элевация сегмента ST в II, III, aVF отведениях с реципрокной депрессией сегмента ST в aVL) выявлен ОКС с подъемом сегмента ST, выполнена ТЛТ (метализе), гепарин, нитраты, АСК, клопидогрель, анаприлин. Болевой синдром купирован морфином. В динамике по ЭКГ - уменьшение элевации ST. С представлением об ОКС с подъемом сегмента ST пациент был госпитализирован в АРО №5 СЗФМИЦ им В.А.Алмазова. При поступлении - повышение уровня тропонина крови >50 нг/мл (высокочувствительным методом). В экстренном порядке

Сложностью является "слипленные" аббревиатуры "ЛЖ.МР" и хотелось бы, чтобы "ЭХО-КГ" рассматривалось как "ЭХОКГ" (наиболее часто встречающаяся аббревиатура эхокардиографии)

### Без базового корпуса

Передадим обычный текст без инициализации базового множества аббревиатур

In [158]:
abbr_extractor = AbbreviationExtractor()

In [159]:
abbrs = abbr_extractor.extract_abbreviations(text)

In [160]:
len(abbrs)

27

In [161]:
abbrs

['АД',
 'СП',
 'ST',
 'II',
 'III',
 'AVF',
 'ST',
 'ОКС',
 'ST',
 'ТЛТ',
 'АСК',
 'ЭКГ',
 'ST',
 'ОКС',
 'ST',
 'АРО',
 'СЗФМИЦ',
 'КАГ',
 'ЭКГ',
 'ЛЖ',
 'ЭХО-КГ',
 'ФВ',
 'ЛЖ',
 'ЛЖ',
 'ЛЖ',
 'ТР',
 'ЛФК']

### С базовым корпусом

Передадим все анамнезы в качестве базового корпуса

In [163]:
with open('../data/all_anamnesises.txt') as f:
    anamnesises = f.read().split('\n\t')

In [165]:
abbr_extractor = AbbreviationExtractor(anamnesises)

In [169]:
print('Всего аббревиатур было найдено:', len(abbr_extractor._abbreviations))

Всего аббревиатур было найдено: 35507


Посмотрим еще раз на извлечение

In [174]:
abbrs = abbr_extractor.extract_abbreviations(text)

In [175]:
len(abbrs)

28

In [176]:
abbrs

['АД',
 'СП',
 'ST',
 'II',
 'III',
 'AVF',
 'ST',
 'ОКС',
 'ST',
 'ТЛТ',
 'АСК',
 'ЭКГ',
 'ST',
 'ОКС',
 'ST',
 'АРО',
 'СЗФМИЦ',
 'КАГ',
 'ЭКГ',
 'ЛЖ',
 'ЭХОКГ',
 'ФВ',
 'ЛЖ',
 'ЛЖ',
 'ЛЖ',
 'МР',
 'ТР',
 'ЛФК']

Видим, что "ЭХО-КГ" изменилось на "ЭХОКГ" и появился дополнительная аббревиатура "МР", так как в базовом корпусе сама аббревиатура присутствовала в "слипленно" виде "ЛЖ.МР"

Можно сразу получить нужные замены в тексте

In [177]:
abbrs_dict = abbr_extractor.extract_abbreviations(text, to_replace=True)

In [178]:
abbrs_dict

{'АД': 'АД',
 'СП': 'СП',
 'ST': 'ST',
 'II': 'II',
 'III': 'III',
 'AVF': 'AVF',
 'ОКС': 'ОКС',
 'ТЛТ': 'ТЛТ',
 'АСК': 'АСК',
 'ЭКГ': 'ЭКГ',
 'АРО': 'АРО',
 'СЗФМИЦ': 'СЗФМИЦ',
 'КАГ': 'КАГ',
 'ЛЖ': 'ЛЖ',
 'ЭХО-КГ': 'ЭХОКГ',
 'ФВ': 'ФВ',
 'ЛЖ.МР': 'ЛЖ МР',
 'ТР': 'ТР',
 'ЛФК': 'ЛФК'}

In [183]:
def get_replace_word(word):
    # Чтобы показать какие аббревиатуры мы изменили
    
    if word in abbrs_dict and word != abbrs_dict[word]:
        return '\033[91m' + abbrs_dict.get(word) + '\033[0m'
    elif word in abbrs_dict:
        return '\033[96m' + abbrs_dict.get(word) + '\033[0m'
    else:
        return word

In [184]:
print(" ".join(map(get_replace_word,  text.split())))

О повышении [96mАД[0m максимально до 150/90 мм рт ст знает в течение 1 года, у врача не наблюдался. С 20.11.2015 г. впервые отметил кратковременный дискомфорт за грудиной, прошедший в покое. В последующие 2 дня несколько повторных ангинозных эпизодов длительностью до 10 минут, также прошедших в покое. За медицинской помощью не обращался. Утром 24.11.2015 г. затяжной приступ интенсивных болей за грудиной с иррадиацией в шею, глотку. Вызвал СП. При регистрации ЭКГ(на фоне синусового ритма отмечалась элевация сегмента [96mST[0m в II, III, aVF отведениях с реципрокной депрессией сегмента [96mST[0m в aVL) выявлен [96mОКС[0m с подъемом сегмента ST, выполнена [96mТЛТ[0m (метализе), гепарин, нитраты, АСК, клопидогрель, анаприлин. Болевой синдром купирован морфином. В динамике по [96mЭКГ[0m - уменьшение элевации ST. С представлением об [96mОКС[0m с подъемом сегмента [96mST[0m пациент был госпитализирован в [96mАРО[0m №5 [96mСЗФМИЦ[0m им В.А.Алмазова. При поступлении - повыше

Осталось заменить на расшифровки