# Пример использования утилиты извлечения аббревиатур

Весь функционал с предыдущего ноутбука был перенесен в отдельный класс `AbbreviationExtractor`. Основным методом класса является функция `extract_abbreviation`, в который нужно передать отдельный текст. Для лучшего извлечения, в класс можно передать базовый корпус текстов, или список аббревиатур, чтобы инициализировать множество базовых аббревиатур

In [41]:
from abbreviation_extractor import AbbreviationExtractor

In [42]:
text = 'О повышении АД максимально до 150/90 мм рт ст знает в течение 1 года, у врача не наблюдался. С 20.11.2015 г. впервые отметил кратковременный дискомфорт за грудиной, прошедший в покое. В последующие 2 дня несколько повторных ангинозных эпизодов длительностью до 10 минут, также прошедших в покое. За медицинской помощью не обращался. Утром 24.11.2015 г. затяжной приступ интенсивных болей за грудиной с иррадиацией в шею, глотку. Вызвал СП. При регистрации ЭКГ(на фоне синусового ритма отмечалась элевация сегмента ST в II, III, aVF отведениях с реципрокной депрессией сегмента ST в aVL) выявлен ОКС с подъемом сегмента ST, выполнена ТЛТ (метализе), гепарин, нитраты, АСК, клопидогрель, анаприлин. Болевой синдром купирован морфином. В динамике по ЭКГ - уменьшение элевации ST. С представлением об ОКС с подъемом сегмента ST пациент был госпитализирован в АРО №5 СЗФМИЦ им В.А.Алмазова. При поступлении - повышение уровня тропонина крови >50 нг/мл (высокочувствительным методом). В экстренном порядке выполнена КАГ, по результатам которой проведена коронаропластика со стентированием инфаркт-зависимой правой коронарной артерии - имплантировано 2 стента без л/п. Интраоперационно и в раннем послеоперационном периоде без осложнений. На фоне проводимой терапии ангинозные эпизоды не рецидивировали, по ЭКГ - динамика инфаркта миокарда нижней стенки ЛЖ. по данным ЭХО-КГ от 24.11.2015 г. ФВ ЛЖ 48%, акинезия в базальном и срединном сегментах нижне-боковой стенки ЛЖ и всех сегментах нижней стенки ЛЖ.МР 1 ст, ТР 0-1 ст. 26.11.2015 г. пациент переведен в палату КО№7 для продолжения терапии, расширения двигательного режима по согласованию с врачом ЛФК.'

In [43]:
text

'О повышении АД максимально до 150/90 мм рт ст знает в течение 1 года, у врача не наблюдался. С 20.11.2015 г. впервые отметил кратковременный дискомфорт за грудиной, прошедший в покое. В последующие 2 дня несколько повторных ангинозных эпизодов длительностью до 10 минут, также прошедших в покое. За медицинской помощью не обращался. Утром 24.11.2015 г. затяжной приступ интенсивных болей за грудиной с иррадиацией в шею, глотку. Вызвал СП. При регистрации ЭКГ(на фоне синусового ритма отмечалась элевация сегмента ST в II, III, aVF отведениях с реципрокной депрессией сегмента ST в aVL) выявлен ОКС с подъемом сегмента ST, выполнена ТЛТ (метализе), гепарин, нитраты, АСК, клопидогрель, анаприлин. Болевой синдром купирован морфином. В динамике по ЭКГ - уменьшение элевации ST. С представлением об ОКС с подъемом сегмента ST пациент был госпитализирован в АРО №5 СЗФМИЦ им В.А.Алмазова. При поступлении - повышение уровня тропонина крови >50 нг/мл (высокочувствительным методом). В экстренном порядке

Сложностью является "слипленные" аббревиатуры "ЛЖ.МР" и хотелось бы, чтобы "ЭХО-КГ" рассматривалось как "ЭХОКГ" (наиболее часто встречающаяся аббревиатура эхокардиографии)

### Без базового корпуса

Передадим обычный текст без инициализации базового множества аббревиатур

In [44]:
abbr_extractor = AbbreviationExtractor()

In [45]:
abbrs = abbr_extractor.extract_abbreviations(text)

In [46]:
abbrs

['АД',
 'СП',
 'ST',
 'II',
 'III',
 'AVF',
 'ST',
 'ОКС',
 'ST',
 'ТЛТ',
 'АСК',
 'ЭКГ',
 'ST',
 'ОКС',
 'ST',
 'АРО',
 'СЗФМИЦ',
 'КАГ',
 'ЭКГ',
 'ЛЖ',
 'ЭХО-КГ',
 'ФВ',
 'ЛЖ',
 'ЛЖ',
 'ЛЖ',
 'ТР',
 'ЛФК']

### С базовым корпусом

Передадим все анамнезы в качестве базового корпуса

In [47]:
with open('./data/all_anamnesises.txt') as f:
    anamnesises = f.read().split('\n\t')

In [48]:
abbr_extractor = AbbreviationExtractor(anamnesises)

In [49]:
print('Всего аббревиатур было найдено:', len(abbr_extractor._abbreviations))

Всего аббревиатур было найдено: 35507


Посмотрим еще раз на извлечение

In [50]:
abbrs = abbr_extractor.extract_abbreviations(text)

In [51]:
len(abbrs)

28

In [52]:
abbrs

['АД',
 'СП',
 'ST',
 'II',
 'III',
 'AVF',
 'ST',
 'ОКС',
 'ST',
 'ТЛТ',
 'АСК',
 'ЭКГ',
 'ST',
 'ОКС',
 'ST',
 'АРО',
 'СЗФМИЦ',
 'КАГ',
 'ЭКГ',
 'ЛЖ',
 'ЭХОКГ',
 'ФВ',
 'ЛЖ',
 'ЛЖ',
 'ЛЖ',
 'МР',
 'ТР',
 'ЛФК']

Видим, что "ЭХО-КГ" изменилось на "ЭХОКГ" и появился дополнительная аббревиатура "МР", так как в базовом корпусе сама аббревиатура присутствовала в "слипленно" виде "ЛЖ.МР"

## AbbreviationPredictor

Возможно добавлять фильтрацию аббревиатур используя наследования класса `AbbreviationPredictor`. Экземляры обязаны реализовать метод `predict`

Реализованы несколько базовых предикторов:
- Энтропийный (EntropyVoter)
- Словарный (DictVoter)

In [53]:
from abbreviation_predictor import EntropyVoter, DictVoter
from recomendations.word_entropy import WordEntropyCounter

### EntropyVoter

Нужно ему передать `каким способом нужно считать энтропию`(wec), можно объявить свои классы добавив метод `word_entropy` и с какой `границы`(limit) считать слово аббревиатурой

In [54]:
wec = WordEntropyCounter.from_file('./recommendations/war_and_piece.wec')

In [55]:
ev = EntropyVoter(wec=wec, limit=0.77)

In [56]:
ev.predict('изгиб'), ev.predict('рекомендации'), ev.predict('ад')

(True, False, True)

### DictVoter

Ему нужно передать словарь слов, которые точно не являются аббревиатурами (лучше передать в виде set)

In [57]:
words = open('./recommendations/russian_words.txt').read().split()

In [58]:
words[:10], len(words)

(['аароновец',
  'аароновский',
  'аароновцы',
  'аароновщина',
  'абажур',
  'абажурный',
  'абажуродержатель',
  'абажурчик',
  'абаз',
  'абазин'],
 157657)

In [59]:
dv = DictVoter(set(words))

In [60]:
dv.predict('изгиб'), dv.predict('рекомендации'), dv.predict('ад')

(False, True, False)

### VotingAbbreviationClassifier

Как мы можем заметить, классификаторы выше имеют свои недостатки, мы можем это решить сделав ансамбль алгоритмов: заставим каждый из алгоритмов голосовать, аббревиатура ли это, если большинство скажет да, то вернем true

In [61]:
from abbreviation_predictor import VotingAbbreviationClassifier

In [62]:
voter = VotingAbbreviationClassifier()

`VotingAbbreviationClassifier` является наследником класса `AbbreviationPredictor`, так что содержит метод `predict`. Нужно добавить другие базовые предикторы методом `add_voter` передав название и экземпляр класса `AbbreviationPredictor`

In [63]:
voter.add_voter('entropy_voter1', ev)
voter.add_voter('dict_voter', dv)

Добавим третий предиктор: энтропийный, но с другой границей

In [64]:
ev2 = EntropyVoter(wec, limit=0.2)

In [65]:
voter.add_voter('entropy_voter2', ev2)

In [66]:
voter.voters

{'entropy_voter1': EntropyVoter(),
 'dict_voter': DictVoter(),
 'entropy_voter2': EntropyVoter()}

In [67]:
voter.predict('изгиб'), voter.predict('рекомендации'), voter.predict('ад')

(False, False, True)

Как мы можем заметить, голосование справилось лучше, чем алгоритмы по одиночке

### Использование AbbreviationPredictor с AbbreviationExtractor

Нужно просто при инициализации передать как параметр abbr_predictor

In [68]:
text = 'Постепенное расширение пищевого рациона с увеличением объема жидкой пищи и овощей. Избегать жирной, острой пищи Есть до 6 раз в день мелкими порциями Наблюдение кардиолога и гастроэнтеролога ПРОДОЛЖИТЬ ПОСТОЯННЫЙ ПРИЕМ:  ДИОВАН 80 МГ УТРОМ И ВЕЧЕРОМ ДИЛАТРЕНД 6,25 МГ УТРОМ И ВЕЧЕРОМ АРИФОН-РЕТАРД 1,5 МГ УТРОМ   ПАРИЕТ 20 МГ ЗА 30 МИНУТ ДО ЗАВТРАКА 1 НЕДЕЛЮ, ЗАТЕМ ПО 10 МГ ЗА 30 МИНУТ ДО ЗАВТРАКА 2 МЕСЯЦА  ДЕ-НОЛ ЧЕРЕЗ 1 ЧАС ПОСЛЕ ЗАВТРАКА, ОБЕДА, УЖИНА И НА НОЧЬ 1 МЕСЯЦ  КРЕОН 10000 ЕД В КАЖДЫЙ ПРИЕМ ПИЩИ, А ЕСЛИ УПОТРЕБЛЯЕТСЯ БЕЛКОВАЯ ПИЩА (МЯСО, РЫБА, ТВОРОГ, ЯЙЦО), ТО 25000 ЕД (СУММАРНО ЗА СУТКИ 80000-100000 ЕД)  ПРИ ВЗДУТИИ ЖИВОТА ПЕКСАН-R  '

In [69]:
text

'Постепенное расширение пищевого рациона с увеличением объема жидкой пищи и овощей. Избегать жирной, острой пищи Есть до 6 раз в день мелкими порциями Наблюдение кардиолога и гастроэнтеролога ПРОДОЛЖИТЬ ПОСТОЯННЫЙ ПРИЕМ:  ДИОВАН 80 МГ УТРОМ И ВЕЧЕРОМ ДИЛАТРЕНД 6,25 МГ УТРОМ И ВЕЧЕРОМ АРИФОН-РЕТАРД 1,5 МГ УТРОМ   ПАРИЕТ 20 МГ ЗА 30 МИНУТ ДО ЗАВТРАКА 1 НЕДЕЛЮ, ЗАТЕМ ПО 10 МГ ЗА 30 МИНУТ ДО ЗАВТРАКА 2 МЕСЯЦА  ДЕ-НОЛ ЧЕРЕЗ 1 ЧАС ПОСЛЕ ЗАВТРАКА, ОБЕДА, УЖИНА И НА НОЧЬ 1 МЕСЯЦ  КРЕОН 10000 ЕД В КАЖДЫЙ ПРИЕМ ПИЩИ, А ЕСЛИ УПОТРЕБЛЯЕТСЯ БЕЛКОВАЯ ПИЩА (МЯСО, РЫБА, ТВОРОГ, ЯЙЦО), ТО 25000 ЕД (СУММАРНО ЗА СУТКИ 80000-100000 ЕД)  ПРИ ВЗДУТИИ ЖИВОТА ПЕКСАН-R  '

In [70]:
abbr_extractor.extract_abbreviations(text)

['ПРОДОЛЖИТЬ',
 'ПОСТОЯННЫЙ',
 'ПРИЕМ',
 'ДИОВАН',
 'МГ',
 'УТРОМ',
 'ВЕЧЕРОМ',
 'ДИЛАТРЕНД',
 'МГ',
 'УТРОМ',
 'ВЕЧЕРОМ',
 'АРИФОН-РЕТАРД',
 'МГ',
 'УТРОМ',
 'ПАРИЕТ',
 'МГ',
 'ЗА',
 'МИНУТ',
 'ДО',
 'ЗАВТРАКА',
 'НЕДЕЛЮ',
 'ЗАТЕМ',
 'ПО',
 'МГ',
 'ЗА',
 'МИНУТ',
 'ДО',
 'ЗАВТРАКА',
 'МЕСЯЦА',
 'ДЕ-НОЛ',
 'ЧЕРЕЗ',
 'ЧАС',
 'ПОСЛЕ',
 'ЗАВТРАКА',
 'ОБЕДА',
 'УЖИНА',
 'НА',
 'НОЧЬ',
 'МЕСЯЦ',
 'КРЕОН',
 'ЕД',
 'КАЖДЫЙ',
 'ПРИЕМ',
 'ПИЩИ',
 'ЕСЛИ',
 'УПОТРЕБЛЯЕТСЯ',
 'БЕЛКОВАЯ',
 'ПИЩА',
 'МЯСО',
 'РЫБА',
 'ТВОРОГ',
 'ЯЙЦО',
 'ТО',
 'ЕД',
 'СУММАРНО',
 'ЗА',
 'СУТКИ',
 'ЕД',
 'ПРИ',
 'ВЗДУТИИ',
 'ЖИВОТА',
 'ПЕКСАН-R']

Как мы можем заметить, без фильтрации все плохо

Добавим в voter еще энтропийный классификаторов

In [71]:
voter.add_voter('ev3', EntropyVoter(wec, limit=0.3))
voter.add_voter('ev4', EntropyVoter(wec, limit=0.4))

In [72]:
voter.voters

{'entropy_voter1': EntropyVoter(),
 'dict_voter': DictVoter(),
 'entropy_voter2': EntropyVoter(),
 'ev3': EntropyVoter(),
 'ev4': EntropyVoter()}

In [73]:
abbr_extractor._abbr_predictor = voter

In [74]:
abbr_extractor.extract_abbreviations(text, filter_abbr=True)

['МГ', 'МГ', 'МГ', 'МГ', 'МГ', 'ЕД', 'ЯЙЦО', 'ЕД', 'ЕД']

Существенно лучше