# Урок 3. Медицинское исследование: гипотеза, получение данных.  Генерация синтетических данных. Подготовка данных к анализу.

## Домашнее задание

- **Описание задания**:
Когда пациент принимает какое-либо лекарство, у него может возникнуть побочный эффект от лекарства или побочную реакцию на лекарство (ADR). Мы можем использовать [CUI](https://www.nlm.nih.gov/research/umls/new_users/glossary.html#:~:text=CUI%20-%20The%20Concept%20Unique%20Identifier%20for%20a%20Metathesaurus%20concept%20to%20which%20strings%20with%20the%20same%20meaning%20are%20linked.%20One%20of%20the%20principles%20of%20the%20Metathesaurus%20is%20that%20meanings%20should%20be%20preserved%20over%20time%20regardless%20of%20what%20terms%20(atoms)%20are%20used%20to%20express%20those%20meanings.), уникальный идентификатор концепта для  Metathesaurus, чтобы определить, какие нежелательные реакции упоминаются в сообщениях пациентов. Это поможет представлять обзоры лекарств в структурированном виде.

   Цель этого задания – помочь вам научиться идентифицировать (ADR) по описаниям пациентов о нежелательных реакциях на лекарственные препараты. Вы сможете:
  - Используйте подход NLP для извлечения побочных эффектов из обзоров лекарств.

### Уровни сложности извлечения концептов
- Давайте рассмотрим один из способов классификации сложности извлечения ADR на основе сравнения их представления с представлением CUI.
- Это всего лишь один из способов взглянуть на это, но он поможет вам выработать подход к захвату как можно большего количества явлений.

#### 1-й уровень
- На уровне 1 вы обнаружите, что слова, описывающие нежелательную реакцию, точно такие же, как понятия CUI.
> Вот пример:
> - Sentence text: `I was unable to sleep, had blurred vision, and felt sick to my stomach.`
> - ADR: **blurred vision**
> - CUI concept: **blurred vision**
> - CUI: **C0344232** (You can lookup CUI at [SIDER](http://sideeffects.embl.de/))

- Кроме того, слова определяются как «одинаковые», даже если они представляют собой разные производные (обычно разные суффиксы в английском языке) одного и того же слова. Те же леммы или те же основы примерно.
>Вот еще один пример, который в этом наборе данных считается уровнем 1:
> - Sentence text: `Muscle spasms, muscle twitching, muscle soreness, insomnia, mental confusion, flush, brain zaps.`
> - ADR: **flush**
> - CUI Concept: **flushing**
> - CUI: **C0016382** (You can lookup CUI at [SIDER](http://sideeffects.embl.de/))

#### Уровень 2
- На уровне 2 вы можете обнаружить, что слова, описывающие нежелательную реакцию, совпадают с понятиями CUI, хотя порядок слов может быть другим.
> Вот пример:
> - Sentence text: `Weight gain, HAIR LOSS, increased depression, fatigue, lethargy.`
> - ADR: **HAIR LOSS**
> - CUI concept: **Loss of hair**
> - CUI: **C0002170** (You can lookup CUI at [SIDER](http://sideeffects.embl.de/))

#### Уровень 3
- На уровне 3 вы можете обнаружить, что, помимо разницы в порядке слов, только некоторые слова, описывающие нежелательную реакцию, точно такие же, как в понятиях CUI.
> Вот пример:
> - Sentence text: `It's been four days since I discontinued, and I'm still wiped out and dizzy with flu-like symptoms.`
> - ADR: **flu-like symptoms**
> - CUI concept: **Influenza-like symptoms**
> - CUI: **C0392171** (You can lookup CUI at [SIDER](http://sideeffects.embl.de/))

#### Уровень 4
- На уровне 4 вы обнаружите, что ни одно из слов, описывающих нежелательную реакцию, не совпадает со словами в концепциях CUI, но при этом имеет то же значение.
> Вот пример:
> - Sentence text: `Also I had a severe inablility to concentrate which made it impossible to do my job,I am a Registered Nurse.`
> - ADR: **impossible to do my job**
> - CUI concept: **Restricted work performance**
> - CUI: **C0557386** (You can lookup CUI at [SIDER](http://sideeffects.embl.de/))

#### Уровень 5 &nbsp; &nbsp; (От вас не ожидается, что вы их решите)
- На уровне 5 вы можете обнаружить, что слова, описывающие побочную реакцию, не совпадают с понятиями CUI и имеют разные значения. ADR может предлагать концепцию CUI посредством следствия или посредством какого-либо другого лингвистического или контекстуального механизма. Если вы сумеете их идентифицировать, это будет очень впечатляюще!
> Вот пример:
> - Sentence text: `20 pounds total in 6 months Appetite increase .`
> - ADR: **20 pounds total**
> - CUI concept: **Body Weight Changes**
> - CUI: **C0005911** (You can lookup CUI at [SIDER](http://sideeffects.embl.de/))

### Предоставленные файлы
Один из файлов, которые у вас есть для этого задания, называется «побочные_эффекеты.txt». Обзоры лекарств разделены предложением. Для каждой строки есть «row_id» и «sentence_text», разделенные табуляцией.

> Вот пример:
`7<tab>I was unable to sleep, had blurred vision, and felt sick to my stomach.`

Другой файл называется CUI_concepts.txt. АПИ и текст его концепции указаны в каждой строке.

> Вот пример:
`C0344232<tab>Blurred vision,Blurring of visual image`

### Шаблоны кода

##### Пожалуйста, измените шаблон кода настолько, насколько захотите. Вы можете использовать любые стандартные функции Python или, если хотите, написать свои собственные вспомогательные функции!

#### Шаг 1: Чтение файла данных
- Попробуйте распечатать несколько строк и посмотреть примеры в наборе данных, с которым вы работаете. Вы будете протестированы на небольшом подмножестве из них, но ваши функции должны применяться в целом.

In [2]:
with open('22_3_SEM_files/побочные_эффекеты.txt') as file:
  documents = file.readlines()

# напечатаем первые 5 строк файла.
# Не стесняйтесь просматривать любое количество
print(*documents[:10], sep = '\n')

id	Text

1	extreme weight gain, short-term memory loss, hair loss.

2	COMPLETELY DESTROYED SEXUALLY FUNCTIONING .

3	Just TWO tablets of Lexapro 10mg completely destroyed my sexual functioning, probably for life.

4	It's called PSSD: post-SSRI sexual dysfunction.

5	And there is a chance that it will give you PSSD, which as the name suggests persists even after you stop taking the drug, Just google 'PSSD' and you'll see what I mean, So please: NEVER take this drug, not even one tablet.

6	Nausea, Blurred Vision, 3 to 5 hours sleep, Suicidal Thoughts.

7	I was unable to sleep, had blurred vision, and felt sick to my stomach.

8	Unable to eat anything significant for the 3 days.

9	While driving to a friends house crazy thoughts kept happening.



#### Шаг 2. Считайте файл CUI и сохраните его для удобного поиска.
- Сохраните все CUI и соответствующие им ключевые слова.
— Идея такая: пройтись по каждому CUI, чтобы определить, присутствует ли он в данном текстовом сегменте.

In [4]:
cuinames = []
concepts = []
with open('22_3_SEM_files/концепты.tsv') as cuifile: # CUI явления
  print(next(cuifile))  # пропустите заголовок, распечатайте, чтобы увидеть структуру строки
  for i, line in enumerate(cuifile):
    fields = line.split('\t')
    # удалите конечные пробелы (и нечетные случайные nbsp...)
    cui = fields[0].strip()
    # храните различные текстовые представления концептов
    # но отбросьте дублирующиеся текстовые представления для одного и того же концепта
    texts = set(f.strip() for f in fields[1].split(','))
    for t in texts:
      # всегда добавляйте вместе, чтобы обеспечить одинаковый индекс
      cuinames.append(cui)
      concepts.append(t.strip().lower())

CUI	CONCEPT	SNOMED_CODE



In [5]:
print(len(concepts), len(cuinames))  # проверка на вменяемость
# распечатайте несколько CUIs. Исследуйте CUIs, пробуя различные диапазоны,
# или распечатайте весь список, если хотите.
for i in list(range(42,77)):
  print('CUI: {}\tConcept: {}'.format(cuinames[i], concepts[i]))

738 738
CUI: C0231528	Concept: myalgia
CUI: C0009676	Concept: confusion
CUI: C0009676	Concept: confusional state
CUI: C0016382	Concept: face goes red
CUI: C0016382	Concept: flushing
CUI: C0033893	Concept: tension-type headache
CUI: C0033893	Concept: tension headache
CUI: C0700590	Concept: excessive sweating
CUI: C0700590	Concept: increased sweating
CUI: C0242350	Concept: erectile dysfunction
CUI: C0242350	Concept: impotence
CUI: C0149931	Concept: migraine
CUI: C0149931	Concept: migraine disorders
CUI: C0497247	Concept: finding of increased blood pressure
CUI: C0497247	Concept: increase in blood pressure
CUI: C0235195	Concept: sedated state
CUI: C0235195	Concept: sedated
CUI: C0424444	Concept: clenching teeth
CUI: C0234022	Concept: orgasm incapacity
CUI: C0456820	Concept: loss of capacity to feel emotions
CUI: C0002622	Concept: amnesia
CUI: C0233469	Concept: blunted affect
CUI: C0233484	Concept: emotionally detached
CUI: C0233794	Concept: memory impairment
CUI: C0701810	Concept: poor lo

### Шаг 3: Извлечение концептов

#### Уровень 1 — Точное совпадение
- Давайте начнем с извлечения примеров только уровня 1. Все, что нам нужно сделать, это посмотреть, совпадают ли точные слова:
   - Сначала выберем метод предварительной обработки.
   - Тогда мы извлечем АДР

#### Предварительная обработка 1
Давайте решим, как преобразовать (нормализовать) наш текст, чтобы нам было легче работать с вводом и CUI.
   — Мы начнем с токенизации текста, чтобы у нас был список слов, а не одна строка.
   - Кроме того, мы можем сократить текст, чтобы позаботиться о большинстве терминов, связанных с словообразованием!
     - То есть слова с одной основой, но с разными приставками, суффиксами или, возможно, различиями в середине слова. &nbsp; Обычно не все словообразовательные формы слов могут быть обработаны стеммером, поэтому это несовершенный метод. &nbsp; Это нормально!
     - Помните, что даже несмотря на то, что это удобно для сопоставления слов с похожими корнями, стемминг всегда удаляет потенциально полезную семантическую информацию (есть причины, по которым мы говорим С суффиксами). &nbsp; Часто нам хотелось бы получить не только основу, но и сохранить необработанную форму, чтобы иметь больше информации. &nbsp; Для данной задачи это может не потребоваться.
   - В любом случае, мы применим эту предварительную обработку как к CUI, так и к предложениям, чтобы мы могли воспользоваться их преобразованием одинаковым образом.
   - Вы можете решить проблему по-своему.

In [6]:
from string import punctuation as punct
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
# Это предложение для первого уровня.
# Убедитесь, что вы понимаете, что он делает, что в этом может помочь

def text_preprocessing_1(sentence):
    """Read in a sentence and return a list of tokens
       which are lower case and punctuation free.
       sentence must be a string"""
     # убираем знаки препинания из предложения и заменяем их на ' '
     # (пункт взят из строкового модуля, импортированного выше)
    s = sentence.translate(sentence.maketrans(punct, ' '*len(punct)))
    # простая токенизация
    toks = s.split()
    # нижний регист
    lowered = [w.lower() for w in toks]
    stemmed = [porter_stemmer.stem(w) for w in lowered]

    return stemmed

#### Проверка концептов 1
- Заполните следующую заглушку функции, чтобы извлечь примеры концепций уровня 1.
- Эти функции проверки концептов должны возвращать ТОЛЬКО ИСТИНА или ЛОЖЬ. Вам не нужно указывать, где в тексте находится ДОПОГ или что представляет собой текст, представляющий ДОПОГ.
- Не стесняйтесь использовать любые встроенные функции Python или определять свои собственные, которые помогут вам!
- Вы будете протестированы на комбинированной реализации `text_preprocessing_1()` и `check_concept_1()`. Изменение `text_preprocessing_1()` не является обязательным!

In [7]:
# 1 уровень кода
def check_concept_1(concept, sentence):
    """Проверьте, упоминается ли в предложении концепты CUI.
    Верните TRUE, если концепт присутствует, верните FALSE, если нет """
    # предварительная обработка понятия и предложения
    c_lst = text_preprocessing_1(concept)
    s_lst = text_preprocessing_1(sentence)

    # Здесь ваш код

    return False# И/ИЛИ здесь

Подсказка: если текст понятия является подпоследовательностью предложения, то в предложении имеется точное совпадение понятия.

Ниже приведены несколько примеров уровня 1. Ваша реализация `check_concept_1()` должна возвращать True для этих входных данных.

In [36]:
# пример уровеня 1
concept1_1 = 'Blurred vision' # то же CUI как 'Blurring of visual image'
sentence1_1 = 'I was unable to sleep, had blurred vision, and felt sick to my stomach.'

ans1_1 = check_concept_1(concept1_1, sentence1_1) # должно быть True!
print(bool(ans1_1))   # должен печатать True

concept2_1 = ''
sentence2_1 = ''

False


In [None]:
concept1_1 = 'Blurred vision'
sentence1_1 = 'I was unable to sleep, had blurred vision, and felt sick to my stomach.'
# copy c,s2_1
assert(check_concept_1(concept1_1, sentence1_1))
assert(check_concept_1(concept2_1, sentence2_1))
# исключение

In [None]:
# Убедитесь, что вы реализуете каждый уровень по очереди.
# (Не заставляйте check_concept_1() возвращать True для (многих) примеров уровня 2, 3 или 4)

### Уровень 2 — Точное совпадение, возможно, не по порядку

- Теперь мы хотим посмотреть, появляются ли понятия, но не обязательно со словами в правильном порядке.
- Есть много способов справиться с этим.&nbsp; Некоторые найдут больше, чем другие, и многие из них вызовут ложные срабатывания.
- Вам предстоит найти баланс для каждого уровня. Почти всегда будут компромиссы.

#### Предварительная обработка 2
- Для уровня 1 мы токенизировали текст и убрали знаки препинания.
- Вы могли заметить, что в приведенном выше примере концептов уровня 2 («ВЫПАДЕНИЕ ВОЛОС» от «Потеря волос») слова не только были не в порядке, но также включали слово между ними. Это действительно характерно для концепций «не по порядку», поскольку изменение порядка слов и добавление предлога между ними (или удаление предлога и изменение порядка) часто имеет аналогичное значение в английском языке (и, конечно же, в других языках могут быть аналогичные явления).
- Это сильно зависит от точных слов, и нам не следует слишком увязнуть в деталях, потому что мы можем просто удалить все наиболее распространенные «функции» или «стоп-слова», чтобы «решить» эту проблему.
- Такие слова, как «the», «of» и даже «and», играют важную роль в формировании точного значения, но их удаление не должно создать особых проблем для задачи, поставленной уровнем 2:

In [None]:
# они импортируются снова, если вы сначала не запустите приведенный выше код!
from string import punctuation as punct
import nltk
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()

def text_preprocessing_2(sentence, stemm=True):
    """Прочитайте предложение и верните список токенов, в которых нет основы, нет знаков препинания и стоп-слов.
        предложение должно быть строкой"""
    # Все предоставленное text_preprocessing_1 в одной строке
    toks = [porter_stemmer.stem(w.lower()) if stemm else w.lower() for w in
             sentence.translate(sentence.maketrans(punct, ' '*len(punct))).split()]
    # toks = text_preprocessing_1(sentence) # эквивалентно, если вы не меняли text_preprocessing_1

    # Получить список стоп-слов из известного источника
    stopwords = nltk.corpus.stopwords.words('english')

    no_stopword = [tok for tok in toks if tok.lower() not in stopwords]
     # Вы можете изменить эту функцию, если считаете, что она вам поможет.
     # Не стесняйтесь добавлять или удалять шаги!

    final = no_stopword
    return final

#### Проверка концептов 2
- Заполните следующую заглушку функции, чтобы извлечь примеры концептов уровня 2.
- Не стесняйтесь использовать любые встроенные функции Python или определять свои собственные, которые помогут вам, если вы захотите!
- Вы снова будете протестированы на комбинированной реализации `text_preprocessing_2()` и `check_concept_2()`, причем изменение `text_preprocessing_2()` снова будет необязательным.

In [None]:
# 2 уровень кода
def check_concept_2(concept, sentence):
    """Проверьте, упоминается ли в предложении концепция CUI. Верните TRUE, если концепция присутствует, и повторите FALSE, если нет."""
    # предварительная обработка понятия и предложения
    c_lst = text_preprocessing_2(concept)
    s_lst = text_preprocessing_2(sentence)

    # ваш код здесь

    return False# И/ИЛИ здесь

In [None]:
#пример 2 уровня
concept1_1 = ''
sentence1_1 = ''

ans1_2 = check_concept_2(concept1_2, sentence1_2) # должен быть True!
print(bool(ans1_2))   # должен быть True

concept2_1 = ''
sentence2_1 = ''
# исключение

In [None]:
# скопируйте примеры
assert(check_concept_1(concept1_1, sentence1_1))
assert(check_concept_1(concept2_1, sentence2_1))
# исключение

### Уровень 3 - Слова схожего значения, но разного корня
- В отличие от уровней 1 и 2, где необходимо было идентифицировать слова с одним и тем же корнем, но разной формой, на уровне 3 возникает необходимость идентифицировать слова с существенно отличающейся формой, но имеющими «достаточно схожее» значение.
- На уровне 3 вы можете попытаться рассматривать эти пары слов, которые «достаточно похожи», как совпадения слов. Вы можете обнаружить, что это работает.
- Вы также можете не слишком полагаться на сопоставление слов и придумать другие методы для извлечения большего количества ADR из уровня 3. Это открытый метод, и если вам кажется более естественным другой подход, вы можете попробовать его.

#### Предварительная обработка 3
- Как вы узнаете, имеют ли слова схожее значение? Есть ли какие-либо ресурсы, о которых вы узнали, которые вы можете использовать? Поможет ли вам изменение подхода к предварительной обработке? Не у всех будут одинаковые ответы на эти вопросы.
— Таким образом, опять же, смело придумывайте свой подход к предварительной обработке.

In [None]:
import string
import nltk
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()

def text_preprocessing_3(sentence, stemm=True):
    """Прочитайте предложение и верните список токенов, в которых нет основы, нет знаков препинания и стоп-слов."""
    toks = [porter_stemmer.stem(w.lower()) if stemm else w.lower() for w in
                sentence.translate(sentence.maketrans(string.punctuation, ' '*len(string.punctuation))).split()]
    # НЕ забудьте скачать стоп слова
    stopwords = nltk.corpus.stopwords.words('english')
    no_stopword = [tok for tok in toks if tok.strip() not in stopwords]

    ### ВЫ МОЖЕТЕ ДОБАВИТЬ ВСЕ, ЧТО СЧИТАЕТЕ, МОЖЕТ БЫТЬ ПОЛЕЗНЫМ ###

    final = no_stopword
    return final

#### Проверьте концепты 3
- Заполните заглушку функции ниже, чтобы завершить подход уровня 3.
- Вероятно, вам понадобится ресурс, который подскажет вам, насколько похожи слова!

In [None]:
# 3 уровень кода
# импортируйте библиотеки, если надо

def check_concept_3(concept, sentence):
    """Проверьте, упоминается ли в предложении концепция CUI. Возвращайте TRUE, если концепция существует, и возвращайте FALSE, если нет."""
    c_lst = text_preprocessing_3(concept)
    s_lst = text_preprocessing_3(sentence)

    ### ВАШ КОД ЗДЕСЬ ###

    return False# И/ИЛИ Здесь

In [None]:
concept3 = 'Severe vertigo,Severe vertigo'
sentence3 = 'Emergency Room visit with tachycardia and violent vertigo.'

check_concept_3(concept3, sentence3)

Ваш финальный результат представьте в виде csv файла с колонками: sentence_id (например: для первой строки файла  
1	extreme weight gain, short-term memory loss, hair loss. sentence_id == drug_ADRs.txt), вторая колонка - CUI, следующие 5 колонок: level_1 .... level_5 для каждого уровня, где будет либо 1 либо 0.
```
1,C0000765,0,1,0,0,0
1,C0701811,0,0,1,0,0
1,C0002170,0,1,0,0,0
```

ваша_фамилия_3.csv