# Text Processing

In [2]:
import numpy as np
import pandas as pd
from pymystem3 import Mystem
import re
import transformers
import nltk
from tqdm import notebook
import torch
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from dateutil.parser import parse
from catboost import CatBoostClassifier, Pool, cv
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
from transformers import AutoTokenizer, AutoModelForMaskedLM

## Данные

In [3]:
file_path = 'chd — 100.xlsx'

In [4]:
data = pd.read_excel(file_path)
data.head(1)

Unnamed: 0,admittion,department,discharge,sex,height,weight,BMI,BSA,birth,Операции (все в ИБ),...,Количество выб. из ОРИТ,К.дней в ОРИТ (всего),"ИВЛ, час. в ОРИТ (суммарно)",Инф. осложнения в ОРИТ,Назн. преп. в ОРИТ,target,Непосред. причина смерти,ЭхоКГ (Из Эпикр. вып.),ЭКГ (Из Эпикр. вып.),Назначения при выписке
0,2016-12-12,ehn,2017-01-10,m,76,9.7,111.27,0.46,02.01.2016,12.12.2016: (Откр./ИК) Перевязка ранее наложен...,...,2,20,252,01.01.2017: пневмония,"Адреналина г\хл 0,1% 1мл №5; Аксетин 750мг №10...",recovery,,"ЭхоКГ ВПС (02.12.2016 14:37:22, врач Неталиева...",ЭКГ (02.12.2016 16:43:25)\nРитм сердца синусов...,


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 43 columns):
 #   Column                                           Non-Null Count  Dtype         
---  ------                                           --------------  -----         
 0   admittion                                        99 non-null     datetime64[ns]
 1   department                                       99 non-null     object        
 2   discharge                                        99 non-null     datetime64[ns]
 3   sex                                              99 non-null     object        
 4   height                                           99 non-null     int64         
 5   weight                                           99 non-null     float64       
 6   BMI                                              99 non-null     float64       
 7   BSA                                              99 non-null     float64       
 8   birth                                     

In [6]:
data['department'].value_counts()

ehn     46
onik    32
rhn     21
Name: department, dtype: int64

Для теста возьмем только один столбец - диагноз

In [7]:
diagnosis = data['Диагноз']

In [8]:
diagnosis[1]

'двойное отхождение аорты и легочной артерии от правого желудочка, подаортальный дефект межжелудочковой перегородки, комбинированный стеноз легочной артерии, умеренные сужения устьев правой и левой  легочных артерий; ОАП, НК 0-1 ст, артериальная гипоксемия, состояние после ТЛБВП 15.08.2016, клапана ЛА, с-м Дауна, с-м мышечной гипотонии, гипертензионно-гидроцефальный с-м; 18.01.2017 - ОПЕРАЦИЯ: радикальная коррекция двойного отхождения магистральных сосудов от правого желудочка с пластикой выводного отдела правого желудочка и ствола легочной артерии ксеноперикардиальной заплатой; перевязка открытого артериального протока; в условиях ИК, гипотеремии, НК 2а ст'

## Пример применения TF-IDF на столбце "Диагноз"

### Гипотетический способ отчистки конкретных элементов текста (например даты)

In [9]:
nDAY = r'(?:[0-3]?\d)'
nMNTH = r'(?:11|12|10|0?[1-9])' 
nYR = r'(?:(?:19|20)\d\d)'
nDELIM = r'(?:[\/\-\._])?'

In [10]:
re.sub(f'(?:{nDAY}{nDELIM}{nMNTH}{nDELIM}{nYR})', ' ', diagnosis[1])

'двойное отхождение аорты и легочной артерии от правого желудочка, подаортальный дефект межжелудочковой перегородки, комбинированный стеноз легочной артерии, умеренные сужения устьев правой и левой  легочных артерий; ОАП, НК 0-1 ст, артериальная гипоксемия, состояние после ТЛБВП  , клапана ЛА, с-м Дауна, с-м мышечной гипотонии, гипертензионно-гидроцефальный с-м;   - ОПЕРАЦИЯ: радикальная коррекция двойного отхождения магистральных сосудов от правого желудочка с пластикой выводного отдела правого желудочка и ствола легочной артерии ксеноперикардиальной заплатой; перевязка открытого артериального протока; в условиях ИК, гипотеремии, НК 2а ст'

### Лемментизация

In [11]:
m = Mystem()

# Леммантизирует текст
def lemmatize(text):
    return "".join(m.lemmatize(text))

In [12]:
lemmatize(diagnosis[1])

'двойной отхождение аорта и легочный артерия от правый желудочек, подаортальный дефект межжелудочковый перегородка, комбинированный стеноз легочный артерия, умеренный сужение устье правый и левый  легочный артерия; оап, НК 0-1 ст, артериальный гипоксемия, состояние после ТЛБВП 15.08.2016, клапан ЛА, с-м даун, с-м мышечный гипотония, гипертензионный-гидроцефальный с-м; 18.01.2017 - операция: радикальный коррекция двойной отхождение магистральный сосуд от правый желудочек с пластика выводной отдел правый желудочек и ствол легочный артерия ксеноперикардиальный заплата; перевязка открытый артериальный проток; в условие ик, гипотеремия, НК 2а ст\n'

### Отчистка текста

In [13]:
# Чистит текст от всего, кроме русских и английских букв
def clear_text(text):
    cleaned = re.sub(r'[^а-яА-Яa-zA-ZёЁ ]', ' ', text)
    cleaned = cleaned.split()
    return ' '.join(cleaned)

In [14]:
clear_text(lemmatize(diagnosis[1]))

'двойной отхождение аорта и легочный артерия от правый желудочек подаортальный дефект межжелудочковый перегородка комбинированный стеноз легочный артерия умеренный сужение устье правый и левый легочный артерия оап НК ст артериальный гипоксемия состояние после ТЛБВП клапан ЛА с м даун с м мышечный гипотония гипертензионный гидроцефальный с м операция радикальный коррекция двойной отхождение магистральный сосуд от правый желудочек с пластика выводной отдел правый желудочек и ствол легочный артерия ксеноперикардиальный заплата перевязка открытый артериальный проток в условие ик гипотеремия НК а ст'

### TF-IDF

In [15]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Стивен\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [16]:
stopwords = set(nltk_stopwords.words('russian'))

In [None]:
%%time

corpus = diagnosis.apply(lambda x: clear_text(lemmatize(x)))

In [None]:
tf_idf = TfidfVectorizer(stop_words=stopwords).fit(corpus)
tf_idf_train = tf_idf.transform(corpus)

In [None]:
tf_idf_train.toarray().shape

In [None]:
tf_idf.vocabulary_

In [None]:
tf_idf_vocab = pd.DataFrame([[i, j] for i, j in tf_idf.vocabulary_.items()], columns=['word', 'index'])
tf_idf_vocab = tf_idf_vocab.set_index('index')
tf_idf_vocab = tf_idf_vocab.sort_index()
tf_idf_vocab.head(10)

## RuBert

In [125]:
tokenizer = AutoTokenizer.from_pretrained("sberbank-ai/ruBert-base")

model = AutoModelForMaskedLM.from_pretrained("sberbank-ai/ruBert-base")

Downloading:   0%|          | 0.00/683M [00:00<?, ?B/s]

Some weights of the model checkpoint at sberbank-ai/ruBert-base were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [126]:
tokenized = corpus.apply(lambda x: tokenizer.encode(x, add_special_tokens=True))

In [135]:
max_len = 0
for i in tokenized.values:
    if len(i) > max_len:
        max_len = len(i)
max_len

194

In [138]:
padded = np.array([i + [0] * (max_len - len(i)) for i in tokenized.values])

attention_mask = np.where(padded != 0, 1, 0)
padded[0]

array([   101,    116,   2991,  74639, 113404,    666,    107,  30545,
        12866,    378,  31338,    390,   1996,  89679,  20900,    378,
        71738,   5635,  62761,    701,  10429,    391,    378,  39381,
          657,   3526,  91552,    378,  73147,    667,    378,  36986,
          396,  30545,  12866,    378,  31338,    390,  61896,  52065,
         6056,  91706,  20900,    378,  73147,  11894, 113404,  91645,
         1277,  12866,    378,  22389,   2154,  20900,    378,  31338,
          390,    700,  80548,    755,    378, 113404,    666,    114,
         4984,   2160,  12020,   5762,    934,  11803,  45165,   9309,
        41156,    667,    378,  30545,  12866,    378,   3904,   2968,
         4211,  13474,    108,    385,    106,  11894,  99540,    667,
          378,  31338,    922,    667,    378,  31053,  69367,   5917,
        11803,  71738,   5635,   8838,   3624,  33988,    378,  39381,
          657,  83047,    660,  30545,  12866,    378,  31338,    390,
      

In [149]:
batch_size = 10
embeddings = []
for i in notebook.tqdm(range(padded.shape[0] // batch_size)):
    batch = torch.LongTensor(padded[batch_size*i:batch_size*(i+1)])
    attention_mask_batch = torch.LongTensor(attention_mask[batch_size*i:batch_size*(i+1)])
    
    print(f'Stage {i}')
    with torch.no_grad():
        batch_embeddings = model(batch, attention_mask=attention_mask_batch)
    
    embeddings.append(batch_embeddings[0][:,0,:].numpy())

  0%|          | 0/10 [00:00<?, ?it/s]

Stage 0
Stage 1
Stage 2
Stage 3
Stage 4
Stage 5
Stage 6
Stage 7
Stage 8
Stage 9


In [151]:
features = np.concatenate(embeddings)

In [154]:
features.shape

(100, 120138)

Получилось 120000 признаков. Векторизация 100 примеров проход **Надо использовать модель с меньшим словарем, желательно из медицинских терминов.**

## Тест модели

In [None]:
X, y = tf_idf_train, data['department']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
model = CatBoostClassifier(loss_function='MultiClass', verbose=100)
model = model.fit(X_train, y_train, eval_set=(X_test, y_test))

In [None]:
tf_idf_vocab['importance'] = model.get_feature_importance()
tf_idf_vocab_sorted = tf_idf_vocab.sort_values(by='importance', ascending=False)
tf_idf_vocab_sorted.head(10)

In [None]:
print(classification_report(y_test, model.predict(X_test)))

In [None]:
cat_score = cross_val_score(model, X, y)
cat_score

In [None]:
cat_score.mean()

In [None]:
dummy_model = DummyClassifier().fit(X_train, y_train)
print(classification_report(y_test, dummy_model.predict(X_test)))

In [None]:
cross_val_score(DummyClassifier(), X, y).mean()