## Детекция названий препаратов

Положите данные в папку с ноутбуком.

In [1]:
import pandas as pd
import numpy as np
import scipy as sp
import re
import time
import nltk
import sklearn
from collections import Counter
from nltk import word_tokenize
import _pickle

In [2]:
#nltk.download('punkt')

In [3]:
data = pd.read_csv('clitical_trials_100000.tsv', delimiter='\t', encoding='utf-8').values

In [4]:
def words_by_coord (inform):
    coords = re.findall("(\d+, \d+)", inform[0][1:-1])
    drugs_coord = []
    names = []
    for i in coords:
        drugs_coord.append(re.split(", ", i))
    for k in drugs_coord:
        names.append(inform[1][int(k[0]):int(k[1])])
    return names

Создадим список всех известных препаратов.

In [5]:
buf = []
for i in data:
    buf += words_by_coord(i)
known_drugs = set (buf)
known_drugs

{'antineoplastic',
 'fluoropyrimidine-containing',
 'his',
 'common',
 'allogenic',
 '-directed',
 'decease',
 'jak-2',
 'ultrasound',
 'matrix',
 'crt',
 'multidrug-resistant',
 'transdermal',
 'probe',
 'ambrisentan',
 'guideline-conform',
 'ifa-based',
 'lamivudine',
 'laba',
 'floor',
 'depletional',
 'ryanodine',
 'antimicrobial',
 'tracheal',
 'ldt',
 'whi-hormone',
 'postprostatectomy',
 '-identical',
 '?1',
 'tucotuzumab',
 'palliative-only',
 'epigenetics-based',
 'biomarker-based',
 'megestrol',
 'hypogonadism',
 'assisted',
 'isoenzyme',
 'sp',
 'weekly',
 'therapy',
 'minimal',
 'ckd-516',
 'contemporary',
 'hcq',
 'gsi',
 'eml4',
 'mold',
 'eloxatin',
 'hcc',
 '810',
 'glp',
 'whole-body',
 'radio-',
 'kca3.1',
 'instead',
 'off-target',
 '-abl1',
 'electroporation-based',
 'catalytic',
 'every-other-week',
 'amp',
 '3,000',
 'usual',
 'hu',
 'aureolic',
 'il',
 'noradrenaline',
 'anti-acne',
 'bak',
 'hdr',
 'postchemotherapy',
 'free',
 'miltefosine-allopurinol',
 'herba

Видим, что очень много странных меток. Посмотрим на частотность.

In [6]:
Drugs_fr = Counter(buf)

Для начала попробуем простые модели.
Сделаем фичи: первая буква, вторая, предпоседняя и последняя в названии препаратов. Не будем делать поправку на то, сколько раз слово встречается в исходных данных. Это позволит нам выявить закономерности в названиях самих препаратов, и избавиться от неверных слов типа терапия. Контекст пока никак не учитывается.
Изучив остальные слова обнаруживаем, что в названиях препаратов не содержатся некоторые символы.  
Итак: выделяем признаки из названий препаратов, затем повторяем это для всех остальных слов, предварительно удалив заведомо плохие.

In [10]:
list_drugs = list(known_drugs)
features = np.empty((len(list_drugs),5), dtype=str)
for i, word in enumerate(np.array(list_drugs)):
    if (len(word) > 3):
        features[i,0] = word[0]
        features[i,1] = word[1]
        features[i,2] = word[-3]
        features[i,3] = word[-2] 
        features[i,4] = word[-1]
features = np.vstack((features, ['*', '*', '*', '*', '*']))
encoder = sklearn.preprocessing.OneHotEncoder()
X_drugs = encoder.fit_transform(features).toarray()[:-1]

Теперь добавим длину слова - названия препаратов очень часто большие. Также найдем количество букв.

In [11]:
features = np.empty((len(list_drugs), 2))
for i, word in enumerate(np.array(list_drugs)):
    features[i, 0] = len(word)
    features[i, 1] = len(re.findall('[a-zA-Z]', word))
X_drugs = np.hstack((X_drugs,features))

Попробуем линейную модель и, несмотря на разрежеенность матрицы признаков, случайный лес. Но для этого нам необходимо выбрать функцию потерь и набрать множество слов, которые не являются названиями препаратов. После этого мы будем иметь задачу бинарной классификации.

## Длительное вычисление, можно просто выгрузить из файла.

In [None]:
all_words = set()
for i in data:
    all_words.update(word_tokenize(i[1]))
all_words.remove(".")
all_words.remove(",")

In [None]:
with open('all_words.txt', 'wb') as file:
    _pickle.dump(all_words, file)

In [12]:
with open('all_words.txt', 'rb') as file:
    all_words = set(_pickle.load(file))

In [13]:
non_drugs = all_words.difference(known_drugs)

In [14]:
non_drugs

{'bmmphi',
 'rt1ac-cy7',
 '1277',
 'thermosensitive',
 'pnmic',
 'ginkgo',
 'tetradium',
 'hill-type',
 'd8s557',
 'dipolymeric',
 'flavan-3-ol',
 '-d-glucuronide-d3',
 '5041',
 'distant-site',
 '187,740.40',
 'das-28-esr',
 'cr+pr+stable',
 'alpha-helix',
 'srebp1c',
 'ccyr0',
 '0.781',
 'depression-specific',
 'kir6.2',
 'characteri',
 'leucine-rich-containing',
 'sub-cytotoxicity',
 'risk.all',
 'practitioner-led',
 '37,328',
 'ssdna-',
 'p53-p21',
 'maximise',
 'hrpca',
 'levoversion',
 'pilz',
 '81-0',
 'severity-weighted',
 'intra-carotid',
 'pozit',
 'factor-vegf-c',
 '.614',
 'rs114484350',
 'skf-525',
 'er-alpha36',
 'fluorobenzylidene',
 'hemoderivative',
 'mg+mtx',
 '1107-1112',
 'lmca',
 '562.5',
 'monophora',
 'hd-ppre',
 'subtype-oriented',
 'electroanalytical',
 'aspartamide',
 'tranylcypromine',
 'fdurd-pretreated',
 'pmsc',
 'br-cvp',
 'subtle',
 '1beta-arabinofuranosylcytosine',
 'i.po',
 'unregistered',
 'bep-treatment',
 'y1230',
 'radiant-3',
 'raeb-t',
 'rs1693012

Теперь прогоним слова не являющиеся названиями препаратов через те же преобразования и получим матрицу признаков.

In [18]:
list_non_drugs = list(non_drugs)
features = np.empty((len(list_non_drugs),5), dtype=str)
qu = set(['*', ',', ':', '=', '\\', '_', '|', '~', '/', '^', "'", 'q', '+', 'j'])
for i, word in enumerate(np.array(list_non_drugs)):
        if (len(word) > 3):
            first = word[0]
            second = word[1]
            prelast = word[-2]
            last = word[-1]
            last2th = word[-3]
            if len(qu & set((first, second, prelast, last, last2th))) > 0:
                features[i] = ['*', '*', '*', '*', '*']
            else:   
                features[i,0] = first
                features[i,1] = second
                features[i,2] = last2th
                features[i,3] = prelast
                features[i,4] = last
        else:
            features[i,0] = ''
            features[i,1] = ''
            features[i,2] = ''
            features[i,3] = ''
            features[i,4] = ''
X_non_drugs = encoder.transform(features).toarray()
features = np.empty((len(list_non_drugs), 2))
for i, word in enumerate(np.array(list_non_drugs)):
    features[i, 0] = len(word)
    features[i, 1] = len(re.findall('[a-zA-Z]', word))
X_non_drugs = np.hstack((X_non_drugs,features))

In [19]:
X = np.vstack((X_drugs, X_non_drugs))
y = np.hstack((np.ones(len(X_drugs)), np.zeros(len(X_non_drugs))))

In [20]:
X.shape

(270878, 214)

In [22]:
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, test_size = 0.2,random_state = 0)

Пришло время определиться с функцией потерь. 

In [23]:
import matplotlib as mp

In [None]:
mp.

Линейная модель:

In [None]:
log_reg = sklearn.linear_model.LogisticRegression(class_weight='balanced')

In [None]:
log_reg.fit(X_train, y_train)

In [None]:
y_pred = log_reg.predict(X_test)

In [None]:
sklearn.metrics.f1_score(y_test, y_pred)

In [None]:
import sklearn.ensemble

In [None]:
forest = sklearn.ensemble.RandomForestClassifier()

In [None]:
forest.fit(X_train, y_train)

In [None]:
y_pred = forest.predict(X_test)

In [None]:
sklearn.metrics.f1_score(y_test, y_pred)

In [None]:
words_by_coord(data[0])

In [None]:
a = encoder.transform([['m', 'i', 'i', 'n']]).toarray()

In [None]:
a = np.hstack((a, np.array([[9,9]])))

In [None]:
forest.predict(a)