## Детекция названий препаратов

In [4]:
import pandas as pd
import numpy as np
import re
import nltk
import sklearn
from collections import Counter
from nltk import word_tokenize

In [5]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/nariman/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [2]:
data = pd.read_csv('clitical_trials_100000.tsv', delimiter='\t', encoding='utf-8').values

In [6]:
def words_by_coord (inform):
    coords = re.findall("(\d+, \d+)", inform[0][1:-1])
    drugs_coord = []
    names = []
    for i in coords:
        drugs_coord.append(re.split(", ", i))
    for k in drugs_coord:
        names.append(inform[1][int(k[0]):int(k[1])])
    return names

In [7]:
words_by_coord(data[1])

['combination',
 'therapy',
 'ranibizumab',
 'dexamethasone',
 'ranibizumab',
 'monotherapy',
 'ranibizumab',
 'monotherapy',
 'dexamethasone',
 'ranibizumab',
 'ranibizumab',
 'dexamethasone',
 'combined',
 'therapy',
 'ranibizumab',
 'ranibizumab',
 'monotherapy']

Создадим список всех известных препаратов.

In [8]:
buf = []
for i in data:
    buf += words_by_coord(i)
known_drugs = set (buf)
known_drugs

{'lexatumumab',
 'radiationtherapy',
 'hla-mismatch',
 'tomotherapy-based',
 'bortezomib',
 'trp-dn',
 'stimulator',
 'kw-0761',
 'isopeptidas',
 'engineering',
 'cdk-targeting',
 'epi+cisplatin',
 'ag-221',
 'her-family',
 'living-donor',
 'metastasectomy',
 'dasatinib-based',
 'multivisceral',
 'vibration',
 'trimodal',
 'anti-malarial',
 'hysterectomy',
 'a6',
 'fruquintinib',
 'aids',
 'related',
 'knife',
 'e2',
 'know',
 'anti-metastasis',
 'buserelin',
 'treatment-based',
 'family-focused',
 'hematology',
 'risk-directed',
 '11',
 'monochemotherapy',
 '-kappab',
 'rapidly',
 'stat3',
 'protocol-delivered',
 'gemcitabine?vinorelbine',
 'ozogamicin',
 'ototoxic',
 'bicistronic',
 'isis',
 'gram-positive',
 'erbb2',
 'ppar?',
 'ikk?',
 'pna',
 'breast',
 'helpful',
 'p53-slp?',
 'ifn-?2b',
 'anti-tumoral',
 'egfr',
 '-blocking',
 'wm-specific',
 'r0',
 'rifaxmine',
 'fresolimumab',
 'cpt-11',
 'unfortunately',
 'bosutinib',
 'ficlatuzumab',
 'anti-aromatase',
 'transduction',
 'tgf

Видим, что очень много странных меток. Посмотрим на частотность.

In [9]:
Drugs_fr = Counter(buf)

Для начала попробуем простые модели.
Сделаем фичи: первая буква, вторая, предпоседняя и последняя в названии препаратов. Не будем делать поправку на то, сколько раз слово встречается в исходных данных. Это позволит нам выявить закономерности в названиях самих препаратов, и избавиться от неверных слов типа терапия. Контекст пока никак не учитывается.

In [84]:
features = np.zeros((0,4))

In [85]:
for word in (np.array(list(known_drugs))):
    rec_feat = np.array(['','', '', ''])
    if (len(word) > 2):
        rec_feat[0] = word[0]
        rec_feat[1] = word[1]
        rec_feat[2] = word[-2] 
        rec_feat[3] = word[-1]
    features=np.vstack((features,rec_feat))

In [86]:
encoder = sklearn.preprocessing.OneHotEncoder()

In [87]:
X = encoder.fit_transform(features).toarray()

Теперь добавим длину слова - названия препаратов очень часто большие.

In [88]:
features = np.zeros((0,1))
for word in (np.array(list(known_drugs))):
    features=np.vstack((features, [[len(word)]]))

In [90]:
X = np.hstack((X,features))

Попробуем линейную модель и, несмотря на разрежеенность матрицы признаков, случайный лес. Но для этого нам необходимо выбрать функцию потерь и набрать множество слов, которые не являются названиями препаратов. После этого мы будем иметь задачу бинарной классификации.

In [None]:
for i in data:
    

In [13]:
q = word_tokenize(data[0][1])

['to',
 'assess',
 'the',
 'safety',
 'and',
 'effectiveness',
 'of',
 'phacoemulsification',
 'combine',
 'with',
 'xen45',
 'implant',
 'surgery',
 'in',
 'patient',
 'with',
 'cataract',
 'and',
 'open-angle',
 'glaucoma',
 ',',
 'with',
 '12',
 'month',
 'follow-up',
 '.',
 'a',
 'prospective',
 'study',
 'conduct',
 'on',
 '30',
 'eye',
 'require',
 'phacoemulsification',
 'with',
 ',',
 'at',
 'least',
 ',',
 '2',
 'medication',
 'to',
 'control',
 'intraocular',
 'pressure',
 '(',
 'iop',
 ')',
 '.',
 'phacoemulsification',
 'combine',
 'with',
 'xen45',
 'implant',
 'surgery',
 'be',
 'perform',
 'within',
 '15minute',
 'of',
 'administer',
 'subconjunctival',
 'mitomycin',
 'c.',
 'surgery',
 'be',
 'perform',
 'through',
 '2',
 'temporal',
 'incision',
 ',',
 'separate',
 'by',
 '90',
 '?',
 ',',
 'use',
 'the',
 'inferior',
 'to',
 'enter',
 'the',
 'xen45',
 'and',
 'to',
 'implant',
 'it',
 'in',
 'the',
 'superior',
 'nasal',
 'region',
 '.',
 'a',
 'record',
 'be',
 'mak

SyntaxError: invalid syntax (<ipython-input-21-6e3adafeeb36>, line 1)