## Детекция названий препаратов

Положите данные в папку с ноутбуком.

In [8]:
import pandas as pd
import numpy as np
import scipy as sp
import time
import re
import nltk
import sklearn
from collections import Counter
from nltk import word_tokenize
import _pickle

In [2]:
#nltk.download('punkt')

In [3]:
data = pd.read_csv('clitical_trials_100000.tsv', delimiter='\t', encoding='utf-8').values

In [4]:
def words_by_coord (inform):
    coords = re.findall("(\d+, \d+)", inform[0][1:-1])
    drugs_coord = []
    names = []
    for i in coords:
        drugs_coord.append(re.split(", ", i))
    for k in drugs_coord:
        names.append(inform[1][int(k[0]):int(k[1])])
    return names

In [5]:
def worder(_data):    
    _all_words = set()
    for i in _data:
        _all_words.update(word_tokenize(i[1]))
    _all_words.remove(".")
    _all_words.remove(",")
    return _all_words

In [6]:
def extract_drugs(_data):
    _buf = []
    for i in _data:
        _buf += words_by_coord(i)
    return _buf

Создадим список всех известных препаратов.

In [9]:
buf = extract_drugs(data)
known_drugs = set(buf)
#know_drugs

In [10]:
def get_num(_data):
    num = 0
    for i in _data:
        i += len(word_tokenize(i[1]))
    return num

Видим, что очень много странных меток. Посмотрим на частотность.

In [32]:
#print (Counter(buf).most_common(50))

[('therapy', 61913), ('chemotherapy', 60890), ('radiotherapy', 26939), ('inhibitor', 20611), ('cisplatin', 12169), ('bevacizumab', 8995), ('dexamethasone', 8328), ('transplantation', 7956), ('paclitaxel', 7583), ('calcium', 6545), ('docetaxel', 6446), ('rituximab', 6365), ('il-10', 6242), ('gemcitabine', 6023), ('doxorubicin', 5877), ('5', 5314), ('fu', 4989), ('radiation', 4850), ('cyclophosphamide', 4795), ('curcumin', 4571), ('monotherapy', 4550), ('immunotherapy', 4515), ('imatinib', 4514), ('methotrexate', 4509), ('tamoxifen', 4385), ('sorafenib', 4363), ('brachytherapy', 4153), ('fluorouracil', 4151), ('carboplatin', 4070), ('chemoradiotherapy', 3909), ('trastuzumab', 3803), ('vaccine', 3613), ('prednisone', 3383), ('erlotinib', 3330), ('capecitabine', 3301), ('oxaliplatin', 3295), ('metformin', 3245), ('ranibizumab', 3204), ('everolimus', 3063), ('cetuximab', 3015), ('cell', 2969), ('irinotecan', 2959), ('bortezomib', 2955), ('sunitinib', 2943), ('and', 2884), ('kinase', 2876), 

Будем считать, что это ошибки и в будущем подумаем как с ними работать. Можно попытаться выкинуть самые частотные ошибки вручную, но для постановки бейслайна это не нужно.

## Постановка задачи.
Будем пытаться симулировать реальную проблему, а именно: на вход поступают тексты, а мы ищем в них названия препаратов. Таким образом получаем задачу бинарной классификации слов.   
В качестве метрики выберем f1 score, т.к. размеры классов 'название ghtgfhfnf' - 'обычное слово' сильно несбалансированы.

Начнем с решения "в лоб".
Сделаем фичи: первая буква, вторая и три последних. Не будем делать поправку на то, сколько раз слово встречается в исходных данных. Это позволит нам найти закономерности в названиях препаратов и не сильно отвлекаться на странные метки.  
Интересно было бы протестировать наши фичи на заданиях другого типа: подавать на вход слова, которые модель еще не видела, но это не даст нам адекватного представления о качестве на исходной задаче.
Контекст пока не учитывается.
Изучив остальные слова обнаруживаем, что в названиях препаратов не содержатся некоторые символы, их мы будем кодировать '\*'(один из невстречащихся символов).

In [12]:
list_drugs = list(known_drugs)
features = np.empty((len(list_drugs),5), dtype=str)
for i, word in enumerate(np.array(list_drugs)):
    if (len(word) > 3):
        features[i,0] = word[0]
        features[i,1] = word[1]
        features[i,2] = word[-3]
        features[i,3] = word[-2] 
        features[i,4] = word[-1]
features = np.vstack((features, ['*', '*', '*', '*', '*']))
encoder = sklearn.preprocessing.OneHotEncoder()
X_drugs = encoder.fit_transform(features).toarray()[:-1]

Теперь добавим длину слова - названия препаратов очень часто большие. Также найдем количество букв.

In [13]:
features = np.empty((len(list_drugs), 2))
for i, word in enumerate(np.array(list_drugs)):
    features[i, 0] = len(word)
    features[i, 1] = len(re.findall('[a-zA-Z]', word))
X_drugs = np.hstack((X_drugs,features))

## Длительное вычисление, можно просто выгрузить из файла.

In [39]:
all_words = worder(data)

KeyboardInterrupt: 

In [None]:
with open('all_words.txt', 'wb') as file:
    _pickle.dump(all_words, file)

In [14]:
with open('all_words.txt', 'rb') as file:
    all_words = set(_pickle.load(file))

In [15]:
non_drugs = all_words.difference(known_drugs)

Теперь прогоним слова не являющиеся названиями препаратов через те же преобразования и получим матрицу признаков.

In [16]:
list_non_drugs = list(non_drugs)
features = np.empty((len(list_non_drugs),5), dtype=str)
qu = set(['*', ',', ':', '=', '\\', '_', '|', '~', '/', '^', "'", 'q', '+', 'j'])
for i, word in enumerate(np.array(list_non_drugs)):
        if (len(word) > 3):
            first = word[0]
            second = word[1]
            prelast = word[-2]
            last = word[-1]
            last2th = word[-3]
            if len(qu & set((first, second, prelast, last, last2th))) > 0:
                features[i] = ['*', '*', '*', '*', '*']
            else:   
                features[i,0] = first
                features[i,1] = second
                features[i,2] = last2th
                features[i,3] = prelast
                features[i,4] = last
        else:
            features[i,0] = ''
            features[i,1] = ''
            features[i,2] = ''
            features[i,3] = ''
            features[i,4] = ''
X_non_drugs = encoder.transform(features).toarray()
features = np.empty((len(list_non_drugs), 2))
for i, word in enumerate(np.array(list_non_drugs)):
    features[i, 0] = len(word)
    features[i, 1] = len(re.findall('[a-zA-Z]', word))
X_non_drugs = np.hstack((X_non_drugs,features))

In [17]:
X = np.vstack((X_drugs, X_non_drugs))
y = np.hstack((np.ones(len(X_drugs)), np.zeros(len(X_non_drugs))))

In [None]:
X.shape

In [None]:
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, test_size = 0.2,random_state = 0)

Пришло время определиться с функцией потерь. 

In [None]:
known_drugs.isdisjoint(set(['fv']))

Линейная модель:

In [None]:
data_train, data_test = sklearn.model_selection.train_test_split(data, test_size = 0.2)

In [None]:
def worder(_data):
    _list_all_words = np.empty((_data.shape[0]))
    for i, sen in _data:
        _list_all_words[i] = word_tokenize(i[1])
    _list_all_words = _list_all_words.reshape((-1, 1))
    _all_words.remove(".")
    _all_words.remove(",")
    _buf = []
    for i in _data:
        _buf += words_by_coord(i)
    return _all_words, _buf

In [None]:
X_non = np.array(list(non_drugs)).reshape((-1,1))
X_drugs = np.array(list(known_drugs)).reshape((-1,1))
y_non = np.zeros((len(X_non)))
y_drugs = np.ones((len(X_drugs)))
X = np.vstack((X_non, X_drugs))
y = np.hstack((y_non, y_drugs))
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, test_size = 0.3, shuffle = True)

In [None]:
def My_predictor(words, known, y_known):
    _known_drugs = set(known[y_known == 1].reshape((1,-1)).tolist()[0])
    _y_pred = np.ones((len(words)))
    for i, word in enumerate(words):
        if (_known_drugs.isdisjoint(set(list(word)))):
            _y_pred[i] = 0
        else:
            print (word)
    return _y_pred

In [None]:
y_pred = My_predictor(X_test, X_train, y_train)

In [None]:
print(sklearn.metrics.classification_report(y_true=y_test, y_pred=y_pred))

In [None]:
inputer = np.array(list(non_drugs)).reshape((-1,1))

In [None]:
inputer = inputer.tolist()

In [None]:
y_pred = My_predictor(inputer)

In [None]:
print(sklearn.metrics.classification_report(y_pred=y_pred, y_true=np.zeros((len(inputer)))))

In [None]:
log_reg = sklearn.linear_model.LogisticRegression(class_weight='balanced')

In [None]:
log_reg.fit(X_train, y_train)

In [None]:
y_pred = log_reg.predict(X_test)

In [None]:
sklearn.metrics.f1_score(y_test, y_pred)

In [None]:
import sklearn.ensemble

In [None]:
forest = sklearn.ensemble.RandomForestClassifier()

In [None]:
forest.fit(X_train, y_train)

In [None]:
y_pred = forest.predict(X_test)

In [None]:
sklearn.metrics.f1_score(y_test, y_pred)

In [None]:
words_by_coord(data[0])

In [None]:
a = encoder.transform([['m', 'i', 'i', 'n']]).toarray()

In [None]:
a = np.hstack((a, np.array([[9,9]])))

In [None]:
forest.predict(a)

In [None]:
X = pd.DataFrame([[1, 'Thousands', 'NNS'], [1, 'of', 'NNS'], [1, 'for', 'NS'], [2, 'for', 'N'], [3, 'then', 'S']])

In [None]:
X

In [None]:
X.to_dict('records')

In [None]:
v.fit_transform(X.to_dict('records'))

In [None]:
v.fit_transform(X.to_dict('records'))

In [None]:
X = X.drop(2, axis=1)


In [None]:
v = sklearn.feature_extraction.DictVectorizer(sparse=False)
X = v.fit_transform(X.to_dict('records'))
#y = df.Tag.values

In [33]:
num = 0
for i in data:
    s = 0
    tkzed = word_tokenize(i[1])
    for q in tkzed:
        if (q == '.' or q == ','):
            s +=1
    num += len(tkzed) - s

In [34]:
num

25318985

Общее количество слов - 25318985

In [19]:
group_data = np.empty()

In [26]:
for i, row in enumerate(data[:10]):
    drugs_in_t = set(words_by_coord(row))
    for word in word_tokenize(row[1]):
        group_data = group_data.append()

TypeError: Can only append a Series if ignore_index=True or if the Series has a name

In [28]:
group_data.append({'sentence' : i, 'word': word, 'drug': True})

TypeError: Can only append a Series if ignore_index=True or if the Series has a name

In [None]:
pd.Series()