In [1]:
import pandas as pd
import numpy as np

from tqdm import tqdm
from collections import defaultdict
from sklearn.utils.extmath import softmax

In [2]:
train_df = pd.read_csv('train_data_complaints_repeats_doctors.csv').fillna('')
test_df = pd.read_csv('test_data_complaints_repeats_doctors.csv').fillna('')
train_df.head(3)

Unnamed: 0.1,Unnamed: 0,Id_Записи,Id_Пациента,Возраст,Диагноз,Жалобы,Источник_рекламы,Клиника,Код_диагноза,Пол,Услуга,Жалобы (ngramm),Жалобы (unigramm),Врач,Повторный приём
0,0,0,115819,54,Гипертензивная болезнь сердца [гипертоническая...,"на повышение ад утром до 140/90 мм.рт.ст., пер...",Другое,5,I11,2,"Прием врача-кардиолога повторный, амбулаторный",повышение_ада,повышение ада утром мм рт ст периодич головокр...,кардиолог,1
1,1,1,399973,32,Доброкачественное новообразование молочной железы,На наличие опухоли в левой молочной железе,Другое,3,D24,2,"Прием врача-онколога (маммолога), повторный, а...",наличие_опухоль левый_молочный_железо,наличие опухоль левый молочный железо,онколог,1
2,2,2,427563,72,Простой хронический бронхит,Активных жалоб нет.,Интернет,6,J41.0,2,Прием первичный врача-пульмонолога,активный_жалоба,активный жалоба,пульмонолог,0


In [3]:
freq_diagnoses = train_df.groupby(['Id_Пациента']).apply(lambda x: np.argmax(x.Код_диагноза.value_counts()))

In [4]:
MAX_AGE = 98

train_df.Возраст = np.maximum(train_df.Возраст.values, MAX_AGE)
test_df.Возраст = np.maximum(test_df.Возраст.values, MAX_AGE)

In [5]:
min_freq_threshold = 2
classes_count = (train_df.Код_диагноза.value_counts() > min_freq_threshold).sum() + 1
classes_count

1169

In [6]:
classes = list((train_df.Код_диагноза.value_counts() > min_freq_threshold)[
    (train_df.Код_диагноза.value_counts() > min_freq_threshold)].keys())

In [7]:
class_to_idx = {c: i for i, c in enumerate(classes, start=1)}
idx_to_class = {i: c for i, c in enumerate(classes, start=1)}

In [8]:
def df2vw(features_extractor, df, out_filename, train=True):
    file = open(out_filename, 'w', encoding='utf8')
    for row in tqdm(df.iterrows()):
        features = features_extractor(row)
        if train:
            label = class_to_idx.get(row[1].Код_диагноза, len(class_to_idx) + 1)
        else:
            label = ''
        file.write('{} {}\n'.format(label, features))
    file.close()

In [9]:
extract_words = lambda row: '|complaint_ngram ' + str(row[1]['Жалобы (ngramm)']) + ' ' + \
                            '|complaint_uni ' + str(row[1]['Жалобы (unigramm)']) + ' ' + \
                            '|doctor ' + str(row[1].Врач) + ' ' + \
                            '|clinic ' + str(row[1].Клиника) + ' ' + \
                            '|gender ' + str(row[1].Пол) + ' ' + \
                            '|age_feature:' + str(MAX_AGE) + ' age:' + str(row[1].Возраст) + ' ' + \
                            '|again' + str(row[1]['Повторный приём'])

In [11]:
df2vw(extract_words, train_df, 'train.vw')

61976it [00:06, 10079.16it/s]


In [12]:
df2vw(extract_words, test_df, 'test.vw', train=False)

30000it [00:02, 10874.47it/s]


In [13]:
! vw -d train.vw --loss_function logistic --oaa $classes_count -f model --threads -b 22

final_regressor = model
Num weight bits = 22
learning rate = 0.5
initial_t = 0
power_t = 0.5
using no cache
Reading datafile = train.vw
num sources = 1
average  since         example        example  current  current  current
loss     last          counter         weight    label  predict features
1.000000 1.000000            1            1.0        8        1       14
1.000000 1.000000            2            2.0      156        8       12
1.000000 1.000000            4            4.0       15      156       11
1.000000 1.000000            8            8.0       13      156       10
1.000000 1.000000           16           16.0        2      110       10
0.906250 0.812500           32           32.0      702       13        9
0.906250 0.906250           64           64.0        1        1       30
0.890625 0.875000          128          128.0      136        5        8
0.898438 0.906250          256          256.0        1        4       12
0.847656 0.796875          512          512.0

In [14]:
! vw -i model -t test.vw -r pred.out --threads

only testing
raw predictions = pred.out
Num weight bits = 22
learning rate = 0.5
initial_t = 0
power_t = 0.5
using no cache
Reading datafile = test.vw
num sources = 1
average  since         example        example  current  current  current
loss     last          counter         weight    label  predict features
    n.a.     n.a.            1            1.0  unknown     1169       17
    n.a.     n.a.            2            2.0  unknown     1169        9
    n.a.     n.a.            4            4.0  unknown     1169        9
    n.a.     n.a.            8            8.0  unknown     1169       18
    n.a.     n.a.           16           16.0  unknown     1169        9
    n.a.     n.a.           32           32.0  unknown     1169       21
    n.a.     n.a.           64           64.0  unknown        1       25
    n.a.     n.a.          128          128.0  unknown     1169       11
    n.a.     n.a.          256          256.0  unknown     1169       12
    n.a.     n.a.          512

In [15]:
def vw2probs(pred_name):
    predictions = []
    with open(pred_name) as file:
        for line in file.readlines():
            pred = [float(token.split(':')[1]) for token in line.split()]
            predictions.append(softmax(np.array([pred]))[0].argmax() + 1) # Predictions are from 1 to classes_count
    return np.array(predictions)

In [16]:
result = vw2probs('pred.out')

In [17]:
nontrivial_diagnosis = (result != classes_count).sum()
nontrivial_diagnosis

3792

In [18]:
test_df['Код_диагноза'] = [idx_to_class.get(i, '') for i in result]

In [19]:
test_df['Код_диагноза'][test_df['Код_диагноза'] == ''] = test_df[test_df['Код_диагноза'] == '']\
                            .apply(lambda row: freq_diagnoses.get(row.Id_Пациента, 'J06.9'), axis=1)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':


In [20]:
test_df[['Id_Записи', 'Код_диагноза']].to_csv('./submission_vw.csv', index=False, encoding='utf8')