In [1]:
import utils

import nltk
from nltk.corpus import stopwords
import pymorphy2

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.svm import SVC

import pandas as pd
import numpy as np
from scipy.sparse import csr_matrix
import scipy

In [2]:
class ItemSelector(BaseEstimator, TransformerMixin):
    def __init__(self, key):
        self.key = key

    def fit(self, x, y=None):
        return self

    def transform(self, data_dict):
        return data_dict[self.key]

In [3]:
train = pd.read_csv('data/train_data_complaints_repeats_doctors.csv')

In [4]:
train.head(3)

Unnamed: 0.1,Unnamed: 0,Id_Записи,Id_Пациента,Возраст,Диагноз,Жалобы,Источник_рекламы,Клиника,Код_диагноза,Пол,Услуга,Жалобы (ngramm),Жалобы (unigramm),Врач,Повторный приём
0,0,0,115819,54,Гипертензивная болезнь сердца [гипертоническая...,"на повышение ад утром до 140/90 мм.рт.ст., пер...",Другое,5,I11,2,"Прием врача-кардиолога повторный, амбулаторный",повышение_ада,повышение ада утром мм рт ст периодич головокр...,кардиолог,1
1,1,1,399973,32,Доброкачественное новообразование молочной железы,На наличие опухоли в левой молочной железе,Другое,3,D24,2,"Прием врача-онколога (маммолога), повторный, а...",наличие_опухоль левый_молочный_железо,наличие опухоль левый молочный железо,онколог,1
2,2,2,427563,72,Простой хронический бронхит,Активных жалоб нет.,Интернет,6,J41.0,2,Прием первичный врача-пульмонолога,активный_жалоба,активный жалоба,пульмонолог,0


In [5]:
complaints = train['Жалобы (unigramm)']

In [6]:
complaints.shape

(61976,)

In [7]:
train.shape

(61976, 15)

In [8]:
doctors = train['Врач'].fillna('sss')

doctors_voc, counts = np.unique(doctors, return_counts=True)
pop_doctor = doctors_voc[np.argsort(counts)[::-1][0]]

doctors[doctors == 'sss'] = pop_doctor

doctors.shape

(61976,)

In [9]:
tfidf_complaints = TfidfVectorizer(ngram_range=(1,2), min_df=10, stop_words=stopwords.words('russian'))
tfidf_complaints.fit(complaints)
list(reversed(sorted(tfidf_complaints.vocabulary_)))

['ямка',
 'яичник',
 'яичко',
 'язык',
 'ягодичный область',
 'ягодичный мышца',
 'ягодичный',
 'ягодица течение',
 'ягодица иррадиация',
 'ягодица задний',
 'ягодица бедро',
 'ягодица',
 'явление',
 'явка результат',
 'явка профилактический',
 'явка постановка',
 'явка повторный',
 'явка дообследование',
 'явка',
 'явиться цель',
 'явиться',
 'яблоко',
 'эякуляция',
 'эффект',
 'эрекция',
 'эпизодический головной',
 'эпизодический боль',
 'эпизодический',
 'эпизодически возникать',
 'эпизодически',
 'эпизод немотивированный',
 'эпизод',
 'эпигастрия эпигастральный',
 'эпигастрия право',
 'эпигастрия периодически',
 'эпигастрия натощак',
 'эпигастрия левый',
 'эпигастрия изжога',
 'эпигастрия запор',
 'эпигастрия еда',
 'эпигастрия горечь',
 'эпигастрия вздутие',
 'эпигастрия',
 'эпигастральный область',
 'эпигастральный',
 'эндоскопический динамик',
 'эндоскопический',
 'эндометрий',
 'эмоциональный стресс',
 'эмоциональный перегрузка',
 'эмоциональный нестабильность',
 'эмоциональный

In [10]:
tfidf_complaints.transform([train['Жалобы (unigramm)'][0]])

<1x4897 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>

In [11]:
vect_doctors = CountVectorizer()
vect_doctors.fit(doctors)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

In [12]:
vect_doctors.transform([doctors[0]]).todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         0, 0, 0, 0, 0]])

In [13]:
tfidf_complaints.transform(complaints)

<61976x4897 sparse matrix of type '<class 'numpy.float64'>'
	with 614938 stored elements in Compressed Sparse Row format>

In [14]:
gender = train['Пол'].copy()
gender[train['Пол'] == 1] = 0
gender[train['Пол'] == 2] = 1

In [15]:
repeats = train['Повторный приём']

In [16]:
age = train['Возраст']

In [20]:
pop_diagnoses = set(utils.get_most_popular_diagnoses(train, percent=.95))
most_pop_diagnose = scipy.stats.mode(train['Код_диагноза'])[0][0]



In [20]:
train['Код_диагноза'] = train['Код_диагноза'].apply(
    lambda diag: diag if diag in pop_diagnoses else most_pop_diagnose
)

In [48]:
def preproces_fit(data):
    # Complaints
    complaints = data['Жалобы (unigramm)']
    tfidf_complaints = TfidfVectorizer(ngram_range=(1,2), min_df=10, stop_words=stopwords.words('russian'))
    tfidf_complaints.fit(complaints)
    
    # Doctors
    doctors = train['Врач'].fillna('sss')
    doctors_voc, counts = np.unique(doctors, return_counts=True)
    pop_doctor = doctors_voc[np.argsort(counts)[::-1][0]]
    doctors[doctors == 'sss'] = pop_doctor
    
    vect_doctors = CountVectorizer()
    vect_doctors.fit(doctors)
    
    # Classes
    pop_diagnoses = set(utils.get_most_popular_diagnoses(data, percent=.8))
    most_pop_diagnose = scipy.stats.mode(data['Код_диагноза'])[0][0]
    y = data['Код_диагноза'].apply(
        lambda diag: diag if diag in pop_diagnoses else most_pop_diagnose
    )
    
    return tfidf_complaints, vect_doctors, pop_doctor, y

def preprocess_transform(tfidf_complaints, vect_doctors, pop_doctor, data):
    # Complaints
    complaints = data['Жалобы (unigramm)']
    
    # Doctors
    doctors = data['Врач'].fillna(pop_doctor)
    
    # Gender
    gender = data['Пол'].copy()
    gender[data['Пол'] == 1] = 0
    gender[data['Пол'] == 2] = 1
    
    # Repeats
    repeats = data['Повторный приём']
    
    # Age
    age = data['Возраст']
    
    print(doctors.shape, gender.shape, repeats.shape, age.shape)
    
    return np.hstack([
        tfidf_complaints.transform(complaints).todense(),
        vect_doctors.transform(doctors).todense(),
        np.expand_dims(gender, axis=1),
        np.expand_dims(repeats, axis=1),
        np.expand_dims(age, axis=1)
    ])

In [None]:
def DoctorsPopularityTransformator(BaseEstimator, TransformerMixin):
    def fit(self, x, y=None):
        doctors = x.fillna('sss')
        doctors_voc, counts = np.unique(doctors, return_counts=True)
        self.pop_doctor = doctors_voc[np.argsort(counts)[::-1][0]]
        
        return x

    def transform(self, x):
        x = x.fillna('sss')
        x[x == 'sss'] = self.pop_doctor
        
        return x
    
def GenderTransformator(BaseEstimator, TransformerMixin):

In [None]:
pipe = Pipeline([
    ('union', FeatureUniontureUnion(
        transformer_list = [
            ('pipe', Pipeline([
                ('selector', ItemSelector(key='Жалобы (unigramm)')),
                ('tfidf', TfidfVectorizer(ngram_range=(1,2), min_df=10, stop_words=stopwords.words('russian')))
            ])),
            ('pipe', Pipeline([
                ('selector', ItemSelector(key='Врач')),
                ('doc_pop', DoctorsPopularityTransformator()),
                ('count_vect', CountVectorizer())
            ]))
        ]
    ))
])

In [44]:
tfidf_complaints, vect_doctors, pop_doctor, y = preproces_fit(train)



In [28]:
data = preprocess_transform(tfidf_complaints, vect_doctors, pop_doctor, train)

In [29]:
data.shape

(61976, 4927)

In [30]:
data_sparse = csr_matrix(data)

In [31]:
%xdel data

In [33]:
clf = SVC()
clf.fit(data_sparse, y)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [34]:
test = pd.read_csv('data/test_data_complaints_repeats_doctors.csv')

In [49]:
test_data = preprocess_transform(tfidf_complaints, vect_doctors, pop_doctor, test)

(30000,) (30000,) (30000,) (30000,)


In [50]:
test_sparse = csr_matrix(test_data)

In [51]:
%xdel test_data

In [None]:
pred = clf.predict(test_sparse)