In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import recall_score
from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.multioutput import ClassifierChain
%config InlineBackend.figure_format = 'retina'

# Cоздание новых и корректировка имеющихся признаков

In [2]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test_dataset_test.csv')

In [3]:
train.drop(columns=['ID_y'], inplace=True)

Проверим, какие признаки отсутсвуют в тесте

In [4]:
missing_columns = set(train.columns) - set(test.columns)
missing_columns

{'Артериальная гипертензия',
 'ОНМК',
 'Прочие заболевания сердца',
 'Сердечная недостаточность',
 'Стенокардия, ИБС, инфаркт миокарда'}

Это только таргеты. Исследуем их

In [5]:
sum_ill = 0
for col in missing_columns:
    print(col, 'болеют --->', train[col].value_counts()[1])
    sum_ill += train[col].value_counts()[1]
print('Всего, имеющих диагноз:', sum_ill)

Сердечная недостаточность болеют ---> 96
Стенокардия, ИБС, инфаркт миокарда болеют ---> 117
Прочие заболевания сердца болеют ---> 86
Артериальная гипертензия болеют ---> 446
ОНМК болеют ---> 41
Всего, имеющих диагноз: 786


Как мы видим, только 786 наблюдений имеют какой-либо диагноз. Это значит, что как минимум, около 170 человек в обучающей выборке - здоровые.

Проверим, повторяются ли диагнозы у пациентов - сложим целевые значения

In [6]:
train['summ'] = train['Артериальная гипертензия'] + train['ОНМК'] + train['Сердечная недостаточность'] \
+ train['Стенокардия, ИБС, инфаркт миокарда'] + train['Прочие заболевания сердца']
train['summ'].value_counts()

0    445
1    320
2    117
3     60
4     13
Name: summ, dtype: int64

Как мы видим, около половины выборки - не имеют никакого диагноза, около трети - больны чем-то одним, 117 - имеют два диагноза, 60 - обладатели трех записей и 13 человек собрали 4 варианта диагнозов.

Таким образом, изначальная задача многоклассовой классификации трансформируется в задачу бинарной классификации нескольких зависимых переменных.

Далее будем создавать новые и трансформровать имеющиеся признаки

In [7]:
train['Национальность'] = train['Национальность'].apply(lambda x: x if x == 'Русские' else 'Прочие')
test['Национальность'] = test['Национальность'].apply(lambda x: x if x == 'Русские' else 'Прочие')

In [8]:
train['Семья'] = train['Семья'].apply(lambda x: 'в разводе' if x == 'раздельное проживание (официально не разведены)' else x)
test['Семья'] = test['Семья'].apply(lambda x: 'в разводе' if x == 'раздельное проживание (официально не разведены)' else x)

Признак вдовца может косвенно указывать на возраст

In [9]:
train['widow'] = train['Семья'].apply(lambda x: 'вдовец' if x == 'вдовец / вдова' else 'не вдовец')
test['widow'] = test['Семья'].apply(lambda x: 'вдовец' if x == 'вдовец / вдова' else 'не вдовец')

In [10]:
train['religion'] = train['Религия'].apply(lambda x: 1 if x == 'Христианство' else 0)
test['religion'] = test['Религия'].apply(lambda x: 1 if x == 'Христианство' else 0)

In [11]:
train['Образование'] = train['Образование'].apply(lambda x: '3 - средняя школа / закон.среднее / выше среднего'
                                                 if x == '2 - начальная школа' else x)
test['Образование'] = test['Образование'].apply(lambda x: '3 - средняя школа / закон.среднее / выше среднего'
                                                 if x == '2 - начальная школа' else x)

На отношение пациента к группам риска может влиять то, как он следует указаниями врачей, поэтому создадим категриальные признаки о том, болен ли чем-то серьезным пациент, и если болен, регулярно ли принимает лекарства

In [12]:
def non_treat_diab(row):
    
    diab = row['Сахарный диабет']
    treat = row['Регулярный прим лекарственных средств']
    
    if diab == 1 and treat == 1:
        return 'болен и лечится'
    elif diab == 1 and treat == 0:
        return 'болен и не лечится'
    elif diab == 0 and treat == 1:
        return 'болен другим и лечится'
    else:
        return 'здоров'

In [13]:
train['non_treat_diab'] = train.apply(non_treat_diab, axis=1)
test['non_treat_diab'] = test.apply(non_treat_diab, axis=1)

Сделаем категориальную переменную о том, соклько сигарет человек выкуривает в день

In [14]:
def cigs(col):
    
    if col == 0:
        return '0'
    elif col < 10:
        return '1/2'
    elif col <21:
        return '1'
    else:
        return '>1'

In [15]:
train['cigs'] = train['Сигарет в день'].apply(cigs)
test['cigs'] = test['Сигарет в день'].apply(cigs)

Узнаем, сколько всего у человека серьезных заболеваний, и принимает ли он лекарства, если серьезно болен

In [16]:
train['Серьезные заболевания'] = train['Сахарный диабет'] + train['Гепатит'] + train['Онкология'] \
                + train['Хроническое заболевание легких'] + train['Бронжиальная астма'] + train['Туберкулез легких ']
test['Серьезные заболевания'] = test['Сахарный диабет'] + test['Гепатит'] + test['Онкология'] \
                + test['Хроническое заболевание легких'] + test['Бронжиальная астма'] + test['Туберкулез легких ']

In [17]:
def non_treat_serious(row):
    
    ser = row['Серьезные заболевания']
    treat = row['Регулярный прим лекарственных средств']
    
    if ser == 1 and treat == 1:
        return 'болен и лечится'
    elif ser == 1 and treat == 0:
        return 'болен и не лечится'
    elif ser == 0 and treat == 1:
        return 'болен другим и лечится'
    else:
        return 'здоров'

In [18]:
train['non_treat_serious'] = train.apply(non_treat_serious, axis=1)
test['non_treat_serious'] = test.apply(non_treat_serious, axis=1)

In [19]:
train['Пол'] = train['Пол'].fillna('Ж')

Заполним пропуски нулями во вредных привычках

In [20]:
train[['Возраст курения', 'Сигарет в день', 'Возраст алког']] = train[['Возраст курения', 'Сигарет в день', 'Возраст алког']].fillna(0)
train['Частота пасс кур'] = train['Частота пасс кур'].fillna('0')

In [21]:
test[['Возраст курения', 'Сигарет в день', 'Возраст алког']] = test[['Возраст курения', 'Сигарет в день', 'Возраст алког']].fillna(0)
test['Частота пасс кур'] = test['Частота пасс кур'].fillna('0')

Далее получим часы засыпания и час пробуждения, а также время сна в часах

In [22]:
train['wake_hour'] = pd.to_datetime(train['Время пробуждения'], format='%H:%M:%S').dt.hour
test['wake_hour'] = pd.to_datetime(test['Время пробуждения'], format='%H:%M:%S').dt.hour

In [23]:
train['asleep_hour'] = pd.to_datetime(train['Время засыпания'], format='%H:%M:%S').dt.hour
train['asleep_hour'] = train['asleep_hour'].replace(0, 24)

test['asleep_hour'] = pd.to_datetime(test['Время засыпания'], format='%H:%M:%S').dt.hour
test['asleep_hour'] = test['asleep_hour'].replace(0, 24)

In [24]:
train['dream'] =  24 + train['wake_hour'] - train['asleep_hour']
train['dream'] = train['dream'].apply(lambda x: x-24 if x >= 24 else x)

test['dream'] =  24 + test['wake_hour'] - test['asleep_hour']
test['dream'] = test['dream'].apply(lambda x: x-24 if x >= 24 else x)

Обработаем редкие значения, которые встречаются только в тесте

In [25]:
test['Статус Курения'] = test['Статус Курения'].apply(lambda x: 'Никогда не курил(а)' if x == 'Никогда не курил' else x)
test['Религия'] = test['Религия'].apply(lambda x: 'Ислам' if x == 'Другое' or x == 'Индуизм' else x)

Рассчитаем, соклько человек выкурил сигарет в жизни

In [26]:
train['cigs_in_life'] = train['Сигарет в день'] * train['Возраст курения'] * 365
test['cigs_in_life'] = test['Сигарет в день'] * test['Возраст курения'] * 365

In [27]:
train['Статус Курения'].value_counts()

Никогда не курил(а)    543
Курит                  221
Бросил(а)              191
Name: Статус Курения, dtype: int64

In [28]:
def s_status(smoke):
    
    if smoke == 'Никогда не курил(а)':
        return 'Никогда'
    elif smoke == 'Бросил(а)':
        return 'Бросил'
    else:
        return 'Курит'

In [29]:
test['Статус Курения'] = test['Статус Курения'].apply(s_status)
train['Статус Курения'] = train['Статус Курения'].apply(s_status)

In [30]:
train['Статус Курения'].value_counts()

Никогда    543
Курит      221
Бросил     191
Name: Статус Курения, dtype: int64

Заполним пропуски в пассивном курении

In [31]:
train.loc[[175, 247], 'Пассивное курение'] = 0
train.loc[392, 'Пассивное курение'] = 1

Создадим единый признак, характеризующий статус человека на пенсии и на работе

In [32]:
def work_or_pension(row):
    
    work = row['Вы работаете?']
    pension = row['Выход на пенсию']
    
    if work == 1 and pension == 1:
        return 'работающий пенсионер'
    elif work == 1 and pension == 0:
        return 'работающий непенсионер'
    elif work == 0 and pension == 1:
        return 'неработающий пенсионер'
    elif work == 0 and pension == 0:
        return 'неработающий непенсионер'

In [33]:
train['work_status'] = train.apply(work_or_pension, axis=1)
test['work_status'] = test.apply(work_or_pension, axis=1)

Создадим признак суммарных лет вредных привычек

In [34]:
train['bad_habits_age'] = train['Возраст курения'] + train['Возраст алког']
test['bad_habits_age'] = test['Возраст курения'] + test['Возраст алког']

Посчитаем, соклько всего вредных привычек (включая пассивное курение)

In [35]:
def bad_habits(row):
    
    smoke = row['Статус Курения']
    alco = row['Алкоголь']
    passive = row['Пассивное курение']
    
    count = 0
    
    if smoke == 'Курит':
        count += 1
    
    if alco == 'употребляю в настоящее время':
        count += 1
        
    if passive == 1:
        count += 1
        
    return min(count, 2)

In [36]:
train['bad_habits'] = train.apply(bad_habits, axis=1)
test['bad_habits'] = test.apply(bad_habits, axis=1)

Создадим признак гиподинамичности - если есть пассивные черты - штрафуем, если занимается спортом - то снимаем штраф

In [37]:
def hypodynamic(row):
    
    work_status = row['work_status']
    clubs = row['Спорт, клубы']
    nap = row['Сон после обеда']
    injuries = row['Травмы за год']
    
    count = 0
    
    if work_status in ['неработающий пенсионер', 'не работающий не пенсионер']:
        count += 1
    if nap == 1:
        count += 1
    if injuries == 1:
        count += 1
    if clubs == 1:
        count -= 1
        
    return min(count, 2)

In [38]:
train['hypodynamic'] = train.apply(hypodynamic, axis=1)
test['hypodynamic'] = test.apply(hypodynamic, axis=1)

Также создадим признак того, смешивает ли человек лекарства с алкоголем

In [39]:
def mixin_meds(row):
    
    alco = row['Алкоголь']
    meds = row['Регулярный прим лекарственных средств']
    
    if alco == 'употребляю в настоящее время' and meds == 1:
        return 1
    else:
        return 0

In [40]:
train['mixin_meds'] = train.apply(mixin_meds, axis=1)
test['mixin_meds'] = test.apply(mixin_meds, axis=1)

# Подготовка обучающей и тестовой выборки

Выделим целевые переменные в отдельную переменную

In [41]:
y_s = ['Артериальная гипертензия', 'Стенокардия, ИБС, инфаркт миокарда',  'Сердечная недостаточность', 'ОНМК', 
        'Прочие заболевания сердца']

Поскольку у нас есть повторяющиеся по смыслу признаки, отбросим ненужное

'ВИЧ/СПИД' - слишком редкий случай

'Время засыпания', 'Время пробуждения' - трансформировали в час

'Этнос' - похож на Национальность

'Вы работаете?', 'Выход на пенсию' - объединено в work_status

'Возраст курения', 'Возраст алког' - объединено в bad_habits_age

'Регулярный прим лекарственных средств' - в non-treat-serious

In [42]:
X_train = train.drop(columns=y_s + ['summ', 'ID', 'ВИЧ/СПИД', 'Время засыпания', 'Время пробуждения', 'Этнос',
                'Вы работаете?', 'Выход на пенсию', 'Регулярный прим лекарственных средств','Возраст курения', 'Возраст алког'])
test = test.drop(columns=['ID'])

In [43]:
chain_chosen = X_train.columns

Выделим количественные и категориальные признаки

In [44]:
numerical = ['Сигарет в день', 'dream', 'bad_habits_age', 'cigs_in_life']
categorical = list(set(X_train.columns) - set(numerical))

Проведем порядковое кодирование для категориальных переменных и отмасштабируем количественные переменные

In [45]:
encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=999)
X_train[categorical] = pd.DataFrame(encoder.fit_transform(X_train[categorical]),
                                       columns=X_train[categorical].columns)

scaler = StandardScaler()
X_train[numerical] = pd.DataFrame(scaler.fit_transform(X_train[numerical]),
                                       columns=X_train[numerical].columns)

# Обучение модели

Поскольку прогнозируемые сердечно-сосудистые заболевания в достаточной степени влияют друг на друга - так артериальная гипертензия способствует, в частности, развитию сердечной недостаточности. Поэтому было принято решение использовать инструмент ChainClassifier - цепочку классификаторлв, который делает предсказания сначала для первой переменной, потом предсказанную первую пременную использует для обучения к предсказанию второй, предсказанную первую и вторую - использует для предсказания третьей и так далее.

В качестве базового классификатора будем использовать случайный лес, размер=200, максимальная глубина - 2, вес классов - "сбалансированный в подвыборке".

Обучать цепочку классификаторов будем на стратифицированной кросс-валидации с пятью разбиениями (внутренний цикл). Кроме того, у нас пять целевых переменных, поэтому проходить по всей выборке мы будем пять раз (внешний цикл): в первой итерации будем стратифицировать по артериальной гипертензии, и обучать пять цепочек на всей обучающей выборке, затем на второй итерации внешнего цикла стратифицируем выборку по стенокардии и обучим еще пять цепочек, и т.д. Всего у нас получится 25 цепочек классификаторов.

Порядок предсказания следующий:

арт.гипертензия -> стенокардия -> серд. недостаточность -> ОНМК -> Прочие

Гипертензия стоит на первом месте, поскольку является причиной многих более серьезных заболеваний. Также цели расположены в порядке убывания заболевших в обучающей выборке. Прочие поставлены на последнее место как наименее характерная цель.

Гиперпараметры случайного леса и набор обучающих признаков отобраны в ходе экспериментов, которые не вошли в итоговый код.

Каждым мы сделаем предсказания вероятностей для каждой болезни на тестовой выборке и усредним их.

In [46]:
%%time

n_splits = 5

# массив для хранения обученных цепочек классификаторов
chains = []

# готовим признаки и целевые переменные
X = X_train.copy()
target = train[y_s]

kFold_random_state = [42]
random_state=42
N = len(kFold_random_state)*n_splits

# создадим словарь для хранения оценок для каждой целевой переменной
scores = {k:[] for k in y_s}

# определим стратегию кросс-валидации
kf = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=random_state)

# порядок предсказания переменных: арт.гипертензия -> стенокардия -> серд. недостаточность -> ОНМК -> Прочие
order = [0, 1, 2, 3, 4]

# итерируем по каждой целевой переменной в 5 переменных
for subtarget in target:
    y = train[subtarget]
    
    # итерируем по частям стратифицированной выборки
    for train_index, test_index in kf.split(X, y):
            Xtrain, Xtest = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = target.iloc[train_index], target.iloc[test_index]
            
            # инициализируем базовую модель
            base_model = RandomForestClassifier(random_state=2, n_estimators=200, class_weight='balanced_subsample', 
                                         max_depth=2, min_samples_leaf=9, bootstrap=False)
            
            # инициализируем цепочку классификаторов
            chain = ClassifierChain(base_model, order=order, random_state=2, cv=5)
            chains.append(chain)
            
            # обучаем цепочку
            chain.fit(Xtrain, y_train)
            
            # предсказываем классы для тестовой части на кросс-валидации
            y_test_pred = pd.DataFrame(chain.predict(Xtest), columns=y_s)
            
            for t in y_s:
                # для каждой целевой переменной рассчитываем recall_macro на тестовой части
                scores[t].append(recall_score(y_test[t], y_test_pred[t], average='macro'))

CPU times: user 1min 45s, sys: 902 ms, total: 1min 46s
Wall time: 1min 47s


Проанализируем полученные оценки точности на кросс-валидации:

In [47]:
sc = pd.DataFrame(scores)
sc['avg'] = sc.sum(axis='columns')/5
sc.describe()

Unnamed: 0,Артериальная гипертензия,"Стенокардия, ИБС, инфаркт миокарда",Сердечная недостаточность,ОНМК,Прочие заболевания сердца,avg
count,25.0,25.0,25.0,25.0,25.0,25.0
mean,0.720658,0.691832,0.678135,0.6357,0.567262,0.658717
std,0.02676,0.038898,0.045296,0.080404,0.049307,0.023908
min,0.659846,0.63261,0.594203,0.467956,0.440838,0.616712
25%,0.705892,0.66155,0.646607,0.576243,0.545441,0.642046
50%,0.723232,0.683133,0.675181,0.637295,0.572143,0.659764
75%,0.735184,0.722409,0.708843,0.685859,0.605303,0.67726
max,0.764596,0.76655,0.787675,0.776882,0.648929,0.711659


Видно, что recall по целевым переменным достаточно высокий у первых трех.

Средний recall по всем классификаторам - 0.658 со стандартным отклонением 0.024

Итоговые гиперпарамтеры леса и набор признаков выбирались исходя из этой оценки.

С учетом того, что обучающих данных мало, принято решение использовать подход усреднение предсказаний различных моделей, чтобы получить устойчивые оценки

# Предсказания для тестовой выборки

In [48]:
X_test = test.copy()
X_test[categorical] = pd.DataFrame(encoder.transform(test[categorical]),
                                   columns=test[categorical].columns)

X_test[numerical] = pd.DataFrame(scaler.transform(test[numerical]),
                                   columns=test[numerical].columns)

test_data = X_test[chain_chosen] 

# массив для записи финального результата
y_pred = np.zeros((len(test_data),))

Прочитаем файл образца сабмита

In [49]:
ss = pd.read_csv('sample_solution.csv')
from datetime import datetime
nownow = datetime.now().strftime('%Y_%m_%d_%H:%M:%S')

Предскажем вероятности каждой цепочкой классификаторов

In [50]:
%%time
for col in ss[y_s].columns:
    for chain in chains:
        all_predict = pd.DataFrame(chain.predict_proba(test_data), columns=y_s)
        ss[col] += all_predict[col]

Усредним предсказания

In [51]:
for col in ss[y_s].columns:
    ss[col] /= 25

Порог оставим на значении 0.5,  предскажем наличие диагноза у тех, у кого вероятность выше 0.5 и отсутсвие в противоположном случае.

In [52]:
ss[y_s] = ss[y_s].applymap(lambda x: 1 if x > 0.5 else 0)

In [53]:
ss.to_csv(nownow + '.csv', index=False)