#### Условие задачи

Создать ML-модель, которая сможет прогнозировать количество пациентов по каждому виду заболевания согласно классификации МКБ-10, с учетом информации о месте проживания, половозрастных характеристиках людей, а также времени года.

Датасет предоставлен Медицинским информационно-аналитическим центром Калининградской области

#### Расшифровка признаков:  
PATIENT_SEX – пол группы пациентов  
MKB_CODE – первичный диагноз группы пациентов, код МКБ-10  
ADRES – населенный пункт группы пациентов  
VISIT_MONTH_YEAR – месяц и год постановки диагноза  
AGE_CATEGORY – возрастная категория группы пациентов (Классификация ВОЗ)  
PATIENT_ID_COUNT – кол-во пациентов в группе, которая характеризуется вышеперечисленными признаками 

#### Метрика
Коэффициент детерминации (R2)

In [128]:
import pandas as pd
from catboost import CatBoostRegressor, Pool, CatBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

In [129]:
train_base = pd.read_csv('train_dataset_train.csv', sep=';', index_col=None, 
                    dtype={'PATIENT_SEX':str, 'MKB_CODE':str, 'ADRES':str,
                           'VISIT_MONTH_YEAR':str, 'AGE_CATEGORY':str, 'PATIENT_ID_COUNT':int})
test_base = pd.read_csv('test_dataset_test.csv', sep=';', index_col=None, 
                   dtype={'PATIENT_SEX':str, 'MKB_CODE':str, 'ADRES':str, 'VISIT_MONTH_YEAR':str, 'AGE_CATEGORY':str})

In [130]:
#train_base.head()

In [131]:
#test.head()

In [132]:
#train_base.info()

In [133]:
test_base.head()
test_base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39373 entries, 0 to 39372
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   PATIENT_SEX       39373 non-null  object
 1   MKB_CODE          39373 non-null  object
 2   ADRES             39373 non-null  object
 3   VISIT_MONTH_YEAR  39373 non-null  object
 4   AGE_CATEGORY      39373 non-null  object
dtypes: object(5)
memory usage: 1.5+ MB


In [134]:
#выбрасываем все строки где меньше 30 посещений (id)
train= train_base
test= test_base
#train = train_base[train_base['PATIENT_ID_COUNT']>30]
#train.info()

In [135]:
#выбрасываем все строки где количество событий меньше 3 (id.count)
#train['COUNT'] = train.groupby(['PATIENT_ID_COUNT'])['PATIENT_ID_COUNT'].transform('count')
#train = train.loc[train['COUNT'] > 2]
#train = train.reset_index(drop=True)
#train = train.drop(columns=['COUNT'])

In [136]:
#train.info()

In [137]:
#только апрель
#train = train_base.query("VISIT_MONTH_YEAR in ['04.18', '04.19', '04.20', '04.21', '04.22']")

In [138]:
#train

In [139]:
#в train тренировочнвя и вылидационная, промежуточный тест март 22
#test_test = train [train['VISIT_MONTH_YEAR']==3].reset_index(drop=True)
#display (test_test)
#train = train.loc[train['VISIT_MONTH_YEAR'] != '03.22'].reset_index(drop=True)
#train

In [140]:
#количество строк с заболеванием
columns=['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH_YEAR', 'AGE_CATEGORY', 'PATIENT_ID_COUNT']
for i in columns:
    pd.set_option('display.max_rows', None)
    abc = train[i].value_counts()
    abc = pd.DataFrame(abc)
    abc['index'] = abc.index
    abc=abc.reset_index(drop=True)
    display(abc)

Unnamed: 0,PATIENT_SEX,index
0,1316709,0
1,895684,1


Unnamed: 0,MKB_CODE,index
0,19100,J06.9
1,17282,I11.9
2,15419,Z00.0
3,13458,Z02.7
4,13132,K02.1
5,11959,K04.5
6,11718,Z01.2
7,11446,M42.1
8,9565,K04.0
9,8967,Z01.4


Unnamed: 0,ADRES,index
0,617129,Калининград
1,116111,Гурьевск
2,85748,Светлый
3,84932,Пионерский
4,78466,Советск
5,77494,Зеленоградск
6,75724,Гусев
7,75151,Балтийск
8,63899,Черняховск
9,63529,Гвардейск


Unnamed: 0,VISIT_MONTH_YEAR,index
0,63145,10.19
1,61646,4.19
2,60759,12.19
3,60258,10.18
4,58999,11.18
5,58933,3.19
6,58811,7.19
7,58485,11.19
8,57688,9.19
9,57278,2.19


Unnamed: 0,AGE_CATEGORY,index
0,552363,young
1,514680,elderly
2,438426,middleage
3,430511,children
4,214493,old
5,61920,centenarians


Unnamed: 0,PATIENT_ID_COUNT,index
0,1366778,1
1,318988,2
2,136250,3
3,77480,4
4,50492,5
5,36202,6
6,26606,7
7,21021,8
8,16873,9
9,13867,10


In [141]:
#разделяем дату
def data_visit (data):
    visit = pd.DataFrame(data['VISIT_MONTH_YEAR'].astype(str))
    visit = visit['VISIT_MONTH_YEAR'].str.split('.',expand=True)
    visit.columns = ['VISIT_MONTH','VISIT_YEAR']
#    visit.loc[visit['VISIT_YEAR'] == '2', 'VISIT_YEAR'] = '20' #исправляем значение года 2 на 20
    visit = pd.concat([data, visit],axis=1)
    visit = visit.drop(columns=['VISIT_MONTH_YEAR'])
    visit = visit.drop(columns=['VISIT_YEAR'])
    return visit

train = data_visit (train)
test = data_visit (test)
#test_test = data_visit (test_test)

In [142]:
#гипотеза среднее по месяцам
poi = test_base.merge((
    train
    .groupby(['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'AGE_CATEGORY'], as_index=False)
    ['PATIENT_ID_COUNT'].mean()),
    on=['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'AGE_CATEGORY'], 
    how='left').fillna(1).astype({'PATIENT_ID_COUNT': int}) #.to_csv('baseline_3m.csv', index=None)

In [143]:
poi['PATIENT_SEX'].astype(str)
poi['PATIENT_SEX'].astype(str)
poi.to_csv('solution_sample_1.csv', sep=';', index=None)
poi.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 39373 entries, 0 to 39372
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   PATIENT_SEX       39373 non-null  object
 1   MKB_CODE          39373 non-null  object
 2   ADRES             39373 non-null  object
 3   VISIT_MONTH_YEAR  39373 non-null  object
 4   AGE_CATEGORY      39373 non-null  object
 5   PATIENT_ID_COUNT  39373 non-null  int32 
dtypes: int32(1), object(5)
memory usage: 2.0+ MB


In [144]:
qwe = pd.read_csv('solution_sample_1.csv')
#display (qwe.head(10))
#train_base.head(10)
qwe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39373 entries, 0 to 39372
Data columns (total 1 columns):
 #   Column                                                                     Non-Null Count  Dtype 
---  ------                                                                     --------------  ----- 
 0   PATIENT_SEX;MKB_CODE;ADRES;VISIT_MONTH_YEAR;AGE_CATEGORY;PATIENT_ID_COUNT  39373 non-null  object
dtypes: object(1)
memory usage: 307.7+ KB


In [145]:
display (qwe.head(10))
train_base.head(10)

Unnamed: 0,PATIENT_SEX;MKB_CODE;ADRES;VISIT_MONTH_YEAR;AGE_CATEGORY;PATIENT_ID_COUNT
0,0;A00;Калининград;04.22;children;1
1,0;A00;Калининград;04.22;elderly;1
2,0;A00;Калининград;04.22;middleage;1
3,0;A00;Калининград;04.22;young;2
4,0;A01;Калининград;04.22;middleage;1
5,0;A02.0;Гурьевск;04.22;children;1
6,0;A02.0;Калининград;04.22;children;3
7,0;A02.0;Черняховск;04.22;children;1
8,0;A03.9;Калининград;04.22;children;1
9,0;A04.0;Черняховск;04.22;children;1


Unnamed: 0,PATIENT_SEX,MKB_CODE,ADRES,VISIT_MONTH_YEAR,AGE_CATEGORY,PATIENT_ID_COUNT
0,0,A00.0,Гурьевск,8.21,young,1
1,0,A00.0,Калининград,3.2,children,1
2,0,A00,Гусев,3.19,children,1
3,0,A00,Калининград,1.22,children,1
4,0,A00,Калининград,2.18,children,1
5,0,A00,Калининград,3.22,children,4
6,0,A00,Калининград,3.22,elderly,1
7,0,A00,Калининград,3.22,middleage,1
8,0,A00,Калининград,3.22,young,3
9,0,A00,Калининград,7.18,young,1


In [30]:
#гипотеза среднее по месяцам
#test
#    .merge(
#        (
#        train[train['VISIT_MONTH_YEAR'].isin(['01.22', '02.22', '03.22'])]
#        .groupby(['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'AGE_CATEGORY'], as_index=False)
#        ['PATIENT_ID_COUNT']
#        .mean()
#    )
#        on=['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'AGE_CATEGORY'],
#        how='left'
#    )
#    .fillna(1)
#    .astype({'PATIENT_ID_COUNT': int})
#    .to_csv('baseline_3m.csv', sep=';', index=None)

#month=train['VISIT_MONTH'].unique()
###train['COUNT'] = train[train['VISIT_MONTH'].isin(month)].groupby(['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_YEAR', 'AGE_CATEGORY', 'PATIENT_ID_COUNT'])['PATIENT_ID_COUNT'].transform('mean')
train['COUNT'] = train.groupby(['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'AGE_CATEGORY', 'VISIT_MONTH'])['PATIENT_ID_COUNT'].transform('mean')
##train = train.loc[train['COUNT'] > 100]
train = train.reset_index(drop=True)
##train = train.drop(columns=['COUNT'])

#test['COUNT'] = train.groupby(['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'AGE_CATEGORY', 'VISIT_MONTH'])['PATIENT_ID_COUNT'].transform('mean')
#train = train.reset_index(drop=True)

Unnamed: 0,PATIENT_SEX,MKB_CODE,ADRES,AGE_CATEGORY,PATIENT_ID_COUNT,VISIT_MONTH,COUNT
0,0,A00.0,Гурьевск,young,1,8,1.0
1,0,A00.0,Калининград,children,1,3,1.0
2,0,A00,Гусев,children,1,3,1.0
3,0,A00,Калининград,children,1,1,1.0
4,0,A00,Калининград,children,1,2,1.0
5,0,A00,Калининград,children,4,3,4.0
6,0,A00,Калининград,elderly,1,3,1.0
7,0,A00,Калининград,middleage,1,3,1.0
8,0,A00,Калининград,young,3,3,3.0
9,0,A00,Калининград,young,1,7,1.0


In [31]:
train['PATIENT_ID_COUNT'].unique()

array([   1,    4,    3, ..., 3796, 3800, 6733])

In [32]:
train['COUNT'].unique()

array([  1.        ,   4.        ,   3.        , ...,  85.66666667,
       101.66666667, 125.66666667])

In [33]:
#гипотеза, выкидываем заболевания меньше 100 строк
#train['COUNT'] = train.groupby(['MKB_CODE'])['MKB_CODE'].transform('count')
#train = train.loc[train['COUNT'] > 100]
#train = train.reset_index(drop=True)
#train = train.drop(columns=['COUNT'])

In [None]:
#гипотеза со средними 
test.merge(test,)

In [34]:
#Отделение меток от данных

X = train[['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH', 'AGE_CATEGORY', 'COUNT']]
y = train[['PATIENT_ID_COUNT']]

KeyError: "['VISIT_MONTH_YEAR'] not in index"

In [None]:
#Разделение на train/test для локального тестирования

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

In [None]:
#Создание объекта данных Pool, плюсы: возможность указать какие признаки являются категориальными

pool_train = Pool(X_train, y_train, cat_features = ['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH_YEAR', 'AGE_CATEGORY'])
pool_test = Pool(X_test, cat_features = ['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH_YEAR', 'AGE_CATEGORY'])

In [None]:
#важность признаков

cat_fi = CatBoostClassifier(task_type='GPU')
cat_fi.fit(pool_test, eval_set=(X_test, y_test), silent=True)

cat_features_importances = cat_fi.get_feature_importance()
cat_importances = pd.Series(cat_features_importances, index=X.columns)

fig, ax = plt.subplots(figsize=(16,8))
cat_importances.plot.bar(ax=ax)
ax.set_title("Feature importances cat")
ax.set_ylabel("Importance")
fig.tight_layout()

In [None]:
#Объявление CatBoostRegressor и обучение

model = CatBoostRegressor(task_type='GPU', random_state = 12345,
#                         learning_rate=0.1,
#                         iterations=1000,
#                         eval_metric='RMSE',
#                         metric_period=50,
#                         early_stopping_rounds=200
                         ) #, early_stopping_rounds=100, eval_metric='R2', ) 
model.fit(pool_train)

In [None]:
#Получение ответов модели на тестовой выборке в локальном тестировании 

y_pred = model.predict(pool_test)

In [None]:
#На локальном тестировании модель выдаёт такой результат

print("Значение метрики R2 на test: ", r2_score(y_test, y_pred))

In [None]:
#model_multiclass = CatBoostClassifier(iterations=1000,
#                       depth=4,
#                       learning_rate=0.05,
#                       loss_function='MultiClass',
#                       verbose=True,
#                       early_stopping_rounds = 200,
#                       bagging_temperature = 1,
#                       metric_period = 100,
#                       random_state = 12345)
#model_multiclass.fit(pool_train)
#model_multiclass.classes_

In [None]:
#проверка промежуточного теста
#X_test_test = test_test[['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH_YEAR', 'AGE_CATEGORY']]
#y_test_test = test_test[['PATIENT_ID_COUNT']]

#pool_test_test = Pool(X_test_test, cat_features = ['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH_YEAR', 'AGE_CATEGORY'])
#test_test_pred = model.predict(pool_test_test)

#print("Значение метрики R2 на test: ", r2_score(y_test_test, test_test_pred))

### Solution

In [None]:
#Формируем sample_solution. В обучении используется весь train, ответы получаем на test
#X = train_base[['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH_YEAR', 'AGE_CATEGORY']]
#y = train_base[['PATIENT_ID_COUNT']]

pool_train_solution = Pool(X, y, cat_features = ['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH_YEAR', 'AGE_CATEGORY'])
pool_test_solution = Pool(test, cat_features = ['PATIENT_SEX', 'MKB_CODE', 'ADRES', 'VISIT_MONTH_YEAR', 'AGE_CATEGORY'])

model_solution = CatBoostRegressor(task_type='GPU', random_state = 12345) #, early_stopping_rounds=20, eval_metric='r2')
model_solution.fit(pool_train_solution)

In [None]:
#Получение ответов

y_pred_solution = model.predict(pool_test_solution)

In [None]:
#Вот так они выглядят

y_pred_solution.astype(int)

In [None]:
print (y_pred_solution.min(), y_pred_solution.max(), y_pred_solution.mean())

In [None]:
for i in range(len(y_pred_solution)):
    if y_pred_solution[i] < 1:
        y_pred_solution[i] = 1
y_pred_solution.astype(int)

In [None]:
#Формируем sample_solution для отправки на платформу
test_solution = test_base.copy()
test_solution['PATIENT_ID_COUNT'] = y_pred_solution.astype(int)

In [None]:
#Сохраняем в csv файл
 
test_solution.to_csv('sample_solution_sample4.csv', sep=';', index=None)

In [None]:
train = pd.read_csv('train_dataset_train.csv', sep=';')
itog = pd.read_csv('sample_solution_sample4.csv', sep=';')
itog_old = pd.read_csv('sample_solution_sample2.csv', sep=';')
display (itog.head(10))
display (train.head(10))
display (itog_old.head(10))

In [None]:
print (y_pred_solution.min(), y_pred_solution.max(), y_pred_solution.mean())