### В этом jupiter-notebook мы будем обучать нашу модель на очищенном датасете filtered_data.csv

In [None]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('filtered_data.csv')

In [3]:
df.head(3)

Unnamed: 0,болезни,тревога и нервозность,депрессия,одышка,депрессивные или психотические симптомы,острая боль в груди,головокружение,бессонница,аномальные непроизвольные движения,стеснение в груди,...,припухлость суставов,покраснение в области носа или вокруг него,морщины на коже,слабость в стопах или пальцах ног,судороги или спазмы в кистях или пальцах рук,скованность в спине,шишка или образование на запястье,низкое выделение мочи,боль в носу,слабость в лодыжках
0,паническое расстройство,1,0,1,1,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
1,паническое расстройство,0,0,1,1,0,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
2,паническое расстройство,1,1,1,1,0,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244938 entries, 0 to 244937
Columns: 319 entries, болезни to слабость в лодыжках
dtypes: int64(318), object(1)
memory usage: 596.1+ MB


In [5]:
df.shape

(244938, 319)

In [6]:
df['болезни'].nunique() # количество классов

582

In [7]:
len(df.columns) - 1 # количество признаков

318

Разделим данные на **целевую переменную** и **признаки**

In [8]:
y = df['болезни']
X = df.drop(columns='болезни')

Проверим корректность разбиения

In [9]:
y.head()

0    паническое расстройство
1    паническое расстройство
2    паническое расстройство
3    паническое расстройство
4    паническое расстройство
Name: болезни, dtype: object

In [10]:
X.head()

Unnamed: 0,тревога и нервозность,депрессия,одышка,депрессивные или психотические симптомы,острая боль в груди,головокружение,бессонница,аномальные непроизвольные движения,стеснение в груди,учащенное сердцебиение,...,припухлость суставов,покраснение в области носа или вокруг него,морщины на коже,слабость в стопах или пальцах ног,судороги или спазмы в кистях или пальцах рук,скованность в спине,шишка или образование на запястье,низкое выделение мочи,боль в носу,слабость в лодыжках
0,1,0,1,1,0,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,0,0,1,1,0,1,1,0,0,1,...,0,0,0,0,0,0,0,0,0,0
2,1,1,1,1,0,1,1,0,0,1,...,0,0,0,0,0,0,0,0,0,0
3,1,0,0,1,0,1,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
4,1,1,0,0,0,0,1,1,1,0,...,0,0,0,0,0,0,0,0,0,0


Разделим данные на **тестовые** и **обучающие**

In [11]:
from sklearn.model_selection import train_test_split

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

Проверим размерности

In [13]:
X_train.shape

(195950, 318)

In [14]:
X_test.shape

(48988, 318)

In [15]:
y_train.shape

(195950,)

In [16]:
y_test.shape

(48988,)

In [17]:
train_distribution = y_train.value_counts(normalize=True)
train_distribution

болезни
цистит                                     0.004976
носа                                       0.004971
комплексный регионарный болевой синдром    0.004971
вульводиния                                0.004971
сустава спондилез                          0.004966
                                             ...   
вирусная экзантема                         0.000122
сифилис расстройство                       0.000122
поражение слизистых                        0.000122
трихиаз                                    0.000122
канала нарушение функции гипофиза          0.000122
Name: proportion, Length: 582, dtype: float64

In [18]:
test_distribution = y_test.value_counts(normalize=True)
test_distribution

болезни
носа                               0.004981
цистит                             0.004981
вульводиния                        0.004981
желудочно-кишечные кровотечения    0.004960
сустава спондилез                  0.004960
                                     ...   
гирсутизм                          0.000122
плоскостопие                       0.000122
вирусная экзантема                 0.000122
эмфизема                           0.000122
холестеатома                       0.000122
Name: proportion, Length: 582, dtype: float64

Используем **Случайные леса**. Этот метод как раз часто используется в медицинских задачах.

In [21]:
from sklearn.ensemble import RandomForestClassifier

Для начала попробуем следующие значения гиперпараметров модели:

In [None]:
modelRFC = RandomForestClassifier(
    n_estimators=120,
    max_depth=20,
    min_samples_split=5,
    min_samples_leaf=2,
    max_features='sqrt',
    class_weight='balanced',
    random_state=42,
    n_jobs=3,
    verbose=1
)

In [23]:
modelRFC.fit(X_train, y_train)

[Parallel(n_jobs=3)]: Using backend ThreadingBackend with 3 concurrent workers.
[Parallel(n_jobs=3)]: Done  44 tasks      | elapsed:    6.0s
[Parallel(n_jobs=3)]: Done 120 out of 120 | elapsed:   15.8s finished


0,1,2
,n_estimators,120
,criterion,'gini'
,max_depth,20
,min_samples_split,5
,min_samples_leaf,2
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [None]:
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

In [26]:
predsRFC = modelRFC.predict(X_test)

[Parallel(n_jobs=3)]: Using backend ThreadingBackend with 3 concurrent workers.
[Parallel(n_jobs=3)]: Done  44 tasks      | elapsed:    3.6s
[Parallel(n_jobs=3)]: Done 120 out of 120 | elapsed:    9.1s finished


Для детальной оценки работы модели использовался отчёт о классификации:

In [33]:
print(classification_report(y_test, predsRFC))

  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


                                                                           precision    recall  f1-score   support

                                                      абдоминальная грыжа       0.96      0.96      0.96        81
                                                           абсцесс глотки       0.96      0.72      0.82        68
                                                             абсцесс зуба       0.93      0.59      0.72       242
                                                             абсцесс носа       0.93      0.74      0.83        58
                                                адгезивный капсулит плеча       0.58      0.93      0.72        15
                                                    аденома надпочечников       0.86      0.86      0.86         7
                                                                  акариаз       1.00      0.86      0.92         7
                                                                     акне      

  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


Для оценки качества классификации используем метрику accuracy (точность). Эта метрика показывает долю правильно классифицированных объектов среди всех объектов тестовой выборки:

In [34]:
accuracy_score(y_test, predsRFC)

0.5905119621131706

Для визуализации и анализа результатов классификации построим матрицу ошибок. Она позволяет оценить, сколько объектов было правильно и неправильно классифицировано моделью для каждого класса

In [35]:
confusion_matrix(y_test, predsRFC)

array([[ 78,   0,   0, ...,   0,   0,   0],
       [  0,  49,   0, ...,   0,   0,   0],
       [  0,   0, 142, ...,   0,   0,   0],
       ...,
       [  0,   0,   0, ...,   6,   0,   0],
       [  0,   0,   0, ...,   0,  64,   0],
       [  0,   0,   0, ...,   0,   0,  16]], shape=(582, 582))

Конечно, мы можем воспользоваться RandomizedSearchCV. Однако из-за нехватки мощностей моего ПК (для обработки такого огормного датасета) мы обойдемся "ручным" перебором значений гиперпараметров. (Спойлер: и даже получим неплохой результат :D)

In [None]:
# from sklearn.model_selection import RandomizedSearchCV

In [70]:
modelRFC2 = RandomForestClassifier(
    n_estimators=210,
    max_depth=30,
    min_samples_split=6,
    min_samples_leaf=2,
    max_features='sqrt',
    class_weight='balanced',
    random_state=42,
    n_jobs=3,
    verbose=1
)

In [66]:
modelRFC2.fit(X_train, y_train)

[Parallel(n_jobs=3)]: Using backend ThreadingBackend with 3 concurrent workers.
[Parallel(n_jobs=3)]: Done  44 tasks      | elapsed:    8.6s
[Parallel(n_jobs=3)]: Done 194 tasks      | elapsed:   34.3s
[Parallel(n_jobs=3)]: Done 200 out of 200 | elapsed:   35.7s finished


0,1,2
,n_estimators,200
,criterion,'gini'
,max_depth,30
,min_samples_split,5
,min_samples_leaf,2
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [67]:
predsRFC2 = modelRFC2.predict(X_test)

[Parallel(n_jobs=3)]: Using backend ThreadingBackend with 3 concurrent workers.
[Parallel(n_jobs=3)]: Done  44 tasks      | elapsed:    3.7s
[Parallel(n_jobs=3)]: Done 194 tasks      | elapsed:   16.0s
[Parallel(n_jobs=3)]: Done 200 out of 200 | elapsed:   16.4s finished


Уже значительно лучше!

In [69]:
accuracy_score(y_test, predsRFC2)

0.7414060586266025

Попробуем еще увеличить n_estimators

In [27]:
modelRFC3 = RandomForestClassifier(
    n_estimators=250,
    max_depth=30,
    min_samples_split=6,
    min_samples_leaf=2,
    max_features='sqrt',
    class_weight='balanced',
    random_state=42,
    n_jobs=3,
    verbose=1
)

In [28]:
modelRFC3.fit(X_train, y_train)

[Parallel(n_jobs=3)]: Using backend ThreadingBackend with 3 concurrent workers.
[Parallel(n_jobs=3)]: Done  44 tasks      | elapsed:    8.5s
[Parallel(n_jobs=3)]: Done 194 tasks      | elapsed:   33.3s
[Parallel(n_jobs=3)]: Done 250 out of 250 | elapsed:   41.7s finished


0,1,2
,n_estimators,250
,criterion,'gini'
,max_depth,30
,min_samples_split,6
,min_samples_leaf,2
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [29]:
predsRFC3 = modelRFC3.predict(X_test)

[Parallel(n_jobs=3)]: Using backend ThreadingBackend with 3 concurrent workers.
[Parallel(n_jobs=3)]: Done  44 tasks      | elapsed:    5.0s
[Parallel(n_jobs=3)]: Done 194 tasks      | elapsed:   16.4s
[Parallel(n_jobs=3)]: Done 250 out of 250 | elapsed:   20.3s finished


Видим, что в целом accuracy возросла, но уже гораздо меньше чем во второй раз. Но в целом данный результат довольно неплох.

In [30]:
accuracy_score(y_test, predsRFC3)

0.7609414550502164

Для анализа уверенности модели в своих предсказаниях используем метод predict_proba класса RandomForestClassifier. Этот метод возвращает матрицу вероятностей принадлежности каждого объекта тестовой выборки ко всем возможным классам:

In [78]:
probsRFC3 = modelRFC3.predict_proba(X_test)

[Parallel(n_jobs=3)]: Using backend ThreadingBackend with 3 concurrent workers.
[Parallel(n_jobs=3)]: Done  44 tasks      | elapsed:    4.3s
[Parallel(n_jobs=3)]: Done 194 tasks      | elapsed:   18.0s
[Parallel(n_jobs=3)]: Done 250 out of 250 | elapsed:   22.3s finished


Для демонстрации работы модели на конкретном примере рассмотрим первый объект из тестовой выборки:

In [85]:
probsRFC3[0].max()

np.float64(0.5668289853112007)

In [89]:
np.argmax(probsRFC3[0])

np.int64(0)

In [90]:
predsRFC3[0]

'абдоминальная грыжа'

In [93]:
y_test.iloc[0]

'абдоминальная грыжа'

Сохраним в текстовый файл матрицу ошибок для более детального исследования.

In [None]:
np.savetxt("confusion_matrix.txt", confusion_matrix(y_test, predsRFC3), fmt="%d", delimiter="\t")

In [32]:
print(classification_report(y_test, predsRFC3))

                                                                           precision    recall  f1-score   support

                                                      абдоминальная грыжа       0.96      0.98      0.97        81
                                                           абсцесс глотки       0.97      0.84      0.90        68
                                                             абсцесс зуба       0.93      0.69      0.79       242
                                                             абсцесс носа       0.93      0.86      0.89        58
                                                адгезивный капсулит плеча       0.82      0.93      0.88        15
                                                    аденома надпочечников       0.86      0.86      0.86         7
                                                                  акариаз       1.00      0.86      0.92         7
                                                                     акне      

Сохраним финальную модель:

In [None]:
import joblib
import pandas as pd

# Сохраняем финальную модель
joblib.dump(modelRFC3, 'final_model.pkl')

# Сохраняем списки симптомов и болезней
symptoms_list = X_train.columns.tolist()
diseases_list = modelRFC3.classes_.tolist()

joblib.dump(symptoms_list, 'symptoms_list.pkl')
joblib.dump(diseases_list, 'diseases_list.pkl')

Но на всякий случай проверим, что модель вообще выдает адекватные вероятности:

In [None]:
# Возьмем первый пример из тестовой выборки
test_example = X_test.iloc[0:1]
true_disease = y_test.iloc[0]

probabilities = modelRFC3.predict_proba(test_example)[0]
top5_indices = np.argsort(probabilities)[-5:][::-1]

print(f"Реальная болезнь: {true_disease}")
print("Топ-5 предсказаний:")
for idx in top5_indices:
    print(f"  {modelRFC3.classes_[idx]}: {probabilities[idx]:.3f} ({probabilities[idx]*100:.1f}%)")

=== ПРОВЕРКА МОДЕЛИ НА ТЕСТОВЫХ ДАННЫХ ===
Реальная болезнь: абдоминальная грыжа
Топ-5 предсказаний:
  абдоминальная грыжа: 0.567 (56.7%)
  паховая грыжа: 0.100 (10.0%)
  гидроцеле яичка: 0.067 (6.7%)
  перекрут яичников: 0.013 (1.3%)
  рак печени: 0.010 (1.0%)


[Parallel(n_jobs=3)]: Using backend ThreadingBackend with 3 concurrent workers.
[Parallel(n_jobs=3)]: Done  44 tasks      | elapsed:    0.0s
[Parallel(n_jobs=3)]: Done 194 tasks      | elapsed:    0.0s
[Parallel(n_jobs=3)]: Done 250 out of 250 | elapsed:    0.0s finished


Итак, мы создали нашу модели. Она имеет неплохие показатели метрик!