In [1]:
import pandas as pd
import numpy as np
import dill

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import roc_auc_score, precision_recall_curve

Ссылка на датасет: https://www.kaggle.com/nareshbhat/health-care-data-set-on-heart-attack-possibility

Необходимо предсказать есть ли риск сердечного заболевания у человека.

Описание признаков:
1. age - возраст
2. sex - пол
3. cp - тип боли в груди (4 варианта ответа)
4. trestbps - артериальное давление в состоянии покоя
5. chol - уровень холестерина мг/дл
6. fbs - уровень сахара в крови натощак > 120 мг / дл
7. restecg - результаты электрокардиографии в покое (значения 0,1,2)
8. thalach - достигнутая максимальная частота пульса
9. exang - стенокардия, вызванная физической нагрузкой
10. oldpeak - депрессия ST, вызванная упражнениями по сравнению с отдыхом
11. slope - наклон сегмента ST при пиковой нагрузке
12. ca - количество крупных сосудов (0-3), окрашенных флурозопией
13. thal - 0 = нормально; 1 = исправленный дефект; 2 = обратимый дефект
14. target - 1 - высокий шанс сердечного приступа; 0 - низкий шанс сердечного приступа

In [2]:
df_path = "heart.csv"
df = pd.read_csv(df_path)

In [3]:
target = 'target'

X_train, X_test, y_train, y_test = train_test_split(df.drop(target, axis=1), df[target],
                                                    train_size=0.75,
                                                    stratify=df[target],
                                                    random_state=42)

In [4]:
def get_metrics(y_true, y_pred):
    precision, recall, thresholds = precision_recall_curve(y_true, y_pred)

    fscore = (2 * precision * recall) / (precision + recall)
    ix = np.argmax(fscore)
    
    return fscore[ix], precision[ix], recall[ix], roc_auc_score(y_true, y_pred), thresholds[ix]

In [5]:
model = RandomForestClassifier(random_state = 42)
model.fit(X_train, y_train);

In [6]:
with open("heart_attack_random_forest.dill", "wb") as f:
    dill.dump(model, f)

Проверка модели

In [7]:
with open('heart_attack_random_forest.dill', 'rb') as in_strm:
    model = dill.load(in_strm)

In [8]:
preds = model.predict_proba(X_test)[:, 1]
metrics = get_metrics(y_test, preds)

In [9]:
metrics = np.array(metrics).round(2)
print("fscore: {}; precision: {}; recall: {}; roc_auc: {}; threshold: {}".format(*metrics))

fscore: 0.84; precision: 0.74; recall: 0.98; roc_auc: 0.88; threshold: 0.4
