## 2. Подготовка данных, обучение модели, сохранение модели на диск

#### 1. Импорт библиотек

In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
import joblib # для сохранения модели

#### 2. Загрузка данных

In [3]:
df = pd.read_csv('../data/heart.csv')

#### 3. Разделим признаки по типам

In [4]:
X = df.drop('HeartDisease', axis=1)
y = df['HeartDisease']

In [7]:
# Категриальные признаки
cat_features = ['Sex', 'ChestPainType', 'RestingECG', 'ExerciseAngina', 'ST_Slope']
# Числовые признаки
num_features = [col for col in X.columns if col not in cat_features]

#### 4. Создадим пайплайн обработки

In [9]:
# обработка числовых признаков
numeric_transformer = StandardScaler()

# обработка категориоальных признаков
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# собираем общий трансформер признакв
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, num_features),
        ('cat', categorical_transformer, cat_features)
    ]
)

#### 5. Соберем весь пайплайн с моделью

In [11]:
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])

#### 6. Разделим данные на train/test

In [18]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [22]:
X_train.shape, y_train.shape

((734, 11), (734,))

#### 7. Обучим модель

In [20]:
model.fit(X_train, y_train)

#### 8. Оценим качество

In [23]:
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.89      0.87      0.88        82
           1       0.89      0.91      0.90       102

    accuracy                           0.89       184
   macro avg       0.89      0.89      0.89       184
weighted avg       0.89      0.89      0.89       184



#### 9. Сохраним модель

In [26]:
joblib.dump(model, '../models/heart_disease_model.pkl')

['../models/heart_disease_model.pkl']