In [28]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score


In [29]:
df = pd.read_csv('heart.csv')
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    int64  
 1   sex       303 non-null    int64  
 2   cp        303 non-null    int64  
 3   trtbps    303 non-null    int64  
 4   chol      303 non-null    int64  
 5   fbs       303 non-null    int64  
 6   restecg   303 non-null    int64  
 7   thalachh  303 non-null    int64  
 8   exng      303 non-null    int64  
 9   oldpeak   303 non-null    float64
 10  slp       303 non-null    int64  
 11  caa       303 non-null    int64  
 12  thall     303 non-null    int64  
 13  output    303 non-null    int64  
dtypes: float64(1), int64(13)
memory usage: 33.3 KB


In [30]:
data = df.loc[:, df.columns != 'output'].values
output = df.loc[:, 'output'].values


In [31]:
# Нормализуем данные в пределах от -1 до 1
scaler = MinMaxScaler(
    (-1, 1)
)
transformed_data = scaler.fit_transform(data)


In [32]:
# Разделяем выборку
x_train, x_test, y_train, y_test = train_test_split(
    transformed_data,  # x
    output,  # y
    test_size=0.2,  # 20% на тестовую выборку
    random_state=2,  # управляет перетасовкой, применяемой к данным перед применением разделения
    shuffle=True,  # перетасовка данных перед разделением
)


In [33]:
# Инициализируем модель SVC
model = SVC(gamma='auto')
# Обучаем модель
model.fit(x_train, y_train)


In [34]:
# используем обученную модель на тестовых данных
y_pred = model.predict(x_test)
# выводим точность модели
print(accuracy_score(y_test, y_pred) * 100)


88.52459016393442


In [35]:
# Посмотрим с какими значениями random_state точность будет выше
for i in range(21):
    x_train, x_test, y_train, y_test = train_test_split(
        transformed_data,
        output,
        test_size=0.2,
        random_state=i,
        shuffle=True,
    )
    model = SVC(gamma='auto')
    model.fit(x_train, y_train)

    y_pred = model.predict(x_test)
    accuracy = round((accuracy_score(y_test, y_pred) * 100), 2)

    print(f"При random_state {i} - точность модели {accuracy} %")

При random_state 0 - точность модели 81.97 %
При random_state 1 - точность модели 72.13 %
При random_state 2 - точность модели 88.52 %
При random_state 3 - точность модели 85.25 %
При random_state 4 - точность модели 88.52 %
При random_state 5 - точность модели 90.16 %
При random_state 6 - точность модели 80.33 %
При random_state 7 - точность модели 75.41 %
При random_state 8 - точность модели 86.89 %
При random_state 9 - точность модели 86.89 %
При random_state 10 - точность модели 77.05 %
При random_state 11 - точность модели 81.97 %
При random_state 12 - точность модели 80.33 %
При random_state 13 - точность модели 78.69 %
При random_state 14 - точность модели 78.69 %
При random_state 15 - точность модели 88.52 %
При random_state 16 - точность модели 81.97 %
При random_state 17 - точность модели 83.61 %
При random_state 18 - точность модели 83.61 %
При random_state 19 - точность модели 78.69 %
При random_state 20 - точность модели 77.05 %


In [38]:
# попробуем модель NuSVC
from sklearn.svm import NuSVC


# Инициализируем модель
model = NuSVC()
# Обучаем модель
model.fit(x_train, y_train)
# используем обученную модель на тестовых данных
y_pred = model.predict(x_test)
# выводим точность модели
print(accuracy_score(y_test, y_pred) * 100)


75.40983606557377


In [39]:
# Посмотрим с какими значениями random_state точность будет выше
for i in range(21):
    x_train, x_test, y_train, y_test = train_test_split(
        transformed_data,
        output,
        test_size=0.2,
        random_state=i,
        shuffle=True,
    )
    model = NuSVC()
    model.fit(x_train, y_train)

    y_pred = model.predict(x_test)
    accuracy = round((accuracy_score(y_test, y_pred) * 100), 2)

    print(f"При random_state {i} - точность модели {accuracy} %")

При random_state 0 - точность модели 83.61 %
При random_state 1 - точность модели 70.49 %
При random_state 2 - точность модели 88.52 %
При random_state 3 - точность модели 85.25 %
При random_state 4 - точность модели 86.89 %
При random_state 5 - точность модели 90.16 %
При random_state 6 - точность модели 80.33 %
При random_state 7 - точность модели 77.05 %
При random_state 8 - точность модели 86.89 %
При random_state 9 - точность модели 88.52 %
При random_state 10 - точность модели 77.05 %
При random_state 11 - точность модели 78.69 %
При random_state 12 - точность модели 81.97 %
При random_state 13 - точность модели 77.05 %
При random_state 14 - точность модели 78.69 %
При random_state 15 - точность модели 83.61 %
При random_state 16 - точность модели 83.61 %
При random_state 17 - точность модели 83.61 %
При random_state 18 - точность модели 83.61 %
При random_state 19 - точность модели 78.69 %
При random_state 20 - точность модели 75.41 %


In [40]:
# Попробуем XGBClassifier
from xgboost import XGBClassifier


# Инициализируем модель
model = XGBClassifier()
# Обучаем модель
model.fit(x_train, y_train)
# используем обученную модель на тестовых данных
y_pred = model.predict(x_test)
# выводим точность модели
print(accuracy_score(y_test, y_pred) * 100)


70.49180327868852


In [42]:
# Посмотрим с какими значениями random_state точность будет выше
for i in range(21):
    x_train, x_test, y_train, y_test = train_test_split(
        transformed_data,
        output,
        test_size=0.2,
        random_state=i,
        shuffle=True,
    )
    model = XGBClassifier()
    model.fit(x_train, y_train)

    y_pred = model.predict(x_test)
    accuracy = round((accuracy_score(y_test, y_pred) * 100), 2)

    print(f"При random_state {i} - точность модели {accuracy} %")

При random_state 0 - точность модели 83.61 %
При random_state 1 - точность модели 73.77 %
При random_state 2 - точность модели 85.25 %
При random_state 3 - точность модели 78.69 %
При random_state 4 - точность модели 86.89 %
При random_state 5 - точность модели 83.61 %
При random_state 6 - точность модели 80.33 %
При random_state 7 - точность модели 73.77 %
При random_state 8 - точность модели 75.41 %
При random_state 9 - точность модели 83.61 %
При random_state 10 - точность модели 78.69 %
При random_state 11 - точность модели 80.33 %
При random_state 12 - точность модели 77.05 %
При random_state 13 - точность модели 70.49 %
При random_state 14 - точность модели 72.13 %
При random_state 15 - точность модели 81.97 %
При random_state 16 - точность модели 75.41 %
При random_state 17 - точность модели 81.97 %
При random_state 18 - точность модели 83.61 %
При random_state 19 - точность модели 80.33 %
При random_state 20 - точность модели 70.49 %
