In [17]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report

# Загрузка данных
data = pd.read_csv('healthcare_dataset.csv')

# Разделение на признаки и целевую переменную
X = data.drop(['Medical Condition'], axis=1)  # Убираем столбец с медицинским состоянием (целевая переменная)
y = data['Medical Condition']

# Преобразование категориальных признаков в числовые
label_encoder = LabelEncoder()
for column in X.columns:
    if X[column].dtype == 'object':
        X[column] = label_encoder.fit_transform(X[column])

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание модели k-ближайших соседей
knn = KNeighborsClassifier()

# Задаем значения параметров для перебора
param_grid = {'n_neighbors': [3, 5, 7, 9, 11]}  # Выбор количества соседей для проверки

# Создание объекта Grid Search с кросс-валидацией (cv=5 для примера)
grid_search = GridSearchCV(knn, param_grid, cv=5)

# Обучение Grid Search для поиска лучших параметров
grid_search.fit(X_train, y_train)

# Получение лучших параметров и модели с этими параметрами
best_params = grid_search.best_params_
best_knn = grid_search.best_estimator_

# Предсказание на тестовой выборке с использованием лучшей модели
predictions = best_knn.predict(X_test)

# Оценка точности лучшей модели
accuracy = accuracy_score(y_test, predictions)
print(f"Лучшие параметры: {best_params}")
print(f"Точность: {accuracy}")

# Отчет по классификации
print("Отчет по классификации:")
print(classification_report(y_test, predictions))


Лучшие параметры: {'n_neighbors': 3}
Точность: 0.177
Отчет по классификации:
              precision    recall  f1-score   support

   Arthritis       0.18      0.38      0.24       319
      Asthma       0.21      0.32      0.25       332
      Cancer       0.17      0.13      0.15       363
    Diabetes       0.15      0.10      0.12       303
Hypertension       0.16      0.09      0.11       336
     Obesity       0.15      0.05      0.08       347

    accuracy                           0.18      2000
   macro avg       0.17      0.18      0.16      2000
weighted avg       0.17      0.18      0.16      2000



Данные из CSV-файла загружаются, кодируются числами, разделяются на учебные и тестовые наборы, создается модель для нахождения соседей, ищутся наилучшие параметры этой модели, обучают модель на данных обучения, тестируют на данных для проверки и выводят отчет о том, насколько хорошо модель работает.