In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# Загрузка данных и предобработка
data = pd.read_csv('healthcare_dataset.csv')

# Преобразование категориальных признаков в числовые
le = LabelEncoder()
data['Gender'] = le.fit_transform(data['Gender'])
data['Blood Type'] = le.fit_transform(data['Blood Type'])
data['Insurance Provider'] = le.fit_transform(data['Insurance Provider'])
data['Admission Type'] = le.fit_transform(data['Admission Type'])

# Удаление ненужных столбцов
data.drop(['Name', 'Date of Admission', 'Doctor', 'Hospital', 'Discharge Date', 'Medication', 'Test Results'], axis=1, inplace=True)

# Разделение данных на признаки и целевую переменную
X = data.drop('Medical Condition', axis=1)
y = data['Medical Condition']

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация модели наивного Байеса
nb = GaussianNB()

# Кросс-валидация на обучающем наборе
scores = cross_val_score(nb, X_train, y_train, cv=5)  # cv=5 означает 5-кратную кросс-валидацию на обучающем наборе
print(f"Cross-validated accuracy: {scores.mean()} (+/- {scores.std() * 2})")

# Обучение модели на обучающем наборе данных
nb.fit(X_train, y_train)

# Предсказание на тестовых данных
predictions = nb.predict(X_test)

# Оценка качества модели на тестовом наборе
accuracy = accuracy_score(y_test, predictions)
print(f'Accuracy on test set: {accuracy}')

# Вывод отчета о классификации
print(classification_report(y_test, predictions))


Cross-validated accuracy: 0.1715 (+/- 0.014866068747318495)
Accuracy on test set: 0.1605
              precision    recall  f1-score   support

   Arthritis       0.16      0.15      0.16       319
      Asthma       0.15      0.29      0.19       332
      Cancer       0.15      0.07      0.10       363
    Diabetes       0.17      0.13      0.14       303
Hypertension       0.17      0.25      0.20       336
     Obesity       0.20      0.08      0.11       347

    accuracy                           0.16      2000
   macro avg       0.17      0.16      0.15      2000
weighted avg       0.17      0.16      0.15      2000



Программа загружает данные из CSV-файла, преобразует категориальные признаки в числовые, удаляет лишние столбцы ('Name', 'Date of Admission', 'Doctor', 'Hospital', 'Discharge Date', 'Medication', 'Test Results'), разделяет данные на признаки (X) и целевую переменную (y), затем проводит обучение модели наивного Байеса с использованием кросс-валидации (5 фолдов) на обучающем наборе и оценивает точность модели на тестовом наборе с выводом отчета о классификации.











