In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Загрузка данных из файла или базы данных
# Замените 'путь_к_файлу' на актуальный путь к вашему файлу с данными
data = pd.read_csv('healthcare_dataset.csv')

# Предположим, что вы хотите предсказать 'Medical Condition' на основе других столбцов
# Выборка признаков и целевой переменной
features = ['Age', 'Gender', 'Blood Type', 'Doctor', 'Hospital', 'Insurance Provider', 'Billing Amount', 'Room Number', 'Admission Type']
target = 'Medical Condition'

X = data[features]
y = data[target]

# Преобразование категориальных признаков в числовые значения
label_encoders = {}
for column in X.select_dtypes(include=['object']).columns:
    label_encoders[column] = LabelEncoder()
    X.loc[:, column] = label_encoders[column].fit_transform(X.loc[:, column])

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Настройка гиперпараметров для решающего дерева
params_dt = {
    'max_depth': [3, 5, 7, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

decision_tree = DecisionTreeClassifier(random_state=42)
grid_search_dt = GridSearchCV(decision_tree, params_dt, cv=5)
grid_search_dt.fit(X_train, y_train)

best_decision_tree = grid_search_dt.best_estimator_
predictions_dt_tuned = best_decision_tree.predict(X_test)
accuracy_dt_tuned = accuracy_score(y_test, predictions_dt_tuned)

print("Лучшие параметры для решающего дерева:", grid_search_dt.best_params_)
print("Точность настроенных параметров решающего дерева:", accuracy_dt_tuned)
print("Classification Report of Tuned Decision Tree:")
print(classification_report(y_test, predictions_dt_tuned))

params_rf = {
    'n_estimators': [50, 100],
    'max_depth': [None, 5],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1]
}

random_forest = RandomForestClassifier(random_state=42)
grid_search_rf = GridSearchCV(random_forest, params_rf, cv=5)
grid_search_rf.fit(X_train, y_train)

best_random_forest = grid_search_rf.best_estimator_
predictions_rf_tuned = best_random_forest.predict(X_test)
accuracy_rf_tuned = accuracy_score(y_test, predictions_rf_tuned)

print("\nЛушчие параметры для случайного леса:", grid_search_rf.best_params_)
print("Точность настроенных параметров случайного леса:", accuracy_rf_tuned)
print("Classification Report of Tuned Random Forest:")
print(classification_report(y_test, predictions_rf_tuned))


Лучшие параметры для решающего дерева: {'max_depth': 7, 'min_samples_leaf': 2, 'min_samples_split': 10}
Точность настроенных параметров решающего дерева: 0.1735
Classification Report of Tuned Decision Tree:
              precision    recall  f1-score   support

   Arthritis       0.22      0.07      0.10       319
      Asthma       0.17      0.87      0.28       332
      Cancer       0.20      0.06      0.09       363
    Diabetes       0.20      0.00      0.01       303
Hypertension       0.16      0.03      0.05       336
     Obesity       0.23      0.01      0.02       347

    accuracy                           0.17      2000
   macro avg       0.20      0.17      0.09      2000
weighted avg       0.20      0.17      0.09      2000


Лушчие параметры для случайного леса: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 100}
Точность настроенных параметров случайного леса: 0.1675
Classification Report of Tuned Random Forest:
              precisi

Программа реализует загрузку и выбранного мною датасета, выбирает определенные признаки и целевую переменную, кодирует категориальные признаки, разделяет данные на обучающий и тестовый наборы, инициализирует и настраивает модели решающего дерева и случайного леса с использованием GridSearchCV(кросс валидация cv = 5) для определения лучших гиперпараметров. Затем модели обучаются на обучающем наборе, делают предсказания на тестовом наборе и выводят отчеты о классификации и точность предсказаний для каждой модели.