In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import accuracy_score, mean_squared_error, r2_score, classification_report

In [4]:
# Загрузка данных
data = pd.read_csv('healthcare_dataset.csv')

# Вывод общей информации о данных
print("Общая информация о данных:")
print(f"Количество строк: {data.shape[0]}")
print(f"Количество столбцов: {data.shape[1]}")
print("\nТипы данных по столбцам:")
print(data.dtypes)

Общая информация о данных:
Количество строк: 10000
Количество столбцов: 15

Типы данных по столбцам:
Name                   object
Age                     int64
Gender                 object
Blood Type             object
Medical Condition      object
Date of Admission      object
Doctor                 object
Hospital               object
Insurance Provider     object
Billing Amount        float64
Room Number             int64
Admission Type         object
Discharge Date         object
Medication             object
Test Results           object
dtype: object


In [5]:
# Загрузка данных из файла или базы данных
data = pd.read_csv('healthcare_dataset.csv')  # Предполагая, что данные находятся в CSV файле

# Преобразование категориальных признаков в числовые
label_encoder = LabelEncoder()
for column in data.columns:
    if data[column].dtype == 'object':
        data[column] = label_encoder.fit_transform(data[column])

# Удаление ненужных столбцов или подготовка признаков и целевой переменной
X = data.drop(['Name', 'Date of Admission', 'Discharge Date', 'Billing Amount', 'Medical Condition'], axis=1) # Признаки
y = data['Medical Condition']  # Целевая переменная

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Модели логистической регрессии с разными гиперпараметрами
logistic_model_1 = LogisticRegression(max_iter=1000)  # Модель с параметрами по умолчанию
logistic_model_2 = LogisticRegression(penalty='l2', C=1.0, solver='lbfgs', max_iter=1000)  # Модель с настроенными гиперпараметрами

# Обучение моделей
logistic_model_1.fit(X_train, y_train)
logistic_model_2.fit(X_train, y_train)

# Получение предсказаний для тестового набора данных
logistic_predictions_1 = logistic_model_1.predict(X_test)
logistic_predictions_2 = logistic_model_2.predict(X_test)

# Оценка производительности моделей на тестовом наборе данных
accuracy_1 = accuracy_score(y_test, logistic_predictions_1)
accuracy_2 = accuracy_score(y_test, logistic_predictions_2)

print(f"Точность (Логистическая регрессия - Начальные параметры) : {accuracy_1}")
print(f"Accuracy (Логистическая регрессия - Кастомные параметры) : {accuracy_2}")

# Вывод отчета по классификации для каждой модели
report_1 = classification_report(y_test, logistic_predictions_1, zero_division=1)
report_2 = classification_report(y_test, logistic_predictions_2, zero_division=1)

print("Classification Report (Логистическая регрессия - Начальные параметры):")
print(report_1)

print("Classification Report (Логистическая регрессия - Кастомные параметры):")
print(report_2)

# Модель линейной регрессии без указанных гиперпараметров
linear_model = LinearRegression()

# Обучение модели линейной регрессии
linear_model.fit(X_train, y_train)

# Получение предсказаний для тестового набора данных
linear_predictions = linear_model.predict(X_test)

# Оценка производительности модели линейной регрессии на тестовом наборе данных
mse = mean_squared_error(y_test, linear_predictions)
r2 = r2_score(y_test, linear_predictions)

print(f"Среднеквадратичная ошибка (Линейная регрессия) : {mse}")
print(f"R^2 Score (Линейная регрессия) : {r2}")


Точность (Логистическая регрессия - Начальные параметры) : 0.166
Accuracy (Логистическая регрессия - Кастомные параметры) : 0.166
Classification Report (Логистическая регрессия - Начальные параметры):
              precision    recall  f1-score   support

           0       0.23      0.02      0.03       319
           1       0.16      0.47      0.24       332
           2       0.19      0.19      0.19       363
           3       0.12      0.06      0.08       303
           4       0.16      0.25      0.20       336
           5       1.00      0.00      0.00       347

    accuracy                           0.17      2000
   macro avg       0.31      0.16      0.12      2000
weighted avg       0.32      0.17      0.13      2000

Classification Report (Логистическая регрессия - Кастомные параметры):
              precision    recall  f1-score   support

           0       0.23      0.02      0.03       319
           1       0.16      0.47      0.24       332
           2       0.1

Программа загружает данные из CSV-файла, преобразует категориальные признаки в числовые с помощью LabelEncoder, удаляет ненужные столбцы, разделяет данные на обучающий и тестовый наборы, создает две модели логистической регрессии с разными параметрами, обучает их на обучающем наборе, делает предсказания на тестовом наборе и оценивает их производительность по метрике accuracy. Выводит точность каждой модели на тестовом наборе данных и отчеты по классификации для каждой модели.