In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Load data
df = pd.read_csv('patient_survival.csv')

# Lựa chọn các đặc trưng quan trọng
selected_features = ['age', 'bmi', 'elective_surgery', 'icu_admit_source', 'apache_2_diagnosis', 'apache_3j_diagnosis',
                     'apache_post_operative', 'heart_rate_apache', 'resprate_apache', 'map_apache', 'temp_apache',
                     'd1_glucose_max', 'd1_potassium_max', 'aids', 'cirrhosis', 'diabetes_mellitus', 'hepatic_failure',
                     'immunosuppression', 'leukemia', 'lymphoma', 'solid_tumor_with_metastasis']

# Lựa chọn cột dự đoán
target_column = 'hospital_death'

# Xóa cột không mong muốn và xử lý giá trị thiếu
df.drop(columns=["Unnamed: 83"], axis=1, inplace=True)
df.dropna(inplace=True)

# Đổi các giá trị trong dataset thành số
le = LabelEncoder()
df['icu_admit_source'] = le.fit_transform(df['icu_admit_source'])

# Chia data thành tập huấn luyện và tập validation
X_train, X_valid, y_train, y_valid = train_test_split(df[selected_features], df[target_column], test_size=0.2, random_state=42)

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_valid_scaled = scaler.transform(X_valid)

# Xây dựng mô hình Logistic Regression
model = LogisticRegression()

# Tạo vòng lặp với early stopping
best_accuracy = 0.0
best_model = None
patience = 5
no_improvement_count = 0

for epoch in range(100):  # Điều chỉnh epoch khi cần thiết
    model.fit(X_train_scaled, y_train)
    
    # Dự đoán trên tập validation
    y_valid_pred = model.predict(X_valid_scaled)

    # Đánh giá hiệu suất trên tập validation
    accuracy = accuracy_score(y_valid, y_valid_pred)
    print(f'Epoch {epoch + 1}, Accuracy on validation set: {accuracy}')

    # Kiểm tra mức độ cải tiến
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_model = model
        no_improvement_count = 0
    else:
        no_improvement_count += 1

    # Kiểm tra early stopping
    if no_improvement_count >= patience:
        print(f'Early stopping after {epoch + 1} epochs.')
        break

# Sử dụng mô hình tốt nhất để đánh giá lần cuối
final_valid_pred = best_model.predict(X_valid_scaled)
final_accuracy = accuracy_score(y_valid, final_valid_pred)
print(f'Final accuracy on validation set: {final_accuracy}')

Epoch 1, Accuracy on validation set: 0.9142882234126636
Epoch 2, Accuracy on validation set: 0.9142882234126636
Epoch 3, Accuracy on validation set: 0.9142882234126636
Epoch 4, Accuracy on validation set: 0.9142882234126636
Epoch 5, Accuracy on validation set: 0.9142882234126636
Epoch 6, Accuracy on validation set: 0.9142882234126636
Early stopping after 6 epochs.
Final accuracy on validation set: 0.9142882234126636
