In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import pickle
import os

# Đọc dataset
df = pd.read_csv(r'C:\Users\Dell\OneDrive\Pictures\Documents\Code\python\OpenCV\Project\Web\symptom_dataset.csv', on_bad_lines='skip')


# Tiền xử lý dữ liệu
# Kết hợp symptoms và body_part thành một cột văn bản
df['input_text'] = df['symptoms'] + ' ' + df['body_part']

# Vector hóa văn bản
vectorizer = TfidfVectorizer(max_features=100, stop_words=None)
X = vectorizer.fit_transform(df['input_text']).toarray()

# Mã hóa nhãn
condition_encoder = LabelEncoder()
icd11_encoder = LabelEncoder()
action_encoder = LabelEncoder()

y_condition = condition_encoder.fit_transform(df['condition'])
y_icd11 = icd11_encoder.fit_transform(df['icd11'])
y_action = action_encoder.fit_transform(df['action'])
y_probability = df['probability'].values

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_condition_train, y_condition_test = train_test_split(
    X, y_condition, test_size=0.2, random_state=42
)
_, _, y_icd11_train, y_icd11_test = train_test_split(
    X, y_icd11, test_size=0.2, random_state=42
)
_, _, y_action_train, y_action_test = train_test_split(
    X, y_action, test_size=0.2, random_state=42
)
_, _, y_probability_train, y_probability_test = train_test_split(
    X, y_probability, test_size=0.2, random_state=42
)

# Huấn luyện mô hình Random Forest cho từng đầu ra
condition_model = RandomForestClassifier(n_estimators=100, random_state=42)
condition_model.fit(X_train, y_condition_train)

icd11_model = RandomForestClassifier(n_estimators=100, random_state=42)
icd11_model.fit(X_train, y_icd11_train)

action_model = RandomForestClassifier(n_estimators=100, random_state=42)
action_model.fit(X_train, y_action_train)

# Lưu mô hình và vectorizer
model_dir = 'models'
os.makedirs(model_dir, exist_ok=True)

with open(os.path.join(model_dir, 'condition_model.pkl'), 'wb') as f:
    pickle.dump(condition_model, f)
with open(os.path.join(model_dir, 'icd11_model.pkl'), 'wb') as f:
    pickle.dump(icd11_model, f)
with open(os.path.join(model_dir, 'action_model.pkl'), 'wb') as f:
    pickle.dump(action_model, f)
with open(os.path.join(model_dir, 'vectorizer.pkl'), 'wb') as f:
    pickle.dump(vectorizer, f)
with open(os.path.join(model_dir, 'condition_encoder.pkl'), 'wb') as f:
    pickle.dump(condition_encoder, f)
with open(os.path.join(model_dir, 'icd11_encoder.pkl'), 'wb') as f:
    pickle.dump(icd11_encoder, f)
with open(os.path.join(model_dir, 'action_encoder.pkl'), 'wb') as f:
    pickle.dump(action_encoder, f)

print("Mô hình đã được huấn luyện và lưu thành công!")

Mô hình đã được huấn luyện và lưu thành công!


In [7]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
import pickle
import os

# Đường dẫn dataset
dataset_path = r"C:\Users\Dell\OneDrive\Pictures\Documents\Code\python\OpenCV\Project\Web\health_dataset.csv"

# Đọc dataset
df = pd.read_csv(dataset_path)

# Chuẩn bị dữ liệu
X = df[['Age', 'BMI', 'Glucose', 'HeartRate']]
y = df['Result']

# Mã hóa nhãn Result
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

# Huấn luyện mô hình Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Đường dẫn lưu mô hình và encoder
model_dir = r"C:\Users\Dell\OneDrive\Pictures\Documents\Code\python\OpenCV\Project\Web\app\models"
os.makedirs(model_dir, exist_ok=True)
model_path = os.path.join(model_dir, 'health_model.pkl')
encoder_path = os.path.join(model_dir, 'health_encoder.pkl')

# Lưu mô hình và encoder
with open(model_path, 'wb') as f:
    pickle.dump(model, f)
with open(encoder_path, 'wb') as f:
    pickle.dump(label_encoder, f)

print(f"Mô hình đã được lưu tại: {model_path}")
print(f"Encoder đã được lưu tại: {encoder_path}")

Mô hình đã được lưu tại: C:\Users\Dell\OneDrive\Pictures\Documents\Code\python\OpenCV\Project\Web\app\models\health_model.pkl
Encoder đã được lưu tại: C:\Users\Dell\OneDrive\Pictures\Documents\Code\python\OpenCV\Project\Web\app\models\health_encoder.pkl
