In [2]:
# Cài đặt flask-cors nếu chưa có
!pip install flask-cors
!pip install pyngrok
import os
import joblib
import pandas as pd
import numpy as np
from flask import Flask, request, jsonify, make_response
from flask_cors import CORS
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from imblearn.over_sampling import SMOTE
from google.colab import drive
from pyngrok import ngrok

# Mount Google Drive
drive.mount('/content/drive', force_remount=True)

# Đường dẫn đến dữ liệu và các file mô hình trên Google Drive
DATA_FILE = '/content/drive/MyDrive/Stroke_data.csv'
MODEL_FILE = '/content/drive/MyDrive/stroke_model.pkl'
ENCODERS_FILE = '/content/drive/MyDrive/label_encoders.pkl'
IMPUTER_FILE = '/content/drive/MyDrive/imputer.pkl'
FEATURES_FILE = '/content/drive/MyDrive/feature_names.pkl'

# Hàm huấn luyện và lưu model
def train_and_save_model():
    df = pd.read_csv(DATA_FILE)
    df.drop(columns=['id'], inplace=True)

    df, label_encoders = preprocess_data(df)

    X = df.drop(columns=['stroke'])
    y = df['stroke']

    # Cân bằng dữ liệu bằng SMOTE
    smote = SMOTE(random_state=42)
    X_res, y_res = smote.fit_resample(X, y)

    # Chia dữ liệu thành tập train/test
    X_train, X_test, y_train, y_test = train_test_split(X_res, y_res, test_size=0.2, random_state=42)

    # Tìm tham số tối ưu bằng GridSearchCV
    param_grid = {
        'n_estimators': [100, 200],
        'max_depth': [10, 15],
        'min_samples_split': [2, 5]
    }
    rf = RandomForestClassifier(random_state=42)
    grid = GridSearchCV(rf, param_grid, cv=5, scoring='roc_auc')
    grid.fit(X_train, y_train)
    model = grid.best_estimator_

    # Đánh giá mô hình
    auc_roc = roc_auc_score(y_test, model.predict_proba(X_test)[:,1])
    print(f"AUC-ROC: {auc_roc:.3f}")

    # Lưu mô hình và các file cần thiết
    joblib.dump(model, MODEL_FILE)
    joblib.dump(label_encoders, ENCODERS_FILE)
    joblib.dump(X.columns.tolist(), FEATURES_FILE)

# Hàm tiền xử lý dữ liệu
def preprocess_data(df):
    imputer = SimpleImputer(strategy='mean')
    df['bmi'] = imputer.fit_transform(df[['bmi']])
    joblib.dump(imputer, IMPUTER_FILE)

    label_encoders = {}
    categorical_columns = ['gender', 'ever_married', 'Residence_type']
    for col in categorical_columns:
        le = LabelEncoder()
        df[col] = le.fit_transform(df[col].astype(str))
        label_encoders[col] = le

    df = pd.get_dummies(df, columns=['work_type', 'smoking_status'], drop_first=True)
    return df, label_encoders

# Kiểm tra và huấn luyện lại model nếu cần
for f in [MODEL_FILE, ENCODERS_FILE, IMPUTER_FILE, FEATURES_FILE]:
    if not os.path.exists(f):
        print("Không tìm thấy file mô hình, tiến hành huấn luyện lại...")
        train_and_save_model()
        break

# Load mô hình và các file cần thiết
model = joblib.load(MODEL_FILE)
label_encoders = joblib.load(ENCODERS_FILE)
imputer = joblib.load(IMPUTER_FILE)
features = joblib.load(FEATURES_FILE)

# Chuẩn hóa dữ liệu đầu vào
mapping_dict = {
    "gender": {
        "nam": "Male", "nữ": "Female", "nu": "Female"
    },
    "ever_married": {
        "có": "Yes", "rồi": "Yes", "đã": "Yes", "không": "No", "chưa": "No"
    },
    "Residence_type": {
        "thành thị": "Urban", "thành phố": "Urban", "nông thôn": "Rural", "quê": "Rural"
    },
    "work_type": {
        "trẻ em": "children", "công chức": "Govt_job", "nhà nước": "Govt_job",
        "chưa làm": "Never_worked", "không làm": "Never_worked",
        "tư nhân": "Private", "công ty tư": "Private",
        "tự làm": "Self-employed", "freelancer": "Self-employed"
    },
    "smoking_status": {
        "đã từng hút": "formerly smoked", "đã hút": "formerly smoked",
        "chưa bao giờ hút": "never smoked", "chưa hút": "never smoked",
        "đang hút": "smokes", "hút": "smokes",
        "không rõ": "Unknown", "không biết": "Unknown"
    }
}

# Hàm dự đoán
def predict_stroke(input_data):
    # Chuẩn hóa dữ liệu đầu vào
    standardized_data = {}
    for key, value in input_data.items():
        if key in mapping_dict:
            for k, v in mapping_dict[key].items():
                if value.lower() == k:
                    standardized_data[key] = v
                    break
            else:
                standardized_data[key] = value
        else:
            standardized_data[key] = value

    user_df = pd.DataFrame([standardized_data])
    df_processed = preprocess_data(user_df)[0]

    for col in features:
        if col not in df_processed.columns:
            df_processed[col] = 0
    df_processed = df_processed[features]

    prob = model.predict_proba(df_processed)[0][1]
    return prob

# Tạo Flask app
app = Flask(__name__)
CORS(app, resources={r"/predict": {"origins": "http://localhost:8080"}})

@app.route('/predict', methods=['POST', 'OPTIONS'])
def predict():
    if request.method == 'OPTIONS':
        response = make_response()
        response.headers.add('Access-Control-Allow-Origin', 'http://localhost:8080')
        response.headers.add('Access-Control-Allow-Methods', 'POST, OPTIONS')
        response.headers.add('Access-Control-Allow-Headers', 'Content-Type')
        return response, 200

    try:
        data = request.get_json()
        required_fields = ['gender', 'age', 'hypertension', 'heart_disease', 'ever_married',
                           'work_type', 'Residence_type', 'avg_glucose_level', 'height', 'weight', 'smoking_status']

        for field in required_fields:
            if field not in data:
                return jsonify({'error': f'Thiếu trường: {field}'}), 400

        # Tính BMI
        height_m = float(data['height']) / 100
        bmi = float(data['weight']) / (height_m ** 2)

        input_data = {
            'gender': data['gender'],
            'age': float(data['age']),
            'hypertension': int(data['hypertension']),
            'heart_disease': int(data['heart_disease']),
            'ever_married': data['ever_married'],
            'work_type': data['work_type'],
            'Residence_type': data['Residence_type'],
            'avg_glucose_level': float(data['avg_glucose_level']),
            'bmi': bmi,
            'smoking_status': data['smoking_status']
        }

        probability = predict_stroke(input_data)
        risk_pct = probability * 100

        # Phân loại nguy cơ
        if probability < 0.1:
            risk_level = "RẤT THẤP 😊"
            advice = "Tiếp tục duy trì lối sống lành mạnh!"
        elif probability < 0.2:
            risk_level = "THẤP 👍"
            advice = "Cơ bản an toàn nhưng nên kiểm tra sức khỏe định kỳ"
        elif probability < 0.3:
            risk_level = "TRUNG BÌNH ℹ️"
            advice = "Cần chú ý hơn đến các yếu tố nguy cơ"
        elif probability < 0.4:
            risk_level = "CAO ⚠️"
            advice = "Nên đi khám bác sĩ để được tư vấn"
        else:
            risk_level = "RẤT CAO ❗❗❗"
            advice = "Cần can thiệp y tế ngay lập tức"

        # Lời khuyên cá nhân hóa
        personalized_advice = [f"📊 Kết quả chẩn đoán:"]
        personalized_advice.append(f"🔹 Mức độ nguy cơ: {risk_level}")
        personalized_advice.append(f"🔹 Xác suất chính xác: {risk_pct:.1f}%")
        personalized_advice.append(f"🔹 Khuyến nghị: {advice}")

        if input_data['hypertension']:
            personalized_advice.append("• Kiểm soát huyết áp: dùng thuốc và giảm muối.")
        if input_data['heart_disease']:
            personalized_advice.append("• Bệnh tim mạch: cần theo dõi sát sao với bác sĩ chuyên khoa.")
        if input_data['smoking_status'] in ['smokes', 'formerly smoked']:
            personalized_advice.append("• Hút thuốc là yếu tố nguy cơ quan trọng: nên bỏ thuốc hoàn toàn.")
        if input_data['avg_glucose_level'] > 140:
            personalized_advice.append(f"• Đường huyết cao ({input_data['avg_glucose_level']:.1f} mg/dL): kiểm tra tiểu đường.")
        if input_data['bmi'] >= 25:
            personalized_advice.append(f"• BMI cao ({input_data['bmi']:.1f}): cần giảm cân bằng chế độ ăn và tập thể dục.")
        if input_data['age'] > 50:
            personalized_advice.append("• Tuổi >50: nên khám sức khỏe định kỳ 6 tháng/lần.")

        personalized_advice.append("\n🌿 Lối sống lành mạnh giúp giảm nguy cơ:")
        personalized_advice.append("- Ăn nhiều rau xanh, hoa quả tươi, hạn chế mỡ động vật")
        personalized_advice.append("- Tập thể dục ít nhất 150 phút/tuần (đi bộ, bơi lội, đạp xe...)")
        personalized_advice.append("- Ngủ đủ 7-8 tiếng mỗi đêm, giảm căng thẳng")
        personalized_advice.append("- Hạn chế rượu bia, không hút thuốc lá")
        personalized_advice.append("- Kiểm tra huyết áp thường xuyên nếu trên 40 tuổi")

        response = jsonify({'result': "\n".join(personalized_advice)})
        response.headers.add('Access-Control-Allow-Origin', 'http://localhost:8080')
        return response, 200

    except Exception as e:
        response = jsonify({'error': str(e)})
        response.headers.add('Access-Control-Allow-Origin', 'http://localhost:8080')
        return response, 500

# Cấu hình ngrok
!ngrok authtoken 2wDb5R0GozHyPIX6hIX04mD1r9B_37nzCRoyFu4PhM2DBMFBj
public_url = ngrok.connect(5000).public_url
print(f"API running at: {public_url}/predict")

# Chạy Flask app
app.run(host='0.0.0.0', port=5000)

Collecting pyngrok
  Downloading pyngrok-7.2.5-py3-none-any.whl.metadata (8.9 kB)
Downloading pyngrok-7.2.5-py3-none-any.whl (23 kB)
Installing collected packages: pyngrok
Successfully installed pyngrok-7.2.5
Mounted at /content/drive
Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml
API running at: https://e497-104-196-113-10.ngrok-free.app/predict
 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:5000
 * Running on http://172.28.0.12:5000
INFO:werkzeug:[33mPress CTRL+C to quit[0m
INFO:werkzeug:127.0.0.1 - - [25/Apr/2025 17:42:55] "[35m[1mPOST /predict HTTP/1.1[0m" 500 -
INFO:werkzeug:127.0.0.1 - - [25/Apr/2025 17:44:54] "POST /predict HTTP/1.1" 200 -
INFO:werkzeug:127.0.0.1 - - [25/Apr/2025 18:21:49] "OPTIONS /predict HTTP/1.1" 200 -
INFO:werkzeug:127.0.0.1 - - [25/Apr/2025 18:21:50] "POST /predict HTTP/1.1" 200 -
INFO:werkzeug:127.0.0.1 - - [25/Apr/2025 18:48:24] "OPTIONS /predict HTTP/1.1" 200 -
INFO:werkzeug:127.0.0.1 - - [25/Apr/2025 18:48:24] "POST /predict HTTP/1.1" 200 -
