Descrição das variáveis:

Nota 1: 1 dL, ou 1 decilitro, equivale a 100 mL (mililitros) ou 0,1 L (litros).

Nota 2: UI, ou unidades internacionais, são unidades de medida utilizadas para quantificar o efeito/atividade biológica de uma substância. 

Sex representa o sexo do indivíduo - masculino ou feminino.

Height representa a altura do indivíduo, em incrementos de 5cm.

Weight representa o peso do indivíduo, em incrementos de 5kg.

Waist representa a circunferência da cintura do indivíduo.

Sight_left representa a acuidade visual do olho esquerdo do indivíduo. A acuidade visual mede a capacidade do olho de distinguir formas e detalhes de objetos a uma determinada distância. Isso varia de 0,1 a 2,5, com valores <0,1 sendo deslocados para 0,1. 

Sight_right representa a acuidade visual do olho direito do indivíduo.

Hear_esquerda mede a audição no ouvido esquerdo do indivíduo, sendo 1 representando normal e 2 representando anormal.

Hear_right  mede a audição no ouvido direito do indivíduo com o mesmo sistema de classificação de listen_left.

A SBP  mede a maior pressão arterial sistólica medida do indivíduo, em mmHg. A pressão arterial sistólica mede a pressão nas artérias quando o coração bate.

A DBP  mede a pressão arterial diastólica medida do indivíduo, em mmHg. A pressão arterial diastólica mede a pressão nas artérias quando o coração descansa entre os batimentos. 

O BLDS mede a glicemia em jejum do indivíduo, em mg/dL. Isso representa a concentração de glicose por 100ml de sangue antes de uma refeição.

Tot_chole mede a concentração total de colesterol (éster e não éster) no indivíduo, em mg/dL.

HDL_chole mede a concentração total de colesterol na região HDL (lipoproteína de alta densidade) do indivíduo, em mg/dL. O colesterol HDL, também chamado de colesterol bom, absorve o colesterol no sangue e o transporta de volta ao fígado, que então o elimina do corpo. Observe que valores mais elevados de colesterol HDL podem diminuir o risco de doenças cardíacas. 

LDL_chole mede a concentração total de colesterol na região LDL (lipoproteína de baixa densidade), em mg/dL. O colesterol LDL, também chamado de colesterol ruim, constitui a maior parte do colesterol do corpo. Altos níveis disso podem aumentar o risco de doenças cardíacas e derrames. 

Triglyceride mede a concentração total de triglicerídeos no sangue do indivíduo, em mg/dL. Os triglicerídeos são um tipo de lipídios (ou seja, gordura) que circulam no sangue e geralmente se originam dos alimentos que consumimos. 

A hemoglobin  mede a concentração total de hemoglobina no sangue do indivíduo, em g/dL. A hemoglobina é uma proteína dos nossos glóbulos vermelhos que transporta oxigênio. 

Urine_protein mede a quantidade de proteína na urina do indivíduo. Altos níveis de proteína na urina, ou proteinúria, podem ser um sinal de muitos problemas de saúde, como insuficiência cardíaca e problemas renais. Não está claro o que significam as codificações do rótulo (1(-), 2(+/-), 3(+1), 4(+2), 5(+3), 6(+4)) para esta variável, embora poderíamos especular que se refere à quantidade de desvios padrão da média em que o valor reside na distribuição de recursos.

Serum_creatine  mede a concentração de creatinina no soro do indivíduo (que reside no sangue), em mg/dL. A creatinina é um resíduo da creatina, produzida para fornecer energia principalmente aos músculos. Normalmente, isso é totalmente removido pelos rins; assim, se a função renal estiver anormal, a concentração de creatinina aumentará. Os valores normais estão em torno de 0,8-2,7 mg/dL.

SGOT_AST mede o valor SGOT (Glutamato-oxaloacetato transaminase) - AST (Aspartato transaminase) em UI/L, que são valores em exames de sangue que quantificam o desempenho do fígado, coração e outros órgãos. Em particular, quando estes estão danificados, o valor disto aumenta. Os valores normais estão em torno de 0-40 UI/L.

SGOT_ALT mede o valor SGOT (Glutamato-oxaloacetato transaminase) - ALT (Alanina transaminase) em UI/L, que são valores em exames de sangue que quantificam o desempenho do fígado. Principalmente quando estes estão danificados, seu valor aumenta. Os valores normais estão em torno de 0-40 UI/L.

Gama_GTP mede o valor de gama-GTP (y-glutamil transpeptidase) em UI/L, que são valores que quantificam a função hepática no dict biliar. Os valores normais são cerca de 11-63 UI/L para homens e 8-35 UI/L para mulheres.

SMK_STAT_TYPE_CD mede o estado de fumar do indivíduo, onde 1 corresponde a nunca ter fumado, 2 corresponde a ter fumado mas desistido e 3 corresponde a ainda fumar.

DRK_YN é uma bandeira que indica se o indivíduo bebe ou não.

In [None]:
import random
import joblib
import numpy as np
import pandas as pd
import matplotlib as plt
from tqdm.auto import tqdm
import plotly.express as px
import plotly.graph_objects as go
from ydata_profiling import ProfileReport
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import MinMaxScaler

In [None]:
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier

In [None]:
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, recall_score, precision_score
from sklearn.model_selection import GridSearchCV, cross_validate, StratifiedKFold,  train_test_split

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
import mlflow
# mlflow ui --backend-store-uri sqlite:///mlflow.db
# mlflow server --host 127.0.0.1 --port 5000
mlflow.set_tracking_uri("sqlite:///mlflow.db")
mlflow.set_experiment("drinking_2")
# mlflow.set_tracking_uri("http://127.0.0.1:5000")

In [None]:
mlflow.autolog()

In [None]:
tqdm.pandas()

In [None]:
path = 'imgs/'

In [None]:
df = pd.read_csv('smoking_driking.csv')

In [None]:
df

In [None]:
df.info()

In [None]:
df[df.isnull().any(axis=1)]

In [None]:
df[df.duplicated]

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df[df.duplicated].shape

In [None]:
df.describe().T

In [None]:
df.head()

In [None]:
profile = ProfileReport(df, title="Pandas Profiling Report")
profile

In [None]:
fig = go.Figure()

for category in df['DRK_YN'].unique():
    data = df[df['DRK_YN'] == category]
    fig.add_trace(go.Histogram(x=data['age'], name=category, nbinsx=int(df.age.max())))  
    
fig.update_layout(
    title='Histogram of Age by Drinking',
    xaxis_title='Age',
    yaxis_title='Count',
)

fig.show()

In [None]:
fig.write_html(f"{path}/hist_age_drkn.html")

In [None]:
fig1 = px.histogram(df, x="sex", color="DRK_YN", barmode="group")

fig.update_layout(
    xaxis_title="sex",
    yaxis_title="Count",
    barmode="group",
    bargap=0.1
)

for data in fig.data:
    fig.add_annotation(
        x=data.x,
        y=data.y,
        text=data.y,
#         showarrow=False,
        font=dict(size=12)
)

fig1.show()

In [None]:
fig1.write_html(f"{path}/hist_sex_drkn.html")

In [None]:
df['sex'] = np.where(df['sex'].values=='Female',0,1)

In [None]:
df['DRK_YN'] = np.where(df['DRK_YN'].values=='N',0,1)

In [None]:
i = random.randint(0, 93)
colorscales = px.colors.named_colorscales()
corr = px.imshow(df.corr(numeric_only=True), 
                            text_auto=True, width=800, height=800, 
                            color_continuous_scale=colorscales[i],)
corr.show()

In [None]:
corr.write_html(f"{path}/corr.html")

In [None]:
def get_bmi(row):
    weight = row["weight"]
    height = row["height"]
    return weight / (height ** 2)

In [None]:
def get_blood_pressure_ratio(row):
    sbp = row["SBP"]
    dbp = row["DBP"]
    return sbp / dbp

In [None]:
def get_hdl_cholestorol_ratio(row):
    hdl_chole = row["HDL_chole"]
    total_chole = row["tot_chole"]
    return hdl_chole / total_chole

In [None]:
def get_ldl_cholestorol_ratio(row):
    ldl_chole = row["LDL_chole"]
    total_chole = row["tot_chole"]
    return ldl_chole / total_chole

In [None]:
def classify_eyesight(val):
    if val > 1: 
        return "Good"
    elif val > 0.5: 
        return "Average"
    elif val > 0.25: 
        return "Poor"
    else:
        return "Very Poor"

In [None]:
def classify_blood_pressure(row):
    sbp = row["SBP"]
    dbp = row["DBP"]
    if sbp < 120 and dbp < 80:
        return "Normal"
    elif sbp < 130 and dbp < 80:
        return "Elevated"
    elif sbp < 140 and dbp < 90:
        return "Hypertension Stage 1"
    elif sbp < 180 and dbp < 120:
        return "Hypertension Stage 2"
    else:
        return "Hypertensive Crisis"

In [None]:
def classify_blood_glucose(row):
    blood_glucose = row["BLDS"]
    if blood_glucose < 100:
        return "Normal"
    elif blood_glucose < 125:
        return "Pre-Diabetes"
    else:
        return "Diabetes"

In [None]:
def classify_serum_creatinine(row):
    serum_creatinine = row["serum_creatinine"]
    if serum_creatinine < 2.7:
        return "Normal"
    else:
        return "Abnormal"

In [None]:
def classify_SGOT_AST(row):
    sgot_ast = row["SGOT_AST"]
    if sgot_ast < 40:
        return "Normal"
    else:
        return "Abnormal"

In [None]:
def classify_SGOT_ALT(row):
    sgot_alt = row["SGOT_ALT"]
    if sgot_alt < 40:
        return "Normal"
    else:
        return "Abnormal"

In [None]:
def classify_gamma_GTP(row):
    gamma_gtp = row["gamma_GTP"]
    sex = row["sex"]
    if sex == "Male":
        if gamma_gtp >= 11 and gamma_gtp <= 63:
            return "Normal"
        else:
            return "Abnormal"
    else:
        if gamma_gtp >= 8 and gamma_gtp <= 35:
            return "Normal"
        else:
            return "Abnormal"

In [None]:
df["bmi"] = df.progress_apply(get_bmi, axis=1)
df["BP_ratio"] = df.progress_apply(get_blood_pressure_ratio, axis=1)
df["HDL_ratio"] = df.progress_apply(get_hdl_cholestorol_ratio, axis=1)
df["LDL_ratio"] = df.progress_apply(get_ldl_cholestorol_ratio, axis=1)
df["sight_left_class"] = df["sight_left"].progress_apply(classify_eyesight)
df["sight_right_class"] = df["sight_right"].progress_apply(classify_eyesight)
df["blood_pressure_class"] = df.progress_apply(classify_blood_pressure, axis=1)
df["blood_glucose_class"] = df.progress_apply(classify_blood_glucose, axis=1)
df["serum_creatinine_class"] = df.progress_apply(classify_serum_creatinine, axis=1)
df["SGOT_AST_class"] = df.progress_apply(classify_SGOT_AST, axis=1)
df["SGOT_ALT_class"] = df.progress_apply(classify_SGOT_ALT, axis=1)
df["gamma_GTP_class"] = df.progress_apply(classify_gamma_GTP, axis=1)

In [None]:
cat_features = []
for i in df.columns:
    if df[i].dtype == object:
        cat_features.append(i)

In [None]:
ordinalEncoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-99).fit(df[cat_features])
df[cat_features] = ordinalEncoder.transform(df[cat_features])

In [None]:
scaler = MinMaxScaler().set_output(transform='pandas')

In [None]:
scaled = scaler.fit_transform(df)

In [None]:
X = scaled.drop('DRK_YN',axis=1)
y = scaled.loc[:,'DRK_YN']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=101)

In [None]:
with mlflow.start_run(run_name='drinking_2'):
    mlflow.log_artifact('imgs/')
    mlflow.set_tag("model_name", "XGBoost")
    
    # mlflow.log_params(params)
    xgboost = XGBClassifier(n_estimators=100, 
                         n_jobs=-1,
                         verbosity = 0)

    xgboost.fit(X_train,y_train,verbose=1)

    y_pred = xgboost.predict(X_test)

    metrics = {
    'acc' : accuracy_score(y_test, y_pred),
    'f1' : f1_score(y_test, y_pred),
    'auc' : roc_auc_score(y_test, y_pred),
    'recal' : recall_score(y_test, y_pred),
    'precision' : precision_score(y_test, y_pred)}
    
    xgboost.save_model("xgboost.json")
    
    mlflow.log_metrics(metrics)
    mlflow.xgboost.log_model(xgboost, "xgboost.json")

In [None]:
with mlflow.start_run(run_name='drinking_0'):
    mlflow.log_artifact('imgs/')
    mlflow.set_tag("model_name", "CatBoost")
    
    params = {
        'iterations':100,
        'task_type':"GPU",
        'devices':'0:1'
    }
    mlflow.log_params(params)
    catbooster = CatBoostClassifier(iterations=100,
                               task_type="GPU",
                               devices='0:1'
                               )
    catbooster.fit(X_train,y_train,verbose=1)
    y_pred = catbooster.predict(X_test)
    metrics = {
    'acc' : accuracy_score(y_test, y_pred),
    'f1' : f1_score(y_test, y_pred),
    'auc' : roc_auc_score(y_test, y_pred),
    'recal' : recall_score(y_test, y_pred),
    'precision' : precision_score(y_test, y_pred)}
    
    catbooster.save_model('catboost_model',
           format="cbm",
           export_parameters=None,
           pool=None)
    
    mlflow.log_metrics(metrics)
    mlflow.catboost.log_model(catbooster, "catboost_model")

In [None]:
import mlflow
import mlflow.xgboost
from hyperopt import hp, fmin, tpe, STATUS_OK, Trials
from sklearn.model_selection import cross_validate, StratifiedKFold
from xgboost import XGBClassifier

# Inicie uma execução principal do MLflow
with mlflow.start_run(run_name='drinking_2'):

    # Defina a função objetivo
    def objective(params):
        params = {
            'gamma': float(params['gamma']), 
            'learning_rate': float(params['learning_rate']),
            'n_estimators': int(params['n_estimators']),
            'reg_alpha': float(params['reg_alpha']),
            'reg_lambda': float(params['reg_lambda']),
            'max_depth': int(params['max_depth']),
            'colsample_bytree': float(params['colsample_bytree']),
            'min_child_weight': int(params['min_child_weight']),
        }

        # Inicie uma execução aninhada do MLflow para esta iteração
        with mlflow.start_run(nested=True):
            # Registre os parâmetros
            mlflow.log_params(params)

            clf = XGBClassifier(**params,device='cuda')

            cv_results = cross_validate(
                clf, X, y, scoring=scoring, cv=StratifiedKFold(n_splits=3), return_train_score=False
            )

            metrics = {
            'acc' : accuracy_score(y_test, y_pred),
            'f1' : f1_score(y_test, y_pred),
            'auc' : roc_auc_score(y_test, y_pred),
            'recal' : recall_score(y_test, y_pred),
            'precision' : precision_score(y_test, y_pred)}

            # Registre as métricas
            mlflow.log_metrics(metrics)

            # Retorne a perda (negativa, pois o Hyperopt minimiza a função)
            # Aqui, estamos usando a negativa da AUC ROC como perda
            loss = -metrics['roc_auc']
            return {'loss': loss, 'status': STATUS_OK}

    # Defina o espaço de busca dos hiperparâmetros
    space = {
        'gamma': hp.loguniform('gamma', 0.02, 0.1),
        'learning_rate': hp.loguniform('learning_rate', 0.0000007, 0.01),
        'n_estimators': hp.quniform('n_estimators', 50, 350, 1),
        'reg_alpha': hp.loguniform('reg_alpha', 0.02, 0.1),
        'reg_lambda': hp.loguniform('reg_lambda', 0.02, 0.1),
        'max_depth': hp.quniform('max_depth', 6, 10, 1),
        'colsample_bytree': hp.quniform('colsample_bytree', 0.1, 1.0, 0.1),
        'min_child_weight': hp.quniform('min_child_weight', 1, 15, 1),
    }

    bayes_trials = Trials()

    # Execute a otimização
    best = fmin(
        fn=objective,
        space=space,
        trials=bayes_trials,
        algo=tpe.suggest,
        max_evals=20
    )

    print("XGB: Hyperopt estimated optimum {}".format(best))


In [None]:
# with mlflow.start_run(run_name='drinking'):
#     mlflow.set_tag("model_name", "lightgbm")
#     params = {
#         'n_jobs': -1
#     }
#     mlflow.log_params(params)
#     lightgbm = LGBMClassifier(n_jobs=-1)

#     lightgbm.fit(X_train,y_train)

#     y_pred = lightgbm.predict(X_test)

#     metrics = {
#     'acc' : accuracy_score(y_test, y_pred),
#     'f1' : f1_score(y_test, y_pred),
#     'auc' : roc_auc_score(y_test, y_pred),
#     'recal' : recall_score(y_test, y_pred),
#     'precision' : precision_score(y_test, y_pred)}
    
#     joblib.dump(lightgbm, 'lightgbm.pkl')
#     mlflow.log_metrics(metrics)
#     mlflow.lightgbm.log_model(lightgbm, "lightgbm.pkl")

Fontes:

[1] https://en.wikipedia.org/wiki/International_unit

[2] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4069781/#:~:text=Visual%20acuity%20(VA

[3] https://www.cdc.gov/bloodpressure/about.htm#:~:text=Blood%20pressure%20is%20measured%20using,your%20heart%20rests%20between%20beats.

[4] https://www.cdc.gov/bloodpressure/about.htm#:~:text=Blood%20pressure%20is%20measured%20using,your%20heart%20rests%20between%20beats.

[5] https://www.cdc.gov/cholesterol/ldl_hdl.htm#:~:text=Two%20types%20of%20lipoproteins%20carry,for%20heart%20disease%20and%20stroke.

[6] https://www.nhlbi.nih.gov/health/high-blood-triglycerides#:~:text=Triglycerides%20are%20a%20type%20of,does%20not%20need%20right%20away.

[7] https://www.mountsinai.org/health-library/tests/hemoglobin#:~:text=Hemoglobin%20is%20a%20protein%20in,is%20exchanged%20for%20carbon%20dioxide.

[8] https://www.mountsinai.org/health-library/tests/hemoglobin#:~:text=Hemoglobin%20is%20a%20protein%20in,is%20exchanged%20for%20carbon%20dioxide.

[9] https://www.mountsinai.org/health-library/tests/protein-urine-test

[10] https://www.mountsinai.org/health-library/tests/creatinine-blood-test#:~:text=Creatinine%20is%20a%20chemical%20waste,body%20entirely%20by%20the%20kidneys.

[11] https://my.clevelandclinic.org/health/diseases/17649-blood-pressure 

[12] https://www.who.int/data/gho/indicator-metadata-registry/imr-details/2380