In [7]:
import pandas as pd
import numpy as np

# Carregue cada arquivo de dados
# Lembre-se de ajustar o caminho se você salvou os arquivos em outro lugar
try:
    df_demo = pd.read_sas('data/DEMO_J.xpt')
    df_biopro = pd.read_sas('data/BIOPRO_J.xpt')
    df_cbc = pd.read_sas('data/CBC_J.xpt')
except FileNotFoundError:
    print("Erro: Arquivo .XPT não encontrado. Verifique se você baixou os arquivos e os colocou na pasta 'data'.")
    # Pare a execução ou lide com o erro como preferir
    exit()


# Selecione apenas as colunas de interesse para manter o DataFrame limpo
# O identificador único de cada participante é a coluna 'SEQN'
demo_cols = ['SEQN', 'RIDAGEYR'] # ID e Idade
biopro_cols = ['SEQN', 'LBXSATSI', 'LBXSASSI'] # ID, ALT (U/L), AST (U/L)
cbc_cols = ['SEQN', 'LBXPLTSI'] # ID, Plaquetas (10^9/L)

df_demo = df_demo[demo_cols]
df_biopro = df_biopro[biopro_cols]
df_cbc = df_cbc[cbc_cols]

# Renomeie as colunas para nomes mais intuitivos
df_demo.rename(columns={'RIDAGEYR': 'Age'}, inplace=True)
df_biopro.rename(columns={'LBXSATSI': 'ALT', 'LBXSASSI': 'AST'}, inplace=True)
df_cbc.rename(columns={'LBXPLTSI': 'Platelets'}, inplace=True)


# Junte (merge) os dataframes em um único, usando o 'SEQN' como chave
# Usamos 'outer' join para começar e depois trataremos os valores ausentes
df_merged = pd.merge(df_demo, df_biopro, on='SEQN', how='outer')
df_final = pd.merge(df_merged, df_cbc, on='SEQN', how='outer')


# Verifique o resultado
print("Dimensões do DataFrame final:", df_final.shape)
print("\nPrimeiras 5 linhas:")
print(df_final.head())
print("\nVerificação de valores nulos:")
print(df_final.isnull().sum())

Dimensões do DataFrame final: (9254, 5)

Primeiras 5 linhas:
      SEQN   Age   ALT   AST  Platelets
0  93703.0   2.0   NaN   NaN        NaN
1  93704.0   2.0   NaN   NaN      239.0
2  93705.0  66.0  16.0  20.0      309.0
3  93706.0  18.0  10.0  14.0      233.0
4  93707.0  13.0  13.0  24.0      348.0

Verificação de valores nulos:
SEQN            0
Age             0
ALT          3352
AST          3372
Platelets    1726
dtype: int64


In [8]:
# --- PASSO 2.1: LIMPEZA DOS DADOS ---
# Vamos remover as linhas que não possuem os valores necessários para o cálculo do FIB-4.
# O método .dropna() remove linhas com valores nulos (NaN).
df_clean = df_final.dropna(subset=['Age', 'ALT', 'AST', 'Platelets']).copy()

# Filtrar por idade: o FIB-4 é geralmente validado para adultos. Vamos focar em maiores de 18 anos.
df_clean = df_clean[df_clean['Age'] >= 18]

print(f"Dimensões do DataFrame após limpeza e filtro de idade: {df_clean.shape}")
if df_clean.shape[0] == 0:
    print("\nAVISO: Não restaram dados após a limpeza. Verifique os dataframes originais.")
else:
    # --- PASSO 2.2: ENGENHARIA DE ATRIBUTOS (CÁLCULO DO FIB-4) ---
    # Adicionamos um pequeno valor (epsilon) ao denominador para evitar divisão por zero, caso ALT seja 0.
    epsilon = 1e-6
    
    # Aplicando a fórmula do FIB-4
    df_clean['FIB4'] = (df_clean['Age'] * df_clean['AST']) / (df_clean['Platelets'] * np.sqrt(df_clean['ALT'] + epsilon))
    
    print("\nPrimeiras 5 linhas com a coluna FIB4 calculada:")
    print(df_clean.head())

    # --- PASSO 2.3: CRIAÇÃO DA VARIÁVEL ALVO (RISCO) ---
    # Definimos uma função para aplicar os pontos de corte e classificar o risco
    def classify_risk(fib4_score):
        if fib4_score < 1.3:
            return 'Baixo Risco'
        elif fib4_score > 2.67:
            return 'Alto Risco'
        else:
            return 'Risco Intermediário'

    # Aplicamos a função para criar a coluna 'Risk'
    df_clean['Risk'] = df_clean['FIB4'].apply(classify_risk)

    print("\nDistribuição das classes de risco:")
    print(df_clean['Risk'].value_counts())
    
    # --- PASSO 2.4: PREPARAÇÃO PARA MODELAGEM ---
    # Para simplificar o problema inicial, vamos focar em um modelo binário: Baixo Risco vs. Alto Risco.
    # Iremos ignorar a classe 'Risco Intermediário' por enquanto.
    df_model = df_clean[df_clean['Risk'].isin(['Baixo Risco', 'Alto Risco'])].copy()
    
    # Convertendo as classes de texto para números (0 para Baixo Risco, 1 para Alto Risco)
    df_model['Risk_encoded'] = df_model['Risk'].apply(lambda x: 1 if x == 'Alto Risco' else 0)

    # Selecionando as features (X) e a variável alvo (y)
    features = ['Age', 'ALT', 'AST', 'Platelets']
    target = 'Risk_encoded'

    X = df_model[features]
    y = df_model[target]

    print(f"\nTotal de amostras para o modelo (Baixo vs. Alto Risco): {X.shape[0]}")
    
    # --- PASSO 2.5: TREINAMENTO E AVALIAÇÃO DE UM MODELO SIMPLES ---
    from sklearn.model_selection import train_test_split
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.metrics import classification_report

    # Dividindo os dados em conjuntos de treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

    # Criando e treinando o modelo RandomForest
    model = RandomForestClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)

    # Fazendo previsões e avaliando o modelo
    y_pred = model.predict(X_test)

    print("\n--- Relatório de Classificação do Modelo Preditivo ---")
    print(classification_report(y_test, y_pred, target_names=['Baixo Risco', 'Alto Risco']))

Dimensões do DataFrame após limpeza e filtro de idade: (5134, 5)

Primeiras 5 linhas com a coluna FIB4 calculada:
      SEQN   Age   ALT   AST  Platelets      FIB4
2  93705.0  66.0  16.0  20.0      309.0  1.067961
3  93706.0  18.0  10.0  14.0      233.0  0.342015
5  93708.0  66.0  19.0  21.0      226.0  1.406948
6  93709.0  75.0  15.0  17.0      228.0  1.443875
8  93711.0  56.0  20.0  23.0      264.0  1.090930

Distribuição das classes de risco:
Risk
Baixo Risco            3596
Risco Intermediário    1349
Alto Risco              189
Name: count, dtype: int64

Total de amostras para o modelo (Baixo vs. Alto Risco): 3785

--- Relatório de Classificação do Modelo Preditivo ---
              precision    recall  f1-score   support

 Baixo Risco       1.00      1.00      1.00      1079
  Alto Risco       1.00      0.91      0.95        57

    accuracy                           1.00      1136
   macro avg       1.00      0.96      0.98      1136
weighted avg       1.00      1.00      1.00  