In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
from sklearn.model_selection import GridSearchCV
from sklearn.utils.class_weight import compute_class_weight # <-- Importar para calcular pesos
from imblearn.pipeline import Pipeline as ImbPipeline
from imblearn.over_sampling import SMOTE
from xgboost import XGBClassifier
import matplotlib.pyplot as plt



In [2]:
df = pd.read_csv('/mnt/c/Users/AcerGamer/Downloads/Tuberculose/Projeto-Tuberculose/dados/arquivos_csv/dados_tuberculose_transformados.csv', low_memory=False)

In [3]:
porcentagem_nulos = df.isnull().mean() * 100
colunas_para_remover = porcentagem_nulos[porcentagem_nulos > 30].index
df = df.drop(columns=colunas_para_remover)
print(f"Restaram {df.shape[1]} colunas após remoção de ausentes.")


Restaram 48 colunas após remoção de ausentes.


In [4]:
# --- Seleção de Colunas para o Modelo ---
colunas_modelo = [
    'FORMA',            # variável alvo
    'CS_SEXO',
    'CS_RACA',
    'NU_IDADE_N',
    'HIV',
    'AGRAVAIDS',
    'AGRAVALCOO',
    'RAIOX_TORA',
    'BACILOSC_E',
    'CULTURA_ES',
    'NU_ANO'            # ano da notificação
]
df_modelo = df[colunas_modelo].copy()


# --- Conversão da coluna NU_IDADE_N ---

In [5]:
df_modelo['NU_IDADE_N'] = df_modelo['NU_IDADE_N'].fillna(0)

In [6]:
def converter_idade_para_modelo(nu_idade_n):
    if pd.isna(nu_idade_n) or int(nu_idade_n) == 0: # Trata NaNs ou 0000 como idade ignorada
        return np.nan # Retorna np.nan para ser imputado posteriormente

    nu_idade_n = int(nu_idade_n) # Garante que é inteiro para as operações
    unidade = nu_idade_n // 1000
    valor = nu_idade_n % 1000

    if unidade == 1:  # Horas
        return valor / (24 * 365)
    elif unidade == 2:  # Dias
        return valor / 365
    elif unidade == 3:  # Meses
        return valor / 12
    elif unidade == 4:  # Anos
        return valor
    else: # Idade ignorada ou inválida (ex: '0000')
        return np.nan

In [7]:
# Aplica a função para criar a coluna de idade em anos correta
df_modelo['NU_IDADE_ANOS_CORRETA'] = df_modelo['NU_IDADE_N'].apply(converter_idade_para_modelo)


In [8]:
# Preencher NaNs na nova coluna de idade (se houver, após a conversão) com a mediana
mediana_idade_correta = df_modelo['NU_IDADE_ANOS_CORRETA'].median()
df_modelo['NU_IDADE_ANOS_CORRETA'] = df_modelo['NU_IDADE_ANOS_CORRETA'].fillna(mediana_idade_correta)


In [9]:
# Criar Faixa Etária a partir da idade correta
bins = [0, 18, 35, 50, 65, 120]
labels = ['Jovem', 'Adulto Jovem', 'Adulto', 'Idoso', 'Muito Idoso']
df_modelo['faixa_etaria'] = pd.cut(df_modelo['NU_IDADE_ANOS_CORRETA'], bins=bins, labels=labels, right=False, include_lowest=True)


In [10]:
# 2. Criar um contador de comorbidades/fatores de risco
# Garantir que AGRAVAIDS e AGRAVALCOO sejam numéricos antes de operar
df_modelo['AGRAVAIDS'] = pd.to_numeric(df_modelo['AGRAVAIDS'], errors='coerce').fillna(0.0)
df_modelo['AGRAVALCOO'] = pd.to_numeric(df_modelo['AGRAVALCOO'], errors='coerce').fillna(0.0)

df_modelo['total_comorbidades'] = (df_modelo['AGRAVAIDS'] == 1.0).astype(int) + \
                                  (df_modelo['AGRAVALCOO'] == 1.0).astype(int)


In [11]:
# 3. Criar feature de interação para HIV com AIDS
# Preencher NaNs antes da comparação para 'HIV'
df_modelo['HIV'] = df_modelo['HIV'].fillna('Não Informado')

df_modelo['hiv_positivo_com_aids'] = ((df_modelo['HIV'] == 'Reagente') & (df_modelo['AGRAVAIDS'] == 1.0))

# Remover colunas originais que foram transformadas/substituídas
df_modelo = df_modelo.drop(columns=['NU_IDADE_N', 'AGRAVAIDS', 'AGRAVALCOO'])


In [12]:
# Garantir que a coluna FORMA é float para poder adicionar 4.0
df_modelo['FORMA'] = df_modelo['FORMA'].fillna(0).astype(float) # Preenche NaNs com 0 e converte para float


In [13]:
print(f"Número de linhas em df_modelo antes da filtragem de FORMA=0.0: {len(df_modelo)}")
df_modelo = df_modelo[df_modelo['FORMA'] != 0.0].copy() # Filtra as linhas onde FORMA é 0.0
print(f"Número de linhas em df_modelo após a filtragem de FORMA=0.0: {len(df_modelo)}")


Número de linhas em df_modelo antes da filtragem de FORMA=0.0: 502271
Número de linhas em df_modelo após a filtragem de FORMA=0.0: 502083


## --- Criação do df de pessoas saudaveis ---

In [14]:
# Converter colunas categóricas para string NO DATAFRAME ORIGINAL
# Isso é crucial para garantir que os tipos sejam consistentes ANTES da concatenação
categorical_cols_original = [
    'CS_SEXO', 'CS_RACA', 'HIV', 'RAIOX_TORA', 'BACILOSC_E', 'CULTURA_ES'
]
for col in categorical_cols_original:
    if col in df_modelo.columns:
        df_modelo[col] = df_modelo[col].astype(str)

print("--- Debug da Coluna 'FORMA' no df_modelo_atualizado ---")
print(f"Valores únicos em 'FORMA' ANTES do mapeamento: {df_modelo['FORMA'].unique()}")
print(f"Contagem de nulos em 'FORMA' ANTES do mapeamento: {df_modelo['FORMA'].isnull().sum()}")


--- Debug da Coluna 'FORMA' no df_modelo_atualizado ---
Valores únicos em 'FORMA' ANTES do mapeamento: [1. 2. 3.]
Contagem de nulos em 'FORMA' ANTES do mapeamento: 0


In [15]:
num_saudaveis = df_modelo['FORMA'].value_counts().max() # Pega o tamanho da maior classe (1.0)
# Criar um DataFrame para pessoas saudáveis
data_saudaveis = {
    'CS_SEXO': np.random.choice(['M', 'F'], size=num_saudaveis), # Exemplo: sexo aleatório
    'CS_RACA': np.random.choice([1.0, 2.0, 3.0, 4.0, 5.0], size=num_saudaveis).astype(str), # Exemplo: raça predominante
    'HIV': np.random.choice(['Negativo', 'Não Informado'], size=num_saudaveis, p=[0.9, 0.1]),
    'RAIOX_TORA': np.random.choice(['Normal', 'Não Realizado'], size=num_saudaveis, p=[0.8, 0.2]),
    'BACILOSC_E': ['Negativo'] * num_saudaveis,
    'CULTURA_ES': ['Negativo'] * num_saudaveis,
    'NU_ANO': np.random.randint(2010, 2024, size=num_saudaveis), # Ano de notificação razoável
    'NU_IDADE_ANOS_CORRETA': np.random.randint(18, 60, size=num_saudaveis), # Idade típica de adultos
    'faixa_etaria': np.random.choice(['Jovem', 'Adulto Jovem', 'Adulto'], size=num_saudaveis, p=[0.2, 0.5, 0.3]).astype(str), # Faixa etária mais comum
    'total_comorbidades': [0] * num_saudaveis, # Sem comorbidades
    'hiv_positivo_com_aids': [False] * num_saudaveis, # Não HIV+ e sem AIDS
    'FORMA': [4.0] * num_saudaveis # Nova label para "Saudável"
}
df_saudaveis = pd.DataFrame(data_saudaveis)

In [16]:
# === IMPORTANTE: Garantir tipos consistentes para todas as categóricas em AMBOS os DataFrames ===

# Defina a lista COMPLETA de colunas categóricas usadas no pipeline
all_categorical_features_for_model = [
    'CS_SEXO', 'CS_RACA', 'HIV', 'faixa_etaria', 'hiv_positivo_com_aids',
    'RAIOX_TORA', 'BACILOSC_E', 'CULTURA_ES'
]

# Converter colunas categóricas para string em df_modelo
for col in all_categorical_features_for_model:
    if col in df_modelo.columns:
        df_modelo[col] = df_modelo[col].astype(str)

# Converter colunas categóricas para string em df_saudaveis
for col in all_categorical_features_for_model:
    if col in df_saudaveis.columns:
        df_saudaveis[col] = df_saudaveis[col].astype(str)

# Certifique-se de que a coluna 'hiv_positivo_com_aids' no df_modelo também é string
# (Apesar da criação como bool, o OneHotEncoder precisa dela como string/object)
df_modelo['hiv_positivo_com_aids'] = df_modelo['hiv_positivo_com_aids'].astype(str)

# df_saudaveis['FORMA'] = [4.0] * num_saudaveis # Esta linha pode ser mantida ou removida se já estiver no dicionário data_saudaveis

# --- Preparação dos Dados para o Modelo ---

In [17]:
# Preencher NaNs da FORMA com a moda antes de converter para int (se houver)
#df_modelo['FORMA'] = df_modelo['FORMA'].fillna(df_modelo['FORMA'].mode()[0])
y = df_modelo['FORMA'].astype(int)
X = df_modelo.drop('FORMA', axis=1)


In [18]:
# ---- Codificar a variável alvo 'FORMA' para 0, 1, 2 ----
le = LabelEncoder()
y = le.fit_transform(df_modelo['FORMA'].astype(int)) # y agora será 0, 1, 2
#X = df_modelo.drop('FORMA', axis=1)

In [19]:
# Identificar colunas numéricas e categóricas (APÓS a engenharia de features)

numeric_features = ['NU_ANO', 'NU_IDADE_ANOS_CORRETA', 'total_comorbidades']

# Adicione as colunas que você identificou como categóricas/ordinais
categorical_features = [
    'CS_SEXO', 'CS_RACA', 'HIV', 'faixa_etaria', 'hiv_positivo_com_aids',
    'RAIOX_TORA', 'BACILOSC_E', 'CULTURA_ES' 
]

# Certifique-se de que não há sobreposição ou colunas faltando
# (pode ser útil um print(X.columns) para verificar todas as colunas em X)
print("Colunas numéricas selecionadas:", numeric_features)
print("Colunas categóricas selecionadas:", categorical_features)

Colunas numéricas selecionadas: ['NU_ANO', 'NU_IDADE_ANOS_CORRETA', 'total_comorbidades']
Colunas categóricas selecionadas: ['CS_SEXO', 'CS_RACA', 'HIV', 'faixa_etaria', 'hiv_positivo_com_aids', 'RAIOX_TORA', 'BACILOSC_E', 'CULTURA_ES']


In [20]:
# --- Construção do Pipeline Avançado (com XGBoost e Imputação Melhorada) ---
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')), # Imputa NaNs resultantes da conversão de idade
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')), # Imputa NaNs nas categóricas
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough' # Manter colunas não especificadas (se houver)
)

## --- Definição da Estratégia de Superamostragem para SMOTE ---

In [21]:
# Criar o pipeline final usando o ImbPipeline
pipeline_final = ImbPipeline(steps=[
    ('preprocessor', preprocessor),
    # SelectFromModel: mantido para possível redução de dimensionalidade, mas com um estimador XGBoost
    #('selector', SelectFromModel(XGBClassifier(n_estimators=50, random_state=42, use_label_encoder=False, eval_metric='mlogloss'))),
    ('smote', SMOTE(random_state=42, sampling_strategy='auto')), 
    ('classifier', XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='mlogloss', tree_method='hist'))
])

In [23]:
# 3. Definir a grade de parâmetros para o GridSearchCV
# Comece com uma grade menor para testar se tudo funciona, depois expanda.
param_grid = {
    'classifier__n_estimators': [100, 200], # Número de árvores
    'classifier__learning_rate': [0.05, 0.1], # Taxa de aprendizado
    'classifier__max_depth': [3, 5], # Profundidade máxima da árvore
}

In [24]:
# 4. Escolher a métrica de avaliação para o GridSearchCV
# 'f1_weighted' é geralmente uma boa escolha para problemas multiclasse desbalanceados.
# 'f1_macro' trata todas as classes com peso igual, bom para focar nas minorias.
# 'recall_macro' se encontrar todos os positivos for mais crítico para todas as classes.
scoring_metric = 'f1_macro'

In [26]:
# 5. Criar e executar o GridSearchCV
grid_search = GridSearchCV(
    estimator=pipeline_final, # O pipeline com SMOTE
    param_grid=param_grid,
    cv=3, # Comece com cv=3 ou 5 para agilizar. Pode aumentar depois.
    scoring=scoring_metric,
    n_jobs=-1, # Usa todos os núcleos da CPU disponíveis para acelerar
    verbose=3 # Mostra o progresso
)

In [27]:
# Certifique-se que X_train e y_train são seus conjuntos de treino originais (sem SMOTE aplicado previamente)
# O pipeline irá cuidar do SMOTE internamente durante o treinamento
print("\nIniciando GridSearchCV...")
grid_search.fit(X_train, y_train)


Iniciando GridSearchCV...


NameError: name 'X_train' is not defined

In [None]:
# 6. Obter os melhores resultados
print(f"\nMelhores parâmetros encontrados: {grid_search.best_params_}")
print(f"Melhor {scoring_metric} na validação cruzada: {grid_search.best_score_:.4f}")


In [None]:
# 7. Avaliar o melhor modelo no conjunto de teste
best_model = grid_search.best_estimator_

# Prever no conjunto de teste usando o melhor modelo
y_pred_best = best_model.predict(X_test)


In [None]:
y_pred_best_nomes = [encoded_to_descriptive_name_map[p] for p in y_pred_best]


# --- Treinamento e Avaliação ---

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

print("Iniciando o treinamento do pipeline completo com XGBoost...")
pipeline_final.fit(X_train, y_train)
print("Treinamento concluído.")


In [None]:
# Fazer predições no conjunto de teste
y_pred = pipeline_final.predict(X_test)


In [None]:
# 1. Reverter as predições e o y_test para os rótulos numéricos originais (1, 2, 3)
# O `le` é o LabelEncoder que você usou para transformar 'FORMA' para 0, 1, 2
#y_pred_original_ids = le.inverse_transform(y_pred)
#y_test_original_ids = le.inverse_transform(y_test)
y_pred_original_ids = le.inverse_transform(y_pred)
y_original_ids = le.inverse_transform(y)

In [None]:
mapeamento_nomes_descritivos = {
    1.0: "Pulmonar",
    2.0: "Extrapulmonar",
    3.0: "Mista",
    4.0: "Saudável"
}
encoded_to_descriptive_name_map = {}
# le.classes_ agora conterá apenas ['1.0', '2.0', '3.0', '4.0']
for i, original_label_str in enumerate(le.classes_):
    original_id_float = float(original_label_str)
    encoded_to_descriptive_name_map[i] = mapeamento_nomes_descritivos[original_id_float]

# Agora, aplicar o mapeamento para as predições e o y_test em formato de nomes
y_pred_nomes = [encoded_to_descriptive_name_map[p] for p in y_pred]
y_test_nomes = [encoded_to_descriptive_name_map[t] for t in y_test]

class_names_order = ["Extrapulmonar", "Mista", "Pulmonar"]

In [None]:
print("\n--- Diagnóstico de Classes ---")
print(f"Valores únicos em y_encoded (após LabelEncoder e antes do split): {np.unique(y)}")
print(f"Classes que o LabelEncoder aprendeu (le.classes_): {le.classes_}")
print(f"Classes únicas presentes em y_test_nomes: {np.unique(y_test_nomes)}")
print(f"Classes únicas presentes em y_pred_nomes: {np.unique(y_pred_nomes)}")
print("--- Fim do Diagnóstico ---\n")

In [None]:
# Relatório de Classificação com Nomes Descritivos
# Ao invés de usar os números, o target_names exibe os nomes no relatório
print("\nRelatório de Classificação com Nomes Descritivos:")
print(classification_report(y_test_nomes, y_pred_nomes, target_names=class_names_order))

cm_nomes = confusion_matrix(y_test_nomes, y_pred_nomes, labels=class_names_order) # <--- AQUI A CORREÇÃO FINAL

print("\nMatriz de Confusão com Nomes Descritivos:")
print(cm_nomes)


In [None]:
disp = ConfusionMatrixDisplay(confusion_matrix=cm_nomes, display_labels=class_names_order)
disp.plot(cmap=plt.cm.Blues)
plt.title('Matriz de Confusão com Nomes Descritivos')
plt.show()

In [None]:
# Exemplo de Predições (opcional, para visualização rápida)
print("\nExemplo de Predições com Nomes:")
for i in range(10): # Mostra os primeiros 10 exemplos do teste
    print(f"Amostra {i+1}: Real: {y_test_nomes[i]}, Predito: {y_pred_nomes[i]}")


In [None]:
# Carregue seu DataFrame original novamente (ou use o 'df' que já está carregado)
df_original = pd.read_csv('/mnt/c/Users/AcerGamer/Downloads/Tuberculose/Projeto-Tuberculose/dados/arquivos_csv/dados_tuberculose_completos.csv', encoding='latin1')

print("Colunas do DataFrame original e seus tipos de dados:")
print(df_original.info())

print("\nPrimeiras 5 linhas do DataFrame original (para ver os valores):")
print(df_original.head())