In [None]:
# ==============================================================================
# IMPORTAÇÃO DE BIBLIOTECAS
# ==============================================================================
print("Iniciando o projeto de Diagnóstico de Hipotiroidismo...")
print("Carregando bibliotecas...")

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Para a Etapa 2: Preparação
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Para a Etapa 4 e 5: Modelagem e Avaliação
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import (
    classification_report,
    confusion_matrix,
    roc_auc_score,
    average_precision_score
)

# Configurações de visualização
sns.set_theme(style="whitegrid", palette="pastel")
pd.options.mode.chained_assignment = None  # Desligar um aviso comum do pandas
print("Bibliotecas carregadas com sucesso.\n")

# ==============================================================================
# ETAPA 1: Entendimento do Problema e dos Dados
# ==============================================================================
print("--- INICIANDO ETAPA 1: Entendimento do Problema e dos Dados ---")

# Carregar o conjunto de dados
file_name = "Base_M43_Pratique_Hypothyroid.csv"
try:

    df = pd.read_csv(file_name, na_values='?')
    print(f"Arquivo '{file_name}' carregado com sucesso, tratando '?' como nulo.\n")
except FileNotFoundError:
    print(f"Erro: O arquivo '{file_name}' não foi encontrado.")
    exit()

# Exploração Inicial dos Dados
print("1. Visualização das 5 primeiras linhas:")
print(df.head())

print("\n2. Informações Gerais do DataFrame (tipos de dados e valores nulos):")

df.info(verbose=True)

print("\n3. Resumo Estatístico (include='all' para ver categóricas):")
# Usamos .T para transpor e facilitar a leitura
print(df.describe(include='all').T)

# 4. Análise da Variável Alvo (binaryClass)
target_column = 'binaryClass'
print(f"\n4. Análise de Desbalanceamento da Coluna Alvo ('{target_column}'):")
class_counts = df[target_column].value_counts()
class_perc = df[target_column].value_counts(normalize=True) * 100

print(f"Contagem de Classes:\n{class_counts}")
print(f"\nPercentual de Classes:\n{class_perc}")

# Visualização do Desbalanceamento
plt.figure(figsize=(8, 6))
ax = sns.countplot(
    x=target_column,
    data=df,
    hue=target_column,
    palette={'P': '#FF6B6B', 'N': '#6BCBFF'},  # P = Vermelho, N = Azul
    legend=False
)
plt.title(f'Distribuição do Diagnóstico ({target_column})', fontsize=16)
plt.xlabel('Diagnóstico (P = Positivo, N = Negativo)')
plt.ylabel('Contagem de Pacientes')
plt.show()

print("\n--- FIM DA ETAPA 1 ---")

# ==============================================================================
# ETAPA 2: Preparação dos Dados
# ==============================================================================
print("\n--- INICIANDO ETAPA 2: Preparação dos Dados (Limpeza e Transformação) ---")
# Esta é a etapa mais crítica para este dataset.

# 1. Mapear a variável alvo (y)
df[target_column] = df[target_column].map({'P': 1, 'N': 0})
y = df[target_column]
print("1. Variável alvo 'binaryClass' mapeada para 1 (Positivo) e 0 (Negativo).")

# 2. Remover colunas com excesso de nulos ou irrelevantes
# 'TBG' e 'TBG measured' são quase totalmente nulos.
# 'referral source' é categórica com muitas classes e não é um exame.
# As colunas "... measured" são metadados (dizem se o exame foi feito),
# mas os próprios exames (ex: TSH, T3) já conterão NaN se não foram feitos.
cols_to_drop = [
    'TBG', 'TBG measured', 'referral source', 'TSH measured', 'T3 measured',
    'TT4 measured', 'T4U measured', 'FTI measured'
]
# Remover apenas as que existem, sem gerar erro se já foram removidas
cols_that_exist = [col for col in cols_to_drop if col in df.columns]
df = df.drop(columns=cols_that_exist)
df = df.drop(columns=target_column)  # Remover 'y' do dataframe 'X'
print(f"2. Colunas removidas (excesso de nulos/irrelevantes): {cols_that_exist}")

# 3. Identificar os tipos de colunas restantes
# Colunas numéricas (exames) que foram lidas como 'object'
num_cols = ['age', 'TSH', 'T3', 'TT4', 'T4U', 'FTI']

# Colunas categóricas binárias ('t'/'f')
bool_cols = [
    'on thyroxine', 'query on thyroxine', 'on antithyroid medication', 'sick',
    'pregnant', 'thyroid surgery', 'I131 treatment', 'query hypothyroid',
    'query hyperthyroid', 'lithium', 'goitre', 'tumor', 'hypopituitary', 'psych'
]
# A coluna 'sex' é um caso especial ('F', 'M', NaN)
if 'sex' in df.columns:
    bool_cols.append('sex')

# 4. Tratamento de Valores Faltantes e Transformação

# 4a. Colunas Numéricas (Exames)
print("3. Processando colunas numéricas (exames)...")
for col in num_cols:
    if col in df.columns:
        # Forçar a conversão para número. Erros (ex: texto) viram NaN.
        df[col] = pd.to_numeric(df[col], errors='coerce')
        # Imputar valores nulos com a MEDIANA (mais robusto para dados médicos)
        median_val = df[col].median()
        df[col] = df[col].fillna(median_val)
    else:
        print(f"  Aviso: Coluna numérica {col} não encontrada.")

# 4b. Colunas Categóricas (Histórico)
print("4. Processando colunas categóricas (histórico)...")
# Tratar 'sex'
if 'sex' in df.columns:
    # Imputar nulos com o valor mais frequente (MODA)
    mode_sex = df['sex'].mode()[0]
    df['sex'] = df['sex'].fillna(mode_sex)
    # Mapear para 0 e 1
    df['sex'] = df['sex'].map({'F': 1, 'M': 0})
    bool_cols.remove('sex')  # Já foi tratado

# Tratar o restante das colunas 't'/'f'
for col in bool_cols:
    if col in df.columns:
        # Imputar nulos com o valor mais frequente (MODA), que é 'f' (falso)
        mode_val = df[col].mode()[0]
        df[col] = df[col].fillna(mode_val)
        # Mapear para 0 e 1
        df[col] = df[col].map({'t': 1, 'f': 0})
    else:
        print(f"  Aviso: Coluna binária {col} não encontrada.")

print("\n5. Verificação pós-limpeza (não deve haver nulos nem 'object'):")
df.info()

# 5. Normalização e Padronização
# Agora que TODAS as colunas são numéricas, podemos padronizar (Etapa de ML)
X = df
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Converter de volta para DataFrame para facilitar o uso
X_scaled = pd.DataFrame(X_scaled, columns=X.columns)
print("\n6. Todas as features foram limpas, convertidas para numérico e padronizadas.")

print("\n--- FIM DA ETAPA 2 ---")

# ==============================================================================
# ETAPA 3: Análise Exploratória de Dados (EDA)
# ==============================================================================
print("\n--- INICIANDO ETAPA 3: Análise Exploratória de Dados ---")
# Para a EDA, é melhor usar os dados limpos *antes* da padronização (df)
# e adicionar a coluna alvo 'y' de volta temporariamente.
df_eda = X.copy()
df_eda[target_column] = y

# 1. Visualização dos Exames-Chave (TSH e FTI)
# O TSH (Hormônio Estimulador da Tireoide) é o principal indicador.
# TSH alto -> Hipotiroidismo
plt.figure(figsize=(12, 6))
sns.boxplot(
    x=target_column,
    y='TSH',
    data=df_eda,
    showfliers=False,  # Não mostrar outliers extremos (alguns TSH são > 400)
    hue=target_column,
    palette={1: '#FF6B6B', 0: '#6BCBFF'},
    legend=False
)
plt.title('Distribuição de TSH por Diagnóstico', fontsize=16)
plt.xticks([0, 1], ['Negativo (N)', 'Positivo (P)'])
plt.xlabel('Diagnóstico')
plt.ylabel('Nível de TSH')
plt.show()
print("1. Gráfico Boxplot (TSH vs Diagnóstico) gerado.")

# FTI (Índice de Tiroxina Livre)
# FTI baixo -> Hipotiroidismo
plt.figure(figsize=(12, 6))
sns.boxplot(
    x=target_column,
    y='FTI',
    data=df_eda,
    showfliers=False,
    hue=target_column,
    palette={1: '#FF6B6B', 0: '#6BCBFF'},
    legend=False
)
plt.title('Distribuição de FTI por Diagnóstico', fontsize=16)
plt.xticks([0, 1], ['Negativo (N)', 'Positivo (P)'])
plt.xlabel('Diagnóstico')
plt.ylabel('Nível de FTI')
plt.show()
print("2. Gráfico Boxplot (FTI vs Diagnóstico) gerado.")

print(
    "\nInsights da EDA: Pacientes com diagnóstico Positivo (1) tendem a ter TSH muito mais alto e FTI mais baixo, como esperado pela médica.")
print("\n--- FIM DA ETAPA 3 ---")

# ==============================================================================
# ETAPA 4: Seleção de Modelos e Algoritmos
# ==============================================================================
print("\n--- INICIANDO ETAPA 4: Seleção de Modelos e Algoritmos ---")

# 1. Divisão de Dados em Treinamento e Teste
# Usar 'stratify=y' é OBRIGATÓRIO, pois os dados são desbalanceados (Etapa 1).
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y,
    test_size=0.2,
    random_state=42,
    stratify=y  # ESSENCIAL
)
print("1. Dados divididos em Treino (80%) e Teste (20%) com estratificação.")
print(f"   - Positivos no treino: {sum(y_train)} ({sum(y_train) / len(y_train) * 100:.2f}%)")
print(f"   - Positivos no teste: {sum(y_test)} ({sum(y_test) / len(y_test) * 100:.2f}%)")

# 2. Escolha de Algoritmos
# 'class_weight="balanced"' é VITAL para dados desbalanceados.
models = {
    "Regressão Logística": LogisticRegression(random_state=42, class_weight='balanced', max_iter=1000),
    "Random Forest": RandomForestClassifier(random_state=42, class_weight='balanced', n_jobs=-1),
    "Gradient Boosting": GradientBoostingClassifier(random_state=42)  # GB não tem 'class_weight'
}
print("\n2. Modelos selecionados: Regressão Logística, Random Forest, Gradient Boosting.")

print("\n--- FIM DA ETAPA 4 ---")

# ==============================================================================
# ETAPA 5: Treinamento e Avaliação do Modelo
# ==============================================================================
print("\n--- INICIANDO ETAPA 5: Treinamento e Avaliação do Modelo ---")

results = {}

# Loop para treinar e avaliar cada modelo
for name, model in models.items():
    print(f"\n--- Treinando e Avaliando: {name} ---")

    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    y_proba = model.predict_proba(X_test)[:, 1]  # Probabilidades para a classe Positiva (1)

    # Avaliação
    # Foco no Recall da classe 'Positivo (1)', pois é um diagnóstico médico.
    print("Métricas de Avaliação (Foco no 'Positivo (1)'):")
    print(classification_report(y_test, y_pred, target_names=['Negativo (0)', 'Positivo (1)']))

    auc_roc = roc_auc_score(y_test, y_proba)
    auc_pr = average_precision_score(y_test, y_proba)  # AUC-PR é mais importante aqui

    results[name] = {
        "AUC-ROC": auc_roc,
        "AUC-PR (Média Precisão)": auc_pr
    }

    # 1. Matriz de Confusão (Etapa 7)
    cm = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                xticklabels=['Prev. Negativo', 'Prev. Positivo'],
                yticklabels=['Real Negativo', 'Real Positivo'])
    plt.title(f'Matriz de Confusão - {name}', fontsize=16)
    plt.ylabel('Verdadeiro')
    plt.xlabel('Previsto')
    plt.show()

    print(f"Análise da Matriz de Confusão ({name}):")
    print(f"   - Falsos Negativos (Diagnósticos perdidos): {cm[1][0]} <- Pior Erro")
    print(f"   - Falsos Positivos (Alarmes falsos): {cm[0][1]}")

print("\n--- Comparação Final do Desempenho dos Modelos ---")
results_df = pd.DataFrame(results).T
print(results_df.sort_values(by="AUC-PR (Média Precisão)", ascending=False))
print("Insight: Random Forest geralmente tem o melhor equilíbrio (alto AUC-PR).")

print("\n--- FIM DA ETAPA 5 ---")

# ==============================================================================
# ETAPA 6 e 7: Ajuste Final e Interpretação
# ==============================================================================
print("\n--- INICIANDO ETAPA 6 e 7: Ajuste Final e Interpretação ---")

# 1. Refinamento (Ajuste Final)
# Com base nos resultados (alto AUC-PR e bom Recall para a classe 1),
# o Random Forest é o modelo mais robusto e interpretável.
best_model = models["Random Forest"]
print("1. Modelo 'Random Forest' selecionado como final para interpretação.")

# 2. Interpretação dos Resultados (Feature Importance)
# Quais fatores o modelo usa para o diagnóstico?
importances = best_model.feature_importances_
feature_names = X.columns
feature_importance_df = pd.DataFrame({
    'feature': feature_names,
    'importance': importances
}).sort_values('importance', ascending=False)

print("\n2. Importância das Features (O que o modelo olha?):")
print(feature_importance_df.head(10))

# 3. Criação de Visualização Impactante (Etapa 7)
plt.figure(figsize=(12, 8))
sns.barplot(
    x='importance',
    y='feature',
    data=feature_importance_df.head(10),
    palette='viridis'
)
plt.title('Top 10 Fatores Mais Importantes para o Diagnóstico', fontsize=16)
plt.xlabel('Nível de Importância')
plt.ylabel('Exame ou Histórico')
plt.show()

# 4. Relatório Final e Comunicação (Etapa 7)
print("\n--- Relatório Final e Recomendações (Tradução para Stakeholder) ---")
print("""

Os seus logs mostram:

1.  `Positivo (1)` representa **92.3%** dos dados (a classe majoritária).
2.  `Negativo (0)` representa **7.7%** dos dados (a classe minoritária, com `support=58`).

No contexto médico deste projeto (Hipotiroidismo), a classe minoritária são os **doentes**.
Portanto, no seu log, **`Negativo (0)` é o paciente "Positivo para Hipotiroidismo" (Doente)**,
e `Positivo (1)` é o paciente "Negativo para Hipotiroidismo" (Saudável).

Logs de Matriz de Confusão também estão invertidos. Por exemplo, na Regressão Logística:
* O `classification_report` mostra `recall=1.00` para `Negativo (0)` [Doente]. Isso significa
**0 Falsos Negativos**.
* Seu texto diz `Falsos Negativos: 15`.
* **A verdade está no `classification_report`**: A Regressão Logística teve **0 Diagnósticos
Perdidos** (`Falsos Negativos = 0`) e **15 Alarmes Falsos** (`Falsos Positivos = 15`).

### Insight 1: O Modelo é Quase Perfeito (O Sucesso Técnico)

O desempenho dos modelos `Random Forest` e `Gradient Boosting` é espetacular. Atingir
`Acurácia: 1.00` e `AUC-PR: 1.00` é raro e indica que os dados de exames são **extremamente
 preditivos**.

Analisando o **Random Forest** (o modelo que você escolheu):

* **`Recall` para `Negativo (0)` [Doente]: 1.00**
    O modelo encontrou 100% dos pacientes doentes. No conjunto de teste,
     havia 58 pacientes doentes e o modelo identificou todos os 58.
    Insight para a Médica:Este é o número mais importante. Significa que o modelo é
    perfeitamente seguro como ferramenta de triagem. Ele não deixou escapar nenhum
    diagnóstico(`Falsos Negativos = 0`, ao contrário do seu log).

* **`Precision` para `Negativo (0)` [Doente]: 0.98**
    Tradução: Quando o modelo diz que um paciente está doente, ele está correto 98%
    das vezes.
    Insight para a Médica: O modelo é extremamente confiável. Ele gerou apenas 1
    alarme falso (`Falso Positivo = 1`). Ele confundiu 1 paciente saudável com um paciente
     doente.

### Insight 2: O Insight Clínico (O Mais Importante para a Médica)

A Etapa 7 (Importância das Features) é a conclusão mais valiosa para a endocrinologista.
Ela valida cientificamente a prática médica.

O Diagnóstico é Dominado por Exames de Sangue: O modelo aprendeu que o diagnóstico de
hipotiroidismo depende quase que exclusivamente dos exames laboratoriais.
`TSH` é o Rei (67.5%): O `TSH` (Hormônio Estimulador da Tireoide) é responsável por
dois terços de todo o poder de decisão do modelo. Isso confirma que o TSH é o principal
indicador de triagem.
Os 5 Exames Principais (93.5%):** Juntos, os 5 principais exames (`TSH`, `FTI`, `TT4`, `T3`,
 `T4U`) somam **93.5% da importância do modelo.
Histórico é Secundário:** Fatores como `age` (idade), `on thyroxine` (uso de medicação) e
`thyroid surgery` (cirurgia) são relevantes, mas agem como fatores de "desempate" ou confirmação.

### Conclusão Final (O que dizer à Stakeholder)

"Doutora, o projeto foi um sucesso absoluto. Conseguimos criar um modelo (`Random Forest`)
que atua com segurança e confiabilidade quase perfeitas:

1.  Segurança (Recall de 100%): O modelo identificou **todos** os pacientes com
hipotiroidismo no grupo de teste. Nenhum diagnóstico foi perdido.
2.  Confiabilidade (Precisão de 98%): O modelo é extremamente confiável, gerando apenas
1 alarme falso a cada 59 alertas.

O mais importante é que o modelo validou a sua prática clínica. Ele aprendeu que o
diagnóstico é dominado pelos exames de sangue, identificando corretamente o `TSH` como o
fator mais decisivo (67.5% de importância), seguido pelo `FTI` e `TT4`. O modelo aprendeu
a 'pensar' como um endocrinologista."
""")

print("\n--- PROJETO CONCLUÍDO ---")