# **Projeto de IA em Saúde: Modelo Preditivo para Risco de Diabetes na População Pima**

## **1. Descrição do Cenário**

A diabetes é uma doença crônica que afeta milhões de pessoas em todo o mundo e representa um desafio significativo para os sistemas de saúde. A detecção precoce e a identificação de indivíduos em alto risco são cruciais para a prevenção e o manejo eficaz da doença, permitindo intervenções no estilo de vida (dieta, exercícios) que podem retardar ou até mesmo prevenir seu aparecimento.

Este projeto utilizará o dataset "Pima Indians Diabetes Database", que foi originalmente coletado pelo Instituto Nacional de Diabetes e Doenças Digestivas e Renais dos EUA. O dataset contém dados de saúde de mulheres com pelo menos 21 anos de idade, descendentes da tribo Pima, uma população com alta prevalência de diabetes. O objetivo é construir um modelo que possa prever a probabilidade de uma paciente ter diabetes com base em 8 medições diagnósticas.

## **2. Qual é o objetivo do projeto?**

O objetivo principal do projeto é **desenvolver e avaliar um modelo de Machine Learning de alta performance para prever a presença de diabetes com base em dados clínicos e demográficos.**

Os objetivos específicos são:

1.  **Análise Exploratória de Dados (EDA):** Realizar uma análise detalhada do dataset para entender a distribuição de cada variável e a correlação entre elas e o desfecho (presença de diabetes).
2.  **Pré-processamento e Limpeza:** Identificar e tratar os valores implausíveis (zeros inadequados), substituindo-os por estimativas apropriadas (como a média ou mediana), e padronizar os dados para o treinamento.
3.  **Visualização de Dados:** Criar visualizações claras e informativas (histogramas, boxplots, heatmaps) para comunicar os insights encontrados na fase de análise.
4.  **Treinamento e Comparação de Modelos:** Treinar e comparar o desempenho de diferentes algoritmos de classificação (ex: Regressão Logística, K-Nearest Neighbors, Random Forest, Gradient Boosting).
5.  **Avaliação de Performance:** Avaliar os modelos usando um conjunto de métricas robustas, incluindo Acurácia, Precisão, Recall, F1-Score e a Curva ROC/AUC, para selecionar o modelo mais equilibrado e eficaz.
6.  **Interpretabilidade do Modelo:** Utilizar técnicas como *Feature Importance* para identificar quais dos 8 fatores de risco são os mais determinantes para o diagnóstico de diabetes, segundo o melhor modelo.

## **3. Qual é o contexto da organização para o qual o projeto está sendo desenvolvido?**

O projeto está sendo desenvolvido no contexto de uma **Clínica de Atenção Primária à Saúde (fictícia)**, focada em medicina preventiva e manejo de doenças crônicas.

**Contexto da Organização:**

*   **Missão:** A clínica tem como missão oferecer cuidados de saúde proativos e personalizados à sua comunidade, com um forte foco na prevenção de doenças crônicas como diabetes, hipertensão e doenças cardíacas.
*   **Desafio Atual:** Os médicos da clínica identificam pacientes de risco com base em consultas e exames de rotina, mas o processo é reativo e depende da iniciativa do paciente em agendar uma consulta. A clínica deseja implementar um sistema mais proativo para triar sua base de pacientes e identificar aqueles que, mesmo sem sintomas aparentes, possam ter um alto risco de desenvolver diabetes.
*   **Objetivo Estratégico:** A clínica quer adotar ferramentas de análise de dados para criar "scores de risco" para seus pacientes. Este projeto serve como uma prova de conceito para demonstrar como um modelo de Machine Learning, treinado com dados clínicos padrão, pode automatizar e escalar a identificação de pacientes de alto risco.
*   **Aplicação Prática do Projeto:** Se o modelo for bem-sucedido, ele poderia ser integrado ao sistema de prontuário eletrônico da clínica. Periodicamente, o sistema rodaria o modelo nos dados dos pacientes e geraria uma lista priorizada para a equipe de enfermagem. Os pacientes identificados com alto risco seriam então contatados para uma consulta de acompanhamento, exames adicionais e aconselhamento sobre mudanças no estilo de vida, transformando o cuidado de reativo para proativo.
*   
## 4. **Quais técnicas de PLN e ML serão utilizadas?**

Os modelos mais indicados podem ser agrupados em três categorias:

1.  **Modelos Simples e Interpretáveis (Ótimos para Começar)**
2.  **Modelos de Ensemble (Geralmente a Melhor Performance)**
3.  **Outros Modelos Poderosos**

### 1. Modelos Simples e Interpretáveis

Esses modelos são ideais para obter um *baseline* rápido e entender quais features são mais importantes.

#### a) Regressão Logística (Logistic Regression)

*   **Por que é indicado?** É o ponto de partida padrão para qualquer problema de classificação. É rápido, eficiente e, o mais importante, **altamente interpretável**. Pode ver facilmente o peso (coeficiente) que o modelo atribui a cada feature (ex: "um aumento de 10 pontos na Glicose aumenta a chance de diabetes em X%").
*   **Quando usar?** Sempre. É o primeiro modelo para estabelecer uma base de comparação.
*   **Ponto fraco:** Assume uma relação linear entre as features e a probabilidade do resultado, o que nem sempre é verdade.

#### b) K-Nearest Neighbors (KNN)

*   **Por que é indicado?** É um modelo intuitivo baseado em "proximidade". Ele classifica um novo paciente com base na classe da maioria dos seus "vizinhos" mais próximos no conjunto de dados.
*   **Quando usar?** Quando você suspeita que pacientes com características semelhantes têm o mesmo resultado, sem necessariamente haver uma relação linear.
*   **Ponto fraco:** Pode ser lento com muitos dados e é muito sensível à escala das features (exige **padronização**).

### 2. Modelos de Ensemble (Melhor Performance Geral)

Esses modelos combinam as previsões de vários modelos mais simples (geralmente árvores de decisão) para obter um resultado mais robusto e preciso. Eles quase sempre superam os modelos simples em performance.

#### a) Random Forest (Floresta Aleatória)

*   **Por que é indicado?** É um dos modelos mais populares e eficazes que existem. Ele constrói centenas de árvores de decisão em subconjuntos aleatórios dos dados e das features, e a previsão final é a "votação" da maioria das árvores. É robusto a outliers e não exige padronização das features.
*   **Quando usar?** Quando seu objetivo principal é **maximizar a precisão da previsão**.
*   **Ponto fraco:** É menos interpretável que a Regressão Logística (é uma "caixa-preta"). Você pode ver a importância geral das features, mas não a direção do efeito.

#### b) Gradient Boosting (e suas variantes: XGBoost, LightGBM, CatBoost)

*   **Por que é indicado?** **Estes são os reis da performance** em dados tabulares como o seu. Eles constroem árvores de forma sequencial, onde cada nova árvore tenta corrigir os erros da anterior.
*   **Quando usar?** Quando você precisa da **máxima performance preditiva possível**. LightGBM é extremamente rápido, e XGBoost é incrivelmente robusto.
*   **Ponto fraco:** Ainda mais "caixa-preta" que o Random Forest e possui mais hiperparâmetros para ajustar, o que pode tornar o treinamento mais complexo.

### 3. Outros Modelos Poderosos

#### a) Support Vector Machines (SVM)

*   **Por que é indicado?** É um modelo muito poderoso que funciona encontrando o "hiperplano" que melhor separa as duas classes (diabéticos e não diabéticos) no espaço das features. É muito eficaz em espaços de alta dimensão.
*   **Quando usar?** Funciona bem quando há uma separação clara entre as classes, mesmo que essa separação não seja linear (usando o "truque do kernel").
*   **Ponto fraco:** Exige padronização das features e pode ser computacionalmente caro com muitos dados. A interpretação também não é direta.

# Análise Exploratória de Dados (EDA)
Para começar a explorar o dataset, que foi baixado diretamente do site **Kaggle**, vamos primeiro carregar o dataset em dataframe pandas e fazer uma pré visualização para verificar se o dataframe foi criado corretamente.

## Bibliotecas usadas para o projeto
A seguir estão as bibliotecas usadas para o projeto:

In [None]:
import pandas as pd # importando o pandas para manipularmos o 
import numpy as np
from ydata_profiling import ProfileReport # importando o pandas-profiling para fazer o profile do dataset
from sklearn.preprocessing import StandardScaler # importando somente o StandardScaler do scikit-learn
import matplotlib
#matplotlib.use('Agg')  # Use the 'Agg' backend which doesn't require GUI
from sklearn.model_selection import train_test_split, GridSearchCV # utilizado para o split entre treinamento e teste
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

import seaborn as sns
#sns.set_style("whitegrid")  # Options include: darkgrid, whitegrid, dark, white, ticks

## Carregando o dataset 
Vamos criar um dataframe a partir do dataset e vizualiar os dados para garantir que esta etapa foi realizada com sucesso.

In [None]:
file_path = 'diabetes.csv'

#  Carregar o arquivo CSV em um DataFrame pandas
try:
    df = pd.read_csv(file_path)

    # Passo 4: Verificar se os dados foram carregados corretamente
    print(f"Dataset '{file_path}' carregado com sucesso!")
    print(f"O dataset possui {df.shape[0]} linhas e {df.shape[1]} colunas.")
    
    print("\n--- 5 Primeiras Linhas do Dataset ---")
    # A função display() do Jupyter formata a tabela de forma mais elegante
    display(df.head())

    print("\n--- Informações Gerais do Dataset ---")
    df.info()

    print("\n--- Estatísticas Descritivas ---")
    display(df.describe())

except FileNotFoundError:
    print(f"Erro: O arquivo '{file_path}' não foi encontrado.")
    print("Por favor, verifique se o nome do arquivo está correto e se ele está na mesma pasta do seu notebook.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")


### Contexto
Este conjunto de dados é originalmente do Instituto Nacional de Diabetes e Doenças Digestivas e Renais. O objetivo do conjunto de dados é prever, por meio de diagnóstico, se um paciente tem ou não diabetes, com base em certas medidas diagnósticas incluídas no conjunto de dados. Diversas restrições foram impostas à seleção desses casos a partir de um banco de dados maior. Em particular, todos os pacientes aqui são mulheres com pelo menos 21 anos de idade e de ascendência indígena Pima.

### Features (variáveis)
O conjunto de dados consiste em diversas variáveis preditoras médicas e uma variável alvo (**Outcome**). As variáveis preditoras incluem o número de gestações que a paciente teve, seu IMC, nível de insulina, idade, entre outras.


#### Variáveis Preditivas 

Estas são as 8 variáveis que usaremos para tentar prever o resultado.

1.  **`Pregnancies` (Número de Gestações)**
    *   **Significado:** O número de vezes que a paciente esteve grávida.
    *   **Contexto Clínico:** A gravidez pode induzir um estado de resistência à insulina, e múltiplas gestações são por vezes associadas a um risco aumentado de desenvolver diabetes tipo 2 mais tarde na vida. É um fator demográfico e de histórico de saúde importante.
    *   **Tipo:** Numérica, discreta.

2.  **`Glucose` (Glicose)**
    *   **Significado:** A concentração de glicose no plasma sanguíneo, medida 2 horas após a ingestão de uma quantidade padrão de açúcar (75g) durante um Teste Oral de Tolerância à Glicose (TOTG).
    *   **Contexto Clínico:** Esta é **uma das variáveis mais importantes**. Níveis elevados de glicose após o teste são um indicador chave de pré-diabetes ou diabetes. Um valor normal geralmente fica abaixo de 140 mg/dL, enquanto valores acima de 200 mg/dL indicam diabetes.
    *   **Tipo:** Numérica, contínua.

3.  **`BloodPressure` (Pressão Arterial)**
    *   **Significado:** Pressão arterial diastólica, medida em milímetros de mercúrio (mm Hg). A diastólica é a pressão nas artérias quando o coração está em repouso, entre os batimentos.
    *   **Contexto Clínico:** A hipertensão (pressão alta) é frequentemente associada à diabetes e faz parte da chamada "síndrome metabólica". Pacientes com diabetes têm um risco maior de desenvolver pressão alta, e vice-versa.
    *   **Tipo:** Numérica, contínua.

4.  **`SkinThickness` (Espessura da Dobra Cutânea)**
    *   **Significado:** A espessura da dobra da pele do tríceps, medida em milímetros (mm).
    *   **Contexto Clínico:** É uma medida usada para estimar a gordura corporal. Níveis mais altos de gordura corporal estão fortemente correlacionados com a resistência à insulina e o risco de diabetes tipo 2.
    *   **Tipo:** Numérica, contínua.

5.  **`Insulin` (Insulina)**
    *   **Significado:** O nível de insulina no soro sanguíneo, medido 2 horas após o início do teste de tolerância à glicose, em micro unidades por mililitro (mu U/ml).
    *   **Contexto Clínico:** Esta é outra **variável crucial**. No início da resistência à insulina (pré-diabetes), o pâncreas tenta compensar produzindo *mais* insulina. Portanto, níveis elevados de insulina podem indicar que o corpo está lutando para controlar o açúcar no sangue. Em estágios avançados da diabetes tipo 2, a produção de insulina pode diminuir.
    *   **Tipo:** Numérica, contínua.

6.  **`BMI` (Body Mass Index / Índice de Massa Corporal)**
    *   **Significado:** Um índice calculado a partir do peso e da altura de uma pessoa (peso em kg / (altura em m)²).
    *   **Contexto Clínico:** O IMC é uma medida amplamente utilizada para classificar o peso de uma pessoa (abaixo do peso, normal, sobrepeso, obesidade). A obesidade (IMC > 30) é um dos maiores fatores de risco para o desenvolvimento de diabetes tipo 2.
    *   **Tipo:** Numérica, contínua.

7.  **`DiabetesPedigreeFunction` (Função de Predisposição Genética para Diabetes)**
    *   **Significado:** Uma função que calcula uma pontuação de risco de diabetes com base no histórico familiar da paciente (idade e diagnóstico de diabetes em parentes).
    *   **Contexto Clínico:** Esta variável sintetiza a predisposição genética. Um valor mais alto indica uma maior probabilidade de ter a doença com base na genética familiar, que é um fator de risco bem conhecido.
    *   **Tipo:** Numérica, contínua.

8.  **`Age` (Idade)**
    *   **Significado:** A idade da paciente em anos.
    *   **Contexto Clínico:** O risco de desenvolver diabetes tipo 2 aumenta significativamente com a idade, especialmente após os 45 anos.
    *   **Tipo:** Numérica, discreta.

#### Variável Alvo (Target)

Esta é a variável que queremos que o nosso modelo aprenda a prever.

9.  **`Outcome` (Desfecho / Resultado)**
    *   **Significado:** Uma variável binária que indica se a paciente foi diagnosticada com diabetes ou não.
    *   **Valores:**
        *   **1**: A paciente tem diabetes.
        *   **0**: A paciente não tem diabetes.
    *   **Tipo:** Categórica, binária.

## Pré-processamento e Limpeza
Um desafio interessante neste dataset é que alguns valores "zero" em certas colunas (como `Glucose`, `BloodPressure` ou `BMI`) são, na verdade, dados ausentes ou implausíveis (uma pessoa não pode ter pressão arterial de 0). Tratar esses valores de forma adequada será uma parte importante do pré-processamento.

### Tratando valores zeros
Vamos substituir os valores zeros por NaN. 

In [None]:
# Identificar e contar os zeros nas colunas onde zero é um valor inválido.
# Não incluímos 'Pregnancies' e 'Outcome', pois 0 é um valor válido para elas.
colunas_com_zeros_invalidos = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']


print("--- Contagem de Zeros Inválidos Antes da Substituição ---")
# Itera sobre a lista de colunas e conta quantos zeros existem em cada uma.
for coluna in colunas_com_zeros_invalidos:
    num_zeros = (df[coluna] == 0).sum()
    print(f"Coluna '{coluna}': {num_zeros} zeros")

#  Substituir os zeros por NaN (Not a Number) diretamente no DataFrame 'df'.
df[colunas_com_zeros_invalidos] = df[colunas_com_zeros_invalidos].replace(0, np.nan)
print("\nValores '0' substituídos por NaN no DataFrame 'df'.")

#  Confirmar a contagem de valores nulos de forma explícita.
print("\n--- Contagem de Valores Nulos (NaN) por Coluna ---")
print(df.isnull().sum())

print("Porcentagem de valores ausanetes por coluna:")
((df.isnull().sum() / df.shape[0])*100).sort_values(ascending=False)

### Análise das Porcentagens de Valores Ausentes

*   **`Insulin`: 48.7%**
    *   **Problema:** Quase metade dos dados de insulina está faltando. Esta é uma quantidade muito significativa.
    *   **Impacto:** Simplesmente remover quase metade das linhas do nosso dataset seria desastroso, pois perderíamos muita informação valiosa das outras colunas. Preencher quase 50% dos valores com uma única estatística (média/mediana) também é arriscado, pois pode distorcer a distribuição natural da variável e diminuir seu poder preditivo.

*   **`SkinThickness`: 29.6%**
    *   **Problema:** Similar à insulina, mas um pouco menos severo. Quase um terço dos dados de espessura da pele está ausente.
    *   **Impacto:** As mesmas preocupações se aplicam. A imputação precisa ser feita com cuidado.

*   **`BloodPressure`: 4.6%**, **`BMI`: 1.4%**, **`Glucose`: 0.7%**
    *   **Problema:** Estas colunas têm uma quantidade pequena e muito mais gerenciável de dados ausentes.
    *   **Impacto:** Para estas variáveis, a imputação com a média ou mediana é uma estratégia segura e padrão. O risco de distorcer a distribuição é mínimo.

### Estratégia de Pré-processamento (Plano de Ação)

Com base nessa análise, podemos definir uma estratégia clara.

**1. Para `Glucose`, `BloodPressure` e `BMI` (Poucos Dados Ausentes):**

A melhor abordagem é a **imputação pela mediana**. Usamos a mediana em vez da média porque ela é menos sensível a valores extremos (outliers), que são comuns em dados médicos.

**2. Para `Insulin` e `SkinThickness` (Muitos Dados Ausentes):**

Aqui temos algumas opções, da mais simples à mais complexa:

*   **Opção A (Mais Simples): Imputação pela Mediana.**
    *   **Prós:** Rápido e fácil de implementar. Mantém o tamanho do dataset.
    *   **Contras:** Pode introduzir um viés significativo no modelo, já que estamos "inventando" uma grande quantidade de dados. O modelo pode aprender que o valor da mediana está associado a um determinado resultado, o que não é verdade.

*   **Opção B (Mais Segura): Remover as Colunas.**
    *   **Prós:** Evita completamente o risco de introduzir informações falsas. O modelo será treinado apenas com os dados que temos certeza que são reais.
    *   **Contras:** Perdemos potencialmente informações preditivas importantes. A insulina, por exemplo, é fundamental no diagnóstico da diabetes.

*   **Opção C (Avançada): Imputação Preditiva.**
    *   **Prós:** A abordagem mais sofisticada. Treinamos um modelo de regressão (ex: k-NN ou Regressão Linear) para *prever* os valores ausentes de `Insulin` com base nas outras colunas.
    *   **Contras:** Muito mais complexo de implementar e pode vazar informação do conjunto de teste se não for feito corretamente dentro de um pipeline.

**Escolha para o Projeto:**

Para este projeto, seguirmos um caminho mais simples:

1.  **Excluir `Glucose`, `BloodPressure` e `BMI` com valores ausetes.**
2.  **Excluir as colunas `Insulin` e `SkinThickness`** e testar os modelos preditivos sem estas colunas.
3.  **Mantar as colunas  `Insulin` e `SkinThickness`** mas apagar as linhas com valores ausentes e testar os modelos preditivos.


#### Passos 1 e 2
Criaremos um novo dataframe  após realizar os passos 1 e 2.

In [None]:
# ---  Criar uma cópia do DataFrame para não alterar o original ---
# Todas as operações de limpeza serão feitas no 'df_limpo'.
df_limpo = df.copy()

print("--- Estado Inicial dos DataFrames ---")
print(f"df_limpo (cópia) possui {df_limpo.shape[0]} linhas e {df_limpo.shape[1]} colunas.")
print("-" * 50)


# --- Excluir as LINHAS com valores ausentes em colunas específicas do df_limpo ---
# Definimos as colunas onde não aceitaremos valores ausentes.
colunas_para_limpar_linhas = ['Glucose', 'BloodPressure', 'BMI']

# Usamos .dropna() no df_limpo. O resultado é atribuído de volta a ele mesmo.
# O argumento 'subset' especifica que devemos olhar apenas para estas colunas.
df_limpo = df_limpo.dropna(subset=colunas_para_limpar_linhas)

print("\n--- Após exclusão de LINHAS no 'df_limpo' ---")
print(f"df_limpo agora possui {df_limpo.shape[0]} linhas.")
print("-" * 50)


# ---  Excluir as COLUNAS 'Insulin' e 'SkinThickness' do df_limpo ---
# Usamos .drop() para remover as colunas.
# 'axis=1' especifica que queremos remover COLUNAS.
colunas_para_excluir = ['Insulin', 'SkinThickness']
df_limpo = df_limpo.drop(columns=colunas_para_excluir)

print("\n--- Após exclusão de COLUNAS no 'df_limpo' ---")
print(f"df_limpo agora possui {df_limpo.shape[1]} colunas.")
print(f"Colunas restantes: {df_limpo.columns.tolist()}")
print("-" * 50)

df_limpo.info()

#### Passos 1 e 3
Criaremos um novo dataframe após realizar os passos 1 e 3.

In [None]:
# --- Criar uma cópia do DataFrame original ---
# O novo DataFrame 'df_short' receberá as modificações.
df_short = df.copy()

print("--- Estado Inicial dos DataFrames ---")
print(f"df_short (cópia) possui {df_short.shape[0]} linhas e {df_short.shape[1]} colunas.")
print("-" * 50)


# --- Excluir TODAS as linhas que contenham QUALQUER valor ausente (NaN) ---
# O método .dropna() sem argumentos remove qualquer linha que tenha pelo menos um NaN.
# O resultado da operação (um DataFrame menor) é atribuído de volta a 'df_short'.
df_short = df_short.dropna()

print("\n--- Após remover TODAS as linhas com valores NaN do 'df_short' ---")
print(f"O 'df_short' agora possui {df_short.shape[0]} linhas.")
print(f"Foram removidas {df.shape[0] - df_short.shape[0]} linhas.")
print("-" * 50)

print("\n--- Após exclusão de COLUNAS no 'df_short' ---")
print(f"df_limpo agora possui {df_short.shape[1]} colunas.")
print(f"Colunas restantes: {df_short.columns.tolist()}")
print("-" * 50)

df_short.info()

### ProfileReport

Uma ferramenta poderosa para a análiseexploratória é o **ProfileReport** da biblioteca ydata_profiling. Esta ferramenta gera  um relatório detalhado e interativo sobre um DataFrame do pandas, automatizando o processo de Análise Exploratória de Dados (AED). Dentre as principais ferramentas estão;
1. Visão Geral (Overview): Mostra estatísticas gerais do conjunto de dados, como o número de variáveis, número de observações, valores em falta (missing values), percentagem de valores em falta, linhas duplicadas e o tamanho total na memória. Também informa os tipos de variáveis detetadas (numéricas, categóricas, etc.).
2. Alertas (Alerts): Esta é uma das funcionalidades mais úteis. O relatório identifica automaticamente potenciais problemas nos dados, como colunas com alta correlação, alta cardinalidade (muitos valores únicos), assimetria (skewness) nos dados, ou colunas com um valor constante.
3. Análise de Variáveis (Variables): Para cada coluna do DataFrame, o relatório fornece estatísticas detalhadas.
    * Para variáveis numéricas: Estatísticas descritivas (média, mediana, desvio padrão, etc.), um histograma da distribuição, e valores mais comuns.
    * Para variáveis categóricas: Contagem de valores únicos, um gráfico de barras com a frequência de cada categoria.
4. Correlações (Correlations): Apresenta matrizes de correlação (como Pearson, Spearman, etc.) para visualizar a relação entre as variáveis numéricas.
5. Valores em Falta (Missing Values): Mostra visualizações como matrizes ou gráficos de barras para ajudar a entender onde os valores em falta estão localizados e em que quantidade.
6. Amostra (Sample): Exibe as primeiras e as últimas linhas do conjunto de dados, semelhante aos métodos .head() e .tail() do pandas.

In [None]:
#profile_limpo = ProfileReport(df_limpo)
#profile_limpo.to_file("relatorio_df_limpo.html")

#profile_short = ProfileReport(df_short)
#profile_short.to_file("relatorio_df_short.html")

#### Analisando o df_limpo com o ProfileReport

Aqui está uma análise das correlações mais significativas:

| Variável 1 | Variável 2 | Coeficiente de Correlação | Força da Correlação | Interpretação |
| :--- | :--- | :--- | :--- | :--- |
| **Age** | **Pregnancies** | 0.617 | Moderada | Há uma correlação positiva moderada entre idade e número de gestações. Isso sugere que, em geral, mulheres mais velhas neste conjunto de dados tendem a ter tido mais gestações. |
| **Glucose** | **Outcome** | 0.475 | Moderada | Existe uma correlação positiva moderada entre o nível de glicose e o resultado (provavelmente a presença de diabetes). Isso indica que níveis mais altos de glicose estão associados a uma maior probabilidade do resultado positivo para diabetes. |
| **Age** | **BloodPressure** | 0.367 | Fraca | A correlação entre idade e pressão arterial é positiva, mas fraca. |

**Principais Conclusões:**

*   A **Glicose** é o preditor individual mais forte do `Outcome` (desfecho), com uma correlação de **0.475**.
*   A **Idade (`Age`)** e o **Número de Gestações (`Pregnancies`)** estão moderadamente correlacionados (**0.617**), não vamos remover nehuma das duas, não é uma correlação tão forte.
*   Variáveis como `DiabetesPedigreeFunction` e `BloodPressure` têm correlações mais fracas com o `Outcome` em comparação com a Glicose.

#### Analisando o df_short com o ProfileReport

Aqui está a análise das correlações mais importantes, com foco nas relações mais fortes:

| Variável 1 | Variável 2 | Coeficiente de Correlação | Força da Correlação | Interpretação |
| :--- | :--- | :--- | :--- | :--- |
| **BMI** | **SkinThickness** | 0.674 | Forte | Há uma forte correlação positiva entre o IMC (Índice de Massa Corporal) e a espessura da dobra cutânea. Isso é esperado, pois um IMC mais alto geralmente corresponde a mais gordura corporal. |
| **Glucose** | **Insulin** | 0.659 | Forte | Existe uma forte correlação positiva entre os níveis de glicose e de insulina. Isso faz sentido fisiologicamente, pois o corpo libera insulina em resposta a níveis elevados de glicose no sangue. |
| **Age** | **Pregnancies** | 0.634 | Moderada | Semelhante à tabela anterior, há uma correlação positiva moderada entre idade e número de gestações. |
| **Glucose** | **Outcome** | 0.524 | Moderada | A correlação entre Glicose e o Desfecho (`Outcome`) é de 0.524, sendo a mais forte com a variável alvo. Isso reforça a glicose como um indicador chave para o diagnóstico de diabetes. |

**Principais Conclusões e Comparação:**

*   **Novas Correlações Fortes:** A inclusão das variáveis `Insulin` e `SkinThickness` revelou duas novas correlações fortes que não estavam visíveis antes:
    *   **IMC e Espessura da Pele (0.674):** A mais forte de todas na tabela.
    *   **Glicose e Insulina (0.659):** Também muito forte e clinicamente relevante.
*   **Melhor Preditor do `Outcome`:** A **Glicose** continua sendo a variável com a maior correlação com o `Outcome` (**0.524**), e essa correlação é ainda mais forte neste conjunto de dados (`df_shrot`) em comparação com o anterior (`df_limpo`, que era 0.475).
*   **Multicolinearidade:** As fortes correlações entre `BMI` e `SkinThickness`, e entre `Glucose` e `Insulin`, indicam **multicolinearidade**. Isso significa que essas variáveis carregam informações semelhantes. Ao construir um modelo de machine learning, pode ser útil usar apenas uma de cada par para evitar redundância e instabilidade no modelo.

Em resumo, o dataframe `df_shrot` parece ser mais rico em informações, e as novas variáveis confirmam relações fisiológicas importantes e fornecem insights valiosos para a modelagem.

Vamos excluir as colunas **BMI** e **Insulin** por ter menor correlação com a **outcome**.

In [None]:
#removendos as colunas desnecessárias
df_short = df_short.drop(['BMI', 'Insulin'], axis=1)

df_short.info()

# 3. Divisão do dataset
Agora vamos dividir o dataset em duas base de dados;
* Treinamento: 80% dos dados seram usados para treinar os modelos.
* Teste: 20% dos dados seram usados para testar os modelos.

## df_limpo
Vamos dividir o df_limpo em terino e teste:

In [None]:
# Primeiro, dividimos em treino (80%) e teste (20%)
X_train_limpo, X_test_limpo, y_train_limpo, y_test_limpo = train_test_split(
    df_limpo.drop(['Outcome'], axis=1),   # remove as colunas label 
    df_limpo['Outcome'],   # Coluna que será usada como label de classificação
    test_size=0.2,  # informamos a porcentagem de divisão para a base de testes.
    random_state=35  # aqui informamos um "seed".
)

print("Dimensões dos conjuntos:")
print("dataset original", df_limpo.shape)
print("X_train_limpo:", X_train_limpo.shape, "| y_train_limpo:", y_train_limpo.shape)
print("X_test_limpo:", X_test_limpo.shape, "  | y_test_limpo:", y_test_limpo.shape)
print("-" * 30)

## df_short
Vamos dividir o df_short em terino e teste:

In [None]:
# Primeiro, dividimos em treino (80%) e teste (20%)
X_train_short, X_test_short, y_train_short, y_test_short = train_test_split(
    df_short.drop(['Outcome'], axis=1),   # remove as colunas label 
    df_short['Outcome'],   # Coluna que será usada como label de classificação
    test_size=0.2,  # informamos a porcentagem de divisão para a base de testes.
    random_state=35  # aqui informamos um "seed".
)

print("Dimensões dos conjuntos:")
print("dataset original", df_limpo.shape)
print("X_train_short:", X_train_short.shape, "| y_train_short:", y_train_short.shape)
print("X_test_short:", X_test_short.shape, "  | y_test_short:", y_test_short.shape)
print("-" * 30)

# 4. Preparação dos dados

## Outliers


Vamos usar Box Plot para verificar os **outliers**, **dispersão dos dados** e **simetria dos dados**:

### X_train_limpo

In [None]:
# Identificar as colunas numéricas para os box plots
numeric_cols = ['Pregnancies', 'Glucose', 'BloodPressure', 'BMI', 'DiabetesPedigreeFunction', 'Age']

# Configurações de estilo para os gráficos
sns.set_style("whitegrid")
plt.figure(figsize=(20, 15))

# Título geral para a figura
plt.suptitle("Box Plots das Variáveis Numéricas para Detecção de Outliers", fontsize=20, y=0.97)

# Loop para criar um box plot para cada coluna numérica
for i, col in enumerate(numeric_cols):
    plt.subplot(3, 3, i + 1)  # para criar uma grade de subplots de 3x3 (9 espaços)
    
    sns.boxplot(y=X_train_limpo[col], color='skyblue', width=0.5)
    plt.title(f'Distribuição de {col}', fontsize=14)
    plt.ylabel('')

plt.tight_layout(rect=[0, 0, 1, 0.95]) # Ajusta o layout para não sobrepor títulos
plt.show()

#### Removendo Outliers do Conjunto df_limpo
Este código irá calcular os limites com base em **X_train_limpo** e depois removerá as linhas com outliers de X_train_limpo, y_train_limpo, X_test_limpo e y_test_limpo.

In [None]:
# --- IDENTIFICAR AS COLUNAS PARA VERIFICAR OUTLIERS ---
# Vamos focar nas colunas numéricas contínuas onde outliers são mais prováveis e problemáticos.
colunas_para_verificar = ['Pregnancies', 'Glucose', 'BloodPressure', 'BMI', 'DiabetesPedigreeFunction', 'Age']


# ---  APRENDER OS LIMITES DOS OUTLIERS APENAS COM O CONJUNTO DE TREINO ---
print("--- Aprendendo os limites dos outliers com o conjunto de treino ---")
limites = {}

for coluna in colunas_para_verificar:
    Q1 = X_train_limpo[coluna].quantile(0.25)
    Q3 = X_train_limpo[coluna].quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    limites[coluna] = (limite_inferior, limite_superior)
    print(f"Coluna '{coluna}': Limites calculados = [{limite_inferior:.2f}, {limite_superior:.2f}]")

    
# --- APLICAR OS FILTROS A TODOS OS CONJUNTOS DE DADOS ---

# Criar uma cópia para não modificar os dataframes originais
X_train_limpo_outlier = X_train_limpo.copy()
y_train_limpo_outlier = y_train_limpo.copy()
X_test_limpo_outlier = X_test_limpo.copy()
y_test_limpo_outlier = y_test_limpo.copy()

print("\n--- Removendo outliers ---")
for coluna in colunas_para_verificar:
    limite_inf, limite_sup = limites[coluna]
    
    # Criar máscaras booleanas para cada conjunto de dados
    mascara_train = (X_train_limpo_outlier[coluna] >= limite_inf) & (X_train_limpo_outlier[coluna] <= limite_sup)
    mascara_test = (X_test_limpo_outlier[coluna] >= limite_inf) & (X_test_limpo_outlier[coluna] <= limite_sup)
    
    # Aplicar as máscaras para filtrar os dataframes
    X_train_limpo_outlier = X_train_limpo_outlier[mascara_train]
    y_train_limpo_outlier = y_train_limpo_outlier[mascara_train]
    
    X_test_limpo_outlier = X_test_limpo_outlier[mascara_test]
    y_test_limpo_outlier = y_test_limpo_outlier[mascara_test]


# ---  VERIFICAR O RESULTADO ---
print("\n--- Comparação de Tamanhos (Antes vs. Depois) ---")
print(f"Tamanho de X_train_limpo_outlier: {len(X_train_limpo)} -> {len(X_train_limpo_outlier)} (removidos {len(X_train_limpo) - len(X_train_limpo_outlier)} outliers)")
print(f"Tamanho de X_test_limpo_outlier:  {len(X_test_limpo)} -> {len(X_test_limpo_outlier)} (removidos {len(X_test_limpo) - len(X_test_limpo_outlier)} outliers)")


print("\n--- Amostra do DataFrame de Treino Limpo ---")
display(X_train_limpo_outlier.head())

### X_train_short

In [None]:
# Identificar as colunas numéricas para os box plots
numeric_cols = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'DiabetesPedigreeFunction', 'Age']

# Configurações de estilo para os gráficos
sns.set_style("whitegrid")
plt.figure(figsize=(20, 15))

# Título geral para a figura
plt.suptitle("Box Plots das Variáveis Numéricas para Detecção de Outliers", fontsize=20, y=0.97)

# Loop para criar um box plot para cada coluna numérica
for i, col in enumerate(numeric_cols):
    plt.subplot(3, 3, i + 1)  # para criar uma grade de subplots de 3x3 (9 espaços)
    
    sns.boxplot(y=X_train_short[col], color='skyblue', width=0.5)
    plt.title(f'Distribuição de {col}', fontsize=14)
    plt.ylabel('')

plt.tight_layout(rect=[0, 0, 1, 0.95]) # Ajusta o layout para não sobrepor títulos
plt.show()

#### Removendo Outliers do Conjunto df_short
Este código irá calcular os limites com base em **X_train_short** e depois removerá as linhas com outliers de X_train_short, y_train_short, X_test_short e y_test_short.

In [None]:
# --- IDENTIFICAR AS COLUNAS PARA VERIFICAR OUTLIERS ---
# Vamos focar nas colunas numéricas contínuas onde outliers são mais prováveis e problemáticos.
colunas_para_verificar = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'DiabetesPedigreeFunction', 'Age']


# ---  APRENDER OS LIMITES DOS OUTLIERS APENAS COM O CONJUNTO DE TREINO ---
print("--- Aprendendo os limites dos outliers com o conjunto de treino ---")
limites = {}

for coluna in colunas_para_verificar:
    Q1 = X_train_short[coluna].quantile(0.25)
    Q3 = X_train_short[coluna].quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    limites[coluna] = (limite_inferior, limite_superior)
    print(f"Coluna '{coluna}': Limites calculados = [{limite_inferior:.2f}, {limite_superior:.2f}]")

    
# --- APLICAR OS FILTROS A TODOS OS CONJUNTOS DE DADOS ---

# Criar uma cópia para não modificar os dataframes originais
X_train_short_outlier = X_train_short.copy()
y_train_short_outlier = y_train_short.copy()
X_test_short_outlier = X_test_short.copy()
y_test_short_outlier = y_test_short.copy()

print("\n--- Removendo outliers ---")
for coluna in colunas_para_verificar:
    limite_inf, limite_sup = limites[coluna]
    
    # Criar máscaras booleanas para cada conjunto de dados
    mascara_train = (X_train_short_outlier[coluna] >= limite_inf) & (X_train_short_outlier[coluna] <= limite_sup)
    mascara_test = (X_test_short_outlier[coluna] >= limite_inf) & (X_test_short_outlier[coluna] <= limite_sup)
    
    # Aplicar as máscaras para filtrar os dataframes
    X_train_short_outlier = X_train_short_outlier[mascara_train]
    y_train_short_outlier = y_train_short_outlier[mascara_train]
    
    X_test_short_outlier = X_test_short_outlier[mascara_test]
    y_test_short_outlier = y_test_short_outlier[mascara_test]


# ---  VERIFICAR O RESULTADO ---
print("\n--- Comparação de Tamanhos (Antes vs. Depois) ---")
print(f"Tamanho de X_train_short_outlier: {len(X_train_short)} -> {len(X_train_short_outlier)} (removidos {len(X_train_short) - len(X_train_short_outlier)} outliers)")
print(f"Tamanho de X_test_short_outlier:  {len(X_test_short)} -> {len(X_test_short_outlier)} (removidos {len(X_test_short) - len(X_test_short_outlier)} outliers)")


print("\n--- Amostra do DataFrame de Treino Limpo ---")
display(X_train_short_outlier.head())

## Normalização ou padronização

### 1. Normalização (Min-Max Scaling)

*   **O que faz?** Transforma os dados para que eles fiquem em um intervalo fixo, geralmente entre **0 e 1**.
*   **Fórmula:** `X_norm = (X - X_min) / (X_max - X_min)`
*   **Prós:** Garante que todos os dados fiquem na mesma escala exata. Útil para alguns algoritmos de redes neurais e para visualização.
*   **Contras (O Ponto Crítico):** É **extremamente sensível a outliers**. Se você tiver um outlier (um valor muito alto ou muito baixo), ele vai "espremer" todos os outros dados em um intervalo muito pequeno, distorcendo a distribuição relativa entre eles. Como você acabou de fazer um trabalho cuidadoso para *remover* outliers, a normalização até poderia ser usada, mas a padronização ainda é mais robusta.

### 2. Padronização (Standardization / Z-score Normalization)

*   **O que faz?** Transforma os dados para que eles tenham uma média (`μ`) de **0** e um desvio padrão (`σ`) de **1**. Não limita os valores a um intervalo específico.
*   **Fórmula:** `X_std = (X - μ) / σ`
*   **Prós:**
    *   **É muito menos sensível a outliers** do que a normalização. Um outlier não influenciará a escala dos outros pontos de forma tão drástica.
    *   Mantém a forma da distribuição original dos dados.
    *   É o pré-requisito para muitos algoritmos de machine learning que assumem que os dados estão centrados em zero.
*   **Contras:** Não coloca os dados em um intervalo fixo, o que pode ser um problema para algoritmos muito específicos que exigem isso (raro em classificação clássica).

### Por que a Padronização é mais aconselhável para nosso caso?

1.  **Compatibilidade com os Modelos:**
    *   **Regressão Logística e SVM:** Esses modelos se beneficiam enormemente da padronização. Esses algoritmos de otimização convergem muito mais rápido quando os dados estão centrados em zero e têm a mesma variância.
    *   **KNN:** A performance do KNN depende da distância entre os pontos. A padronização garante que features com escalas maiores (como `Glucose`) não dominem o cálculo da distância em relação a features com escalas menores (como `DiabetesPedigreeFunction`).
    *   **Modelos de Árvore (Random Forest, XGBoost):** Estes modelos **não exigem** nem padronização nem normalização, pois suas decisões são baseadas em dividir uma feature de cada vez (`ex: Glicose > 140?`), independentemente da escala das outras. No entanto, aplicar a padronização não prejudica o desempenho deles e permite que você use o mesmo pipeline de pré-processamento para todos os modelos, simplificando seu fluxo de trabalho.

### Regra de Ouro (Data Leakage)

Assim como na remoção de outliers, lembre-se da regra mais importante:

1.  **Ajuste (Fit) o Scaler APENAS no conjunto de treino:** Você deve calcular a média (`μ`) e o desvio padrão (`σ`) **exclusivamente** a partir dos dados de `X_train`.
2.  **Transforme (Transform) ambos os conjuntos:** Use o scaler já "treinado" para transformar tanto o `X_train` quanto o `X_test`.

# 5. Treinando alguns modelos pedritivos
## df_limpo após remoção de outlier
Vamos testar alguns modelos com o dataframe df_limpo

In [None]:
# ---  DEFINIÇÃO DOS PIPELINES ---
pipe_lr_limpo = Pipeline([('scaler', StandardScaler()), ('model', LogisticRegression(random_state=35))])
pipe_knn_limpo = Pipeline([('scaler', StandardScaler()), ('model', KNeighborsClassifier())])
pipe_rf_limpo = Pipeline([('scaler', StandardScaler()), ('model', RandomForestClassifier(random_state=35))])
pipe_xgb_limpo = Pipeline([('scaler', StandardScaler()), ('model', XGBClassifier(random_state=35, eval_metric='logloss'))])
pipe_svm_limpo = Pipeline([('scaler', StandardScaler()), ('model', SVC(random_state=35))])

pipelines_limpo = [pipe_lr_limpo, pipe_knn_limpo, pipe_rf_limpo, pipe_xgb_limpo, pipe_svm_limpo]
model_names = ['Regressão Logística', 'KNN (k-NN)', 'Random Forest', 'XGBoost', 'SVM']

# --- TREINAMENTO E AVALIAÇÃO ---
print("\n---Treinando e avaliando cada pipeline ---")
results = []
for i, pipe in enumerate(pipelines_limpo):
    pipe.fit(X_train_limpo_outlier, y_train_limpo_outlier)
    y_pred = pipe.predict(X_test_limpo_outlier)
    accuracy = accuracy_score(y_test_limpo_outlier, y_pred)
    precision = precision_score(y_test_limpo_outlier, y_pred)
    recall = recall_score(y_test_limpo_outlier, y_pred)
    f1 = f1_score(y_test_limpo_outlier, y_pred)
    results.append([model_names[i], accuracy, precision, recall, f1])
    print(f"Modelo: {model_names[i]}... treinado e avaliado.")

# --- APRESENTAÇÃO DOS RESULTADOS ---
print("\n--- Tabela Comparativa de Resultados do df_limpo após remoção de outliers---")
results_df_limpo = pd.DataFrame(results, columns=['Modelo', 'Acurácia', 'Precisão', 'Recall', 'F1-Score'])
results_df_limpo = results_df_limpo.round(3)

print(results_df_limpo.to_string(index=False))

## df_short após remoção de outlier
Vamos testar alguns modelos com o dataframe df_short

In [None]:
# ---  DEFINIÇÃO DOS PIPELINES ---
pipe_lr_short = Pipeline([('scaler', StandardScaler()), ('model', LogisticRegression(random_state=35))])
pipe_knn_short = Pipeline([('scaler', StandardScaler()), ('model', KNeighborsClassifier())])
pipe_rf_short = Pipeline([('scaler', StandardScaler()), ('model', RandomForestClassifier(random_state=35))])
pipe_xgb_short = Pipeline([('scaler', StandardScaler()), ('model', XGBClassifier(random_state=35, eval_metric='logloss'))])
pipe_svm_short = Pipeline([('scaler', StandardScaler()), ('model', SVC(random_state=35))])

pipelines_short = [pipe_lr_short, pipe_knn_short, pipe_rf_short, pipe_xgb_short, pipe_svm_short]
model_names = ['Regressão Logística', 'KNN (k-NN)', 'Random Forest', 'XGBoost', 'SVM']

# --- TREINAMENTO E AVALIAÇÃO ---
print("\n---Treinando e avaliando cada pipeline ---")
results = []
for i, pipe in enumerate(pipelines_short):
    pipe.fit(X_train_short_outlier, y_train_short_outlier)
    y_pred = pipe.predict(X_test_short_outlier)
    accuracy = accuracy_score(y_test_short_outlier, y_pred)
    precision = precision_score(y_test_short_outlier, y_pred)
    recall = recall_score(y_test_short_outlier, y_pred)
    f1 = f1_score(y_test_short_outlier, y_pred)
    results.append([model_names[i], accuracy, precision, recall, f1])
    print(f"Modelo: {model_names[i]}... treinado e avaliado.")

# --- APRESENTAÇÃO DOS RESULTADOS ---
print("\n--- Tabela Comparativa de Resultados do df_short após remoção de outliers---")
results_df_short = pd.DataFrame(results, columns=['Modelo', 'Acurácia', 'Precisão', 'Recall', 'F1-Score'])
results_df_short = results_df_short.round(3)

print(results_df_short.to_string(index=False))

# 6. Conclusões

## Análise Comparativa: `df_limpo` vs. `df_short`

**Resultados do `df_limpo` (sem `Insulin` e `SkinThickness`)**

| Modelo | Acurácia | Precisão | Recall | F1-Score |
| :--- | :--- | :--- | :--- | :--- |
| SVM | **0.795**  |  **0.864** |  0.452  |   0.594 |
| Regressão Logística | 0.787   |  0.759 |  **0.524**   |  **0.620** |
| Random Forest | 0.780  |   0.733  | 0.524   |  0.611 |
| XGBoost | 0.748 |    0.679 |  0.452 |    0.543 |
| KNN (k-NN) | 0.740  |   0.667  | 0.429  |   0.522 |

**Resultados do `df_short` (com `Insulin` e `SkinThickness`)**

| Modelo | Acurácia | Precisão | Recall | F1-Score |
| :--- | :--- | :--- | :--- | :--- |
| Regressão Logística | **0.794** | 0.667 | **0.700** | **0.683** |
| Random Forest | 0.746 | 0.591 | 0.650 | 0.619 |
| SVM | 0.746 | 0.600 | 0.600 | 0.600 |
| XGBoost | 0.714 | 0.542 | 0.650 | 0.591 |
| KNN (k-NN) | 0.698 | 0.524 | 0.550 | 0.537 |


### Principais Conclusões e Insights

1.  **Melhora Drástica no Recall:**
    *   Este é o ganho mais significativo. O **Recall** da Regressão Logística saltou de **0.524 para 0.700**.
    *   **Interpretação:** Isso significa que, com as novas features, o modelo agora consegue identificar **70%** dos pacientes que realmente têm diabetes, em comparação com apenas 52% antes. A capacidade do modelo de "encontrar" os casos positivos melhorou enormemente. As informações de `Insulin` e `SkinThickness` são claramente cruciais para não deixar diagnósticos passarem despercebidos.

2.  **Regressão Logística se Torna o Campeão Indiscutível:**
    *   No `df_limpo`, havia uma competição entre SVM (melhor precisão) e Regressão Logística (melhor F1-Score).
    *   No `df_short`, a **Regressão Logística** é claramente o melhor modelo em quase todas as métricas importantes: tem a maior Acurácia (empatada), o maior Recall e o maior F1-Score. Seu F1-Score de **0.683** é substancialmente maior que o melhor F1-Score do cenário anterior (0.620).

3.  **O Trade-off Precisão-Recall Mudou:**
    *   Com o `df_short`, a Precisão da Regressão Logística caiu um pouco (de 0.759 para 0.667). Isso significa que, para conseguir encontrar mais diabéticos (maior Recall), o modelo passou a gerar um pouco mais de falsos positivos.
    *   No entanto, o ganho massivo no Recall compensou essa perda, resultando em um F1-Score (o equilíbrio) muito superior. Para um problema de diagnóstico médico, geralmente é preferível ter um Recall mais alto, tornando este um excelente trade-off.

4.  **As Novas Features São Valiosas:**
    *   A conclusão final é inequívoca: **Sim, as features `Insulin` e `SkinThickness` são extremamente valiosas.** Mesmo que o `df_short` tenha menos amostras no total, a qualidade da informação contida nessas duas colunas adicionais permitiu que o modelo aprendesse padrões muito mais robustos, especialmente para identificar corretamente os casos positivos.

## Resumo Estratégico Final

O modelo de **Regressão Logística treinado no `df_short`** (com todas as features e após a limpeza de outliers) é, de longe, a melhor solução encontrada. Ele oferece a melhor capacidade de diagnóstico (maior Recall) e o melhor equilíbrio geral de performance (maior F1-Score).

Este é um resultado clássico em ciência de dados: a qualidade e a relevância das features (`feature engineering`) muitas vezes superam a complexidade do algoritmo ou até mesmo a quantidade de dados.

