# **Projeto de IA em Saúde: Modelo Preditivo para Risco de Diabetes na População Pima**

## **1. Descrição do Cenário**

A diabetes é uma doença crônica que afeta milhões de pessoas em todo o mundo e representa um desafio significativo para os sistemas de saúde. A detecção precoce e a identificação de indivíduos em alto risco são cruciais para a prevenção e o manejo eficaz da doença, permitindo intervenções no estilo de vida (dieta, exercícios) que podem retardar ou até mesmo prevenir seu aparecimento.

Este projeto utilizará o dataset "Pima Indians Diabetes Database", que foi originalmente coletado pelo Instituto Nacional de Diabetes e Doenças Digestivas e Renais dos EUA. O dataset contém dados de saúde de mulheres com pelo menos 21 anos de idade, descendentes da tribo Pima, uma população com alta prevalência de diabetes. O objetivo é construir um modelo que possa prever a probabilidade de uma paciente ter diabetes com base em 8 medições diagnósticas.

## **2. Qual é o objetivo do projeto?**

O objetivo principal do projeto é **desenvolver e avaliar um modelo de Machine Learning de alta performance para prever a presença de diabetes com base em dados clínicos e demográficos.**

Os objetivos específicos são:

1.  **Análise Exploratória de Dados (EDA):** Realizar uma análise detalhada do dataset para entender a distribuição de cada variável e a correlação entre elas e o desfecho (presença de diabetes).
2.  **Pré-processamento e Limpeza:** Identificar e tratar os valores implausíveis (zeros inadequados), substituindo-os por estimativas apropriadas (como a média ou mediana), e padronizar os dados para o treinamento.
3.  **Visualização de Dados:** Criar visualizações claras e informativas (histogramas, boxplots, heatmaps) para comunicar os insights encontrados na fase de análise.
4.  **Treinamento e Comparação de Modelos:** Treinar e comparar o desempenho de diferentes algoritmos de classificação (ex: Regressão Logística, K-Nearest Neighbors, Random Forest, Gradient Boosting).
5.  **Avaliação de Performance:** Avaliar os modelos usando um conjunto de métricas robustas, incluindo Acurácia, Precisão, Recall, F1-Score e a Curva ROC/AUC, para selecionar o modelo mais equilibrado e eficaz.
6.  **Interpretabilidade do Modelo:** Utilizar técnicas como *Feature Importance* para identificar quais dos 8 fatores de risco são os mais determinantes para o diagnóstico de diabetes, segundo o melhor modelo.

## **3. Qual é o contexto da organização para o qual o projeto está sendo desenvolvido?**

O projeto está sendo desenvolvido no contexto de uma **Clínica de Atenção Primária à Saúde (fictícia)**, focada em medicina preventiva e manejo de doenças crônicas.

**Contexto da Organização:**

*   **Missão:** A clínica tem como missão oferecer cuidados de saúde proativos e personalizados à sua comunidade, com um forte foco na prevenção de doenças crônicas como diabetes, hipertensão e doenças cardíacas.
*   **Desafio Atual:** Os médicos da clínica identificam pacientes de risco com base em consultas e exames de rotina, mas o processo é reativo e depende da iniciativa do paciente em agendar uma consulta. A clínica deseja implementar um sistema mais proativo para triar sua base de pacientes e identificar aqueles que, mesmo sem sintomas aparentes, possam ter um alto risco de desenvolver diabetes.
*   **Objetivo Estratégico:** A clínica quer adotar ferramentas de análise de dados para criar "scores de risco" para seus pacientes. Este projeto serve como uma prova de conceito para demonstrar como um modelo de Machine Learning, treinado com dados clínicos padrão, pode automatizar e escalar a identificação de pacientes de alto risco.
*   **Aplicação Prática do Projeto:** Se o modelo for bem-sucedido, ele poderia ser integrado ao sistema de prontuário eletrônico da clínica. Periodicamente, o sistema rodaria o modelo nos dados dos pacientes e geraria uma lista priorizada para a equipe de enfermagem. Os pacientes identificados com alto risco seriam então contatados para uma consulta de acompanhamento, exames adicionais e aconselhamento sobre mudanças no estilo de vida, transformando o cuidado de reativo para proativo.

# Análise Exploratória de Dados (EDA)
Para começar a explorar o dataset, que foi baixado diretamente do site **Kaggle**, vamos primeiro carregar o dataset em dataframe pandas e fazer uma pré visualização para verificar se o dataframe foi criado corretamente.

## Bibliotecas usadas para o projeto
A seguir estão as bibliotecas usadas para o projeto:

In [1]:
import pandas as pd # importando o pandas para manipularmos o 
import numpy as np

## Carregando o dataset 
Vamos criar um dataframe a partir do dataset e vizualiar os dados para garantir que esta etapa foi realizada com sucesso.

In [2]:
file_path = 'diabetes.csv'

#  Carregar o arquivo CSV em um DataFrame pandas
try:
    df = pd.read_csv(file_path)

    # Passo 4: Verificar se os dados foram carregados corretamente
    print(f"Dataset '{file_path}' carregado com sucesso!")
    print(f"O dataset possui {df.shape[0]} linhas e {df.shape[1]} colunas.")
    
    print("\n--- 5 Primeiras Linhas do Dataset ---")
    # A função display() do Jupyter formata a tabela de forma mais elegante
    display(df.head())

    print("\n--- Informações Gerais do Dataset ---")
    df.info()

    print("\n--- Estatísticas Descritivas ---")
    display(df.describe())

except FileNotFoundError:
    print(f"Erro: O arquivo '{file_path}' não foi encontrado.")
    print("Por favor, verifique se o nome do arquivo está correto e se ele está na mesma pasta do seu notebook.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")


Dataset 'diabetes.csv' carregado com sucesso!
O dataset possui 768 linhas e 9 colunas.

--- 5 Primeiras Linhas do Dataset ---


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1



--- Informações Gerais do Dataset ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB

--- Estatísticas Descritivas ---


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


### Contexto
Este conjunto de dados é originalmente do Instituto Nacional de Diabetes e Doenças Digestivas e Renais. O objetivo do conjunto de dados é prever, por meio de diagnóstico, se um paciente tem ou não diabetes, com base em certas medidas diagnósticas incluídas no conjunto de dados. Diversas restrições foram impostas à seleção desses casos a partir de um banco de dados maior. Em particular, todos os pacientes aqui são mulheres com pelo menos 21 anos de idade e de ascendência indígena Pima.

### Features (variáveis)
O conjunto de dados consiste em diversas variáveis preditoras médicas e uma variável alvo (**Outcome**). As variáveis preditoras incluem o número de gestações que a paciente teve, seu IMC, nível de insulina, idade, entre outras.


#### Variáveis Preditivas 

Estas são as 8 variáveis que usaremos para tentar prever o resultado.

1.  **`Pregnancies` (Número de Gestações)**
    *   **Significado:** O número de vezes que a paciente esteve grávida.
    *   **Contexto Clínico:** A gravidez pode induzir um estado de resistência à insulina, e múltiplas gestações são por vezes associadas a um risco aumentado de desenvolver diabetes tipo 2 mais tarde na vida. É um fator demográfico e de histórico de saúde importante.
    *   **Tipo:** Numérica, discreta.

2.  **`Glucose` (Glicose)**
    *   **Significado:** A concentração de glicose no plasma sanguíneo, medida 2 horas após a ingestão de uma quantidade padrão de açúcar (75g) durante um Teste Oral de Tolerância à Glicose (TOTG).
    *   **Contexto Clínico:** Esta é **uma das variáveis mais importantes**. Níveis elevados de glicose após o teste são um indicador chave de pré-diabetes ou diabetes. Um valor normal geralmente fica abaixo de 140 mg/dL, enquanto valores acima de 200 mg/dL indicam diabetes.
    *   **Tipo:** Numérica, contínua.

3.  **`BloodPressure` (Pressão Arterial)**
    *   **Significado:** Pressão arterial diastólica, medida em milímetros de mercúrio (mm Hg). A diastólica é a pressão nas artérias quando o coração está em repouso, entre os batimentos.
    *   **Contexto Clínico:** A hipertensão (pressão alta) é frequentemente associada à diabetes e faz parte da chamada "síndrome metabólica". Pacientes com diabetes têm um risco maior de desenvolver pressão alta, e vice-versa.
    *   **Tipo:** Numérica, contínua.

4.  **`SkinThickness` (Espessura da Dobra Cutânea)**
    *   **Significado:** A espessura da dobra da pele do tríceps, medida em milímetros (mm).
    *   **Contexto Clínico:** É uma medida usada para estimar a gordura corporal. Níveis mais altos de gordura corporal estão fortemente correlacionados com a resistência à insulina e o risco de diabetes tipo 2.
    *   **Tipo:** Numérica, contínua.

5.  **`Insulin` (Insulina)**
    *   **Significado:** O nível de insulina no soro sanguíneo, medido 2 horas após o início do teste de tolerância à glicose, em micro unidades por mililitro (mu U/ml).
    *   **Contexto Clínico:** Esta é outra **variável crucial**. No início da resistência à insulina (pré-diabetes), o pâncreas tenta compensar produzindo *mais* insulina. Portanto, níveis elevados de insulina podem indicar que o corpo está lutando para controlar o açúcar no sangue. Em estágios avançados da diabetes tipo 2, a produção de insulina pode diminuir.
    *   **Tipo:** Numérica, contínua.

6.  **`BMI` (Body Mass Index / Índice de Massa Corporal)**
    *   **Significado:** Um índice calculado a partir do peso e da altura de uma pessoa (peso em kg / (altura em m)²).
    *   **Contexto Clínico:** O IMC é uma medida amplamente utilizada para classificar o peso de uma pessoa (abaixo do peso, normal, sobrepeso, obesidade). A obesidade (IMC > 30) é um dos maiores fatores de risco para o desenvolvimento de diabetes tipo 2.
    *   **Tipo:** Numérica, contínua.

7.  **`DiabetesPedigreeFunction` (Função de Predisposição Genética para Diabetes)**
    *   **Significado:** Uma função que calcula uma pontuação de risco de diabetes com base no histórico familiar da paciente (idade e diagnóstico de diabetes em parentes).
    *   **Contexto Clínico:** Esta variável sintetiza a predisposição genética. Um valor mais alto indica uma maior probabilidade de ter a doença com base na genética familiar, que é um fator de risco bem conhecido.
    *   **Tipo:** Numérica, contínua.

8.  **`Age` (Idade)**
    *   **Significado:** A idade da paciente em anos.
    *   **Contexto Clínico:** O risco de desenvolver diabetes tipo 2 aumenta significativamente com a idade, especialmente após os 45 anos.
    *   **Tipo:** Numérica, discreta.

#### Variável Alvo (Target)

Esta é a variável que queremos que o nosso modelo aprenda a prever.

9.  **`Outcome` (Desfecho / Resultado)**
    *   **Significado:** Uma variável binária que indica se a paciente foi diagnosticada com diabetes ou não.
    *   **Valores:**
        *   **1**: A paciente tem diabetes.
        *   **0**: A paciente não tem diabetes.
    *   **Tipo:** Categórica, binária.

## Pré-processamento e Limpeza
Um desafio interessante neste dataset é que alguns valores "zero" em certas colunas (como `Glucose`, `BloodPressure` ou `BMI`) são, na verdade, dados ausentes ou implausíveis (uma pessoa não pode ter pressão arterial de 0). Tratar esses valores de forma adequada será uma parte importante do pré-processamento.

### Tratando valores zeros
Vamos substituir os valores zeros por NaN. 

In [12]:
# Identificar e contar os zeros nas colunas onde zero é um valor inválido.
# Não incluímos 'Pregnancies' e 'Outcome', pois 0 é um valor válido para elas.
colunas_com_zeros_invalidos = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']


print("--- Contagem de Zeros Inválidos Antes da Substituição ---")
# Itera sobre a lista de colunas e conta quantos zeros existem em cada uma.
for coluna in colunas_com_zeros_invalidos:
    num_zeros = (df[coluna] == 0).sum()
    print(f"Coluna '{coluna}': {num_zeros} zeros")

#  Substituir os zeros por NaN (Not a Number) diretamente no DataFrame 'df'.
df[colunas_com_zeros_invalidos] = df[colunas_com_zeros_invalidos].replace(0, np.nan)
print("\nValores '0' substituídos por NaN no DataFrame 'df'.")

#  Confirmar a contagem de valores nulos de forma explícita.
print("\n--- Contagem de Valores Nulos (NaN) por Coluna ---")
print(df.isnull().sum())

print("Porcentagem de valores ausanetes por coluna:")
((df.isnull().sum() / df.shape[0])*100).sort_values(ascending=False)

--- Contagem de Zeros Inválidos Antes da Substituição ---
Coluna 'Glucose': 0 zeros
Coluna 'BloodPressure': 0 zeros
Coluna 'SkinThickness': 0 zeros
Coluna 'Insulin': 0 zeros
Coluna 'BMI': 0 zeros
Coluna 'DiabetesPedigreeFunction': 0 zeros
Coluna 'Age': 0 zeros

Valores '0' substituídos por NaN no DataFrame 'df'.

--- Contagem de Valores Nulos (NaN) por Coluna ---
Pregnancies                   0
Glucose                       5
BloodPressure                35
SkinThickness               227
Insulin                     374
BMI                          11
DiabetesPedigreeFunction      0
Age                           0
Outcome                       0
dtype: int64
Porcentagem de valores ausanetes por coluna:


Insulin                     48.697917
SkinThickness               29.557292
BloodPressure                4.557292
BMI                          1.432292
Glucose                      0.651042
Pregnancies                  0.000000
DiabetesPedigreeFunction     0.000000
Age                          0.000000
Outcome                      0.000000
dtype: float64

### Análise das Porcentagens de Valores Ausentes

*   **`Insulin`: 48.7%**
    *   **Problema:** Quase metade dos dados de insulina está faltando. Esta é uma quantidade muito significativa.
    *   **Impacto:** Simplesmente remover quase metade das linhas do nosso dataset seria desastroso, pois perderíamos muita informação valiosa das outras colunas. Preencher quase 50% dos valores com uma única estatística (média/mediana) também é arriscado, pois pode distorcer a distribuição natural da variável e diminuir seu poder preditivo.

*   **`SkinThickness`: 29.6%**
    *   **Problema:** Similar à insulina, mas um pouco menos severo. Quase um terço dos dados de espessura da pele está ausente.
    *   **Impacto:** As mesmas preocupações se aplicam. A imputação precisa ser feita com cuidado.

*   **`BloodPressure`: 4.6%**, **`BMI`: 1.4%**, **`Glucose`: 0.7%**
    *   **Problema:** Estas colunas têm uma quantidade pequena e muito mais gerenciável de dados ausentes.
    *   **Impacto:** Para estas variáveis, a imputação com a média ou mediana é uma estratégia segura e padrão. O risco de distorcer a distribuição é mínimo.

### Estratégia de Pré-processamento (Plano de Ação)

Com base nessa análise, podemos definir uma estratégia clara.

**1. Para `Glucose`, `BloodPressure` e `BMI` (Poucos Dados Ausentes):**

A melhor abordagem é a **imputação pela mediana**. Usamos a mediana em vez da média porque ela é menos sensível a valores extremos (outliers), que são comuns em dados médicos.

**2. Para `Insulin` e `SkinThickness` (Muitos Dados Ausentes):**

Aqui temos algumas opções, da mais simples à mais complexa:

*   **Opção A (Mais Simples): Imputação pela Mediana.**
    *   **Prós:** Rápido e fácil de implementar. Mantém o tamanho do dataset.
    *   **Contras:** Pode introduzir um viés significativo no modelo, já que estamos "inventando" uma grande quantidade de dados. O modelo pode aprender que o valor da mediana está associado a um determinado resultado, o que não é verdade.

*   **Opção B (Mais Segura): Remover as Colunas.**
    *   **Prós:** Evita completamente o risco de introduzir informações falsas. O modelo será treinado apenas com os dados que temos certeza que são reais.
    *   **Contras:** Perdemos potencialmente informações preditivas importantes. A insulina, por exemplo, é fundamental no diagnóstico da diabetes.

*   **Opção C (Avançada): Imputação Preditiva.**
    *   **Prós:** A abordagem mais sofisticada. Treinamos um modelo de regressão (ex: k-NN ou Regressão Linear) para *prever* os valores ausentes de `Insulin` com base nas outras colunas.
    *   **Contras:** Muito mais complexo de implementar e pode vazar informação do conjunto de teste se não for feito corretamente dentro de um pipeline.

**Escolha para o Projeto:**

Para este projeto, seguirmos um caminho mais simples:

1.  **Excluir `Glucose`, `BloodPressure` e `BMI` com valores ausetes.**
2.  **Excluir as colunas `Insulin` e `SkinThickness`** e testar os modelos preditivos sem estas colunas.
3.  **Mantar as colunas  `Insulin` e `SkinThickness`** mas apagar as linhas com valores ausentes e testar os modelos preditivos.


#### Passos 1 e 2
Criaremos um novo dataframe  após realizar os passos 1 e 2.

In [13]:
# ---  Criar uma cópia do DataFrame para não alterar o original ---
# Todas as operações de limpeza serão feitas no 'df_limpo'.
df_limpo = df.copy()

print("--- Estado Inicial dos DataFrames ---")
print(f"df_limpo (cópia) possui {df_limpo.shape[0]} linhas e {df_limpo.shape[1]} colunas.")
print("-" * 50)


# --- Excluir as LINHAS com valores ausentes em colunas específicas do df_limpo ---
# Definimos as colunas onde não aceitaremos valores ausentes.
colunas_para_limpar_linhas = ['Glucose', 'BloodPressure', 'BMI']

# Usamos .dropna() no df_limpo. O resultado é atribuído de volta a ele mesmo.
# O argumento 'subset' especifica que devemos olhar apenas para estas colunas.
df_limpo = df_limpo.dropna(subset=colunas_para_limpar_linhas)

print("\n--- Após exclusão de LINHAS no 'df_limpo' ---")
print(f"df_limpo agora possui {df_limpo.shape[0]} linhas.")
print("-" * 50)


# ---  Excluir as COLUNAS 'Insulin' e 'SkinThickness' do df_limpo ---
# Usamos .drop() para remover as colunas.
# 'axis=1' especifica que queremos remover COLUNAS.
colunas_para_excluir = ['Insulin', 'SkinThickness']
df_limpo = df_limpo.drop(columns=colunas_para_excluir)

print("\n--- Após exclusão de COLUNAS no 'df_limpo' ---")
print(f"df_limpo agora possui {df_limpo.shape[1]} colunas.")
print(f"Colunas restantes: {df_limpo.columns.tolist()}")
print("-" * 50)

df_limpo.info()

--- Estado Inicial dos DataFrames ---
df_limpo (cópia) possui 768 linhas e 9 colunas.
--------------------------------------------------

--- Após exclusão de LINHAS no 'df_limpo' ---
df_limpo agora possui 724 linhas.
--------------------------------------------------

--- Após exclusão de COLUNAS no 'df_limpo' ---
df_limpo agora possui 7 colunas.
Colunas restantes: ['Pregnancies', 'Glucose', 'BloodPressure', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
Index: 724 entries, 0 to 767
Data columns (total 7 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               724 non-null    int64  
 1   Glucose                   724 non-null    float64
 2   BloodPressure             724 non-null    float64
 3   BMI                       724 non-null    float64
 4   DiabetesPedigreeFunction  724 non-null    float64

#### Passos 1 e 3
Criaremos um novo dataframe após realizar os passos 1 e 3.

In [14]:
# --- Criar uma cópia do DataFrame original ---
# O novo DataFrame 'df_short' receberá as modificações.
df_short = df.copy()

print("--- Estado Inicial dos DataFrames ---")
print(f"df_short (cópia) possui {df_short.shape[0]} linhas e {df_short.shape[1]} colunas.")
print("-" * 50)


# --- Excluir TODAS as linhas que contenham QUALQUER valor ausente (NaN) ---
# O método .dropna() sem argumentos remove qualquer linha que tenha pelo menos um NaN.
# O resultado da operação (um DataFrame menor) é atribuído de volta a 'df_short'.
df_short = df_short.dropna()

print("\n--- Após remover TODAS as linhas com valores NaN do 'df_short' ---")
print(f"O 'df_short' agora possui {df_short.shape[0]} linhas.")
print(f"Foram removidas {df.shape[0] - df_short.shape[0]} linhas.")
print("-" * 50)

df_short.info()

--- Estado Inicial dos DataFrames ---
df_short (cópia) possui 768 linhas e 9 colunas.
--------------------------------------------------

--- Após remover TODAS as linhas com valores NaN do 'df_short' ---
O 'df_short' agora possui 392 linhas.
Foram removidas 376 linhas.
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
Index: 392 entries, 3 to 765
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               392 non-null    int64  
 1   Glucose                   392 non-null    float64
 2   BloodPressure             392 non-null    float64
 3   SkinThickness             392 non-null    float64
 4   Insulin                   392 non-null    float64
 5   BMI                       392 non-null    float64
 6   DiabetesPedigreeFunction  392 non-null    float64
 7   Age                       392 non-null    int64  
 8   Outcome                 