<a href="https://colab.research.google.com/github/viniciussz7/classification_machine_learning/blob/main/src/notebooks/projeto_aprendizagem_de_maquina.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PLANO DE PROJETO [LER PARA ACOMPANHAR O RACIOCINIO E PODER CONTRIBUIR DE FORMA ASSINCRONA
[link DO DOC](https://docs.google.com/document/d/1geqLKlakevyHC8dC1BxJSpdSTCFqvyLIYwKCwYajBfQ/edit?usp=sharing)

# Projeto de Aprendizagem de Máquina

Este trabalho tem como objetivo aplicar os conceitos de Machine Learning (ML) vistos em sala de aula,
utilizando uma base de dados real para desenvolver um projeto completo de ML.

👥 Desenvolvido por:
  - Gabriel Uzel
  - Ivandro
  - Vinícius Oliveira



## 📚 Importação das Bibliotecas

Primeiro, importamos todas as bibliotecas necessárias para nossa análise e visualização dos dados.

- **pandas 🐼**
- **matplotlib 🎨**
- **seaborn 📈**
- **scikit-learn 🛠️**
- **numpy 🔢**

In [None]:
# Instalação de pacotes necessários diretamente no ambiente do Colab
!pip install matplotlib scikit-learn pandas seaborn kaggle

# Importação de bibliotecas
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier # Importar RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_auc_score, RocCurveDisplay # Importar métricas de avaliação


##🗂️ Sobre o Dataset

A base de dados é o conjunto **Heart Failure Prediction Dataset**. Disponível na plataforma Kaggle, no seguinte link:

[Heart Failure Prediction Dataset](https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction/data)

![Imagem Dataset](https://storage.googleapis.com/kaggle-datasets-images/1582403/2603715/fc66626bcce9dec0f401f3f69c2ab2d1/dataset-cover.jpg?t=2021-09-10-18-13-42)

Esse conjunto de dados contém informações clínicas de pacientes, com o objetivo de prever a ocorrência de insuficiência cardíaca. As variáveis incluem idade, sexo, presença de doenças como diabetes e hipertensão, nível de creatinina, e outras métricas relevantes obtidas durante o acompanhamento hospitalar.

###🟫 Atributos do Dataset

* ***(Age):*** A idade do paciente em anos.
* ***(Sex):*** O sexo do paciente.
  * M: Masculino
  * F: Feminino
* ***(ChestPainType):*** O tipo de dor no peito relatada pelo paciente.
  * TA (Angina Típica): Dor no peito clássica associada à angina.
  * ATA (Angina Atípica): Dor no peito que não se encaixa perfeitamente nos padrões da angina típica.
  * NAP (Dor Não Anginosa): Dor no peito que não está relacionada a problemas cardíacos.
  * ASY (Assintomático): Ausência de dor no peito, mesmo na presença de doença cardíaca.
* ***(RestingBP):*** A pressão arterial do paciente em repouso, medida em milímetros de mercúrio (mm Hg).
* ***(Cholesterol):*** O nível de colesterol sérico (no sangue) do paciente, medido em miligramas por decilitro (mg/dl).
* ***(FastingBS):*** Indica se o nível de açúcar no sangue do paciente em jejum é elevado.
  * 1: Se a glicemia em jejum for maior que 120 mg/dl.
  * 0: Caso contrário.
* ***(RestingECG):*** Os resultados do eletrocardiograma (ECG) do paciente em repouso.
  * Normal: O ECG apresenta resultados normais.
  * ST: Indica anormalidade na onda ST-T (inversões da onda T e/ou elevação ou depressão do segmento ST maior que 0.05 mV). Isso pode sugerir isquemia miocárdica (falta de fluxo sanguíneo para o coração).
  * LVH (Hipertrofia Ventricular Esquerda): Mostra provável ou definitiva hipertrofia ventricular esquerda pelos critérios de Estes. Isso significa que a parede do ventrículo esquerdo do coração está mais espessa do que o normal.
* ***(MaxHR):*** A frequência cardíaca máxima que o paciente atingiu durante um teste de esforço. O valor numérico está entre 60 e 202 batimentos por minuto.
* ***(ExerciseAngina):*** Indica se o paciente experimentou angina (dor no peito) durante o exercício.
  * Y: Sim
  * N: Não
* ***(Oldpeak):*** Um valor numérico que representa a depressão do segmento ST do ECG durante o exercício, que é um indicador de isquemia.
* ***(ST_Slope):*** A inclinação do segmento ST no pico do exercício.
  * Up (Ascendente): A inclinação é para cima.
  * Flat (Plana): A inclinação é plana.
  * Down (Descendente): A inclinação é para baixo.
* ***(HeartDisease):*** A classe de saída, indicando a presença ou ausência de doença cardíaca.
  * 1: O paciente tem doença cardíaca.
  * 0: O paciente é considerado normal (sem doença cardíaca).

###🟫 Classificação dos Atributos

####🔹 Atributos Numéricos
São aqueles que representam quantidades e podem ser medidos.
* **Idade (Age)**
* **Pressão Arterial em Repouso (RestingBP)**
* **Colesterol (Cholesterol)**
* **Frequência Cardíaca Máxima (MaxHR)**
* **Oldpeak**

####🔸 Atributos Categóricos
São aqueles que representam categorias ou grupos e não possuem um valor numérico inerente.
* **Sexo (Sex)**
* **Tipo de Dor no Peito (ChestPainType)**
* **Glicemia em Jejum (FastingBS)**
* **ECG em Repouso (RestingECG)**
* **Angina Induzida por Exercício (ExerciseAngina)**
* **Inclinação do Segmento ST de Pico do Exercício (ST_Slope)**
* **Doença Cardíaca (HeartDisease)**

### 📂📄 Carregando o Dataset



In [None]:
!mkdir -p ~/.kaggle

from google.colab import files
files.upload()

!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.

!kaggle datasets download -d fedesoriano/heart-failure-prediction
!unzip -o heart-failure-prediction.zip


In [None]:
df = pd.read_csv('heart.csv')
df.head(10)

---
# FASE 1
---

##🔎📊 Análise Exploratória dos Dados (EDA)

### 1. Visão Geral

* Resumo das colunas, tipos de dados e contagem de valores não-nulos.
* Estatísticas descritivas para colunas numéricas.

In [None]:
df.info()

In [None]:
df.describe()

### 2. Análise Univariada

* Compreender a distribuição individual de cada variável.
* Identificar padrões, vieses, a concentração de dados e a presença de valores atípicos (outliers).
* Verificar o balanço das classes na variável alvo (HeartDisease).



####🔹 Atributos numéricos
📌 **Distribuição**

❗ Visualizar a forma da distribuição de cada variável numérica.
- Forma da Distribuição
- Concentração dos Dados
- Presença de Outliers
- Vieses


In [None]:
# SELECIONANDO OS ATRIBUTOS NUMERICOS:
numerical_attributes = ['Age', 'RestingBP', 'Cholesterol', 'MaxHR', 'Oldpeak']

# (HISTOGRAMA) PLOTANDO A DISTRIBUIÇAO DE CADA ATRIBUTO NUMERICO
plt.figure(figsize=(15, 10))
for i, col in enumerate(numerical_attributes):
    plt.subplot(2, 3, i + 1)
    sns.histplot(data=df, x=col, kde=True)
    plt.title(f'Distribuição de {col}') # Título do gráfico
    plt.xlabel(col) # Rótulo do eixo X
    plt.ylabel('Frequência') # Rótulo do eixo Y
plt.tight_layout() # Ajusta o layout para evitar sobreposição
#plt.savefig('numerical_histograms.png') # Salva a figura

🧠 Insights:

-
-
-


📌 **Dispersão**

❗ Resumir a distribuição de uma variável e identificar outliers de forma clara.
- Mediana
- Quartis (Q1 e Q3)
- Amplitude (Range)
- Simetria


In [None]:
# (BOXPLOT) PLOTANDO A DISPERSAO DE CADA ATRIBUTO NUMERICO
plt.figure(figsize=(15, 10))
for i, col in enumerate(numerical_attributes):
    plt.subplot(2, 3, i + 1)
    sns.boxplot(y=df[col]) # Cria o box plot
    plt.title(f'Box Plot de {col}') # Título do gráfico
    plt.ylabel(col) # Rótulo do eixo Y
plt.tight_layout() # Ajusta o layout para evitar sobreposição
plt.savefig('numerical_boxplots.png') # Salva a figura

🧠 Insights:

-
-
-


📌 **Estatísticas Descritivas**

❗ Fornecer um resumo numérico preciso das variáveis, complementando as visualizações.
- Média
- Mediana
- Moda
- Desvio Padrão
- Quartis

In [None]:
for col in numerical_attributes:
    print(f"\n--- Atributo: {col} ---")
    print(f"Média: {df[col].mean():.2f}") # Calcula a média
    print(f"Mediana: {df[col].median():.2f}") # Calcula a mediana

    # A moda pode ter múltiplos valores ou nenhum
    moda = df[col].mode()
    if len(moda) > 1:
        print(f"Moda: {', '.join(map(str, moda.tolist()))}")
    elif len(moda) == 1:
        print(f"Moda: {moda[0]:.2f}")
    else:
        print("Moda: Não encontrada ou todos os valores únicos.")

    print(f"Desvio Padrão: {df[col].std():.2f}") # Calcula o desvio padrão
    print(f"Variância: {df[col].var():.2f}") # Calcula a variância
    print(f"Quartis (25%, 50%, 75%):\n{df[col].quantile([0.25, 0.5, 0.75]).to_string()}") # Calcula os quartis

🧠 Insights:

-
-
-


####🔸 Atributos Categóricos
📌 Frequência de Ocorrências

❗ Visualizar a contagem de ocorrências de cada categoria.
- Distribuição das Categorias
- Balanço das Classes
- Problemas de Dados
- Composição da População

In [None]:
# # SELECIONANDO OS ATRIBUTOS CATEGÓRICOS
# Lembre-se: 'FastingBS' e 'HeartDisease' são numéricos, mas representam categorias (0 ou 1)
categorical_attributes = ['Sex', 'ChestPainType', 'FastingBS', 'RestingECG', 'ExerciseAngina', 'ST_Slope', 'HeartDisease']

# (BARRAS) PLOTANDO CONTAGEM DE OCORRÊNCIAS DE CADA CATEGORIA
plt.figure(figsize=(18, 15)) # Define o tamanho da figura para múltiplos plots
for i, col in enumerate(categorical_attributes):
    plt.subplot(3, 3, i + 1) # Organiza os plots em uma grade 3x3
    sns.countplot(data=df, x=col, hue=col, palette='viridis', legend=False) # Cria o countplot
    plt.title(f'Frequência de {col}') # Título do gráfico
    plt.xlabel(col) # Rótulo do eixo X
    plt.ylabel('Contagem') # Rótulo do eixo Y
    plt.xticks(rotation=45, ha='right') # Rotaciona os rótulos do eixo X para melhor leitura
plt.tight_layout() # Ajusta o layout para evitar sobreposição
plt.savefig('categorical_count_plots.png') # Salva a figura

🧠 Insights:

-
-
-


📌 Contagem e Proporção de Cada Categoria

❗ A contagem e a proporção numérica oferecem a precisão necessária.
- Valores Exatos
- Percentagens Reais
  - Identificar Categorias Dominantes ou Raras
  - Confirmar o Balanço de Classes
  - Verificar Erros de Digitação ou Codificação

In [None]:
for col in categorical_attributes:
    print(f"\n--- Atributo: {col} ---")

    # Contagem de valores
    counts = df[col].value_counts()
    print("Contagem de Valores:")
    print(counts.to_string()) # Usar .to_string() para exibir todas as linhas se houver muitas

    # Proporção de valores
    proportions = df[col].value_counts(normalize=True) * 100 # normalize=True retorna proporções
    print("\nProporção de Valores (%):")
    print(proportions.round(2).to_string()) # Arredonda para 2 casas decimais e exibe todas as linhas

🧠 Insights:

-
-
-

### 3. Análise Bivariada
* Descobrir relações, tendências e padrões entre pares de variáveis.
* Identificar quais variáveis podem ser mais preditivas para a variável alvo (HeartDisease).
* Entender como diferentes atributos interagem entre si.


#### 🆚 Numérico x Numérico

📌 Gráficos de Dispersão (Scatter Plots)
- Identificar Relações
- Detectar Padrões e Clusters
- Perceber Outliers Bivariados
- Avaliar a Separação por Variável Alvo

In [None]:
import itertools

# Gerar todos os pares únicos de atributos numéricos
scatter_pairs = list(itertools.combinations(numerical_attributes, 2))

# Exibir os pares
print("Pares de atributos numéricos:")
for pair in scatter_pairs:
    print(pair)


In [None]:
plt.figure(figsize=(18, 12))
for i, (x_col, y_col) in enumerate(scatter_pairs):
    plt.subplot(4, 3, i + 1)
    sns.scatterplot(data=df, x=x_col, y=y_col, hue='HeartDisease', alpha=0.7) # 'hue' para ver a relação com a doença cardíaca
    plt.title(f'Dispersão de {x_col} vs. {y_col}') # Título
    plt.xlabel(x_col) # Rótulo X
    plt.ylabel(y_col) # Rótulo Y
plt.tight_layout() # Ajusta o layout
plt.savefig('numerical_scatter_plots.png') # Salva a figura

🧠 Insights:

-
-
-

📌 Matriz de Correlação e Heatmap
- Quantificar Relações Lineares
- Identificar Multicolinearidade
- Entender Preditores Potenciais

In [None]:
# Calcular a matriz de correlação para atributos numéricos
correlation_matrix = df[numerical_attributes].corr()

plt.figure(figsize=(10, 8)) # Define o tamanho da figura
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5) # Cria o heatmap
plt.title('Matriz de Correlação entre Atributos Numéricos') # Título
plt.xticks(rotation=45, ha='right') # Rotaciona rótulos para melhor leitura
plt.yticks(rotation=0) # Garante rótulos Y legíveis
plt.tight_layout() # Ajusta o layout
plt.savefig('numerical_correlation_heatmap.png') # Salva a figura

🧠 Insights:

-
-
-

#### 🆚 Categórico x Categórico

📌 Tabelas de Contingência
- Entender Frequências Conjuntas
- Avaliar Associações
- Identificar Preditores Categóricos


In [None]:
# Remover 'HeartDisease' temporariamente da lista de categóricos para evitar que ela seja comparada consigo mesma,
# mas vamos usá-la como a variável alvo na maioria das comparações.
categorical_features_for_crosstab = [col for col in categorical_attributes if col != 'HeartDisease']

print("\nTabelas de Contingência (Frequência Conjunta) para Atributos Categóricos vs. HeartDisease:")
for col in categorical_features_for_crosstab:
    print(f"\n--- {col} vs. HeartDisease ---")

    # Tabela de contingência absoluta
    crosstab_abs = pd.crosstab(df[col], df['HeartDisease'])
    print("\nContagem Absoluta:")
    print(crosstab_abs.to_string())

    # Tabela de contingência de proporção (normalizada pela linha, para ver a distribuição de HeartDisease por categoria)
    crosstab_prop_row = pd.crosstab(df[col], df['HeartDisease'], normalize='index') * 100
    print("\nProporção por Linha (%) - Distribuição de HeartDisease dentro de cada categoria de '", col, "':")
    print(crosstab_prop_row.round(2).to_string())

    # Tabela de contingência de proporção (normalizada pela coluna, para ver a distribuição de cada categoria por HeartDisease)
    crosstab_prop_col = pd.crosstab(df[col], df['HeartDisease'], normalize='columns') * 100
    print("\nProporção por Coluna (%) - Distribuição de '", col, "' dentro de cada categoria de HeartDisease:")
    print(crosstab_prop_col.round(2).to_string())

# Exemplo de crosstab entre duas variáveis categóricas não-alvo
print("\n--- Sexo vs. Tipo de Dor no Peito (ChestPainType) ---")
print(pd.crosstab(df['Sex'], df['ChestPainType']).to_string())


🧠 Insights:

-
-
-

📌 Gráficos de Barras Empilhadas ou Agrupadas
- Comparação Visual de Frequências
- Identificação Rápida de Padrões
- Compreensão da Composição

In [None]:
plt.figure(figsize=(18, 15)) # Define o tamanho da figura
for i, col in enumerate(categorical_features_for_crosstab):
    plt.subplot(3, 3, i + 1) # Organiza os plots
    sns.countplot(data=df, x=col, hue='HeartDisease', palette='Set2') # Cria o countplot com hue
    plt.title(f'Distribuição de {col} por Doença Cardíaca') # Título
    plt.xlabel(col) # Rótulo X
    plt.ylabel('Contagem') # Rótulo Y
    plt.xticks(rotation=45, ha='right') # Rotaciona rótulos
    plt.legend(title='Doença Cardíaca', labels=['Normal (0)', 'Com Doença (1)']) # Legenda
plt.tight_layout() # Ajusta o layout
plt.savefig('categorical_bivariate_bar_plots.png') # Salva a figura

🧠 Insights:

-
-
-

#### 🆚 Numérico x Categórico (com HeartDisease)

📌 Tabelas de Contingência
- Comparar Distribuições
- Identificar Diferenças de Grupo
- Verificar Outliers por Grupo
- Densidade da Distribuição (Violin Plots)

In [None]:
#Boxplot
plt.figure(figsize=(18, 12)) # Define o tamanho da figura
for i, col in enumerate(numerical_attributes):
    plt.subplot(2, 3, i + 1) # Organiza os plots
    sns.boxplot(data=df, x='HeartDisease', y=col, hue='HeartDisease', palette='pastel', legend=False) # Cria o box plot
    plt.title(f'Distribuição de {col} por Doença Cardíaca') # Título
    plt.xlabel('Doença Cardíaca (0: Normal, 1: Com Doença)') # Rótulo X
    plt.ylabel(col) # Rótulo Y
    plt.xticks([0, 1], ['Normal (0)', 'Com Doença (1)']) # Define rótulos personalizados para o eixo X
plt.tight_layout() # Ajusta o layout
#plt.savefig('numerical_vs_heartdisease_boxplots.png') # Salva a figura

In [None]:
#Violin Plot
plt.figure(figsize=(18, 12))
for i, col in enumerate(numerical_attributes):
    plt.subplot(2, 3, i + 1)
    sns.violinplot(data=df, x='HeartDisease', y=col, hue='HeartDisease', palette='coolwarm', legend=False)
    plt.title(f'Distribuição de {col} por Doença Cardíaca (Violin Plot)')
    plt.xlabel('Doença Cardíaca (0: Normal, 1: Com Doença)')
    plt.ylabel(col)
    plt.xticks([0, 1], ['Normal (0)', 'Com Doença (1)'])
plt.tight_layout() # Ajusta o layout
#plt.savefig('age_vs_heartdisease_violinplot.png')

🧠 Insights:

-
-
-

---
# FASE 2
---

## 🤖 Modelagem Inicial com Dados Brutos (Baseline)

### 1. Preparação dos Dados para o Modelo

####⛓️‍💥 Separar atributos (X) da variável alvo (y = HeartDisease).

In [None]:
X = df.drop('HeartDisease', axis=1)
y = df['HeartDisease']

X.shape, y.shape

####🔡🔜🔢 Converter atributos categóricos (encoding)

**❗Decisão da Equipe:**

 Para este projeto inicial, e dada a natureza nominal da maioria das suas categorias (tipo de dor no peito, sexo, etc., que não têm uma ordem intrínseca), o **One-Hot Encoding** é geralmente a escolha mais segura e recomendada. Ele evita que o modelo infira relações ordinais inexistentes.

In [None]:
# Identificar colunas com tipo 'object' (strings) que são tipicamente categóricas
categorical_cols_to_encode = X.select_dtypes(include='object').columns

# Codificando os atributos categóricos
X_encoded = pd.get_dummies(X, columns=categorical_cols_to_encode, drop_first=True) # drop_first=True evita multicolinearidade perfeita
X_encoded.info()

### 2. Escolha e Justificativa do Algoritmo Inicial

####✅ Selecionar um algoritmo de classificação

**❗Decisão da equipe: Random Forest**

Um algoritmo de ensemble baseado em árvores de decisão que geralmente apresenta bom desempenho e é robusto a outliers (que foram observados na análise exploratória). Lida bem com atributos numéricos e categóricos e pode capturar interações não lineares entre as variáveis. Sua natureza de ensemble ajuda a reduzir o overfitting.



In [None]:
model = RandomForestClassifier(random_state=42)

### 3. Treinamento do Modelo com Validação Cruzada

####📂📂 Dividir o dataset em conjuntos de treino e teste

Mantém a integridade da avaliação do modelo em dados não vistos, protegendo contra o overfitting. A divisão estratificada (stratify=y) é crucial para garantir que a proporção das classes da variável alvo (HeartDisease) seja mantida tanto no conjunto de treino quanto no de teste.

In [None]:
# Dividir o dataset em conjuntos de treino e teste (e.g., 80/20)
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42, stratify=y)
X_train.shape, X_test.shape


In [None]:
# Verificar o balanceamento das classes no treino e teste
print(y_train.value_counts(normalize=True))
print(y_test.value_counts(normalize=True))

####🔀 Aplicar validação cruzada

Proporciona uma estimativa mais estável e confiável do desempenho do modelo em generalização, reduzindo a variabilidade que poderia surgir de uma única divisão de treino/teste.

In [None]:
# Definir o número de folds para a validação cruzada
k_folds = 5

# Realizar a validação cruzada
# Usaremos 'accuracy' como métrica de pontuação para o baseline.
cv_scores = cross_val_score(model, X_train, y_train, cv=k_folds, scoring='accuracy')

print(f"Scores de Acurácia por Fold: {cv_scores}")
print(f"Acurácia Média da Validação Cruzada: {cv_scores.mean():.4f}")
print(f"Desvio Padrão da Acurácia da Validação Cruzada: {cv_scores.std():.4f}")

#### 🏋🏽Treinar o modelo

Este é o passo onde o algoritmo de Machine Learning aprende os padrões dos dados. Ele ajusta seus parâmetros internos para mapear as features (X_train) para a variável alvo (y_train).

In [None]:
# Treinar o modelo no X_train e y_train
model.fit(X_train, y_train)

####🔮 Testar o modelo (Previsões)

### 4. Avaliação e Métricas

####▶️ Testar o Modelo (Previsões)

Estas previsões são o que o modelo "acha" que são as classes dos exemplos no conjunto de teste. Elas serão comparadas com os valores reais (y_test) para avaliar o desempenho.

In [None]:
# Fazer previsões no X_test
y_pred = model.predict(X_test)

# Calcular as probabilidades de previsão para a classe positiva (usado para ROC AUC)
y_prob = model.predict_proba(X_test)[:, 1]

####🔍 Análise dos Resultados

Essas métricas fornecem uma visão completa do desempenho do modelo, destacando seus pontos fortes e fracos em relação à identificação de cada classe (normal vs. doença cardíaca).

**🟢 Acurácia:**

A Acurácia é a métrica mais intuitiva e simples: é a proporção de previsões corretas (número de acertos / número total de exemplos).

⚠️ Para problemas de classificação com classes desbalanceadas, a acurácia pode ser muito enganosa.


In [None]:
# Acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia: {accuracy:.4f}")

**🟢 Precisão (Precision):**

Quantos dos que o modelo previu como HeartDisease=1 são realmente HeartDisease=1.

**🟢 Sensibilidade (Recall):**

Dos que realmente têm HeartDisease=1, quantos o modelo conseguiu identificar.

**🟢 F1-Score:**

Uma média harmônica entre Precisão e Recall, útil quando você quer um equilíbrio entre ambos.


In [None]:
# Classification Report (Precisão, Recall, F1-Score)
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred, target_names=['Normal (0)', 'Com Doença (1)']))

**🟢 Matriz de Confusão:**

Uma tabela que resume o número de previsões corretas e incorretas por classe.
- VP = Verdadeiros Positivos
- VN = Verdadeiros Negativos
- FP = Falsos Positivos
- FN = Falsos Negativos

⚠️ Em problemas de saúde, Falsos Negativos (perder um diagnóstico) são geralmente mais críticos.

In [None]:
# Matriz de Confusão
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nMatriz de Confusão:")
print(conf_matrix)

print(f"  Verdadeiros Positivos (VP): {conf_matrix[1, 1]} (Modelos previu 1 e o real era 1)")
print(f"  Verdadeiros Negativos (VN): {conf_matrix[0, 0]} (Modelos previu 0 e o real era 0)")
print(f"  Falsos Positivos (FP): {conf_matrix[0, 1]} (Modelos previu 1, mas o real era 0 - Erro Tipo I)")
print(f"  Falsos Negativos (FN): {conf_matrix[1, 0]} (Modelos previu 0, mas o real era 1 - Erro Tipo II)")

**🟢 Curva ROC e AUC:**

Uma métrica que avalia a capacidade do modelo de distinguir entre as classes, independentemente do limiar de classificação. É robusta para desequilíbrio de classes.

In [None]:
# ROC AUC Score
roc_auc = roc_auc_score(y_test, y_prob)
print(f"\nROC AUC Score: {roc_auc:.4f}")

In [None]:
# Plotar Curva ROC
plt.figure(figsize=(8, 6))
roc_display = RocCurveDisplay.from_estimator(model, X_test, y_test, name='RandomForestClassifier')
roc_display.plot(ax=plt.gca()) # Usa o eixo atual do plot
plt.title('Curva ROC para RandomForestClassifier (Dados Brutos)')
plt.grid(True)
plt.savefig('roc_curve_baseline_rf.png')

🧠 Insights:

-
-
-

---
# FASE 3
---

## 🧹🛠️ Limpeza e Tratamento dos Dados

### 1. Tratamento de Valores Ausentes

### 2. Tratamento de Outliers

### 3. Correção de "Muitos Valores Zero"

### 4. Engenharia e Seleção de Atributos (Feature Engineering)

### 5. Escalonamento/Normalização de Atributos Numéricos

---
# FASE 4
---

##🤖🆙 Modelagem Aprimorada com Dados Tratados