# 🧠 Fase 1 – Entendimento do Negócio

Este projeto tem como objetivo prever o risco de doenças cardiovasculares com base em dados clínicos e hábitos de vida de pacientes.

**Objetivo:** Construir um modelo de classificação binária que indique se o paciente possui (`1`) ou não (`0`) um risco cardiovascular, com base em atributos como idade, pressão arterial, colesterol, glicose, IMC, entre outros.

**Justificativa:** Doenças cardiovasculares são a principal causa de morte no mundo. Prever o risco de forma antecipada permite ações preventivas e direcionamento de recursos em saúde.

**Variável-alvo:** `cardio`  
- 1 → presença de risco cardiovascular  
- 0 → ausência de risco

**Critério de sucesso:** Obter um modelo com **alta acurácia** e **baixo índice de falsos negativos**, priorizando a detecção precoce do risco.


## 📋 Dicionário de Variáveis do Dataset

| Coluna         | Descrição                                                                 |
|----------------|--------------------------------------------------------------------------|
| `id`           | Identificador único do paciente                                          |
| `age`          | Idade em dias (transformaremos em anos)                                 |
| `gender`       | 1 = feminino, 2 = masculino                                              |
| `height`       | Altura em centímetros                                                    |
| `weight`       | Peso em quilogramas                                                      |
| `ap_hi`        | Pressão arterial sistólica (máxima)                                      |
| `ap_lo`        | Pressão arterial diastólica (mínima)                                     |
| `cholesterol`  | 1 = normal, 2 = acima do normal, 3 = muito acima do normal               |
| `gluc`         | Glicose (mesma codificação de colesterol)                                |
| `smoke`        | 1 = fuma, 0 = não fuma                                                   |
| `alco`         | 1 = consome álcool, 0 = não consome                                      |
| `active`       | 1 = fisicamente ativo, 0 = inativo                                       |
| `cardio`       | 1 = risco de doença cardiovascular, 0 = sem risco                        |


# 📊 Fase 2 – Entendimento dos Dados

Nesta etapa, realizamos a leitura do dataset, inspeção inicial das variáveis e estatísticas descritivas.


In [None]:
# Importação de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuração de estilo
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 5)


In [None]:
# Leitura do dataset
df = pd.read_csv("cardio_train.csv", sep=';')
df.head()

In [None]:
# Verificando dimensões
print(f"Total de registros: {df.shape[0]} linhas e {df.shape[1]} colunas.")

In [None]:
# Verificando tipos de dados
df.dtypes

In [None]:
# Verificando valores nulos
df.isnull().sum()

In [None]:
# Estatísticas descritivas
df.describe()

In [None]:
# Gráfico: distribuição da variável-alvo
sns.countplot(data=df, x='cardio')
plt.title('Distribuição da variável-alvo (cardio)')
plt.show()

In [None]:
# Gráfico: distribuição da idade
sns.histplot(data=df, x='age_years', hue='cardio', kde=True, bins=30)
plt.title('Distribuição da idade por presença de risco cardiovascular')
plt.show()

In [None]:
# Boxplot da pressão sistólica por classe
sns.boxplot(data=df, x='cardio', y='ap_hi')
plt.title('Pressão Sistólica (ap_hi) por Classe')
plt.show()

In [None]:
# Heatmap de correlação
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Correlação entre variáveis numéricas')
plt.show()

In [None]:
# Verificando valores inconsistentes
df[(df['ap_hi'] < df['ap_lo']) | (df['height'] < 100) | (df['height'] > 250) | (df['weight'] < 30) | (df['weight'] > 200)]

In [None]:
# Transformar idade de dias para anos
df['age_years'] = (df['age'] / 365).astype(int)
df[['age', 'age_years']].head()

# 🔧 Fase 3 – Preparação dos Dados

(Em desenvolvimento)

# 🤖 Fase 4 – Modelagem

(Em desenvolvimento)

# 📈 Fase 5 – Avaliação

(Em desenvolvimento)

# 🚀 Fase 6 – Implantação

(Em desenvolvimento)

# 🔧 Fase 3 – Preparação dos Dados

Nesta etapa, os dados são transformados para que possam ser usados pelos algoritmos de aprendizado de máquina.


In [None]:
# Remoção de colunas desnecessárias
df.drop(columns=["id", "age"], inplace=True)

# Separação entre atributos (X) e rótulo (y)
X = df.drop("cardio", axis=1)
y = df["cardio"]

In [None]:
# Divisão treino/teste
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)
print(f"Tamanho do conjunto de treino: {x_train.shape}")
print(f"Tamanho do conjunto de teste: {x_test.shape}")

# 🤖 Fase 4 – Modelagem dos Algoritmos

Aqui treinamos e avaliamos vários modelos de classificação supervisionada.


In [None]:
# Importação dos modelos
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

# Treinamento dos modelos
modelos = [
    RandomForestClassifier(n_estimators=100, random_state=42),
    LogisticRegression(max_iter=1000),
    GaussianNB(),
    SVC(probability=True),
    GradientBoostingClassifier(n_estimators=100),
    MLPClassifier(hidden_layer_sizes=(15,), max_iter=1000)
]

modelos_treinados = []
for modelo in modelos:
    try:
        modelo.fit(x_train, y_train)
        modelos_treinados.append(modelo)
    except Exception as e:
        print(f"Erro ao treinar {type(modelo).__name__}: {e}")

# 📈 Fase 5 – Avaliação

Avaliação dos modelos com base na acurácia e matriz de confusão.


In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

acuracias = []
for modelo in modelos_treinados:
    nome = type(modelo).__name__
    y_pred = modelo.predict(x_test)
    acc = accuracy_score(y_test, y_pred)
    acuracias.append((nome, acc))
    print(f"{nome} - Acurácia: {acc:.4f}")


# 🚀 Fase 6 – Implantação

Persistência do melhor modelo usando `pickle` para uso futuro.


In [None]:
# Escolher melhor modelo com base na acurácia
melhor_modelo = sorted(acuracias, key=lambda x: x[1], reverse=True)[0][0]
print(f"Melhor modelo: {melhor_modelo}")

# Salvar modelo
import pickle

modelo_final = [m for m in modelos_treinados if type(m).__name__ == melhor_modelo][0]

with open("modelo_cardio.pickle", "wb") as file:
    pickle.dump(modelo_final, file)


In [None]:
# Nova separação: treino (70%), validação (15%), teste (15%)
x_temp, x_test, y_temp, y_test = train_test_split(X, y, test_size=0.15, stratify=y, random_state=42)
x_train, x_val, y_train, y_val = train_test_split(x_temp, y_temp, test_size=0.1765, stratify=y_temp, random_state=42)  # 0.1765 ≈ 15% do total

print(f"Treino: {len(x_train)} | Validação: {len(x_val)} | Teste: {len(x_test)}")

In [None]:
from sklearn.metrics import classification_report

# Relatório completo do melhor modelo
modelo = modelos_treinados[0]
y_pred = modelo.predict(x_test)
print("Relatório de Classificação:")
print(classification_report(y_test, y_pred))

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay

cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()
plt.title("Matriz de Confusão - " + type(modelo).__name__)
plt.show()