# üß† Fase 1 ‚Äì Entendimento do Neg√≥cio

Este projeto tem como objetivo prever o risco de doen√ßas cardiovasculares com base em dados cl√≠nicos e h√°bitos de vida de pacientes.

**Objetivo:** Construir um modelo de classifica√ß√£o bin√°ria que indique se o paciente possui (`1`) ou n√£o (`0`) um risco cardiovascular, com base em atributos como idade, press√£o arterial, colesterol, glicose, IMC, entre outros.

**Justificativa:** Doen√ßas cardiovasculares s√£o a principal causa de morte no mundo. Prever o risco de forma antecipada permite a√ß√µes preventivas e direcionamento de recursos em sa√∫de.

**Vari√°vel-alvo:** `cardio`  
- 1 ‚Üí presen√ßa de risco cardiovascular  
- 0 ‚Üí aus√™ncia de risco

**Crit√©rio de sucesso:** Obter um modelo com **alta acur√°cia** e **baixo √≠ndice de falsos negativos**, priorizando a detec√ß√£o precoce do risco.


## üìã Dicion√°rio de Vari√°veis do Dataset

| Coluna         | Descri√ß√£o                                                                 |
|----------------|--------------------------------------------------------------------------|
| `id`           | Identificador √∫nico do paciente                                          |
| `age`          | Idade em dias (transformaremos em anos)                                 |
| `gender`       | 1 = feminino, 2 = masculino                                              |
| `height`       | Altura em cent√≠metros                                                    |
| `weight`       | Peso em quilogramas                                                      |
| `ap_hi`        | Press√£o arterial sist√≥lica (m√°xima)                                      |
| `ap_lo`        | Press√£o arterial diast√≥lica (m√≠nima)                                     |
| `cholesterol`  | 1 = normal, 2 = acima do normal, 3 = muito acima do normal               |
| `gluc`         | Glicose (mesma codifica√ß√£o de colesterol)                                |
| `smoke`        | 1 = fuma, 0 = n√£o fuma                                                   |
| `alco`         | 1 = consome √°lcool, 0 = n√£o consome                                      |
| `active`       | 1 = fisicamente ativo, 0 = inativo                                       |
| `cardio`       | 1 = risco de doen√ßa cardiovascular, 0 = sem risco                        |


# üìä Fase 2 ‚Äì Entendimento dos Dados

Nesta etapa, realizamos a leitura do dataset, inspe√ß√£o inicial das vari√°veis e estat√≠sticas descritivas.


In [None]:
# Importa√ß√£o de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√£o de estilo
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 5)


In [None]:
# Leitura do dataset
df = pd.read_csv("cardio_train.csv", sep=';')
df.head()

In [None]:
# Verificando dimens√µes
print(f"Total de registros: {df.shape[0]} linhas e {df.shape[1]} colunas.")

In [None]:
# Verificando tipos de dados
df.dtypes

In [None]:
# Verificando valores nulos
df.isnull().sum()

In [None]:
# Estat√≠sticas descritivas
df.describe()

In [None]:
# Gr√°fico: distribui√ß√£o da vari√°vel-alvo
sns.countplot(data=df, x='cardio')
plt.title('Distribui√ß√£o da vari√°vel-alvo (cardio)')
plt.show()

In [None]:
# Gr√°fico: distribui√ß√£o da idade
sns.histplot(data=df, x='age_years', hue='cardio', kde=True, bins=30)
plt.title('Distribui√ß√£o da idade por presen√ßa de risco cardiovascular')
plt.show()

In [None]:
# Boxplot da press√£o sist√≥lica por classe
sns.boxplot(data=df, x='cardio', y='ap_hi')
plt.title('Press√£o Sist√≥lica (ap_hi) por Classe')
plt.show()

In [None]:
# Heatmap de correla√ß√£o
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Correla√ß√£o entre vari√°veis num√©ricas')
plt.show()

In [None]:
# Verificando valores inconsistentes
df[(df['ap_hi'] < df['ap_lo']) | (df['height'] < 100) | (df['height'] > 250) | (df['weight'] < 30) | (df['weight'] > 200)]

In [None]:
# Transformar idade de dias para anos
df['age_years'] = (df['age'] / 365).astype(int)
df[['age', 'age_years']].head()

# üîß Fase 3 ‚Äì Prepara√ß√£o dos Dados

(Em desenvolvimento)

# ü§ñ Fase 4 ‚Äì Modelagem

(Em desenvolvimento)

# üìà Fase 5 ‚Äì Avalia√ß√£o

(Em desenvolvimento)

# üöÄ Fase 6 ‚Äì Implanta√ß√£o

(Em desenvolvimento)

# üîß Fase 3 ‚Äì Prepara√ß√£o dos Dados

Nesta etapa, os dados s√£o transformados para que possam ser usados pelos algoritmos de aprendizado de m√°quina.


In [None]:
# Remo√ß√£o de colunas desnecess√°rias
df.drop(columns=["id", "age"], inplace=True)

# Separa√ß√£o entre atributos (X) e r√≥tulo (y)
X = df.drop("cardio", axis=1)
y = df["cardio"]

In [None]:
# Divis√£o treino/teste
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)
print(f"Tamanho do conjunto de treino: {x_train.shape}")
print(f"Tamanho do conjunto de teste: {x_test.shape}")

# ü§ñ Fase 4 ‚Äì Modelagem dos Algoritmos

Aqui treinamos e avaliamos v√°rios modelos de classifica√ß√£o supervisionada.


In [None]:
# Importa√ß√£o dos modelos
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

# Treinamento dos modelos
modelos = [
    RandomForestClassifier(n_estimators=100, random_state=42),
    LogisticRegression(max_iter=1000),
    GaussianNB(),
    SVC(probability=True),
    GradientBoostingClassifier(n_estimators=100),
    MLPClassifier(hidden_layer_sizes=(15,), max_iter=1000)
]

modelos_treinados = []
for modelo in modelos:
    try:
        modelo.fit(x_train, y_train)
        modelos_treinados.append(modelo)
    except Exception as e:
        print(f"Erro ao treinar {type(modelo).__name__}: {e}")

# üìà Fase 5 ‚Äì Avalia√ß√£o

Avalia√ß√£o dos modelos com base na acur√°cia e matriz de confus√£o.


In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

acuracias = []
for modelo in modelos_treinados:
    nome = type(modelo).__name__
    y_pred = modelo.predict(x_test)
    acc = accuracy_score(y_test, y_pred)
    acuracias.append((nome, acc))
    print(f"{nome} - Acur√°cia: {acc:.4f}")


# üöÄ Fase 6 ‚Äì Implanta√ß√£o

Persist√™ncia do melhor modelo usando `pickle` para uso futuro.


In [None]:
# Escolher melhor modelo com base na acur√°cia
melhor_modelo = sorted(acuracias, key=lambda x: x[1], reverse=True)[0][0]
print(f"Melhor modelo: {melhor_modelo}")

# Salvar modelo
import pickle

modelo_final = [m for m in modelos_treinados if type(m).__name__ == melhor_modelo][0]

with open("modelo_cardio.pickle", "wb") as file:
    pickle.dump(modelo_final, file)


In [None]:
# Nova separa√ß√£o: treino (70%), valida√ß√£o (15%), teste (15%)
x_temp, x_test, y_temp, y_test = train_test_split(X, y, test_size=0.15, stratify=y, random_state=42)
x_train, x_val, y_train, y_val = train_test_split(x_temp, y_temp, test_size=0.1765, stratify=y_temp, random_state=42)  # 0.1765 ‚âà 15% do total

print(f"Treino: {len(x_train)} | Valida√ß√£o: {len(x_val)} | Teste: {len(x_test)}")

In [None]:
from sklearn.metrics import classification_report

# Relat√≥rio completo do melhor modelo
modelo = modelos_treinados[0]
y_pred = modelo.predict(x_test)
print("Relat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred))

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay

cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()
plt.title("Matriz de Confus√£o - " + type(modelo).__name__)
plt.show()