#**Previsão de Doenças Cardiovasculares**  💚


Este projeto tem como objetivo construir um modelo de machine learning capaz de prever a ocorrência de doenças cardiovasculares em pacientes com base em dados clínicos e hábitos de vida. A base de dados utilizada contém informações reais de pacientes.

Descrição do Dataset

O conjunto de dados contém as seguintes colunas:

Coluna	Descrição
age	Idade do paciente
gender	Gênero do paciente (1 = homem, 2 = mulher)
height	Altura do paciente (em cm)
weight	Peso do paciente (em kg)
gluc	Nível de glicose
smoke	Fumante (1 = sim, 0 = não)
alco	Consome álcool (1 = sim, 0 = não)
active	Realiza atividades físicas regularmente (1 = sim, 0 = não)
cardio_disease	Indica presença de doença cardiovascular (1 = sim, 0 = não) [Target]
Objetivo

O objetivo principal é prever a probabilidade de um paciente ter uma doença cardiovascular com base em suas características clínicas e hábitos de vida, utilizando técnicas de Machine Learning.

Possíveis Aplicações

Auxílio a profissionais de saúde na detecção precoce de doenças cardiovasculares

Ferramentas de triagem para clínicas e hospitais

Pesquisa de fatores de risco relacionados a doenças cardiovasculares

Próximos Passos

Análise exploratória de dados (EDA) para entender padrões e distribuições.

Pré-processamento: limpeza, tratamento de valores faltantes, codificação de variáveis categóricas e normalização.

Treinamento de modelos: como Regressão Logística,

Avaliação do modelo: métricas como acurácia, precisão, recall, F1-score e curva ROC.

Implantação: criação de um pipeline para previsão em novos pacientes.

-----------------------------------------------------------------------

Cardiovascular Disease Prediction

This project aims to build a machine learning model capable of predicting the occurrence of cardiovascular diseases in patients based on clinical data and lifestyle habits. The dataset used contains real patient information.

Dataset Description

The dataset contains the following columns:

Column	Description
age	Patient's age
gender	Patient's gender (1 = male, 2 = female)
height	Patient's height (in cm)
weight	Patient's weight (in kg)
gluc	Glucose level
smoke	Smoker (1 = yes, 0 = no)
alco	Alcohol consumption (1 = yes, 0 = no)
active	Performs regular physical activity (1 = yes, 0 = no)
cardio_disease	Indicates presence of cardiovascular disease (1 = yes, 0 = no) [Target]
Objective

The main goal is to predict the probability of a patient having cardiovascular disease based on their clinical characteristics and lifestyle habits using Machine Learning techniques.

Possible Applications

Assist healthcare professionals in the early detection of cardiovascular diseases

Screening tools for clinics and hospitals

Research on risk factors related to cardiovascular diseases

Next Steps

Exploratory Data Analysis (EDA): to understand patterns and distributions

Preprocessing: cleaning, handling missing values, encoding categorical variables, and normalization

Model Training: Logistic Regression,

Model Evaluation: using metrics like accuracy, precision, recall, F1-score, and ROC curve

Deployment: creating a pipeline for predictions on new patients


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score, classification_report

# 1) TRATAMENTO DO BANDO DE DADOS:


In [None]:
base = pd.read_csv("CARDIO_BASE.csv", delimiter=';')

In [None]:
import pandas as pd

# Carregar a base
base = pd.read_csv("CARDIO_BASE.csv", delimiter=';')

# Ver primeiras linhas
print(base.head())

# Ver dimensões (linhas x colunas)
print("Dimensões da base:", base.shape)

# Ver colunas e tipos de dados
print(base.info())

# Estatísticas descritivas (apenas numéricas)
print(base.describe())

# Contar valores nulos por coluna
print(base.isnull().sum())


   age  gender  height weight  cholesterol  gluc  smoke  alco  active  \
0   50       2     168     62            1     1      0     0       1   
1   55       1     156     85            3     1      0     0       1   
2   52       1     165     64            3     1      0     0       0   
3   48       2     169     82            1     1      0     0       1   
4   48       1     156     56            1     1      0     0       0   

   cardio_disease  
0               0  
1               1  
2               1  
3               1  
4               0  
Dimensões da base: (10000, 10)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             10000 non-null  int64 
 1   gender          10000 non-null  int64 
 2   height          10000 non-null  int64 
 3   weight          10000 non-null  object
 4   cholesterol     10000 non-null  i

Weigth está como object.

Não há dados nulos o qué já facilita o processo de tratamento, então vou focar dessa conversão.

In [None]:
# Ver tipos de dados diretamente
print(base.dtypes)

age                int64
gender             int64
height             int64
weight            object
cholesterol        int64
gluc               int64
smoke              int64
alco               int64
active             int64
cardio_disease     int64
dtype: object


Necessária a conversão de Peso para INT OU FLOAT; Pela pesquisa:
A coluna weight representa peso corporal (kg), o mais comum é deixar como float:
Porque em muitos casos o peso real não é inteiro (ex.: 70.5 kg).
Mesmo aque a base só tenha inteiros (62, 85, 112), pode aparecer dado futuro com decimal.

👉 Só faria sentido manter como int se:

A base garantidamente sempre vem em números inteiros (ex.: "número de filhos", "idade em anos").

Ou para economizar memória, no caso irrelevante.

Vou manter peso como FLOAT.

In [None]:
# Criar uma cópia da base
base1= base.copy()

# Converter e substituir a coluna original
base1['weight'] = pd.to_numeric(base1['weight'], errors='coerce').astype(float)

# Conferir resultado
print(base1['weight'].dtypes)
print(base1.head())


float64
   age  gender  height  weight  cholesterol  gluc  smoke  alco  active  \
0   50       2     168    62.0            1     1      0     0       1   
1   55       1     156    85.0            3     1      0     0       1   
2   52       1     165    64.0            3     1      0     0       0   
3   48       2     169    82.0            1     1      0     0       1   
4   48       1     156    56.0            1     1      0     0       0   

   cardio_disease  
0               0  
1               1  
2               1  
3               1  
4               0  


Verificação pós conversão:

In [None]:
# Ver colunas e tipos de dados novamente
print(base1.info())

# Estatísticas descritivas (apenas numéricas) novamente
print(base1.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             10000 non-null  int64  
 1   gender          10000 non-null  int64  
 2   height          10000 non-null  int64  
 3   weight          9976 non-null   float64
 4   cholesterol     10000 non-null  int64  
 5   gluc            10000 non-null  int64  
 6   smoke           10000 non-null  int64  
 7   alco            10000 non-null  int64  
 8   active          10000 non-null  int64  
 9   cardio_disease  10000 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 781.4 KB
None
                age        gender        height       weight   cholesterol  \
count  10000.000000  10000.000000  10000.000000  9976.000000  10000.000000   
mean      53.288300      1.345400    164.308200    74.300521      1.365000   
std        6.796234      0.475522      8.178796    14.572144 

Busca por outliers:

Coluna:height	70–250 cm → 250 é outlier

Coluna:weight

OUTLIER TRATAMENTO HEIGHT:

In [None]:
import plotly.express as px

# Boxplot interativo da coluna height
fig = px.box(base1, y='height', title='Boxplot da altura (height)', labels={'height':'Height (cm)'})
fig.show()


Winsorization (substituir por limites)

In [None]:
base1['height'] = base1['height'].clip(lower=143, upper=186)

# Conferir
print(base1['height'].describe())


count    10000.00000
mean       164.33700
std          7.81351
min        143.00000
25%        159.00000
50%        165.00000
75%        170.00000
max        186.00000
Name: height, dtype: float64


OUTLIER TRATAMENTO WEIGHT:

In [None]:
import plotly.express as px

# Boxplot interativo da coluna weight
fig = px.box(base1, y='weight', title='Boxplot do peso (weight)', labels={'weight':'Weight (kg)'})
fig.show()


Winsorization (substituir por limites)

In [None]:
# Aplicar clip com limites fixos
base1['weight'] = base1['weight'].clip(lower=40, upper=107)

# Conferir resultados
print(base1['weight'].describe())



count    9976.000000
mean       73.969326
std        13.431257
min        40.000000
25%        65.000000
50%        72.000000
75%        82.000000
max       107.000000
Name: weight, dtype: float64


PADRONIZAÇÃO DOS DADOS:

Numéricas contínuas: age, height, weight → recomendável padronizar (StandardScaler ou MinMaxScaler).

Categóricas codificadas como números (gender, cholesterol, gluc, smoke, alco, active)

gender (1/2) → pode ser mantido como está.

cholesterol e gluc (1,2,3) → Label Enconder.

smoke, alco, active (0/1) → não precisam de padronização.

----------------------- O que será feito:
Numéricas contínuas (age, height, weight) → MinMaxScaler (escala entre 0 e 1)

Categóricas ordinais (cholesterol, gluc) → LabelEnconder.

Binárias (gender, smoke, alco, active) → mantidas como estão

In [None]:
from sklearn.preprocessing import MinMaxScaler, OrdinalEncoder
from sklearn.compose import ColumnTransformer
import pandas as pd

# Colunas
num_cols = ['age', 'height', 'weight']
ord_cols = ['cholesterol', 'gluc']  # OrdinalEncoder
bin_cols = ['gender', 'smoke', 'alco', 'active', 'cardio_disease']  # mantidas

# Pré-processamento
preprocessor = ColumnTransformer(
    transformers=[
        ('num', MinMaxScaler(), num_cols),
        ('ord', OrdinalEncoder(categories='auto'), ord_cols)  # Label/Ordinal Encoder
    ],
    remainder='passthrough'  # mantém as colunas binárias
)

# Aplicar transformação
X_scaled = preprocessor.fit_transform(base1[num_cols + ord_cols + bin_cols])

# Nomes das colunas transformadas
all_cols = num_cols + ord_cols + bin_cols  # agora ordinais em vez de One-Hot

# Criar DataFrame final base2 com todas as colunas padronizadas/substituídas
base2 = pd.DataFrame(X_scaled, columns=all_cols)

# Conferir
print(base2.head())
print(base2.info())



        age    height    weight  cholesterol  gluc  gender  smoke  alco  \
0  0.571429  0.581395  0.328358          0.0   0.0     2.0    0.0   0.0   
1  0.714286  0.302326  0.671642          2.0   0.0     1.0    0.0   0.0   
2  0.628571  0.511628  0.358209          2.0   0.0     1.0    0.0   0.0   
3  0.514286  0.604651  0.626866          0.0   0.0     2.0    0.0   0.0   
4  0.514286  0.302326  0.238806          0.0   0.0     1.0    0.0   0.0   

   active  cardio_disease  
0     1.0             0.0  
1     1.0             1.0  
2     0.0             1.0  
3     1.0             1.0  
4     0.0             0.0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             10000 non-null  float64
 1   height          10000 non-null  float64
 2   weight          9976 non-null   float64
 3   cholesterol     10000 non-null  float64
 4 

# 2) ANALISE EXPLORATORIA:

In [None]:
import plotly.express as px

# 1️⃣ Cholesterol x Cardio Disease
fig1 = px.histogram(base2, x='cholesterol', color='cardio_disease', barmode='group',
                    title='Cholesterol vs Cardio Disease',
                    labels={'cholesterol':'Cholesterol', 'cardio_disease':'Cardio Disease'})
fig1.show()

# Insight: Geralmente, valores mais altos de colesterol (2, 3) tendem a ter maior incidência de doenças cardíacas.

# 2️⃣ Gluc x Cardio Disease
fig2 = px.histogram(base2, x='gluc', color='cardio_disease', barmode='group',
                    title='Glucose vs Cardio Disease',
                    labels={'gluc':'Glucose', 'cardio_disease':'Cardio Disease'})
fig2.show()

# Insight: Pessoas com gluc mais alto (2,3) mostram tendência maior de ter doença cardíaca, reforçando relação glicemia x risco cardiovascular.

# 3️⃣ Active x Cardio Disease
fig3 = px.histogram(base2, x='active', color='cardio_disease', barmode='group',
                    title='Physical Activity vs Cardio Disease',
                    labels={'active':'Active', 'cardio_disease':'Cardio Disease'})
fig3.show()

# Insight: Observa-se que pessoas fisicamente ativas (active=1) têm menor incidência de doença cardíaca do que as sedentárias (active=0), indicando efeito protetor da atividade física.


Achei bem surpreendente!

COLESTEROL X DOENÇA CARDIACA
Pessoas com colesterol (0)  mostraram valores altos de indicencia de doença cardiaca; Valor pouquissimo menor do que os 100% saudáveis (sem colesterol e sem doença cardiaca), mas as proporções muitos proximas (3335 para colesterol zero com doenças cardiacas e 4152 para zero colesterol e zero doença cardiaca).
GLICOSE X DOENÇA CARDIACA
O mesmo ocorreu para essa relação, pessoas com os valores minimos de Glicose (0) apresentaram o maior volume de incidencia de doença cardiaca em comparação aos outros valores de glicose; Proporções muitos proximas tambem (4141 para glicose zero com doenças cardiacas e 4372 para zero glicose e zero doença cardiaca).
ATIVIDADE FISICA X DOENÇA CARDIACA
Tambem, surpeendente ao meu ver.
Mesmo as pessoas realizando atividade fisica, os valores de incidencia de doença cardiaca ainda são maiores nesse grupo.  Proporções muitos proximas tambem (3932 para esportistas com doenças cardiacas e 4040 para saudáveis).

O que me faz pensar que outros podem ser os fatores que implique na ocorrencia de doença cardiaca como:

Idade: Pessoas mais velhas tendem a ter maior risco, independentemente dos níveis atuais de colesterol ou glicose.

Peso e IMC: Sobrepeso ou obesidade podem contribuir para doenças cardiovasculares mesmo com atividade física regular.

Histórico familiar/genética: Predisposição genética pode aumentar risco independentemente de hábitos atuais.

Pressão arterial: Hipertensão é um dos maiores fatores de risco para doenças cardíacas.

Hábitos de vida adicionais: Alimentação, tabagismo, consumo de álcool, estresse e sono podem influenciar o risco.

Comorbidades: Diabetes, dislipidemia ou outras doenças crônicas podem aumentar a incidência.

Conclusão: Apesar de colesterol, glicose e atividade física apresentarem algum efeito, a doença cardíaca é multifatorial. Portanto, é importante considerar uma combinação de fatores para entender melhor os riscos individuais.


# 3) MATRIZ DE CORRELAÇÃO.



In [None]:
import pandas as pd
import plotly.express as px

# Calcular matriz de correlação
corr_matrix = base2.corr()

# Heatmap interativo com gradiente vermelho
fig = px.imshow(corr_matrix,
                text_auto=True,
                color_continuous_scale='Reds',  # gradiente somente vermelho
                title='Matriz de Correlação das Variáveis (Gradiente Vermelho)')

fig.show()


As três mais influentes na ocorrencia de Doença Cardiaca são: Age, Weigth, Cholesterol

# 4) INICIO DA MODELAGEM PARA A CRIAÇÃO DO ML DE REGRESSÃO LINEAR LOGISTICA.

Já fiz a padronização.

Verificar o numero de Incidencia de Doenças Cardiacas e não Cardiacas:

In [None]:
# Contagem de casos de cardio_disease
contagem_cardio = base2['cardio_disease'].value_counts()

print(contagem_cardio)


cardio_disease
1.0    5031
0.0    4969
Name: count, dtype: int64


Numeros proximos! De qualquer forma, vou realizar o balanceamento na base de treino.

Fazer a Divisão de Base Treino e Teste:

In [None]:
from sklearn.model_selection import train_test_split

# Separar features e target
X = base2.drop('cardio_disease', axis=1)
y = base2['cardio_disease']

# Divisão treino/teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# Conferir tamanhos
print("X_train:", X_train.shape)
print("X_test:", X_test.shape)
print("y_train:", y_train.shape)
print("y_test:", y_test.shape)


X_train: (7000, 9)
X_test: (3000, 9)
y_train: (7000,)
y_test: (3000,)


Balanceamento das features para a base de Treinamento:

In [None]:
# Juntar X_train e y_train para visualizar a base de treino completa
train_df = X_train.copy()
train_df['cardio_disease'] = y_train

# Conferir as primeiras linhas
print(train_df.head())

# Ver dimensões
print("Dimensões da base de treino:", train_df.shape)


           age    height    weight  cholesterol  gluc  gender  smoke  alco  \
5964  0.657143  0.581395  0.582090          0.0   0.0     1.0    0.0   0.0   
1774  0.971429  0.465116  0.432836          2.0   2.0     1.0    0.0   0.0   
5753  0.800000  0.697674  0.597015          1.0   1.0     1.0    1.0   0.0   
9265  0.914286  0.441860  0.402985          0.0   0.0     2.0    1.0   0.0   
7658  0.628571  0.813953  0.402985          0.0   0.0     2.0    0.0   0.0   

      active  cardio_disease  
5964     1.0             0.0  
1774     1.0             1.0  
5753     1.0             1.0  
9265     1.0             1.0  
7658     1.0             0.0  
Dimensões da base de treino: (7000, 10)


In [None]:
# Contagem de casos de cardio_disease na base de treino
contagem_cardio_train = train_df['cardio_disease'].value_counts()

print(contagem_cardio_train)


cardio_disease
1.0    3522
0.0    3478
Name: count, dtype: int64


In [None]:
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
import pandas as pd

# Separar features e target
X = train_df.drop('cardio_disease', axis=1)
y = train_df['cardio_disease']

# Preencher NaNs com mediana
imputer = SimpleImputer(strategy='median')
X_imputed = pd.DataFrame(imputer.fit_transform(X), columns=X.columns)

# Aplicar SMOTE
smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X_imputed, y)

# Criar DataFrame final balanceado
train_balanced = pd.DataFrame(X_res, columns=X.columns)
train_balanced['cardio_disease'] = y_res

# Conferir contagem de classes
print(train_balanced['cardio_disease'].value_counts())



cardio_disease
0.0    3522
1.0    3522
Name: count, dtype: int64


# 5) TREINAMENTO DO MODELO E BUSCA PELOS COEFICIENTES DA REGRESSÃO LINEAR LOGISTICA.

In [None]:
from sklearn.linear_model import LogisticRegression

# Separar features e target na base balanceada
X_train_bal = train_balanced.drop('cardio_disease', axis=1)
y_train_bal = train_balanced['cardio_disease']

# A) Treinamento do modelo
model = LogisticRegression(max_iter=1000, random_state=42)
model.fit(X_train_bal, y_train_bal)

# B) Intercept e coeficientes
intercept = model.intercept_[0]
coefficients = pd.DataFrame({
    'Feature': X_train_bal.columns,
    'Coefficient': model.coef_[0]
})

# Exibir resultados
print(f"Intercept: {intercept:.4f}")
print("\nCoeficientes:")
print(coefficients)


Intercept: -2.1522

Coeficientes:
       Feature  Coefficient
0          age     2.172999
1       height    -0.606255
2       weight     1.913529
3  cholesterol     0.601482
4         gluc    -0.096294
5       gender     0.025125
6        smoke    -0.055046
7         alco    -0.020914
8       active    -0.218836


In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.impute import SimpleImputer

# 1Tratar NaNs na base de teste (usar mediana do treino)
imputer = SimpleImputer(strategy='median')
X_test_imputed = pd.DataFrame(imputer.fit_transform(X_test), columns=X_test.columns)

# 2Fazer predições
y_pred_train = model.predict(X_train_bal)        # treino
y_pred_test = model.predict(X_test_imputed)     # teste

# Métricas na base de treino
print("=== Métricas na Base de Treino ===")
print(f"Accuracy: {accuracy_score(y_train_bal, y_pred_train):.4f}")
print(f"Precision: {precision_score(y_train_bal, y_pred_train):.4f}")
print(f"Recall: {recall_score(y_train_bal, y_pred_train):.4f}")
print(f"F1-score: {f1_score(y_train_bal, y_pred_train):.4f}")
print("\nMatriz de Confusão:\n", confusion_matrix(y_train_bal, y_pred_train))

=== Métricas na Base de Treino ===
Accuracy: 0.6360
Precision: 0.6462
Recall: 0.6011
F1-score: 0.6228

Matriz de Confusão:
 [[2363 1159]
 [1405 2117]]


In [None]:
import plotly.express as px
import pandas as pd
import numpy as np

# Matriz de confusão
cm = np.array([[2363, 1159],
               [1405, 2117]])

# Transformar em DataFrame
cm_df = pd.DataFrame(cm, index=['Real 0', 'Real 1'], columns=['Pred 0', 'Pred 1'])

# Criar heatmap interativo
fig = px.imshow(
    cm_df,
    text_auto=True,               # mostra os valores dentro das células
    color_continuous_scale='Reds',  # gradiente vermelho
    title='Matriz de Confusão - Teste'
)

fig.update_layout(
    xaxis_title='Predito',
    yaxis_title='Real',
    xaxis_side='top'
)

fig.show()


Accuracy = 0.6360 → O modelo acerta 63,6% das previsões no treino.

Precision = 0.6462 → Quando o modelo prediz cardio_disease = 1, 64,6% das vezes ele acerta.

Recall = 0.6011 → Ele consegue capturar 60,1% de todos os casos reais de doença cardíaca.

F1-score = 0.6228 → Média harmônica entre precision e recall, representando equilíbrio entre os dois.

O modelo está mais propenso a cometer erros.

Recall menor que precision → Ele está perdendo alguns casos reais de doença (FN > FP).

Accuracy não é tão alta, mas considerando que estamos lidando com doenças cardíacas e dados de saúde, 63% não é ruim para um modelo inicial sem features complexas ou ajustes de hiperparâmetros.

Observando todos esses valores, seria um modelo promissor, no qual seria interessante captar outras features para melhorar o desempenho...

# 6) TESTE DO MODELO & GRAFICO AUC-ROC.


In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.impute import SimpleImputer

# 4️⃣ Métricas na base de teste
print("\n=== Métricas na Base de Teste ===")
print(f"Accuracy: {accuracy_score(y_test, y_pred_test):.4f}")
print(f"Precision: {precision_score(y_test, y_pred_test):.4f}")
print(f"Recall: {recall_score(y_test, y_pred_test):.4f}")
print(f"F1-score: {f1_score(y_test, y_pred_test):.4f}")
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred_test))

# 5️⃣ Relatório completo
print("\n=== Classification Report (Teste) ===")
print(classification_report(y_test, y_pred_test))




=== Métricas na Base de Teste ===
Accuracy: 0.6350
Precision: 0.6464
Recall: 0.6057
F1-score: 0.6254

Matriz de Confusão:
 [[991 500]
 [595 914]]

=== Classification Report (Teste) ===
              precision    recall  f1-score   support

         0.0       0.62      0.66      0.64      1491
         1.0       0.65      0.61      0.63      1509

    accuracy                           0.64      3000
   macro avg       0.64      0.64      0.63      3000
weighted avg       0.64      0.63      0.63      3000



In [None]:
import plotly.express as px
import pandas as pd
import numpy as np

# Matriz de confusão
cm = np.array([[991, 500],
               [595, 914]])

# Transformar em DataFrame para melhor visualização
cm_df = pd.DataFrame(cm, index=['Real 0', 'Real 1'], columns=['Pred 0', 'Pred 1'])

# Criar heatmap interativo
fig = px.imshow(
    cm_df,
    text_auto=True,       # mostra os valores dentro das células
    color_continuous_scale='Reds',  # gradiente de vermelho
    title='Matriz de Confusão'
)

fig.update_layout(
    xaxis_title='Predito',
    yaxis_title='Real',
    xaxis_side='top'
)

fig.show()


Accuracy: 0.6350
Precision: 0.6464
Recall: 0.6057
F1-score: 0.6254

Valores muito proximos da base de treinamento, indicando que o modelo não está sofrendo overfitting, logo: aprendeu bem com a base de treinamento; Porém, as metricas se mantem baixas... muito similar aos valores de eficiencia do treinamento indicando um modelo que precisa de melhorias como:

Adicionar novas features relevantes → histórico familiar, pressão arterial, colesterol detalhado, hábitos de vida, IMC, idade ajustada por sexo, etc.

Feature engineering → criar variáveis derivadas que possam capturar melhor o risco de doença cardíaca.


AUC-ROC

In [None]:

from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc
import pandas as pd
import plotly.express as px


imputer = SimpleImputer(strategy='mean')  # substitui NaNs pela média

X_train_imputed = imputer.fit_transform(X_train)   # treino
X_test_imputed = imputer.transform(X_test_feats)   # teste


scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train_imputed)
X_test_scaled = scaler.transform(X_test_imputed)


model = LogisticRegression(random_state=42, max_iter=1000)
model.fit(X_train_scaled, y_train)

y_prob = model.predict_proba(X_test_scaled)[:, 1]  # probabilidade da classe 1

# Calcular ROC e AUC
fpr, tpr, thresholds = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)
print(f"AUC: {roc_auc:.4f}")

# Criar DataFrame para Plotly
roc_df = pd.DataFrame({'FPR': fpr, 'TPR': tpr})

# Plotar curva ROC interativa
fig = px.line(
    roc_df, x='FPR', y='TPR',
    title=f'Curva ROC - AUC = {roc_auc:.4f}',
    labels={'FPR': 'False Positive Rate', 'TPR': 'True Positive Rate'}
)
fig.add_shape(
    type='line', x0=0, y0=0, x1=1, y1=1,
    line=dict(dash='dash', color='gray')
)
fig.show()



AUC: 0.6970


Observando o grafico de ROC e a area de AUC, mostra uma curvatura acima do corte diagonal de controle do grafico, uma curva de detecção e predição relativamente "eficaz", mas que precisa ser melhorada para que a curva aproxime-se mais do eixo Y do que do X.

# 7) EXPLICAÇÃO:


A) Regressão Logística:

A regressão logística é um modelo usado para prever resultados que têm apenas duas opções, como “tem doença cardíaca” ou “não tem”.
Calcula a probabilidade de um evento acontecer usando uma função matemática chamada sigmoide, que garante que o resultado fique sempre entre 0 e 1. Depois, a gente escolhe um limite (geralmente 0,5) para decidir a classe final.

Em outras palavras: ela transforma números em chances e decide se a pessoa pertence a uma categoria ou outra.

B) Por que é um modelo de classificação:

Porque o objetivo não é prever números contínuos, mas sim decidir a qual grupo BINARIO algo pertence.

C) Pontos em comum com a regressão linear:

Mesmo sendo usada para classificação, a regressão logística tem algumas coisas em comum com a regressão linear:

Ela também começa com uma combinação linear das variáveis, tipo somar peso, idade e altura multiplicados por coeficientes.

Os coeficientes são aprendidos a partir dos dados, ajustando o modelo para que ele faça previsões melhores.

Dá para interpretar o efeito de cada variável, só que na logística isso mostra o impacto na probabilidade do evento acontecer.

E claro, ela também pode usar várias variáveis ao mesmo tempo para tentar prever o resultado.