In [1]:
import os
import pandas as pd
import kaggle
import numpy as np

In [2]:
# Nome do dataset no Kaggle
dataset_name = 'johnsmith88/heart-disease-dataset'
file_name = 'heart.csv'

# Baixando o dataset (descomentar para baixar o dataset, caso não tenha o arquivo heart.csv)
#kaggle.api.dataset_download_files(dataset_name, path='.', unzip=True)

# Lista com os nomes das colunas
colunas = [
    'age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 
    'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'
]

# Carregando e Visualizando as primeiras linhas do dataset
df = pd.read_csv(file_name, names=colunas, skiprows=1)
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,52,1,0,125,212,0,1,168,0,1.0,2,2,3,0
1,53,1,0,140,203,1,0,155,1,3.1,0,0,3,0
2,70,1,0,145,174,0,1,125,1,2.6,0,0,3,0
3,61,1,0,148,203,0,1,161,0,0.0,2,1,3,0
4,62,0,0,138,294,1,1,106,0,1.9,1,3,2,0


In [3]:
# Embaralhar os dados
df_shuffled = df.sample(frac=1, random_state=42).reset_index(drop=True)

# Definir os tamanhos dos conjuntos
total_size = len(df_shuffled)
train_size = int(0.6 * total_size)
val_size = int(0.2 * total_size)
test_size = total_size - train_size - val_size

# Dividir o DataFrame
df_train = df_shuffled.iloc[:train_size]
df_val = df_shuffled.iloc[train_size:train_size + val_size]
df_test = df_shuffled.iloc[train_size + val_size:]

# Separar features (X) e o target (y)
X_train = df_train.drop('target', axis=1).values
y_train = df_train['target'].values.reshape(-1, 1)

X_val = df_val.drop('target', axis=1).values
y_val = df_val['target'].values.reshape(-1, 1)

X_test = df_test.drop('target', axis=1).values
y_test = df_test['target'].values.reshape(-1, 1)

# Normalização Min-Max das features (ainda é necessária)
# A normalização garante que os dados estejam na mesma escala
X_min = X_train.min(axis=0)
X_max = X_train.max(axis=0)
X_train = (X_train - X_min) / (X_max - X_min)
X_val = (X_val - X_min) / (X_max - X_min)
X_test = (X_test - X_min) / (X_max - X_min)

# Exibir as dimensões para confirmar o split
print(f"Dimensão de X_train: {X_train.shape}")
print(f"Dimensão de y_train: {y_train.shape}")
print(f"Dimensão de X_val: {X_val.shape}")
print(f"Dimensão de y_val: {y_val.shape}")
print(f"Dimensão de X_test: {X_test.shape}")
print(f"Dimensão de y_test: {y_test.shape}")

Dimensão de X_train: (615, 13)
Dimensão de y_train: (615, 1)
Dimensão de X_val: (205, 13)
Dimensão de y_val: (205, 1)
Dimensão de X_test: (205, 13)
Dimensão de y_test: (205, 1)


In [None]:
def normalize_data(data):
    """
    Normaliza os dados para o intervalo [0, 1].
    """
    data_min = data.min(axis=0)
    data_max = data.max(axis=0)
    # Evita divisão por zero caso a coluna tenha valores constantes
    return (data - data_min) / (data_max - data_min + 1e-8)

def standardize_data(data):
    """
    Padroniza os dados para ter média 0 e desvio padrão 1.
    """
    data_mean = data.mean(axis=0)
    data_std = data.std(axis=0)
    # Evita divisão por zero caso o desvio padrão seja 0
    return (data - data_mean) / (data_std + 1e-8)

# Para normalizar os dados de treino:
X_train_normalized = normalize_data(X_train)

# Para padronizar os dados de treino:
# X_train_standardized = standardize_data(X_train)