In [3]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder, LabelEncoder
from scipy import stats

In [4]:
df = pd.read_csv('../data/raw/heart_statlog_cleveland_hungary_final.csv')

## 1. Tratamento de dados faltantes: 

Identificar e remover linhas/colunas com dados faltantes insignificantes. Imputar valores ausentes usando estatísticas de tendência central ou modelos preditivos.

In [5]:
missing_data = df.isnull().sum()
print("Dados faltantes por coluna:\n", missing_data)

Dados faltantes por coluna:
 age                    0
sex                    0
chest pain type        0
resting bp s           0
cholesterol            0
fasting blood sugar    0
resting ecg            0
max heart rate         0
exercise angina        0
oldpeak                0
ST slope               0
target                 0
dtype: int64


In [16]:
#Remover colunas com mais de 50% de valores faltantes
df = df.dropna(thresh=df.shape[0]*0.5, axis=1)

In [17]:
# Imputar valores ausentes com a mediana (para colunas numéricas)
imputer = SimpleImputer(strategy='median')
df[df.columns] = imputer.fit_transform(df)

## 2. Tratamento de dados discrepantes: 

remover ou isolar outliers dependendo do contexto.

In [8]:
# Identificar outliers usando o z-score
z_scores = np.abs(stats.zscore(df))
outliers = np.where(z_scores > 3)

In [9]:
# Remover outliers
df = df[(z_scores < 3).all(axis=1)]

## 3. Codificação de variáveis: 

efetuar toda e qualquer transformação necessária para o funcionamento do modelo, seja ela codificação de variáveis qualitativas (nominais ou ordinais), temporais ou textuais.

In [10]:
# Codificação de variáveis categóricas (exemplo usando One-Hot Encoding)
categorical_cols = df.select_dtypes(include=['object']).columns
df = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

In [11]:
# Codificação de variáveis ordinais (exemplo usando Label Encoding)
ordinal_cols = ['chest pain type', 'resting ecg', 'ST slope']
label_encoders = {}
for col in ordinal_cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le

## 4. Normalização: 

inserir normalização de dados nas variáveis que forem necessárias.

In [12]:
# Normalizar variáveis (exemplo usando StandardScaler)
scaler = StandardScaler()
scaled_columns = ['age', 'resting bp s', 'cholesterol', 'max heart rate', 'oldpeak']
df[scaled_columns] = scaler.fit_transform(df[scaled_columns])


In [13]:
# Alternativamente, para normalização entre 0 e 1
# minmax_scaler = MinMaxScaler()
# df[scaled_columns] = minmax_scaler.fit_transform(df[scaled_columns])


In [14]:
# Salvar o DataFrame tratado
df.to_csv('../data/processed/heart_disease_cleaned.csv', index=False)

In [15]:
print("Dados tratados com sucesso!")

Dados tratados com sucesso!
