# 1.1 Verificação de Qualidade dos Dados

**Objetivo:** Identificar problemas de qualidade (valores nulos, duplicatas, outliers, inconsistências)

## Importação de Bibliotecas

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from scipy import stats

sns.set_theme(style="whitegrid")
pd.set_option('display.max_columns', None)

import warnings
warnings.filterwarnings('ignore')

## Carregamento dos Dados

In [2]:
data_path = Path('../data/raw/Cardiovascular_Disease_Dataset.csv')
df = pd.read_csv(data_path)

print(f"Dataset: {df.shape[0]} linhas x {df.shape[1]} colunas")

Dataset: 1000 linhas x 14 colunas


## Visualização Inicial

Para entender inicialmente os dados, são exibidas as primeiras 5, e as últimas 5 linhas do dataset, para ver a estrutura geral e confirmar o carregamento das colunas

In [3]:
df.head()

Unnamed: 0,patientid,age,gender,chestpain,restingBP,serumcholestrol,fastingbloodsugar,restingrelectro,maxheartrate,exerciseangia,oldpeak,slope,noofmajorvessels,target
0,103368,53,1,2,171,0,0,1,147,0,5.3,3,3,1
1,119250,40,1,0,94,229,0,1,115,0,3.7,1,1,0
2,119372,49,1,2,133,142,0,0,202,1,5.0,1,0,0
3,132514,43,1,0,138,295,1,1,153,0,3.2,2,2,1
4,146211,31,1,1,199,0,0,2,136,0,5.3,3,2,1


In [4]:
df.tail()

Unnamed: 0,patientid,age,gender,chestpain,restingBP,serumcholestrol,fastingbloodsugar,restingrelectro,maxheartrate,exerciseangia,oldpeak,slope,noofmajorvessels,target
995,9949544,48,1,2,139,349,0,2,183,1,5.6,2,2,1
996,9953423,47,1,3,143,258,1,1,98,1,5.7,1,0,0
997,9965859,69,1,0,156,434,1,0,196,0,1.4,3,1,1
998,9988507,45,1,1,186,417,0,1,117,1,5.9,3,2,1
999,9990855,25,1,0,158,270,0,0,143,1,4.7,0,0,0


## Informações do Dataset

Nesta etapa, são analisadas informações gerais do dataset, incluindo:

- Tipos de dados de cada coluna;

- Quantidade de valores não nulos;

- Estatísticas descritivas básicas (média, desvio padrão, valores mínimos e máximos).

Essa análise permite identificar possíveis problemas de tipagem e valores fora do esperado.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   patientid          1000 non-null   int64  
 1   age                1000 non-null   int64  
 2   gender             1000 non-null   int64  
 3   chestpain          1000 non-null   int64  
 4   restingBP          1000 non-null   int64  
 5   serumcholestrol    1000 non-null   int64  
 6   fastingbloodsugar  1000 non-null   int64  
 7   restingrelectro    1000 non-null   int64  
 8   maxheartrate       1000 non-null   int64  
 9   exerciseangia      1000 non-null   int64  
 10  oldpeak            1000 non-null   float64
 11  slope              1000 non-null   int64  
 12  noofmajorvessels   1000 non-null   int64  
 13  target             1000 non-null   int64  
dtypes: float64(1), int64(13)
memory usage: 109.5 KB


In [6]:
df.describe()

Unnamed: 0,patientid,age,gender,chestpain,restingBP,serumcholestrol,fastingbloodsugar,restingrelectro,maxheartrate,exerciseangia,oldpeak,slope,noofmajorvessels,target
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,5048704.0,49.242,0.765,0.98,151.747,311.447,0.296,0.748,145.477,0.498,2.7077,1.54,1.222,0.58
std,2895905.0,17.86473,0.424211,0.953157,29.965228,132.443801,0.456719,0.770123,34.190268,0.500246,1.720753,1.003697,0.977585,0.493805
min,103368.0,20.0,0.0,0.0,94.0,0.0,0.0,0.0,71.0,0.0,0.0,0.0,0.0,0.0
25%,2536440.0,34.0,1.0,0.0,129.0,235.75,0.0,0.0,119.75,0.0,1.3,1.0,0.0,0.0
50%,4952508.0,49.0,1.0,1.0,147.0,318.0,0.0,1.0,146.0,0.0,2.4,2.0,1.0,1.0
75%,7681877.0,64.25,1.0,2.0,181.0,404.25,1.0,1.0,175.0,1.0,4.1,2.0,2.0,1.0
max,9990855.0,80.0,1.0,3.0,200.0,602.0,1.0,2.0,202.0,1.0,6.2,3.0,3.0,1.0


## Valores Nulos

Na verificação de valores nulos, observou-se que o conjunto de dados não apresenta valores ausentes, indicando que todas as colunas estão completamente preenchidas.

In [7]:
null_summary = pd.DataFrame({
    'Coluna': df.columns,
    'Qtd_Nulos': df.isnull().sum().values,
    'Pct_Nulos': (df.isnull().sum() / len(df) * 100).values.round(2)
})

print("Resumo de Valores Nulos:")
print(null_summary.to_string(index=False))
print(f"\nTotal de valores nulos: {df.isnull().sum().sum()}")

Resumo de Valores Nulos:
           Coluna  Qtd_Nulos  Pct_Nulos
        patientid          0        0.0
              age          0        0.0
           gender          0        0.0
        chestpain          0        0.0
        restingBP          0        0.0
  serumcholestrol          0        0.0
fastingbloodsugar          0        0.0
  restingrelectro          0        0.0
     maxheartrate          0        0.0
    exerciseangia          0        0.0
          oldpeak          0        0.0
            slope          0        0.0
 noofmajorvessels          0        0.0
           target          0        0.0

Total de valores nulos: 0


Para as colunas relacionadas ao **colesterol sérico (serumcholestrol)** e à **inclinação do segmento ST (slope)**, o valor zero não é clinicamente plausível. Não existe colesterol igual a zero, assim como não há um segmento ST nulo do ponto de vista clínico.
Dessa forma, valores iguais a zero nessas variáveis são interpretados como dados ausentes, que foram preenchidos incorretamente como zero no dataset original.

In [8]:
# Verificacao de Valores Zerados Criticos

zero_chol = (df['serumcholestrol'] == 0).sum()
pct_zero_chol = (zero_chol / len(df)) * 100

zero_slope = (df['slope'] == 0).sum()
pct_zero_slope = (zero_slope / len(df)) * 100

print(f"\nSerum Cholesterol (chol):")
print(f"  Total de zeros: {zero_chol} ({pct_zero_chol:.2f}%)")

print(f"\nSlope of ST segment (slope):")
print(f"  Total de zeros: {zero_slope} ({pct_zero_slope:.2f}%)")


Serum Cholesterol (chol):
  Total de zeros: 53 (5.30%)

Slope of ST segment (slope):
  Total de zeros: 180 (18.00%)


# Verificação de Duplicatas


Não foram encontrados dados faltantes nem registros duplicados no dataset, o que é positivo, pois elimina a necessidade de etapas adicionais de limpeza relacionadas à remoção ou tratamento desses casos.

In [9]:
duplicates = df.duplicated().sum()

if duplicates > 0:
    print(f"\nRED FLAG: {duplicates} linhas duplicadas encontradas")
    print("\nVisualizando primeiras duplicatas:")
    print(df[df.duplicated(keep=False)].head(10))
else:
    print("OK: Nenhuma duplicata encontrada")

OK: Nenhuma duplicata encontrada


# Deteccao de Outliers (IQR Method)


Para a detecção de outliers, foi utilizado o método do **Intervalo Interquartil (IQR)**, que consiste no cálculo da diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1). A partir desse valor, são definidos limites inferior e superior, dados por $Q1−1,5×IQR$ e $Q3+1,5×IQR$, respectivamente. Valores que se encontram fora desses limites são considerados outliers.

In [10]:
numeric_cols = df.select_dtypes(include=[np.number]).columns.drop('patientid')

outlier_summary = []

for col in numeric_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    n_outliers = len(outliers)
    pct_outliers = (n_outliers / len(df)) * 100
    
    outlier_summary.append({
        'Variavel': col,
        'N_Outliers': n_outliers,
        'Pct_Outliers': round(pct_outliers, 2),
        'Min': df[col].min(),
        'Max': df[col].max()
    })

outlier_df = pd.DataFrame(outlier_summary)
print(outlier_df.to_string(index=False))

         Variavel  N_Outliers  Pct_Outliers  Min   Max
              age           0           0.0 20.0  80.0
           gender         235          23.5  0.0   1.0
        chestpain           0           0.0  0.0   3.0
        restingBP           0           0.0 94.0 200.0
  serumcholestrol           0           0.0  0.0 602.0
fastingbloodsugar           0           0.0  0.0   1.0
  restingrelectro           0           0.0  0.0   2.0
     maxheartrate           0           0.0 71.0 202.0
    exerciseangia           0           0.0  0.0   1.0
          oldpeak           0           0.0  0.0   6.2
            slope           0           0.0  0.0   3.0
 noofmajorvessels           0           0.0  0.0   3.0
           target           0           0.0  0.0   1.0


A análise indicou que os únicos valores identificados como outliers pertencem à variável gênero, que é de natureza categórica codificada numericamente. Dessa forma, esses valores não representam outliers reais do ponto de vista estatístico ou semântico.

Assim, considerando apenas variáveis numéricas contínuas, o dataset não apresenta outliers, o que é positivo, pois elimina a necessidade de etapas adicionais de tratamento ou remoção desses valores no pré-processamento.