# 1. Inspeção Inicial dos Dados

Este notebook realiza a inspeção inicial do conjunto de dados Heart Disease Dataset UCI.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configurações de visualização
plt.style.use('seaborn')
sns.set_palette('husl')
pd.set_option('display.max_columns', None)

In [None]:
# Carregar dados
data_path = Path('../data/HeartDiseaseTrain-Test.csv')
df = pd.read_csv(data_path)
print(f"Dimensões do dataset: {df.shape}")
df.head()

## Análise da Estrutura dos Dados

In [None]:
# Informações gerais
df.info()

In [None]:
# Estatísticas descritivas
df.describe()

## Valores Ausentes

In [None]:
# Verificar valores ausentes
missing_values = df.isnull().sum()
print("Valores ausentes por coluna:")
print(missing_values[missing_values > 0])

## Distribuição das Variáveis

In [None]:
# Distribuição das variáveis numéricas
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns

fig, axes = plt.subplots(len(numeric_cols)//2 + 1, 2, figsize=(15, 5*len(numeric_cols)//2))
axes = axes.flatten()

for idx, col in enumerate(numeric_cols):
    sns.histplot(data=df, x=col, ax=axes[idx])
    axes[idx].set_title(f'Distribuição de {col}')

plt.tight_layout()
plt.show()