In [None]:

import sys
import os

# Pega o caminho do diretório onde o notebook está rodando (a pasta 'notebooks')
notebook_dir = os.getcwd()

# Sobe um nível para chegar à raiz do projeto ('meu_projeto_de_estruturas')
project_root = os.path.dirname(notebook_dir)

# Adiciona a raiz do projeto ao sys.path se ainda não estiver lá
if project_root not in sys.path:
    sys.path.append(project_root)

print(f"Raiz do projeto adicionada ao Python Path: {project_root}")


In [None]:

# Importa a biblioteca que instalamos
import pandas as pd
import os

# ---- CONFIGURE AQUI ----
NOME_DO_ARQUIVO_DO_DATASET = "heart_attack_prediction_dataset.csv" # <--- SUBSTITUA PELO NOME REAL DO SEU ARQUIVO
# --------------------------

# Constrói o caminho para o arquivo de forma robusta
# Isso garante que funcione independentemente de onde você execute o notebook
caminho_do_arquivo = os.path.join("..", "dataset", NOME_DO_ARQUIVO_DO_DATASET)

# Tenta carregar o dataset
try:
    df = pd.read_csv(caminho_do_arquivo)

    print("✅ Dataset carregado com sucesso!")
    print(f"O dataset tem {df.shape[0]} linhas (amostras) e {df.shape[1]} colunas (features).")

    print("\n--- Primeiras 5 linhas do dataset: ---")
    display(df.head()) # 'display' é melhor que 'print' para dataframes em notebooks

    print("\n--- Informações sobre as colunas e tipos de dados: ---")
    df.info()

except FileNotFoundError:
    print(f"❌ ERRO: Arquivo não encontrado!")
    print(f"Verifique se o nome '{NOME_DO_ARQUIVO_DO_DATASET}' está correto e se o arquivo está na pasta 'dataset/'.")
except Exception as e:
    print(f"❌ ERRO ao carregar o dataset: {e}")


In [None]:

# --- Parte 2: Estatísticas Descritivas Gerais ---
print("\n" + "="*50)
print("   ESTATÍSTICAS DESCRITIVAS (COLUNAS NUMÉRICAS)")
print("="*50)
# O .T (transpor) facilita a leitura da tabela
display(df.describe().T)


In [None]:

# --- Parte 3: Análise de Frequência de Colunas Categóricas ---
print("\n" + "="*50)
print("   DISTRIBUIÇÃO DE DADOS CATEGÓRICOS")
print("="*50)

# Lista de colunas categóricas de interesse
colunas_categoricas = ['Sex', 'Diet', 'Diabetes', 'Smoking', 'Heart Attack Risk']

for coluna in colunas_categoricas:
    if coluna in df.columns:
        print(f"\n--- Frequência para a coluna: '{coluna}' ---")
        display(df[coluna].value_counts())


In [None]:

# --- Parte 1: Pré-processamento da Coluna 'Blood Pressure' ---
print("\nProcessando a coluna 'Blood Pressure'...")
if 'Blood Pressure' in df.columns:
    # Separa a string "sistólica/diastólica" em duas novas colunas
    split_bp = df['Blood Pressure'].str.split('/', expand=True)
    df['Pressao_Sistolica'] = pd.to_numeric(split_bp[0], errors='coerce')
    df['Pressao_Diastolica'] = pd.to_numeric(split_bp[1], errors='coerce')
    
    # Remove a coluna original de texto
    df = df.drop(columns=['Blood Pressure'])
    print("✅ Coluna 'Blood Pressure' transformada em 'Pressao_Sistolica' e 'Pressao_Diastolica'.")


In [None]:

import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# --- Parte 4: Visualização da Distribuição de Features Numéricas ---
print("\n" + "="*50)
print("   HISTOGRAMAS DE DISTRIBUIÇÃO (FEATURES NUMÉRICAS)")
print("="*50)

# Lista de colunas numéricas de interesse para visualizar
colunas_numericas_vis = ['Age', 'Cholesterol', 'Heart Rate', 'BMI']

# Cria uma figura com múltiplos subplots
fig, axes = plt.subplots(2, 2, figsize=(16, 10))
fig.suptitle('Distribuição de Features Numéricas Chave', fontsize=18)
# Transforma os eixos 2x2 em uma lista 1D para facilitar o loop
axes = axes.flatten()

for i, col in enumerate(colunas_numericas_vis):
    sns.histplot(df[col], kde=True, ax=axes[i], bins=30)
    axes[i].set_title(f'Distribuição de {col}')

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()
