In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Load the dataset
try:
    df = pd.read_csv('cardio_train.csv', delimiter=';')
except FileNotFoundError:
    print("Error: O arquivo 'cardio_train.csv' não foi encontrado.")
    exit()

# --- Análise Exploratória de Dados (AED) ---
print("--- Análise Exploratória de Dados (AED) ---")

# 1. Inspeção Inicial do Dataset
print("\n1. Visualização das primeiras 5 linhas do dataset:")
print(df.head())

print("\n2. Informações do dataset (tipos de dados, valores nulos):")
df.info()

print("\n3. Estatísticas Descritivas:")
print(df.describe())

# 4. Verificação de valores nulos
print("\n4. Contagem de valores nulos por coluna:")
print(df.isnull().sum())

# 5. Verificação de valores únicos em colunas categóricas/binárias
print("\n5. Valores únicos em colunas categóricas/binárias:")
print("gender:", df['gender'].unique())
print("cholesterol:", df['cholesterol'].unique())
print("gluc:", df['gluc'].unique())
print("smoke:", df['smoke'].unique())
print("alco:", df['alco'].unique())
print("active:", df['active'].unique())
print("cardio:", df['cardio'].unique())

# --- Limpeza e Engenharia de Atributos ---
print("\n--- Limpeza e Engenharia de Atributos ---")

# Converter idade de dias para anos e arredondar
df['age_years'] = (df['age'] / 365.25).round().astype(int)
print("\n6. Visualização da idade convertida para anos:")
print(df[['age', 'age_years']].head())

# Calcular o Índice de Massa Corporal (IMC)
df['bmi'] = df['weight'] / ((df['height'] / 100) ** 2)
print("\n7. Visualização do IMC:")
print(df[['weight', 'height', 'bmi']].head())

# Filtrar e remover outliers de pressão arterial (ap_hi > ap_lo)
print(f"\nNúmero de linhas antes de filtrar a pressão arterial: {len(df)}")
df = df[df['ap_hi'] >= df['ap_lo']]
print(f"Número de linhas após filtrar a pressão arterial: {len(df)}")

# --- Visualização de Dados ---
print("\n--- Visualização de Dados ---")

# Gráfico de barras para a variável alvo 'cardio'
plt.figure(figsize=(8, 6))
sns.countplot(x='cardio', data=df)
plt.title('Distribuição da Variável Alvo (Doença Cardiovascular)')
plt.xlabel('Doença Cardiovascular (0: Não, 1: Sim)')
plt.ylabel('Contagem')
plt.savefig('cardio_distribution.png')
print("Gráfico de distribuição da variável alvo salvo como 'cardio_distribution.png'")

# Histograma das variáveis numéricas
numeric_cols = ['age_years', 'height', 'weight', 'ap_hi', 'ap_lo', 'bmi']
df[numeric_cols].hist(figsize=(15, 10), bins=30, xlabelsize=8, ylabelsize=8)
plt.suptitle('Distribuição das Variáveis Numéricas', y=1.02)
plt.tight_layout()
plt.savefig('numeric_histograms.png')
print("Histogramas das variáveis numéricas salvos como 'numeric_histograms.png'")

# Contagem de variáveis categóricas
categorical_cols = ['gender', 'cholesterol', 'gluc', 'smoke', 'alco', 'active']
plt.figure(figsize=(15, 10))
for i, col in enumerate(categorical_cols, 1):
    plt.subplot(2, 3, i)
    sns.countplot(x=col, data=df)
    plt.title(f'Distribuição de {col}')
plt.tight_layout()
plt.savefig('categorical_counts.png')
print("Gráficos de contagem de variáveis categóricas salvos como 'categorical_counts.png'")

# Mapa de calor de correlação
plt.figure(figsize=(12, 10))
corr_matrix = df.drop('id', axis=1).corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=.5)
plt.title('Mapa de Calor de Correlação')
plt.savefig('correlation_heatmap.png')
print("Mapa de calor de correlação salvo como 'correlation_heatmap.png'")

print("\n--- Análise Exploratória de Dados (AED) Concluída ---")