In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import os

# =========================================================
# CONFIGURAÇÃO DA BASE (AJUSTE APENAS AQUI)
# =========================================================

FILE_PATH = 'car.data'  # caminho para a base Car Evaluation
COLUMNS = [
    'buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'Class'
]
TARGET_COLUMN = 'Class'
OUTPUT_DIR = 'eda_plots_car'

# =========================================================
# LEITURA DOS DADOS
# =========================================================

df = pd.read_csv(FILE_PATH, header=None, names=COLUMNS)

# Criar pasta para salvar gráficos
os.makedirs(OUTPUT_DIR, exist_ok=True)

# =========================================================
# INFORMAÇÕES GERAIS
# =========================================================

print("\n=== INFORMAÇÕES GERAIS ===")
print(f"Número de instâncias: {df.shape[0]}")
print(f"Número de atributos: {df.shape[1]}")

# =========================================================
# IDENTIFICAÇÃO DE COLUNAS
# =========================================================

# Todas as colunas são categóricas
categorical_cols = df.columns.tolist()
if TARGET_COLUMN not in categorical_cols:
    categorical_cols.append(TARGET_COLUMN)

numerical_cols = []  # não há colunas numéricas

print("\n=== COLUNAS CATEGÓRICAS ===")
for col in categorical_cols:
    print(f"- {col}")

# =========================================================
# CARDINALIDADE
# =========================================================

print("\n=== CARDINALIDADE DAS VARIÁVEIS CATEGÓRICAS ===")
for col in categorical_cols:
    print(f"{col}: {df[col].nunique()} categorias")

# =========================================================
# VALORES AUSENTES
# =========================================================

print("\n=== VALORES AUSENTES ===")
missing = df.isna().sum()
missing_percent = (missing / len(df)) * 100
print(pd.DataFrame({'Missing': missing, 'Missing (%)': missing_percent}))

# =========================================================
# GRÁFICOS – VARIÁVEIS CATEGÓRICAS
# =========================================================

print("\nGerando gráficos de barras das variáveis categóricas...")

for col in categorical_cols:
    plt.figure(figsize=(8, 4))
    df[col].value_counts().plot(kind='bar')
    plt.title(f'Distribuição da variável {col}')
    plt.xlabel(col)
    plt.ylabel('Frequência')
    plt.tight_layout()
    plt.savefig(f'{OUTPUT_DIR}/bar_{col}.png')
    plt.close()

print(f"\n✔ Gráficos salvos na pasta '{OUTPUT_DIR}'")



=== INFORMAÇÕES GERAIS ===
Número de instâncias: 1728
Número de atributos: 7

=== COLUNAS CATEGÓRICAS ===
- buying
- maint
- doors
- persons
- lug_boot
- safety
- Class

=== CARDINALIDADE DAS VARIÁVEIS CATEGÓRICAS ===
buying: 4 categorias
maint: 4 categorias
doors: 4 categorias
persons: 3 categorias
lug_boot: 3 categorias
safety: 3 categorias
Class: 4 categorias

=== VALORES AUSENTES ===
          Missing  Missing (%)
buying          0          0.0
maint           0          0.0
doors           0          0.0
persons         0          0.0
lug_boot        0          0.0
safety          0          0.0
Class           0          0.0

Gerando gráficos de barras das variáveis categóricas...

✔ Gráficos salvos na pasta 'eda_plots_car'
