In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import os

# =========================================================
# CONFIGURAÇÃO DA BASE (AJUSTE APENAS AQUI)
# =========================================================

FILE_PATH = 'letter-recognition.data'
COLUMNS = ['Letter', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7',
                    'x8', 'x9', 'x10', 'x11', 'x12', 'x13', 'x14', 'x15', 'x16']
DROP_COLUMNS = []
TARGET_COLUMN = 'Letter'

OUTPUT_DIR = 'eda_plots'

# =========================================================
# LEITURA DOS DADOS
# =========================================================

df = pd.read_csv(FILE_PATH, header=None, names=COLUMNS)

if DROP_COLUMNS:
    df.drop(columns=DROP_COLUMNS, inplace=True)

# Criar pasta para salvar gráficos
os.makedirs(OUTPUT_DIR, exist_ok=True)

# =========================================================
# INFORMAÇÕES GERAIS
# =========================================================

print("\n=== INFORMAÇÕES GERAIS ===")
print(f"Número de instâncias: {df.shape[0]}")
print(f"Número de atributos: {df.shape[1]}")

# =========================================================
# IDENTIFICAÇÃO DE COLUNAS
# =========================================================

categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
if TARGET_COLUMN not in categorical_cols:
    categorical_cols.append(TARGET_COLUMN)

numerical_cols = df.columns.difference(categorical_cols)

print("\n=== COLUNAS CATEGÓRICAS ===")
for col in categorical_cols:
    print(f"- {col}")

# =========================================================
# CARDINALIDADE
# =========================================================

print("\n=== CARDINALIDADE DAS VARIÁVEIS CATEGÓRICAS ===")
for col in categorical_cols:
    print(f"{col}: {df[col].nunique()} categorias")

# =========================================================
# VALORES AUSENTES
# =========================================================

print("\n=== VALORES AUSENTES ===")
missing = df.isna().sum()
missing_percent = (missing / len(df)) * 100
print(pd.DataFrame({'Missing': missing, 'Missing (%)': missing_percent}))

# =========================================================
# GRÁFICOS – VARIÁVEIS NUMÉRICAS
# =========================================================

print("\nGerando histogramas das variáveis numéricas...")

for col in numerical_cols:
    plt.figure()
    df[col].hist(bins=30)
    plt.title(f'Distribuição da variável {col}')
    plt.xlabel(col)
    plt.ylabel('Frequência')
    plt.tight_layout()
    plt.savefig(f'{OUTPUT_DIR}/hist_{col}.png')
    plt.close()

# =========================================================
# GRÁFICOS – VARIÁVEIS CATEGÓRICAS
# =========================================================

print("\nGerando gráficos de barras das variáveis categóricas...")

for col in categorical_cols:
    plt.figure(figsize=(8, 4))
    df[col].value_counts().plot(kind='bar')
    plt.title(f'Distribuição da variável {col}')
    plt.xlabel(col)
    plt.ylabel('Frequência')
    plt.tight_layout()
    plt.savefig(f'{OUTPUT_DIR}/bar_{col}.png')
    plt.close()

print(f"\n✔ Gráficos salvos na pasta '{OUTPUT_DIR}'")



=== INFORMAÇÕES GERAIS ===
Número de instâncias: 20000
Número de atributos: 17

=== COLUNAS CATEGÓRICAS ===
- Letter

=== CARDINALIDADE DAS VARIÁVEIS CATEGÓRICAS ===
Letter: 26 categorias

=== VALORES AUSENTES ===
        Missing  Missing (%)
Letter        0          0.0
x1            0          0.0
x2            0          0.0
x3            0          0.0
x4            0          0.0
x5            0          0.0
x6            0          0.0
x7            0          0.0
x8            0          0.0
x9            0          0.0
x10           0          0.0
x11           0          0.0
x12           0          0.0
x13           0          0.0
x14           0          0.0
x15           0          0.0
x16           0          0.0

Gerando histogramas das variáveis numéricas...

Gerando gráficos de barras das variáveis categóricas...

✔ Gráficos salvos na pasta 'eda_plots'
