In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import os

# =========================================================
# CONFIGURAÇÃO DA BASE (AJUSTE APENAS AQUI)
# =========================================================

FILE_PATH = 'wine.data'
COLUMNS = ['Class', 'Alcohol', 'Malic_acid', 'Ash', 'Alcalinity',
                    'Magnesium', 'Total_phenols', 'Flavanoids',
                    'Nonflavanoid_phenols', 'Proanthocyanins',
                    'Color_intensity', 'Hue', 'OD280_OD315', 'Proline']
DROP_COLUMNS = []
TARGET_COLUMN = 'Class'

OUTPUT_DIR = 'eda_plots'

# =========================================================
# LEITURA DOS DADOS
# =========================================================

df = pd.read_csv(FILE_PATH, header=None, names=COLUMNS)

if DROP_COLUMNS:
    df.drop(columns=DROP_COLUMNS, inplace=True)

# Criar pasta para salvar gráficos
os.makedirs(OUTPUT_DIR, exist_ok=True)

# =========================================================
# INFORMAÇÕES GERAIS
# =========================================================

print("\n=== INFORMAÇÕES GERAIS ===")
print(f"Número de instâncias: {df.shape[0]}")
print(f"Número de atributos: {df.shape[1]}")

# =========================================================
# IDENTIFICAÇÃO DE COLUNAS
# =========================================================

categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
if TARGET_COLUMN not in categorical_cols:
    categorical_cols.append(TARGET_COLUMN)

numerical_cols = df.columns.difference(categorical_cols)

print("\n=== COLUNAS CATEGÓRICAS ===")
for col in categorical_cols:
    print(f"- {col}")

# =========================================================
# CARDINALIDADE
# =========================================================

print("\n=== CARDINALIDADE DAS VARIÁVEIS CATEGÓRICAS ===")
for col in categorical_cols:
    print(f"{col}: {df[col].nunique()} categorias")

# =========================================================
# VALORES AUSENTES
# =========================================================

print("\n=== VALORES AUSENTES ===")
missing = df.isna().sum()
missing_percent = (missing / len(df)) * 100
print(pd.DataFrame({'Missing': missing, 'Missing (%)': missing_percent}))

# =========================================================
# GRÁFICOS – VARIÁVEIS NUMÉRICAS
# =========================================================

print("\nGerando histogramas das variáveis numéricas...")

for col in numerical_cols:
    plt.figure()
    df[col].hist(bins=30)
    plt.title(f'Distribuição da variável {col}')
    plt.xlabel(col)
    plt.ylabel('Frequência')
    plt.tight_layout()
    plt.savefig(f'{OUTPUT_DIR}/hist_{col}.png')
    plt.close()

# =========================================================
# GRÁFICOS – VARIÁVEIS CATEGÓRICAS
# =========================================================

print("\nGerando gráficos de barras das variáveis categóricas...")

for col in categorical_cols:
    plt.figure(figsize=(8, 4))
    df[col].value_counts().plot(kind='bar')
    plt.title(f'Distribuição da variável {col}')
    plt.xlabel(col)
    plt.ylabel('Frequência')
    plt.tight_layout()
    plt.savefig(f'{OUTPUT_DIR}/bar_{col}.png')
    plt.close()

print(f"\n✔ Gráficos salvos na pasta '{OUTPUT_DIR}'")



=== INFORMAÇÕES GERAIS ===
Número de instâncias: 178
Número de atributos: 14

=== COLUNAS CATEGÓRICAS ===
- Class

=== CARDINALIDADE DAS VARIÁVEIS CATEGÓRICAS ===
Class: 3 categorias

=== VALORES AUSENTES ===
                      Missing  Missing (%)
Class                       0          0.0
Alcohol                     0          0.0
Malic_acid                  0          0.0
Ash                         0          0.0
Alcalinity                  0          0.0
Magnesium                   0          0.0
Total_phenols               0          0.0
Flavanoids                  0          0.0
Nonflavanoid_phenols        0          0.0
Proanthocyanins             0          0.0
Color_intensity             0          0.0
Hue                         0          0.0
OD280_OD315                 0          0.0
Proline                     0          0.0

Gerando histogramas das variáveis numéricas...

Gerando gráficos de barras das variáveis categóricas...

✔ Gráficos salvos na pasta 'eda_plots'
