In [None]:

# =======================
# 1. IMPORTANDO BIBLIOTECAS
# =======================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

# =======================
# 2. CARREGANDO O DATASET
# =======================

# Definindo os nomes das colunas conforme documenta√ß√£o da UCI
colunas = ['area', 'perimetro', 'compacidade', 'comprimento_nucleo', 
           'largura_nucleo', 'coef_assimetria', 'sulco_nucleo', 'classe']

# Importando o arquivo (ajuste o caminho se necess√°rio)
df = pd.read_csv('seeds_dataset.txt', sep='\s+', header=None, names=colunas)

# Visualizando as primeiras linhas
print("üîπ Primeiras linhas do dataset:")
print(df.head())

# =======================
# 3. AN√ÅLISE INICIAL DOS DADOS
# =======================

print("\nüîπ Informa√ß√µes do DataFrame:")
df.info()

print("\nüîπ Estat√≠sticas descritivas:")
print(df.describe())

print("\nüîπ Medianas das vari√°veis:")
print(df.median())

print("\nüîπ Desvio padr√£o:")
print(df.std())

# =======================
# 4. VERIFICANDO VALORES AUSENTES
# =======================

print("\nüîπ Valores ausentes:")
print(df.isnull().sum())

# =======================
# 5. VISUALIZA√á√ïES
# =======================

# Histogramas
df.hist(figsize=(12, 8), bins=15)
plt.suptitle("Distribui√ß√£o das caracter√≠sticas", fontsize=16)
plt.tight_layout()
plt.show()

# Boxplots
plt.figure(figsize=(12, 6))
sns.boxplot(data=df)
plt.xticks(rotation=45)
plt.title("Boxplots das caracter√≠sticas")
plt.show()

# Matriz de Correla√ß√£o
plt.figure(figsize=(10, 6))
sns.heatmap(df.corr(), annot=True, cmap='Blues')
plt.title("Matriz de Correla√ß√£o")
plt.show()

# Pairplot (Dispers√£o entre atributos)
sns.pairplot(df, hue='classe', palette='Set2')
plt.suptitle("Rela√ß√µes entre Caracter√≠sticas", y=1.02)
plt.show()

# =======================
# 6. ESCALONAMENTO DOS DADOS
# =======================

# Separando atributos (X) e classe (y)
X = df.drop('classe', axis=1)
y = df['classe']

# Padroniza√ß√£o com StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Verificando resultado
print("\nüîπ Dados padronizados (5 primeiras linhas):")
print(pd.DataFrame(X_scaled, columns=X.columns).head())
