# Tarefa 1: Análise e Pré-processamento de Dados

## Passo 1: Importação e visualização inicial dos dados

In [None]:

# Importando bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Carregando os dados
columns = [
    "Area", "Perimeter", "Compactness", 
    "Kernel Length", "Kernel Width", 
    "Asymmetry Coefficient", "Kernel Groove Length", "Class"
]
data_path = "seeds_dataset.txt"
data = pd.read_csv(data_path, delim_whitespace=True, header=None, names=columns)

# Exibindo as primeiras linhas
data.head()


## Passo 2: Estatísticas descritivas

In [None]:

# Calculando estatísticas descritivas
data.describe().T


## Passo 3: Visualização da distribuição das características

In [None]:

# Histogramas
data.hist(bins=15, figsize=(15, 10))
plt.tight_layout()
plt.show()

# Boxplots
plt.figure(figsize=(15, 8))
sns.boxplot(data=data.drop(columns='Class'))
plt.xticks(rotation=45)
plt.show()


## Passo 4: Gráficos de dispersão para correlações

In [None]:

# Gráficos de dispersão
sns.pairplot(data, hue="Class", diag_kind="kde", corner=True)
plt.show()


## Passo 5: Identificação e tratamento de valores ausentes

In [None]:

# Verificando valores ausentes
print("Valores ausentes por coluna:")
print(data.isnull().sum())

# (Opcional) Tratamento de valores ausentes (não há valores ausentes no conjunto atual)


## Passo 6: Escalonamento dos dados

In [None]:

from sklearn.preprocessing import StandardScaler

# Separando as características
X = data.drop(columns='Class')
y = data['Class']

# Padronizando as características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Verificando a transformação
pd.DataFrame(X_scaled, columns=X.columns).head()
