In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.metrics import silhouette_score
from sklearn.impute import SimpleImputer
from sklearn.datasets import fetch_openml

# Carregar a base de dados Credit Approval
credit_approval = fetch_openml(name='credit-approval', version=1, as_frame=True)

# Dados (como dataframes pandas)
X = credit_approval.data
y = credit_approval.target

# Exibir informações básicas sobre os dados
print("Informações sobre os dados:")
print(X.info())
print("\nPrimeiras linhas dos dados:")
print(X.head())

# Verificar valores ausentes
print("\nValores ausentes por coluna:")
print(X.isnull().sum())

# Estatísticas descritivas para colunas numéricas
print("\nEstatísticas descritivas para colunas numéricas:")
print(X.describe())

# Distribuição das classes no alvo
print("\nDistribuição das classes no alvo:")
print(y.value_counts())

# Verificar a correlação entre as colunas numéricas
print("\nCorrelação entre as colunas numéricas:")
print(X.select_dtypes(include=[np.number]).corr())

# Pré-processamento dos dados
# Substituir valores ausentes
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(X.select_dtypes(include=[np.number]))

# Normalizar os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_imputed)

# Aplicar K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans_labels = kmeans.fit_predict(X_scaled)
kmeans_score = silhouette_score(X_scaled, kmeans_labels)

# Aplicar DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
dbscan_labels = dbscan.fit_predict(X_scaled)
dbscan_score = silhouette_score(X_scaled, dbscan_labels) if len(set(dbscan_labels)) > 1 else -1

# Aplicar Hierárquico Aglomerativo
agglo = AgglomerativeClustering(n_clusters=3)
agglo_labels = agglo.fit_predict(X_scaled)
agglo_score = silhouette_score(X_scaled, agglo_labels)

# Comparar os resultados
print("\nSilhouette Scores:")
print(f"K-Means: {kmeans_score}")
print(f"DBSCAN: {dbscan_score}")
print(f"Hierárquico Aglomerativo: {agglo_score}")

# 1. Distribuição das classes no alvo
plt.figure(figsize=(6, 4))
sns.countplot(x=y)
plt.title("Distribuição das Classes no Alvo")
plt.xlabel("Classe")
plt.ylabel("Contagem")
plt.show()

# 2. Gráfico de dispersão dos clusters gerados pelo K-Means
plt.figure(figsize=(8, 6))
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=kmeans_labels, cmap='viridis', s=50)
plt.title("Clusters Gerados pelo K-Means")
plt.xlabel("Feature 1 (Normalizada)")
plt.ylabel("Feature 2 (Normalizada)")
plt.colorbar(label="Cluster")
plt.show()

# 3. Gráfico de dispersão dos clusters gerados pelo DBSCAN
plt.figure(figsize=(8, 6))
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=dbscan_labels, cmap='viridis', s=50)
plt.title("Clusters Gerados pelo DBSCAN")
plt.xlabel("Feature 1 (Normalizada)")
plt.ylabel("Feature 2 (Normalizada)")
plt.colorbar(label="Cluster")
plt.show()

# 4. Gráfico de dispersão dos clusters gerados pelo Agglomerative Clustering
plt.figure(figsize=(8, 6))
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=agglo_labels, cmap='viridis', s=50)
plt.title("Clusters Gerados pelo Agglomerative Clustering")
plt.xlabel("Feature 1 (Normalizada)")
plt.ylabel("Feature 2 (Normalizada)")
plt.colorbar(label="Cluster")
plt.show()