In [None]:
# Importação das Bibliotecas Necessárias
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
from matplotlib.patches import Ellipse
import numpy as np
import seaborn as sns


In [None]:
# Carregamento da Base de Dados
df = pd.read_csv('BaseDados/ParaClasificacao.csv')

In [None]:
# Preparação dos Dados para Clustering
X = df[['LAT', 'LONG', 'Existencia de Pracas', 'RACE Int', 'Crime', 'AGE Superior', 'VICTIM MINOR']].values

In [None]:
# Normalização dos Dados
scaler = StandardScaler()
data_scaled = scaler.fit_transform(X)

In [None]:
num_clusters = 5
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
kmeans.fit(data_scaled)

In [None]:
silhouette_avg = silhouette_score(data_scaled, kmeans.labels_)
print(f"A medida de Silhouette para {num_clusters} clusters é {silhouette_avg:.2f}")


In [None]:
# Exibição das Coordenadas dos Centróides
labels = kmeans.labels_
centroids = kmeans.cluster_centers_


In [None]:
# Visualização das Características Predominantes de Cada Cluster
feature_names = ['LAT', 'LONG', 'Existencia de Pracas', 'RACE Int', 'Crime', 'AGE Superior', 'VICTIM MINOR']
for i in range(num_clusters):
    print(f"Cluster {i}:")
    for j in range(len(feature_names)):
        print(f"- Média de {feature_names[j]}: {centroids[i][j]:.2f}")
    print()


In [None]:
# Configuração do gráfico 
plt.figure(figsize=(10, 8))
palette = sns.color_palette("husl", num_clusters)

In [None]:
# Plotagem dos pontos de cada cluster
for i, label in enumerate(np.unique(labels)):
    subset = data_scaled[labels == label]
    plt.scatter(subset[:, 0], subset[:, 1], c=np.array([palette[i]]), label=f'Cluster {label}', edgecolor='black', linewidth=0.5, s=50, alpha=0.7)

plt.scatter(centroids[:, 0], centroids[:, 1], marker='x', s=200, linewidths=3, color='black', zorder=10, label='Centróides')

for centroid in centroids:
    ellipse = Ellipse(xy=centroid, width=0.2, height=0.1, edgecolor='red', fc='None', lw=2)
    plt.gca().add_patch(ellipse)

plt.title('Visualização dos Clusters K-Means', fontsize=16)
plt.xlabel('X-Coordenada', fontsize=14)
plt.ylabel('Y-Coordenada', fontsize=14)
plt.legend(title='Legenda', loc='upper right')
plt.tight_layout()
plt.show()