In [None]:
from sklearn import datasets
from sklearn.metrics import confusion_matrix
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import linkage, dendrogram

In [None]:
# DATASET DA LIB MUITO USADO PARA ML
iris = datasets.load_iris()
iris

In [None]:
# CRIAÇÃO DE CLUSTERS USANDO DIFERENTES ALGORITMOS E CRIANDO GRÁFICOS PARA ELES

In [None]:
def plot_clusters(data, labels, title):
  colors = ['red', 'green', 'purple', 'black']
  plt.figure(figsize=(8,4))

  # i -> range | c-> colors | l -> classes
  for i,c,l in zip(range(-1,3), colors, ['Noise','Setosa','Versicolor','Virginica']):
    if i == -1:
      plt.scatter(data[labels == i, 0], data[labels == i, 3], c=colors[i], label=l, alpha=0.5, s=50, marker='x')
    else:
      plt.scatter(data[labels == i, 0], data[labels == i, 3], c=colors[i], label=l, alpha=0.5, s=50)

  plt.legend()
  plt.title(title)
  plt.xlabel('Comprimento Sépala')
  plt.ylabel('Largura da Pétala')
  plt.show()

In [None]:
# K-MEANS

kmeans = KMeans(n_clusters=3, n_init=('auto'))
kmeans.fit(iris.data)
print(kmeans.labels_)

resultados = confusion_matrix(iris.target, kmeans.labels_)
print(resultados)

plot_clusters(iris.data, kmeans.labels_, 'Cluster K-Means')

In [None]:
# DBSCAN

# eps -> circunferência na qual o dbscan vai buscar os pontos (ele usa densidade)
# min_samples -> quantidade de instâncias necessárias para ser considerado um cluster, caso contrário vira ruído (-1)
dbscan = DBSCAN(eps=0.5, min_samples=3)
dbscan_labels = dbscan.fit_predict(iris.data)
print(dbscan_labels)

plot_clusters(iris.data, dbscan_labels, 'Cluster DBSCAN')

In [None]:
# HIERÁRQUICO

agglo = AgglomerativeClustering(n_clusters=3)
agglo_labels = agglo.fit_predict(iris.data)
print(agglo_labels)

resultados = confusion_matrix(iris.target, agglo_labels)
print(resultados)

plot_clusters(iris.data, agglo_labels, 'Cluster Hierárquico')

In [None]:
# CRIANDO UM DENDROGAMA PARA VISUALIZAR O AGRUPAMENTO HIERÁRQUICO

plt.figure(figsize=(12,6))
plt.title("Cluster Hierárquico: Dendrograma")
plt.xlabel('Índice')
plt.ylabel('Distância')

linkage_matrix = linkage(iris.data, method='ward')
dendrogram(linkage_matrix, truncate_mode='lastp', p=15)
# CORTA O DENDROGRAMA ONDE VÃO SE CRIAR OS CLUSTERS
plt.axhline(y=7, c='grey', lw=1, linestyle='dashed')
plt.show()