<a href="https://colab.research.google.com/github/alvarofpinheiro/pifwia_kmeans/blob/main/PIFWIA_KM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

O agrupamento k-means é um método de quantização vetorial, originário do processamento de sinais, que visa particionar n observações em k clusters em que cada observação pertence ao cluster com a média mais próxima (cluster centers ou cluster centroid), servindo como protótipo de o aglomerado. Isso resulta em um particionamento do espaço de dados em células Voronoi. O agrupamento k-means minimiza as variâncias dentro do cluster (distâncias quadradas euclidianas), mas não as distâncias euclidianas regulares, que seriam o problema de Weber  mais difícil: a média otimiza os erros quadrados, enquanto apenas a mediana geométrica minimiza as distâncias euclidianas. Por exemplo, melhores soluções euclidianas podem ser encontradas usando k-medianas e k-medóides.

Hartigan, J. A.; Wong, M. A. Algorithm AS 136: A k-Means Clustering Algorithm. Journal of the Royal Statistical Society, Series C. 28 (1): 100–108. JSTOR 2346830. https://doi.org/10.2307/2346830, 1979.

In [None]:
#Importando bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans

In [None]:
#Carregando a base de dados iris
iris = pd.read_csv("iris.csv")

In [None]:
#Cabeçalho do arquivo
iris.head()

In [None]:
from IPython.display import Image
Image(filename ="iris-data-set.png", width=500, height=500)

In [None]:
#Separando os valores de dados e classes
X = iris.drop('Species',axis=1)
X[:10]

In [None]:
#Exibindo as classes
y = iris.Species
y.unique()

In [None]:
#Convertendo valores categórios de classe em numéricos
def converte_classe(l):
    if l == 'Iris-virginica':
        return 0
    elif l == 'Iris-setosa':
        return 1
    elif l == 'Iris-versicolor':
        return 2

y = y.apply(converte_classe)
y.value_counts()

In [None]:
#Instânciando o Algoritmo K-means com 3 clusters
kmeans = KMeans(n_clusters = 3, init = 'random')
kmeans.fit(X)

In [None]:
#Centroids
kmeans.cluster_centers_

In [None]:
#Tabela de distância
distance = kmeans.fit_transform(X)
distance

In [None]:
#Distâncias
distance[0]

In [None]:
#Visualizando valores de distância para cada cluster
%matplotlib notebook
x = ['Cluster 0','Cluster 1','Cluster 2']
plt.barh(x,distance[0])
plt.xlabel('Distância')
plt.title('Distância por Clusters ')
plt.show()

In [None]:
#Imprimindo Rótulos
labels = kmeans.labels_
labels

In [None]:
#Visualizando os Centroids
%matplotlib notebook
plt.figure(figsize=(8,6))
plt.scatter(X['SepalLength'], X['SepalWidth'], s = 100, c = kmeans.labels_)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s = 300, c = 'red',label = 'Centroids')
plt.title('Dataset Iris e Centroids')
plt.xlabel('SepalLength')
plt.ylabel('SepalWidth')
plt.show()

In [None]:
#Agrupando novos dados
data = [
        [ 4.12, 3.4, 1.6, 0.7],
        [ 5.2, 5.8, 5.2, 6.7],
        [ 3.1, 3.5, 3.3, 3.0]
    ]
kmeans.predict(data)

In [None]:
#Visualizando os resultados
%matplotlib notebook
f,(ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize=(8,6))
ax1.set_title('Original')
ax1.scatter(X['SepalLength'], X['SepalWidth'],s=150,c=sorted(y))
ax2.set_title('KMeans')
ax2.scatter(X['SepalLength'], X['SepalWidth'],s=150,c=sorted(kmeans.labels_))

In [None]:
#Estimando o valor do parametro K - Método Elbow
%matplotlib notebook
wcss = []

for i in range(1, 11):
    kmeans2 = KMeans(n_clusters = i, init = 'random')
    kmeans2.fit(X)
    print (i,kmeans2.inertia_)
    wcss.append(kmeans2.inertia_)
    
plt.plot(range(1, 11), wcss)
plt.title('O Metodo Elbow')
plt.xlabel('Numero de Clusters')
plt.ylabel('WSS') #within cluster sum of squares
plt.show()

In [None]:
#Matriz de Confusão
print (pd.crosstab(y,kmeans.labels_, rownames=['Real'], colnames=['Predito'], margins=True))

In [None]:
#Metricas de classificação
from sklearn import metrics
clusters = ['Cluster 2','Cluster 1','Cluster 0']
print(metrics.classification_report(y,kmeans.labels_,target_names=clusters))