# Clustering de dados

### K significa agrupamento
O agrupamento K-Means é um dos algoritmos mais comumente usados para agrupar dados não rotulados. No agrupamento K-Means, K se refere ao número de clusters nos quais você deseja que seus dados sejam agrupados. No agrupamento K-Means, o número de clusters deve ser definido antes que o agrupamento K possa ser aplicado aos pontos de dados.

### Etapas para agrupamento de meios K

A seguir estão as etapas que devem ser executadas para realizar o agrupamento de K Means de pontos de dados.

1. Atribua aleatoriamente valores de centroide para cada cluster.

2. Calcule a distância (Euclidiana ou Manhattan) entre cada ponto de dados e valores de centróide de todos os clusters.

3. Atribua o ponto de dados ao cluster do centróide com a distância em curto.

4. Calcule e atualize os valores do centroide com base nos valores médios das coordenadas de todos os pontos de dados do cluster correspondente.

5. Repita as etapas 2–4 até que os novos valores de centróide para todos os clusters sejam diferentes dos valores de centróide anteriores.

### Por que usar K Means Clustering?

##### O agrupamento de K Means é particularmente útil quando:

1. O agrupamento K Means é um algoritmo simples de implementar

2. Pode ser aplicado a grandes conjuntos de dados

3. Ajusta-se bem a pontos de dados invisíveis

4. Generaliza bem para grupos de vários tamanhos e formas.

# Clustering Dummy Data com Sklearn

In [3]:
import numpy as np
import pandas as pd
from sklearn.datasets.samples_generator import make_blobs
from sklearn.datasets._samples_generator import make_blobs
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
%matplotlib inline

ModuleNotFoundError: ModuleNotFoundError: No module named 'sklearn.datasets.samples_generator'

In [4]:
# gerando dados fictícios de 500 registros com 4 clusters
features, labels = make_blobs(n_samples=500, centers=4, cluster_std=20)

NameError: NameError: name 'make_blobs' is not defined

In [0]:
plt.scatter(features[:,0], features[:,1])
plt.show()

In [0]:
# realizando agrupamento de kmeans usando a classe KMeans

km_model = KMeans(n_clusters=4)
km_model.fit(features)

In [0]:
# imprimindo os crentroides

print(km_model.cluster_centers_)

In [0]:
# imprimindo valores dos labels previstos

print(km_model.labels_)

In [0]:
plt.scatter(features[:,0], features[:,1],
           c=km_model.labels_, cmap='rainbow')
plt.show()

In [0]:
plt.scatter(features[:,0], features[:,1],
           c=km_model.labels_, cmap='rainbow')

plt.scatter(km_model.cluster_centers_[:,0],
           km_model.cluster_centers_[:,0],
           s=100, c='black')
plt.show()

#### O script a seguir imprime os quatro clusters reais no conjunto de dados.

In [0]:
plt.scatter(features[:,0], features[:,1],
           c=labels, cmap='rainbow')
plt.show()

In [0]:
plt.scatter(features[:,0], features[:,1],
           c=labels, cmap='rainbow')
plt.show()

# Conjunto de dados Iris de clustering

In [0]:
import seaborn as sns

In [0]:
iris_df = sns.load_dataset("iris")
iris_df.head()

In [0]:
# divisao de dados em labels e features

features = iris_df.drop(["species"], axis = 1)
labels = iris_df.filter(["species"], axis = 1)
features.head()

#### Vamos primeiro escolher 4 como um número aleatório para o número de clusters. O script a seguir executa o agrupamento de K Means no conjunto de dados Iris.

In [0]:
# modelo KMeans train

features = features.values
km_model = KMeans(n_clusters=4)
km_model.fit(features)

In [0]:
print(km_model.labels_)

In [0]:
plt.scatter(features[:,0], features[:,1],
            c=km_model.labels_, cmap='rainbow')
plt.scatter(km_model.cluster_centers_[:,0],
           km_model.cluster_centers_[:,1],
           s=100, c='black')
plt.show()

Até agora, neste capítulo, inicializamos aleatoriamente o valor de K ou o número de clusters. No entanto, existe uma maneira de encontrar o número ideal de clusters. O método é conhecido como método do cotovelo. No método do cotovelo, o valor da inércia obtido pelo treinamento de clusters K Means com diferentes números de K é plotado.

A inércia representa a distância total entre os pontos de dados dentro de um cluster. Uma inércia menor significa que os clusters previstos são robustos e próximos dos clusters reais.

Para calcular o valor de inércia, você pode usar o inertia_attribute do objeto da classe KMeans. O script a seguir cria valores inerciais para K = 1 a 10 e plota na forma de um gráfico de linha, conforme mostrado abaixo:

In [0]:
loss = []
for i in range(1,11):
    km = KMeans(n_clusters=i).fit(features)
    loss.append(km.inertia_)
    
plt.plot(range(1,11), loss)
plt.title ('Encontrar agrupamentos ideais através do método do cotovelo')
plt.xlabel ('Número de clusters')
plt.ylabel ('Loss')
plt.show()

Agora vamos agrupar os dados Iris usando 3 clusters e ver se podemos chegar perto dos clusters reais.

In [0]:
# KMeans train com 3 clusters

km_model = KMeans(n_clusters=3)
km_model.fit(features)

In [0]:
# pontos de dados com rótulos predeterminados

plt.scatter(features[:,0], features[:,1],
           c=km_model.labels_,
           cmap='rainbow')

plt.scatter(km_model.cluster_centers_[:,0],
           km_model.cluster_centers_[:,1],
           s=100, c='black')
plt.show()

#### Vamos agora representar graficamente os clusters reais e ver o quão próximos os clusters reais estão dos clusters previstos.

# Agrupamento hierárquico

O agrupamento hierárquico pode ser amplamente dividido em dois tipos: agrupamento aglomerativo e agrupamento divisivo. O clustering aglomerativo segue uma abordagem de baixo para cima, em que pontos de dados individuais são agrupados para formar vários pequenos clusters que levam a um grande cluster, que pode então ser dividido em pequenos clusters usando dendrogramas. Por outro lado, no caso de agrupamento divisivo, você tem um grande cluster, que pode ser dividido em N números de pequenos clusters.

#### Etapas para agrupamento aglomerativo hierárquico

As etapas necessárias para realizar o agrupamento aglomerativo são as seguintes:

1. Considere cada ponto de dados no conjunto de dados como um cluster. Portanto, o número de clusters no início é igual ao número de pontos de dados.

2. Junte os dois pontos de dados mais próximos para formar um cluster.

3. Forme mais clusters unindo-se aos clusters mais próximos. Repita este processo até que um grande cluster seja formado.

4. Use dendrogramas para dividir um grande cluster em vários pequenos clusters.

#### Por que usar clustering hierárquico?

##### O clustering hierárquico tem as seguintes vantagens:

1. Ao contrário do agrupamento K Means, para agrupamento hierárquico, você não precisa especificar o número de agrupamento de centroides.

2. Com dendrogramas, é mais fácil interpretar como os dados foram agrupados.

#### Desvantagens do algoritmo de clustering hierárquico

##### A seguir estão algumas das desvantagens do algoritmo de agrupamento hierárquico:

1. Não se adapta bem a dados não vistos.

2. Tem maior complexidade de tempo em comparação com o agrupamento K Means.

3. Difícil determinar o número de clusters no caso de um grande conjunto de dados.

# Clustering Dummy Data

In [0]:
# No primeiro exemplo, realizaremos o agrupamento 
# aglomerativo de apenas 10 pontos de dados bidimensionais.

from sklearn.datasets.samples_generator import make_blobs
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

O script a seguir cria pontos de dados aleatoriamente e, em seguida, rotula os pontos de dados de 1 a 10. Os pontos de dados são plotados como um gráfico de dispersão.

In [0]:
features, labels = make_blobs(n_samples=10, centers=2, cluster_std=2.00)
plt.scatter(features[:,0], features[:,1], color='r')

# adição de numeros aos pontos de dados 
annots = range(1,11)
for label, x, y in zip(annots, features[:,0], features[:,1]):
    plt.annotate(label, xy=(x,y), xytext=(-3,3),
                textcoords='offset points',
                ha='right', va='bottom')
plt.show()

##### podemos ver que os pontos 7,10,9,8,2,5 pertencem a um cluster e os 6,3,4,1 a outro cluster

Vamos agora plotar dendrogramas para os 10 pontos de dados acima. Para plotar dendrogramas, você pode usar o dendrograma e as classes de ligação do módulo scipy.cluster.hierarchy. Os recursos são passados para a classe de ligação. E o objeto da classe de ligação é passado para a classe de dendrograma para plotar o dendrograma para os recursos, conforme mostrado no seguinte script:

In [0]:
from scipy.cluster.hierarchy import dendrogram, linkage 

In [0]:
dendos = linkage(features, 'single')
annots = range(1,11)
dendrogram(dendos, orientation='top', labels=annots,
           distance_sort='descending', show_leaf_counts=True)
plt.show()

Na figura acima vemos que os pontos 9 e 8 são os mais proximos um do outro

Em cenários do mundo real, pode haver milhares de pontos de dados e, portanto, o método de dendrograma não pode ser usado para agrupar manualmente os dados. É aqui que podemos usar a classe AgglomerativeClustering do módulo sklearn.cluster. O número de clusters e os tipos de distância são passados ​​como parâmetros para a classe AgglomerativeClustering.

In [0]:
from sklearn.cluster import AgglomerativeClustering

hc_model = AgglomerativeClustering(n_clusters=2, affinity='euclidean',
                                   linkage='ward')
hc_model.fit_predict(features)

In [0]:
plt.scatter(features[:,0], features[:,1], c=hc_model.labels_,
           cmap='rainbow')

No exemplo anterior, tínhamos 10 pontos de dados com 2 clusters. Vamos agora ver um exemplo com 500 pontos de dados. O script a seguir cria 500 pontos de dados com 4 centros de cluster.

In [0]:
# gerando dados fictícios de 500 registros com 4 clusters

features, labels = make_blobs(n_samples=500, centers=4, cluster_std=2.00)
plt.scatter(features[:,0], features[:,1])
plt.show()

In [0]:
# executando agrupamento de kmeans usando 
# a classe AgglomerativeClustering

hc_model = AgglomerativeClustering(n_clusters=4, affinity='euclidean',
                                  linkage='ward')
hc_model.fit_predict(features)

In [0]:
plt.scatter(features[:,0], features[:,1], c= hc_model.labels_, cmap='rainbow')

In [0]:
plt.scatter(features[:,0], features[:,1], c= labels, cmap='rainbow')

#  Clustering o Iris Dataset

In [0]:
import seaborn as sns
iris_df = sns.load_dataset('iris')
iris_df.head()

In [0]:
features = iris_df.drop(['species'], axis = 1)
labels = iris_df.filter(['species'], axis = 1)
features.head()

In [0]:
from sklearn.cluster import AgglomerativeClustering
features = features.values
hc_model = AgglomerativeClustering(n_clusters=3, affinity='euclidean',
                                   linkage='ward')
hc_model.fit_predict(features)

In [0]:
plt.scatter(features[:,0], features[:,1], c= hc_model.labels_,
            cmap='rainbow' )

Você também pode criar dendrogramas usando o conjunto de recursos usando o módulo shc da biblioteca scipy.cluster.hierarchy. Você deve passar o conjunto de recursos para a classe de ligação do módulo shc e, em seguida, o objeto da classe de ligação é passado para a classe de dendrograma para plotar os dendrogramas, conforme mostrado no script a seguir.

In [0]:
import scipy.cluster.hierarchy as shc
plt.figure (figsize = (10, 7))
plt.title ( 'Dendogramas de íris' )
dend = shc.dendrogram (shc.linkage (features, method = 'ward' ))