<h1><center>Clustering hierárquico</center></h1>

Clustering hierárquico - Agglomerative

Nesta aula veremos uma técnica de clustering, que é o <b>Clustering Hierárquico Aglomerativo (_Agglomerative_)</b>. Lembre-se de que o Clustering Hierárquico Aglomerativo é a abordagem de baixo para cima.<br> <br>
O Clustering Hierárquico Aglomerativo é o mais popular que o Clustering de Divisão (_Divisive_). <br> <br>
Também estaremos usando o Complete Linkage como o Critério de Linkage. <br>
<b><i>Obs.: Você também pode tentar usar o Average Linkage onde o Complete Linkage for usado para ver a diferença!</i> </b>

# Importando os pacotes necessários

In [None]:
import numpy as np 
import pandas as pd
from scipy import ndimage 
from scipy.cluster import hierarchy 
from scipy.spatial import distance_matrix 
from matplotlib import pyplot as plt 
from sklearn import manifold, datasets 
from sklearn.cluster import AgglomerativeClustering 
from sklearn.datasets.samples_generator import make_blobs 
%matplotlib inline

## Gerando os dados aleatoriamente

Nós vamos gerar um conjunto de dados usando a classe __make_blobs__. <br> <br>
Entre estes parâmetros em make_blobs:
<ul>
     <li> <b> n_samples </b>: o número total de pontos igualmente divididos entre os clusters. </li>
     <ul> <li> Escolha um número entre 10-1500 </li> </ul>
     <li> <b> centers </b>: o número de centros a gerar ou os locais centrais fixos. </li>
     <ul> <li> Escolha matrizes de coordenadas x, y para gerar os centros. Tem 1-10 centros (ex. Centros = [[1,1], [2,5]]) </li> </ul>
     <li> <b> cluster_std </b>: o desvio padrão dos clusters. Quanto maior o número, mais distantes os clusters </li>
     <ul> <li> Escolha um número entre 0,5-1,5 </li> </ul>
</ul> <br>
Salve o resultado para <b> X1 </b> e <b> y1 </b>.

In [None]:
X1, y1 = make_blobs(n_samples=50, centers=[[4,4], [-2, -1], [1, 1], [10,4]], cluster_std=0.9)

Plotar o gráfico de dispersão dos dados gerados aleatoriamente:

In [None]:
plt.scatter(X1[:, 0], X1[:, 1], marker='o') 

## Clustering Aglomerativo
Vamos começar agrupando os pontos de dados aleatórios que acabamos de criar.

A classe <b> Agglomerative Clustering </b> requer duas entradas:
<ul>
     <li> <b> n_clusters </b>: o número de clusters a serem formados, bem como o número de centróides a serem gerados. </li>
     <ul> <li> O valor será: 4 </li> </ul>
     <li> <b> linkage </b>: Qual critério de vinculação usar. O critério de ligação determina qual distância usar entre conjuntos de observação. O algoritmo mesclará os pares de cluster que minimizam esse critério. </li>
     <ul>
         <li> O valor será: 'complete' </li>
         <li> <b> Obs.:</b> é recomendável que você experimente todos os critérios, como por exemplo 'average'</li>
     </ul>
</ul> <br>
Salve o resultado em uma variável chamada <b>agglom</b>

In [None]:
agglom = AgglomerativeClustering(n_clusters = 4, linkage = 'complete') #Substitua 'complete' por 'average' por exemplo

Ajuste o modelo com __X1__ e __y1__ a partir dos dados gerados acima.

In [None]:
agglom.fit(X1,y1)

Execute o seguinte código para mostrar o clustering! <br>
Lembre-se de ler o código e os comentários para obter mais compreensão sobre como a exibição funciona.

In [None]:
# Crie uma figura de tamanho 6 polegadas por 4 polegadas.
plt.figure(figsize=(6,4))

# Essas duas linhas de código são usadas para redimensionar os pontos de dados,
# Senão os pontos de dados ficarão muito distantes.

# Crie um intervalo mínimo e máximo de X1.
x_min, x_max = np.min(X1, axis=0), np.max(X1, axis=0)

# Obtenha a distância média de X1.
X1 = (X1 - x_min) / (x_max - x_min)

# Esse loop exibe todos os pontos de dados.
for i in range(X1.shape[0]):
    # Substitua os pontos de dados pelo respectivo valor de cluster
    # (ex. 0) e é codificado por cores com um mapa de cores (plt.cm.spectral)
    plt.text(X1[i, 0], X1[i, 1], str(y1[i]),
             color=plt.cm.nipy_spectral(agglom.labels_[i] / 10.),
             fontdict={'weight': 'bold', 'size': 9})
    
# Remove as marcações nos eixos x e y
plt.xticks([])
plt.yticks([])
#plt.axis('off')



# Exibir o gráfico dos dados originais antes de clusterizar
plt.scatter(X1[:, 0], X1[:, 1], marker='.')
# Exibe o gráfico
plt.show()


## Dendrograma Associado ao Clustering Hierárquico Aglomerativo

Lembre-se de que uma __matriz de distância__ contém a __distância de cada ponto a todos os outros pontos de um conjunto de dados__. <br>
Use a função __distance_matrix__, que requer __duas entradas__. Use a Matriz de Recursos, __X1__ como entradas e salve a matriz de distância em uma variável chamada __dist_matrix__ <br> <br>
Lembre-se de que os valores de distância são simétricos, com uma diagonal de 0s. Esta é uma maneira de garantir que sua matriz esteja correta. <br> (imprima dist_matrix para se certificar de que está correto)

In [None]:
dist_matrix = distance_matrix(X1,X1) 
print(dist_matrix)

Usando a classe <b>linkage</b> de hierarchy, passe os parâmetros:
<ul>
     <li> A matriz de distância </li>
     <li> 'complete' para ligação completa </li>
</ul> <br>
Salve o resultado em uma variável chamada <b> Z </b>

In [None]:
Z = hierarchy.linkage(dist_matrix, 'complete')

Um clustering hierárquico é normalmente visualizado como um dendrograma, conforme mostrado na célula a seguir. Cada mesclagem é representada por uma linha horizontal. A coordenada y da linha horizontal é a similaridade dos dois clusters que foram mesclados, onde as cidades são vistas como clusters singleton.
Movendo-se da camada inferior para o nó superior, um dendrograma nos permite reconstruir o histórico de mesclagens que resultaram no agrupamento representado.

Em seguida, salvaremos o dendrograma em uma variável chamada <b>dendro</b>. Ao fazer isso, o dendrograma também será exibido.
Usando a classe <b> dendrogram </b> de hierarchy, passe o parâmetro:
<ul> <li> Z </li> </ul>

In [None]:
dendro = hierarchy.dendrogram(Z)

## Prática

Usamos a ligação __complete__ para o nosso caso, altere para a ligação __average__ para ver como o dendograma muda.

In [None]:
# Escreva seu código aqui


Duplo-clique __aqui__ para a solução.

<!-- Sua resposta abaixo:
    
Z = hierarchy.linkage(dist_matrix, 'average')
dendro = hierarchy.dendrogram(Z)

-->

<hr>

# Clustering em um conjunto de dados de veículos

Imagine que um fabricante de automóveis tenha desenvolvido protótipos para um novo veículo. Antes de introduzir o novo modelo em sua linha, o fabricante quer determinar quais veículos existentes no mercado são mais parecidos com os protótipos - ou seja, como os veículos podem ser agrupados, qual grupo é o mais similar ao modelo e, portanto, quais modelos eles estarão fazendo concorrência com os protótipos.

Nosso objetivo aqui é usar métodos de clustering para encontrar os clusters mais distintos de veículos. Resumirá os veículos existentes e ajudará os fabricantes a tomar decisões sobre o fornecimento de novos modelos.

### Download dos dados
O download dos dados que iremos utilizar nesse exemplo pode ser realizado por meio do IBM Object Storage, disponível em:

https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cars_clus.csv

## Lendo os dados
Vamos ler o conjunto de dados para ver quais recursos o fabricante coletou sobre os modelos existentes.

In [None]:
filename = 'cars_clus.csv'

# Lê o arquivo csv
pdf = pd.read_csv(filename)
print ("Formato do conjunto de dados: ", pdf.shape)

pdf.head(5)

O conjunto de características presentes no conjunto de dados incluem preço em milhares de dólares (price), tamanho do motor (engine_s), potência (horsepow), distância entre eixos (wheelbas), largura (width), comprimento (length), peso (curb_wgt), tamanho do tanque (fuel_cap) e efciência (mpg).

## Limpando os dados

Vamos simplesmente limpar o conjunto de dados deletando as linhas que possuem valor nulo:

In [None]:
print ("Formato do conjunto de dados antes da limpeza: ", pdf.size)
pdf[[ 'sales', 'resale', 'type', 'price', 'engine_s',
       'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap',
       'mpg', 'lnsales']] = pdf[['sales', 'resale', 'type', 'price', 'engine_s',
       'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap',
       'mpg', 'lnsales']].apply(pd.to_numeric, errors='coerce')
pdf = pdf.dropna()
pdf = pdf.reset_index(drop=True)
print ("Formato do conjunto de dados depois da limpeza: ", pdf.size)
pdf.head(5)

### Seleção das características
Vamos selecionar nosso conjunto de características:

In [None]:
featureset = pdf[['engine_s',  'horsepow', 'wheelbas', 'width', 'length', 'curb_wgt', 'fuel_cap', 'mpg']]

### Normalização

Agora podemos normalizar o conjunto de características. __MinMaxScaler__ transforma as características escalonando cada característica para um determinado intervalo. Por padrão o intervalo utilizado é o de (0, 1). Ou seja, esse estimador dimensiona e traduz cada característica individualmente de modo que esteja entre zero e um.

In [None]:
from sklearn.preprocessing import MinMaxScaler
x = featureset.values # retorna um array do numpy
min_max_scaler = MinMaxScaler()
feature_mtx = min_max_scaler.fit_transform(x)
feature_mtx [0:5]

## Clustering usando o Scipy
Nesta parte, usamos o pacote Scipy para agrupar o conjunto de dados:
Primeiro, calculamos a matriz de distância.

In [None]:
import scipy
leng = feature_mtx.shape[0]
D = scipy.zeros([leng,leng])
for i in range(leng):
    for j in range(leng):
        D[i,j] = scipy.spatial.distance.euclidean(feature_mtx[i], feature_mtx[j])

No clustering aglomerativo, em cada iteração, o algoritmo deve atualizar a matriz de distância para refletir a distância do novo cluster formado com os clusters restantes na floresta.
Os seguintes métodos são suportados no Scipy para calcular as distâncias:
    - single
    - complete
    - average
    - weighted
    - centroid
    
    
Utilizamos __complete__ para o nosso caso, mas sinta-se à vontade para mudar e ver como os resultados são afetados.

In [None]:
import pylab
import scipy.cluster.hierarchy
Z = hierarchy.linkage(D, 'complete')

Essencialmente, o cluster hierárquico não requer um número pré-especificado de clusters. No entanto, em algumas aplicações, queremos uma separação de clusters, assim como no cluster simples.
Então você pode usar uma linha de corte:

In [None]:
from scipy.cluster.hierarchy import fcluster
max_d = 3
clusters = fcluster(Z, max_d, criterion='distance')
clusters

Além disso, você pode determinar o número de clusters diretamente:

In [None]:
from scipy.cluster.hierarchy import fcluster
k = 5
clusters = fcluster(Z, k, criterion='maxclust')
clusters


Agora, exiba o dendrograma:

In [None]:
fig = pylab.figure(figsize=(18,50))
def llf(id):
    return '[%s %s %s]' % (pdf['manufact'][id], pdf['model'][id], int(float(pdf['type'][id])) )
    
dendro = hierarchy.dendrogram(Z,  leaf_label_func=llf, leaf_rotation=0, leaf_font_size =12, orientation = 'right')

## Clustering usando o scikit-learn
Vamos refazer o exercício, mas desta vez usando o pacote scikit-learn:

In [None]:
dist_matrix = distance_matrix(feature_mtx,feature_mtx) 
print(dist_matrix)

Agora, podemos usar a função 'AgglomerativeClustering' da biblioteca scikit-learn para agrupar o conjunto de dados. O AgglomerativeClustering realiza um agrupamento hierárquico usando uma abordagem de baixo para cima. Os critérios de ligação determinam a métrica usada para a estratégia de mesclagem:

- Ward ('ward') minimiza a soma das diferenças quadradas dentro de todos os clusters. É uma abordagem que minimiza a variação e, nesse sentido, é semelhante à função objetivo k-means, mas com uma abordagem hierárquica aglomerativa.
- A ligação máxima ou completa ('complete') minimiza a distância máxima entre observações de pares de clusters.
- A ligação média ('average') minimiza a média das distâncias entre todas as observações de pares de clusters.

In [None]:
agglom = AgglomerativeClustering(n_clusters = 6, linkage = 'complete')
agglom.fit(feature_mtx)
agglom.labels_

E podemos adicionar um novo campo ao nosso dataframe para mostrar o cluster de cada linha:

In [None]:
pdf['cluster_'] = agglom.labels_
pdf.head()

In [None]:
import matplotlib.cm as cm
n_clusters = max(agglom.labels_)+1
colors = cm.rainbow(np.linspace(0, 1, n_clusters))
cluster_labels = list(range(0, n_clusters))

# Cria uma figura de tamanho 6 polegadas por 4 polegadas.
plt.figure(figsize=(16,14))

for color, label in zip(colors, cluster_labels):
    subset = pdf[pdf.cluster_ == label]
    for i in subset.index:
            plt.text(subset.horsepow[i], subset.mpg[i],str(subset['model'][i]), rotation=25) 
    plt.scatter(subset.horsepow, subset.mpg, s= subset.price*10, c=color, label='cluster'+str(label),alpha=0.5)
#    plt.scatter(subset.horsepow, subset.mpg)
plt.legend()
plt.title('Clusters')
plt.xlabel('horsepow')
plt.ylabel('mpg')

Como você pode ver, estamos vendo a distribuição de cada cluster usando o gráfico de dispersão, mas não está muito claro onde está o centróide de cada cluster. Além disso, há dois tipos de veículos em nosso conjunto de dados, "caminhão" (valor de 1 na coluna de tipo) e "carro" (valor de 0 na coluna de tipo). Então, nós os usamos para distinguir as classes e resumir o cluster. Primeiro contamos o número de casos em cada grupo:

In [None]:
pdf.groupby(['cluster_','type'])['cluster_'].count()

Agora podemos observar as características de cada cluster:

In [None]:
agg_cars = pdf.groupby(['cluster_','type'])['horsepow','engine_s','mpg','price'].mean()
agg_cars

É óbvio que temos 3 clusters principais com a maioria dos veículos neles.

__Carros__:
- Cluster 1: com alta eficiência (mpg) e baixa potência (horsepow).
- Cluster 2: com boa eficiência (mpg) e boa potência (horsepow), mas com preço (price) mais alto que a média.
- Cluster 3: com baixa eficiência (mpg), alta potência (horsepow), maior preço (price).
    
    
    
__Caminhões__:
- Cluster 1: com maior eficiência entre os caminhões (mpg), baixa potência (horsepow) e preço baixo (price).
- Cluster 2: com baixa eficiência (mpg) e potência média (horsepow), mas com preço (price) mais alto que a média.
- Cluster 3: com boa eficiência (mpg) e boa potência (horsepow), baixo preço (price).


Observe que não usamos __type__ e __price__ de carros no processo de cluster, mas o cluster hierárquico poderia criar os clusters e discriminá-los com bastante precisão.

In [None]:
plt.figure(figsize=(16,10))
for color, label in zip(colors, cluster_labels):
    subset = agg_cars.loc[(label,),]
    for i in subset.index:
        plt.text(subset.loc[i][0]+5, subset.loc[i][2], 'type='+str(int(i)) + ', price='+str(int(subset.loc[i][3]))+'k')
    plt.scatter(subset.horsepow, subset.mpg, s=subset.price*20, c=color, label='cluster'+str(label))
plt.legend()
plt.title('Clusters')
plt.xlabel('horsepow')
plt.ylabel('mpg')


Esta aula foi desenvolvida com base no material disponibilizado por Saeed Aghabozorgi

<p>Copyright &copy; 2018 <a href="https://cocl.us/DX0108EN_CC">Cognitive Class</a>. This notebook and its source code are released under the terms of the <a href="https://bigdatauniversity.com/mit-license/">MIT License</a>.</p>