# Agrupamento
---
**Aula Prática 13**: Agrupamento utilizando Aglomerativo


**Objetivo**: Realizar o agrupamento de um banco de dados


Banco de dados:
Iremos utilizar um banco de dados sintético


--------------------------------------------------------------
# Aglomerativo


Para realizar a aplicação do modelo Aglomerativo utilizaremos a função do sklearn.


```python
from sklearn.cluster import AgglomerativeClustering


agg = AgglomerativeClustering(n_cluster=3)
y_pred = agg.fit_predict(X)
```


Para o AgglomerativeClustering é possível passar o número de clusters que serão gerados (n_cluster) ou é possível passar a distância maxima aceita entre clusters (distance_threshold).

Outros parâmetros:
* metric: métrica de distância a ser usada. Default: euclidiana.
* linkage: método de ligação dos clusters. Default: Ward

O objeto y_pred irá conter o rótulo do cluster de cada observação.


Para avaliar a qualidade do agrupamento:


1. Quando se possui os rótulos:
Utilizar os métodos ARI e NMI


```python
from sklearn.metrics.cluster import adjusted_rand_score normalized_mutual_info_score
adjusted_rand_score(y_real, y_pred)
normalized_mutual_info_score(y_real, y_pred)
```


Quanto mais próximo de 1 melhor.


2. Quando não se possui os rótulos:
Utilizar o silhouette score
```python
from sklearn.metrics.cluster import silhouette_score
silhouette_score(X, y_pred)
```


Quanto mais próximo de 1 indicativo de grupos bons, quanto mais próximos de -1 indicativo de agrupamentos ruins (misturados)




## Agrupamento para dados simples

In [None]:
from sklearn.datasets import make_moons, make_blobs
from sklearn.cluster import AgglomerativeClustering
import plotly.express as px

In [None]:
X_varied, y_varied = make_blobs(n_samples=200,
                                cluster_std=[1.0, 2.5, 0.5],
                                random_state=170)

In [None]:
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_varied.astype(str))

In [None]:
y_pred = AgglomerativeClustering(n_clusters=3).fit_predict(X_varied)

In [None]:
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

## Avaliação

In [None]:
from sklearn.metrics.cluster import adjusted_rand_score, silhouette_score, normalized_mutual_info_score

In [None]:
adjusted_rand_score(y_varied, y_pred)

In [None]:
normalized_mutual_info_score(y_varied, y_pred)

In [None]:
silhouette_score(X_varied, y_pred)

In [None]:
y_pred = AgglomerativeClustering(n_clusters=3, linkage='ward').fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

In [None]:
y_pred = AgglomerativeClustering(n_clusters=3, linkage='complete').fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

In [None]:
y_pred = AgglomerativeClustering(n_clusters=3, linkage='average').fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

## Agrupamento dados complexos

In [None]:
X, y = make_moons(n_samples=200, noise=0.05, random_state=0)
agg = AgglomerativeClustering(n_clusters=2)
y_pred = agg.fit_predict(X)
px.scatter(x=X[:, 0], y=X[:, 1], color=y_pred.astype(str))

In [None]:
adjusted_rand_score(y, y_pred)

In [None]:
normalized_mutual_info_score(y, y_pred)

In [None]:
silhouette_score(X, y_pred)

## Analisando hierarquia

In [None]:
from scipy.cluster.hierarchy import linkage

In [None]:
X_varied, y_varied = make_blobs(n_samples=200,
                                cluster_std=[1.0, 2.5, 0.5],
                                random_state=170)

In [None]:
import plotly.figure_factory as ff

In [None]:
ff.create_dendrogram(
    X_varied, orientation='bottom',
    linkagefun=lambda x: linkage(X_varied, 'ward', metric='euclidean')
)

In [None]:
ff.create_dendrogram(
    X_varied, orientation='bottom',
    linkagefun=lambda x: linkage(X_varied, 'complete', metric='euclidean')
)