#Agrupamento
---
**Aula Prática 12**: Agrupamento utilizando KMeans


**Objetivo**: Realizar o agrupamento de um banco de dados


Banco de dados:
Iremos utilizar um banco de dados sintético


--------------------------------------------------------------
# KMeans


Para realizar a aplicação do modelo KMeans utilizaremos a função do sklearn.


```python
from sklearn.cluster import KMeans


kmeans = KMeans(n_cluster=3)
y_pred = kmeans.fit_predict(X)
```


Para o KMeans é necessário passar o número de clusters que serão gerados (n_cluster). O objeto y_pred irá conter o rótulo do cluster de cada observação.


Para avaliar a qualidade do agrupamento:


1. Quando se possui os rótulos:
Utilizar os métodos ARI e NMI


```python
from sklearn.metrics.cluster import adjusted_rand_score normalized_mutual_info_score
adjusted_rand_score(y_real, y_pred)
normalized_mutual_info_score(y_real, y_pred)
```


Quanto mais próximo de 1 melhor.


2. Quando não se possui os rótulos:
Utilizar o silhouette score
```python
from sklearn.metrics.cluster import silhouette_score
silhouette_score(X, y_pred)
```


Quanto mais próximo de 1 indicativo de grupos bons, quanto mais próximos de -1 indicativo de agrupamentos ruins (misturados)




## Agrupamento para dados simples

In [16]:
from sklearn.datasets import make_moons, make_blobs
from sklearn.cluster import KMeans
import plotly.express as px

In [2]:
X_varied, y_varied = make_blobs(n_samples=200,
                                cluster_std=[1.0, 2.5, 0.5],
                                random_state=170)

In [3]:
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_varied.astype(str))

In [4]:
y_pred = KMeans(n_clusters=3, random_state=0).fit_predict(X_varied)

In [5]:
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

## Avaliação

In [6]:
from sklearn.metrics.cluster import adjusted_rand_score, silhouette_score, normalized_mutual_info_score

In [7]:
adjusted_rand_score(y_varied, y_pred)

0.8332303751524573

In [8]:
normalized_mutual_info_score(y_varied, y_pred)

0.8274017905787698

In [9]:
silhouette_score(X_varied, y_pred)

0.6415582178505527

In [10]:
y_pred = KMeans(n_clusters=5, random_state=10).fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

In [11]:
y_pred = KMeans(n_clusters=5, random_state=100).fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

## Agrupamento dados complexos

In [12]:
X, y = make_moons(n_samples=200, noise=0.05, random_state=0)
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
y_pred = kmeans.predict(X)
px.scatter(x=X[:, 0], y=X[:, 1], color=y_pred.astype(str))

In [13]:
adjusted_rand_score(y, y_pred)

0.25636350688711773

In [14]:
normalized_mutual_info_score(y, y_pred)

0.19677575942743256

In [15]:
silhouette_score(X, y_pred)

0.49215648268306905