#Agrupamento
---
**Aula Prática 14**: Agrupamento utilizando DBSCAN


**Objetivo**: Realizar o agrupamento de um banco de dados


Banco de dados:
Iremos utilizar um banco de dados sintético


--------------------------------------------------------------
# DBSCAN


Para realizar a aplicação do modelo DBSCAN utilizaremos a função do sklearn.


```python
from sklearn.cluster import DBSCAN


dbscan = DBSCAN()
y_pred = dbscan.fit_predict(X)
```


Para o DBSCAN é necessário passar os parâmetros min_samples e eps. O objeto y_pred irá conter o rótulo do cluster de cada observação.


Para avaliar a qualidade do agrupamento:


1. Quando se possui os rótulos:
Utilizar os métodos ARI e NMI


```python
from sklearn.metrics.cluster import adjusted_rand_score normalized_mutual_info_score
adjusted_rand_score(y_real, y_pred)
normalized_mutual_info_score(y_real, y_pred)
```


Quanto mais próximo de 1 melhor.


2. Quando não se possui os rótulos:
Utilizar o silhouette score
```python
from sklearn.metrics.cluster import silhouette_score
silhouette_score(X, y_pred)
```


Quanto mais próximo de 1 indicativo de grupos bons, quanto mais próximos de -1 indicativo de agrupamentos ruins (misturados)




## Agrupamento para dados simples

In [None]:
from sklearn.datasets import make_moons, make_blobs
from sklearn.cluster import DBSCAN
import plotly.express as px

In [None]:
X_varied, y_varied = make_blobs(n_samples=200,
                                cluster_std=[1.0, 2.5, 0.5],
                                random_state=170)

In [None]:
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_varied.astype(str))

In [None]:
y_pred = DBSCAN().fit_predict(X_varied)

In [None]:
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

## Avaliação

In [None]:
from sklearn.metrics.cluster import adjusted_rand_score, silhouette_score, normalized_mutual_info_score

In [None]:
adjusted_rand_score(y_varied, y_pred)

In [None]:
normalized_mutual_info_score(y_varied, y_pred)

In [None]:
silhouette_score(X_varied, y_pred)

In [None]:
y_pred = DBSCAN(min_samples=5, eps=1).fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

In [None]:
y_pred = DBSCAN(min_samples=5, eps=1.5).fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

In [None]:
y_pred = DBSCAN(min_samples=5, eps=1.75).fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

In [None]:
y_pred = DBSCAN(min_samples=10, eps=1.75).fit_predict(X_varied)
px.scatter(x=X_varied[:, 0], y=X_varied[:, 1], color=y_pred.astype(str))

## Agrupamento dados complexos

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
X, y = make_moons(n_samples=200, noise=0.05, random_state=0)
scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)
dbscan = DBSCAN()
y_pred = dbscan.fit_predict(X_scaled)
px.scatter(x=X[:, 0], y=X[:, 1], color=y_pred.astype(str))

In [None]:
adjusted_rand_score(y, y_pred)

In [None]:
normalized_mutual_info_score(y, y_pred)

In [None]:
silhouette_score(X_scaled, y_pred)