# Agrupando links

Para agrupar os links gerados, primeiramente é necessário importar as funções implementadas em metrica_clusterizacao.py

In [2]:
import matplotlib.pyplot as plt
import numpy as np
import scipy.cluster.hierarchy as hcluster
import plotly.express as px

from sklearn.cluster import DBSCAN
from sklearn.cluster import AffinityPropagation
from sklearn.cluster import KMeans
from sklearn.metrics.cluster import adjusted_rand_score
from sklearn.metrics.cluster import silhouette_score

from ipynb.fs.full.metrica_clusterizacao import *

## Exemplo

A seguir há um exemplo de como usar o agrupamento hierárquico da biblioteca scipy

In [53]:
# Gerando pontos bidimensionais
N=100
data = np.random.randn(3*N,2)
data[:N] += 5
data[-N:] += 10
data[-1:] -= 20

In [None]:
# Agrupando
thresh = 1.5
clusters = hcluster.fclusterdata(data, thresh, criterion="distance")

# Plotando resultados
def plot(data):

    plt.scatter(*np.transpose(data), c=clusters)
    plt.axis("equal")
    title = "threshold: %f, number of clusters: %d" % (thresh, len(set(clusters)))
    plt.title(title)
    plt.show()
    
#plot(data)

## Adaptando para agrupar urls

### Agrupamento hierárquico

In [90]:
def agrupar_urls(matriz_distancias, thresh):
    
    clusters = hcluster.fclusterdata(matriz_distancias, thresh, criterion = "distance")
    
    return clusters, len(set(clusters))

### DBSCAN

In [91]:
def agrupar_dbscan(matriz_distancias, minimo_amostras, raio):


    clusters = DBSCAN(eps = raio, min_samples = minimo_amostras, metric='precomputed')
    clusters.fit(matriz_distancias)
    
    return clusters.labels_, len(set(clusters.labels_))

### Affinity Propagation

In [92]:
def agrupar_affinity(matriz_distancias, damp):

    affprop = AffinityPropagation(affinity="precomputed", damping = damp)
    affprop.fit(matriz_distancias)
    
    return affprop.labels_, len(set(affprop.labels_))

## Avaliação da clusterização

In [7]:
def calcular_silhueta(distancias, labels):
    
    return silhouette_score(distancias, labels, metric = "precomputed")

In [None]:
def separar_links(links, labels):
    
    clusters = {}

    for link, label in zip(links, labels):
        if label not in clusters:
            clusters[label] = [link]
        else:
            clusters[label].append(link)
            
    return clusters