# Agrupamento

## K-means

O K-means é um algoritmo do tipo **não supervisionado**, com objetivo de encontrar similaridades entre os dados e agrupá-los conforme o número de cluster passado pelo argumento k, agrupando os elementos próximos ao mesmo cluster.

Pode-se inicializar os centroides de forma aleatória, passando um posição inicial ou levando em conta a posição de n elementos pré estabelecidos

- 'k-means ++': seleciona centros de cluster iniciais para o cluster de k-mean de uma forma inteligente para acelerar a convergência. Veja a seção Notas em k_init para mais detalhes.

- 'random': escolha n_clustersobservações (linhas) aleatoriamente de dados para os centróides iniciais.

- Se um array for passado, ele deve ter o formato (n_clusters, n_features) e fornecer os centros iniciais.

Por levar em conta a distância e agrupar os elementos mais próximos, recalculando a posição dos centroides a cada interação, é sensitivel à outliers, uma vez que cada centroide representa a media das distâncias entre todos os elementos, sendo o centro do cluster.


<img src='imagens_agrupamento/centroids.png'>


<img src='imagens_agrupamento/kmeans.gif'>



## K-medoid

O k-medoid é baseado no medoids, que é **um ponto que pertence ao conjunto de dados**, calculado minimizando a distância absoluta entre os pontos e o centróide selecionado, em vez de minimizar a distância quadrada. Como resultado, **é mais robusto a ruídos e outliers do que o k-means**.

Pelo fato do K-medoid utilizar um ponto ao em vez da distância média, é melhor que o K-means, porém tem uma função de custo muito maior, uma vez que em cada interação ele calcula o novo medoide olhando todos para todos, pegando o medoide que possui menor distância em relação aos demais

<img src='imagens_agrupamento/kmedoid.png'>


## K-medians

É uma variação do agrupamento de k-means em que, em vez de calcular a média de cada agrupamento para determinar seu **centróide**, calcula-se a **mediana**.

**A mediana é calculada em cada dimensão na formulação da distância de Manhattan** do problema de k-medianas, de modo que os atributos individuais virão do conjunto de dados. Isso torna o algoritmo **mais confiável** para conjuntos de dados discretos ou até binários. Em contraste, o uso de meios ou medianas de distância euclidiana não produzirá necessariamente atributos individuais do conjunto de dados.

Um medóide tem que ser uma instância real do conjunto de dados, enquanto para a mediana da distância de Manhattan, isso não ocorre necessáriamente, como mostra o exemplo abaixo

Sendo $a=(0,1)$, $b=(1,0)$ e $c=(2,2)$, a mediana da distância de Manhattan é $(1,1)$

Esse valor não existe nos dados originais e, portanto, não pode ser um medóide.


**Obs**: A distância de Manhattan ou a distância taxi é dada pelo exemplo abaixo:

<img src='imagens_agrupamento/manhattan.png'>

## Agrupamento Hierárquico

A ideia do agrupamento hierárquico é gerar uma hierarquia entre os dados baseados na distância entre os dados, gerando um dendograma.

<img src='imagens_agrupamento/dendograma.png'>

Além disso, pode nos mostrar a presença de outliers, uma vez que leva a distância euclidiana em consideração.

<img src='imagens_agrupamento/hierarquico2.png'>

<img src='imagens_agrupamento/resumo.jpg'>


### Single Linkage

A distância entre dois grupos é dada pela **menor distância** entre um objeto do grupo 1 e um outro objeto do grupo 2 e consegue clusterizar grupos não globulares 

<img src='imagens_agrupamento/single.png'>


### Complete Linkage

A distância entre dois grupos é dada pela **maior distância** entre um objeto do grupo 1 e um outro objeto do grupo 2

<img src='imagens_agrupamento/complete.png'>


### Average Linkage

A distância entre dois grupos é dada pela **média distância** entre um objeto do grupo 1 e um outro objeto do grupo 2. Ou seja, **calcula-se a distância de cada objeto em um grupo para todos os objetos do outro grupo e divide pelo número de objetos de ambos os grupos**

- Acaba se comportando de forma parecida com o Ward.

<img src='imagens_agrupamento/average.png'>

<img src='imagens_agrupamento/average2.png'>


### Ward Linkage

O método de variância mínima de **Ward** leva como critério para escolher o par de clusters a fundir em cada etapa o valor ótimo de uma função objetivo, que seria a **soma dos quadrados (ss) da distância entre o ponto e a média**, a fim de manter a mínima variância possível, no qual SS é dado por:

Variância: é a distancia média entre cada ponto e a média da amostra

$$
Var = \frac{(x1 - média)² + (x2 - média)² + (xn - média)²}{n}
$$
$$
SS = (x - média)²
$$
$$
SSrezultante = \sum_{j=0}^{nClusters}(SS) 
$$

Para agrupar grupos, a distância entre esses grupos é dada pela média ponderada entre os dois grupos, ou seja:

$$
D = \frac{nGrupo1*nGrupo2}{nGrupo1 + nGrupo2}*(Média\:do\:grupo1 - Média\:do\:grupo2)
$$


- Tende a criar clusters igualmente distribuídos, ou seja, muitas vezes com forma arredondada.


### Centroid Linkage

Usa as distâncias entre os centroides como métrica, no qual o centroide é o ponto médio de todos os pontos do grupo.