# Clustering

* Aplica-se a análise de clusters quando o objetivo for agrupar as observações em **grupos internamente homogêneos** e **heterogêneos entre si**;
  * Dentro dos clusters, as observações são semelhantes com base nas variáveis usadas na análise;
  * Dentre os clusters, as observações se diferenciam com base nas variáveis usadas na análise;
* É uma técnica não supervisionada com caráter exploratório;
* Caso novas observações venham a ser adicionadas, removidas ou alteradas, ou o mesmo acontece para com as variáveis, o modelo deve ser refeito;

**Considerações**
* Trata-se de uma técnica bem sensível a presença de _outliers_;
* O output do método hierárquico aglomerativo pode ser usado como input no método não hierárquico aglomerativo para a indicação inicial da quantidade $k$ de clusters
* O método $k$-_means_ pode ser aplicado em uma quantidade maior de amostras

## Método hierárquico aglomerativo

* A quantidade de clusters é definida durante a construção do modelo
* O fluxo da construção do modelo é o seguinte:
  1. Inicia-se com cada observação sendo um único cluster
    * $n$ obervações, portanto, $n$ clusters
  2. Une-se as observações com a menor distância
  3. Com a união de duas novas obervações, ou inclusão de uma observação em um cluster, repete-se o passo anterior
    * Sempre é considerada a distância indicada pelo método de encadeamento escolhido
    * Essa iteração entre o passo 2 e 3 é realizada $n-1$ vezes, ou seja, culminando a formação final de apenas um cluster
* O dendograma é o gráfico utilizado para a visualização dos clusters formados pelo decurso do processo

### Tratamento inicial dos dados

* Antes de iniciar a construção do modelo, é necessário verificar as unidades de medida das variáveis;
  * Caso as variáveis estejam em unidades de medida distintas, **é necessário** realizar a padronização antes;
  * Para a padronização, utiliza-se o $z$-_score_:

      $$
      ZX_{ji} = \frac{X_{ij} - \bar{X}_j}{s_j}
      $$

      > Após a aplicação da expressão, as variáveis estarão com média 0 e desvio padrão igual a 1

### Escolhas inerentes ao método

#### Medida de dissimilaridade (distância)
* Distância entre as obervações - com base nas variáveis escolhidas para a análise
    * Indicará, portanto, o quão diferente as observações sáo entre si

> Ainda que seja uma medida de semelhança, a correlação de Pearson pode ser usada. Todavia, ajusta-se sua interpretação

* Distância de Minkowski

$$
d_{pq} = [\sum^{k}_{j=i}(|ZX_{jp} - ZX_{jq}|)^m]^\frac{1}{m}
$$

* Distância euclidiana

$$
d_{pq} = \sqrt{\sum^{k}_{j=1}(ZX_{jp} - ZX_{jq})^2}
$$

* Distância euclidiana quadrática

$$
d_{pq} = \sum^{k}_{j=1}(ZX_{jp} - ZX_{jq})^2
$$

* Distância de Manhattan (City Block)

$$
d_{pq} = \sum^{k}_{j=1}|ZX_{jp} - ZX_{jq}|
$$

* Distância de Chebychev

$$
d_{pq} = \text{max}|ZX_{jp} - ZX_{jq}|
$$

* Distância de Canberra

$$
d_{pq} = \sum^{k}_{j=1}\frac{|ZX_{jp} - ZX_{jq}|}{(ZX_{jp} + ZX_{jq})} \text{   variáveis de valores positivos}
$$

#### Método de encadeamento das observações
* Especificação da medida de distância quando houver clusters formados

* Único - Nearst Neighbor - Single linkage
  * Privilegia menos distâncias
  * Recomendável em caso de obervações distintas
  * $d(MN)W = \text{\text{min}\text{(}\text{dMW},\text{dNW}\text{)}}$

* Complete - Furthest Neighbor - Complete linkage
  * Privilegia maiores distâncias
  * Recomendável em caso de obervações parecidas
  * $d(MN)W = \text{\text{max}\text{(}\text{dMW},\text{dNW}\text{)}}$

* Médio - Between Groups - Average linkage
  * Junção de grupos pela distância média entre os pares de observações do grupo em análise
  * $d(MN)W = \text{\text{avg}\text{(}\text{dMW},\text{dNW}\text{)}}$

#### Análise dos agrupamentos

* Quantos clusters escolher?
  * Uma opção seria adotar o tamanho do salto entre os momentos de formação de clusters
  * Quanto maior o salto, mais distintas são as observações que foram unidas em determinado ponto

* Após a formação dos clusters, é importante analisar se a variabilidade interna do grupo é menor do que a variabilidade entre grupos com base nas variáveis em análise;
  * Aplica-se, para este fim, um teste F para a análise de variância:
    
    $$
    F=\frac{\text{Variabilidade enrre grupos}}{\text{Variabilidade dentro dos grupos}}
    $$
    
    > Considerando $k$ como o número de clusters e $n$ como tamanho da amostra, temos:
    > 
    > Graus de liberdade no numerador $= k - 1$
    > 
    > Graus de liberdade no denominador $= n - k$

  * É possível analisar quais variáveis mais contribuíram para a formação de pelo menos um dos clusters
    * Maiores valores para $F$ - isto, em conjunto com o nível de significância determinado

## Método não hierárquico aglomerativo (_k_-_Means_)

* A quantidade de clusters **deve** ser definida _a priori_

### Tratamento inicial dos dados

* Assim como no método hierárquico aglomerativo, é necessário analisar as unidades de medida das variáveis;
  * Caso estejam com disparidade, **é necessário** aplicar a padronização por meio do $z$-_score_:

    $$
    ZX_{ji} = \frac{X_{ij} - \bar{X}_j}{s_j}
    $$

### Esquemas de aglomeração

* A quantidade $k$ de clusters é definida _a priori_ da construção do modelo;
  * Esta medida é usada para determinar a quantidade de centros de aglomeração que serão usados;
* Nas etapas subsequentes, as obervações vão sendo comparadas pela proximidade dos centroids.
  * Enquanto as observações mudarem de clusters por conta da maior proximidade com os centroids, o processo iterativo continua
  * Portanto, o processo só se encerra quando as observações parem de mudar de cluster, ou seja, a distância de cada observação para o ponto de um centroid foi minimizado.
    * Esta medida é dada pela expressão da _Within Cluster Sum of Squares_ (WCSS):

    $$
    WCSS=\sum^{k}_{k=1}\sum_{x_i \in C_k}(x_i - \mu_k)^2
    $$

### Identificação da quantidade de clusters

#### Método do cotovelo - Elbow method

* É criado um gráfico com as medidas de $WCSS$ para uma quantidade $k$ de clusters.
  * Observando o gráfico, busca-se a dobra (cotovelo) em que o valor de $WCSS$ deixe de ter uma queda expressiva e estabilize

#### Método da silhueta

* Para cada obervação calcula-se:
  * Distância média para o cluster mais próximo onde não está alocada
  * Distância para o centro do cluster onde está incluída

    $$
    \text{Silhueta}=\frac{(b-a)}{\text{max}(a, b)}
    $$

    > Quanto mais próximo de 1 melhor
    >
    > Quanto mais próximo de -1 pior

  * Por fim, calcula-se o coeficiente de silhueta médio para todas as observações
* Este procedimento todo é realizado para uma quantidade $k$ de clusters