## Clustering
É o processo de agrupamento através de identificação de padrões (aprendizagem não supervisionada). O principal objetivo da técnica de Clustering é encontrar grupos semelhantes ou homogêneos em dados, que são chamados clusters.

Clustering é comumente usado para explorar um conjunto de dados. As redes sociais podem ser agrupadas para identificar comunidades e sugerir conexões ausentes entre as pessoas. Em biologia, o agrupamento é usado para encontrar grupos de genes com padrões de expressão semelhantes. Os sistemas de recomendação, por vezes, empregam o agrupamento para identificar produtos ou mídias que possam atrair um usuário. No marketing, o clustering é usado para encontrar segmentos de consumidores semelhantes.

<img src="figuras/Clustering1.png" width="600"/>

O agrupamento é guiado pelo princípio de que os itens dentro de um cluster devem ser **muito semelhantes entre si**, mas **muito diferentes entre clusters**.

- O centro do cluster (centróide) é a média aritmética de todos os pontos pertencentes ao cluster.  
- Cada ponto está mais próximo de seu próprio centro de cluster do que de outros centros de cluster.

Aplicações do método de Cluster:
- Segmentação de clientes em grupos com demografia semelhante ou padrões de compra para campanhas de marketing direcionadas.
- Detecção de comportamento anômalo, como intrusões de rede não autorizadas, identificando padrões de uso fora dos clusters conhecidos.
- Simplificação de grandes conjuntos de dados agrupando características com valores semelhantes em um número menor de categorias homogêneas.


**Aprendizagem semi-supervisionada**  
Quando temos um dataset sem rótulo, ou seja, sem variável target, podemos usar o clustering para criar rótulos de classe. A partir daí, podemos aplicar um algoritmo supervisionado, como árvores de decisão para encontrar os preditores mais importantes dessas classes. Isso processo é chamado de **aprendizagem semi-supervisionada**.

**Tipos de Clustering**

<img src="figuras/Clustering2.png" width="600"/>

### Clustering Hierarquico
É a definição de cluster que possue uma hierarquia, executada de maneira iterativa, mesclando clusters menores em um cluster maior ou dividindo cluster maior em cluster menores. Esse hierarquia é chamda de dendograma. 

Um dendograma é uma das maneiras pelas quais os clusters hierarquicos são representados e o cientista de dados pode realizar agrupamentos diferentes através dos níveis representados pelo dendograma. O dendograma é definido pela escala de similaridade que representa a distância entre os clusters que foram agrupados a partir do cluster maior.

**Dendograma**    
<img src="figuras/dendograma.png" width="400"/>

Existe uma outra maneira simples de representar cluster hierarquicos, através do **Diagrama de Venn**. Nessa representação circundamos os pontos de dados, que são uma parte do cluster.  

**Diagrama de Venn**
<img src="figuras/venn.png" width="400"/>


Existem 2 tipos de agrupamentos para nível hierárquico:
- **Algoritmos Algomerativos (Bottom-up)**: Algomera um conjunto de cluster em um cluster maior.
- **Algoritmos Divisivos (Top-down)**; Divide um cluster em sub-clusters.

Para o agrupamento hierárquico, os pontos de dados reais não são necessários. Somente a matriz de medidas de distância é suficiente, pois o agrupamento é feito com base nas distâncias.

**Heurística de agrupamento:**  
1- Comece com clusters como S1 = {X1}, S2 = {X2} ... Sm = {Xm}.  
2- Encontre um conjunto dos clusters mais próximos e mescle-os em um único cluster.  
3- Repita o passo 2 até que o número de aglomerados formados seja igual ao número definido de clusters.

**Clustering Hierárquico x Particional**  
Normalmente o agrupamento por partições é mais rápido que o hierárquico. Enquanto o agrupamento hierárquico trabalha com medidas de similaridade, o clustering particional requer o número de clusters e detalhe em torno dos centros iniciais de cada cluster.  
O agrupamento hierárquico não requer quaisquer parâmentros de entrada, enquanto os algoritmos de agrupaentos por partição requerem um valor entreda que indica o número de clusters necessários para iniciar a execução.   
No clustering particional, cada cluster formado é mutuamente exclusivo, nunca pode haver uma relação hierárquica entre os clusters.  

A qualidade do agrupamento depende do algoritmo escolhido, da função de distância e da aplicação. Diz-se que a qualidade de um modelo de cluster é superior, quando a **distância inter-cluster é maximizada** e a **distância intra-cluster é minimizada**.

<img src="figuras/Clustering.png">