# Aprendizado Não Supervisionado e Clustering

## Importância do Aprendizado Não Supervisionado

- A maioria das aplicações de *Machine Learning* hoje é baseada em **aprendizado supervisionado**, mas a maior parte dos dados disponíveis é **não rotulada**.
- Segundo Yann LeCun:
  > "Se inteligência fosse um bolo, o aprendizado não supervisionado seria o bolo, o aprendizado supervisionado o glacê, e o aprendizado por reforço a cereja."
- Isso destaca o grande **potencial inexplorado** do aprendizado não supervisionado.

## Motivação

- Em um cenário industrial, pode-se coletar milhares de imagens de itens por dia.
- No entanto, **rotular manualmente** essas imagens (como “defeituoso” ou “normal”) é caro e demorado.
- O aprendizado não supervisionado pode **explorar esses dados não rotulados**, evitando essa etapa trabalhosa.

## Tarefas Comuns no Aprendizado Não Supervisionado

- **Redução de Dimensionalidade**.
- **Clustering**: agrupar instâncias semelhantes em grupos.
- **Detecção de Anomalias**: identificar dados que fogem do padrão.
- **Estimativa de Densidade**: calcular a função de densidade de probabilidade dos dados.

## Clustering (Agrupamento)

- **Definição**: atribuir instâncias semelhantes a grupos, sem usar rótulos.
- Exemplo: reconhecer uma planta desconhecida como pertencente ao mesmo grupo de outras semelhantes.

### Aplicações

- **Segmentação de Clientes**: entender perfis de clientes e personalizar estratégias.
- **Análise de Dados**: identificar padrões e subgrupos em novos conjuntos de dados.
- **Redução de Dimensionalidade**: substituindo os dados por afinidades com clusters.
- **Detecção de Anomalias**: identificar comportamentos ou itens fora do comum.
- **Aprendizado Semi-Supervisionado**: propagar rótulos para instâncias não rotuladas de um mesmo cluster.
- **Motores de Busca**: localizar imagens semelhantes agrupando por características visuais.
- **Segmentação de Imagens**: agrupar pixels semelhantes para facilitar a detecção de objetos.

### Tipos de Clustering

- **Baseado em centróides**: busca instâncias em torno de pontos centrais.
- **Baseado em densidade**: identifica regiões densamente povoadas, com formatos variados.
- **Hierárquico**: organiza dados em clusters dentro de clusters.

## Algoritmos Abordados

- **K-Means**
- **DBSCAN**
- **Modelos de Mistura Gaussiana (GMM)**: usados para clustering, estimativa de densidade e detecção de anomalias.

---

### K-Means

**Tipo**: Algoritmo de **agrupamento (clustering)** não supervisionado.

#### Quando usar:
- Quando **não tem rótulos** e quer agrupar dados com base em **proximidade**.
- Funciona melhor quando os clusters têm **forma circular/simétrica** e **tamanhos semelhantes**.

### DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

**Tipo**: Algoritmo de **agrupamento** baseado em **densidade**.

#### Quando usar:
- Quando os dados têm **clusters de forma irregular**.
- Quando há **outliers (ruído)** que quer detectar.
- Quando **não sabe o número de clusters** de antemão.

### GMM (Gaussian Mixture Model)

**Tipo**: Algoritmo de **agrupamento probabilístico** não supervisionado.

#### Quando usar:
- Quando os clusters são **elipses** e podem ter **tamanhos, orientações e densidades diferentes**.
- Quando você quer uma **atribuição suave** (probabilística) aos clusters.
- Mais flexível que o K-Means, mas mais **sensível a ruídos e outliers**.

### Dicas para escolher

- Use **K-Means** se quer encontrar **grupos rápidos e simples** em dados não rotulados.
- Use **DBSCAN** se os dados têm **ruídos/outliers** ou **clusters com formas diferentes**.
- Use **GMM** se você acha que os dados vêm de **várias distribuições normais sobrepostas** ou quer **agrupamento probabilístico**.