# Aprendizagem Não Supervisionada - Clustering 🧠🔍

---

## Introdução 📚
A **aprendizagem não supervisionada** é uma técnica de Machine Learning utilizada quando **não se tem rótulos de dados** e o objetivo é explorar as **estruturas ocultas nos dados**. Entre as diversas técnicas de aprendizado não supervisionado, o **Clustering** se destaca como um dos métodos mais utilizados para **agrupar dados semelhantes**. Ao identificar padrões e agrupamentos naturais, o clustering auxilia na segmentação de informações e na descoberta de insights que seriam difíceis de perceber em uma análise superficial.

---

## O que é e quando usar Clustering? ❓🤔
O **Clustering** é o processo de organizar dados em **grupos** ou **"clusters"**, onde objetos dentro de um grupo têm características mais semelhantes entre si do que com objetos de outros grupos. Essa técnica é útil quando temos **grandes volumes de dados** e queremos explorar como diferentes elementos se agrupam com base em suas características. Ela é comumente usada em tarefas como **segmentação de mercado**, **análise de padrões em imagens** e **organização de grandes bases de dados**.

### Quando usar:
- Quando **não se tem rótulos de dados**.
- Quando há necessidade de **explorar padrões ou estrutura** nos dados.
- Para **segmentação de clientes**, produtos ou outros dados com **características similares**.

---

## O Processo de Agrupamento 🧩
O processo de agrupamento envolve **identificar semelhanças** entre os dados e agrupá-los de forma que os dados em cada cluster sejam mais semelhantes entre si. O modelo de clustering tenta dividir os dados de maneira que:
- A **distância entre os dados** dentro do mesmo grupo seja minimizada.
- A **distância entre os dados de grupos diferentes** seja maximizada.

### Etapas do Processo:
1. **Preparação dos Dados**: Inicialmente, os dados precisam ser processados e preparados. Isso pode incluir a **normalização** ou **padronização** dos dados para garantir que todas as variáveis tenham a mesma importância durante o agrupamento.
2. **Aplicação do Algoritmo de Clustering**: Escolhe-se um **algoritmo de clustering**, como o **K-Means**, que será responsável por agrupar os dados.
3. **Análise e Interpretação dos Clusters**: Após a execução do algoritmo, os resultados são **analisados e interpretados** para verificar se os agrupamentos são significativos e úteis.

---

## Exemplo de Agrupamento na Vida Real 🌍
Imagine uma **empresa de e-commerce** que deseja segmentar seus clientes com base em **padrões de compras**. O clustering pode ser usado para agrupar os clientes em segmentos, como "compradores frequentes", "clientes com alta propensão a compras impulsivas" ou "clientes ocasionais". Com essa segmentação, a empresa pode criar **campanhas de marketing personalizadas** para cada grupo, otimizando seus esforços de vendas.

---

## Tipos de Clustering 🔄
Existem diferentes tipos de técnicas de clustering, cada uma com **características próprias** e adequadas para diferentes tipos de dados. Vamos explorar os dois principais tipos:

### 1. **Clustering Hierárquico 🏰**
O **Clustering Hierárquico** cria uma **árvore de agrupamentos**, conhecida como **dendrograma**, que permite visualizar como os clusters se formam à medida que o processo avança. Ele pode ser:
- **Aglomerativo (Bottom-Up)**: Começa tratando cada ponto como um cluster individual e vai agrupando-os em clusters maiores à medida que a distância entre eles diminui.
- **Divisivo (Top-Down)**: Começa com todos os dados em um único cluster e vai dividindo-os até obter o número desejado de clusters.

### 2. **Clustering Particional 🧳**
No **Clustering Particional**, o conjunto de dados é dividido diretamente em um número fixo de clusters, como no caso do algoritmo **K-Means**. Cada ponto de dado é atribuído a um único cluster, e o objetivo é minimizar a **variabilidade** dentro de cada cluster.

---

## Clustering Hierárquico x Clustering Particional ⚖️
- **Hierárquico**: Não exige a definição do número de clusters antes da execução, e a estrutura dos dados é mais interpretável (dendrograma). Porém, tende a ser mais **complexo computacionalmente**.
- **Particional**: Exige o número de clusters ser definido previamente, mas tende a ser mais **eficiente** e direto, especialmente para grandes conjuntos de dados.

---

## Definindo o Algoritmo K-Means 🔑
O **K-Means** é um dos algoritmos de clustering mais populares e eficientes, principalmente quando lidamos com **grandes volumes de dados**. Ele particiona os dados em **K clusters predefinidos**, com base na média dos pontos dentro de cada cluster. O objetivo é **minimizar a soma das distâncias quadradas** entre os pontos e o centro de seu respectivo cluster.

---

## Descrevendo os Passos do Algoritmo K-Means 📝
1. **Escolher o número de clusters (K)**: Decide-se o número de clusters a serem formados.
2. **Inicializar os centróides**: Seleciona-se aleatoriamente K pontos no espaço de dados como os centróides iniciais.
3. **Atribuição de clusters**: Cada ponto é atribuído ao centróide mais próximo.
4. **Atualização dos centróides**: Os centróides são recalculados como a **média dos pontos** atribuídos a cada cluster.
5. **Repetir**: O processo de atribuição e atualização continua até que os centróides não mudem mais significativamente.

---

## Algoritmo K-Means++ ✨
O **K-Means++** é uma **melhoria** do algoritmo K-Means original, onde os centróides iniciais são escolhidos de maneira mais inteligente. Em vez de escolher aleatoriamente, o **K-Means++** seleciona os pontos iniciais de forma que eles estejam mais **distantes entre si**. Isso ajuda a evitar problemas de convergência para soluções subótimas e acelera a execução do algoritmo.

---

## Distância Euclidiana e Seu Uso no Algoritmo K-Means 📏
A **distância euclidiana** é a medida utilizada no **K-Means** para determinar a proximidade entre os pontos e os centróides. A fórmula da **distância euclidiana** em um espaço de duas dimensões (x, y) é:

$$
d = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
$$

Essa distância é essencial para a atribuição de cada ponto ao cluster mais próximo, e é usada para recalcular a posição dos centróides a cada iteração.

---

## Escolhendo o Número Apropriado de Clusters 🔢
Escolher o número correto de clusters (K) é crucial para obter resultados úteis e significativos. O K-Means não oferece um método direto para determinar o valor ideal de K, por isso é importante utilizar abordagens como o **Método de Elbow**.

### Método de Elbow 🦾
O **Método de Elbow** é uma técnica usada para determinar o número ideal de clusters. Consiste em executar o **K-Means** para uma variedade de valores de K e plotar o somatório das distâncias quadráticas dentro de cada cluster. À medida que K aumenta, o erro diminui, mas após certo ponto, a diminuição torna-se menos acentuada, formando uma **"curva em cotovelo"**. O ponto onde a curva se estabiliza é o **número ideal de clusters**.

---

## Conclusão 🎯
O **Clustering** é uma poderosa ferramenta para explorar e segmentar grandes volumes de dados, oferecendo uma maneira eficaz de descobrir padrões e estruturas que não são visíveis a partir de uma análise superficial. Com algoritmos como o **K-Means**, é possível realizar **agrupamentos úteis** em uma variedade de cenários, desde marketing até biologia. Ao compreender os diferentes tipos de clustering e como escolher o algoritmo certo, você pode aplicar essa técnica de forma eficaz em seus próprios projetos de análise de dados.
