# 🌐 Algoritmos Não Supervisionados

## 📌 K-Means

O objetivo deste módulo é apresentar conceitualmente os principais algoritmos de **clusterização** para que possamos desenvolver projetos de *machine learning* que realizem **agrupamento de objetos**.

Neste módulo, exploraremos o primeiro desses algoritmos, o **K-Means**, realizando o **processo completo** — desde a análise exploratória dos dados (*EDA*) até a entrega do modelo através de uma aplicação para inferência em *batch*.

---

## 🔍 O que é clusterização

Os algoritmos de clusterização são técnicas de **aprendizado de máquina** e **mineração de dados** que **agrupam um conjunto de dados em clusters ou grupos, com base na similaridade entre os itens**.

A ideia é:
- Agrupar objetos semelhantes em um mesmo grupo;
- Separar objetos diferentes em grupos distintos.

Existem diversos algoritmos de clusterização, cada um com suas características e abordagens. No entanto, todos compartilham o mesmo objetivo fundamental:  
➡️ **Identificar padrões nos dados e organizá-los em grupos significativos**.

---

## 💡 Aplicações da Clusterização

Alguns usos de algoritmos de clusterização incluem:

- **📊 Segmentação de mercado**:  
  Empresas utilizam a clusterização para segmentar seus clientes com base em características demográficas, comportamentais ou de consumo. Isso permite direcionar estratégias de marketing mais eficazes e personalizadas para cada segmento de clientes.

- **🌐 Análise de redes sociais**:  
  Em redes sociais, os algoritmos de clusterização podem ser usados para identificar comunidades de usuários com interesses semelhantes, facilitando a personalização de conteúdo e recomendações.

- **📁 Agrupamento de documentos**:  
  Na mineração de texto, os algoritmos de clusterização podem ser usados para agrupar documentos semelhantes, facilitando a organização e a recuperação de informações.


# 🚶‍♂️ Um passeio pelos algoritmos de clusterização

### 📌 K-Means
Agrupa dados em **k clusters**, onde *k* é definido pelo usuário.  
Ele atribui pontos de dados aos clusters com base na **proximidade dos centroides**,  
recalculando-os iterativamente para **minimizar a variância intra-cluster**.

---

### 📌 K-Medoids
Variação do K-Means que usa **medoids (dados reais)** como representantes de clusters.  
Ele atribui medoids inicialmente e, em seguida, reajusta iterativamente,  
**minimizando uma função de dissimilaridade**.  
É mais **robusto a outliers**.

---

### 📌 Hierárquico Aglomerativo
Começa considerando cada ponto de dado como um **cluster separado** e, em seguida,  
**mescla iterativamente** os clusters mais próximos, formando uma **hierarquia de clusters**  
até que todos os pontos estejam em **um único cluster**.

---

### 📌 Hierárquico Divisivo
Começa considerando todos os pontos de dados em **um único cluster** e, em seguida,  
**divide iterativamente** o cluster em subclusters menores até que  
**cada ponto de dado esteja em seu próprio cluster individual**.

---

### 📌 DBSCAN
Agrupa pontos em **regiões densas**, identificando clusters de diferentes **formas e tamanhos**.  
Seus principais parâmetros são:
- **epsilon**: distância máxima entre pontos vizinhos;
- **minPts**: número mínimo de pontos para formar um cluster.

---

### 📌 Mean Shift
Busca os **máximos locais** da função de densidade de probabilidade para encontrar os centros dos clusters.  
Ele ajusta iterativamente os centros em direção às **regiões de maior densidade**,  
até **convergir para os centros finais**.

---

### 📌 Gaussian Mixture Models (GMM)
Assume que os dados são gerados por uma mistura de **distribuições gaussianas**.  
Estima os parâmetros dessas distribuições (como **médias**, **covariâncias** e **pesos**)  
para **modelar os clusters** nos dados.

---

### 📌 CLARA
É uma adaptação do **K-Medoids** para **grandes datasets**.  
Usa **amostragem** para criar um subconjunto, aplica o K-Medoids nesse subconjunto  
e ajusta os clusters para os dados completos, mantendo apenas os


## 🤖 O que é o algoritmo K-Means

O **K-Means** é um algoritmo de clusterização amplamente utilizado em **análise de dados** e **aprendizado de máquina**.  
Ele **agrupa dados em k clusters**. O algoritmo segue estes passos:

---

### 1️⃣ Inicialização dos Centroides  
Começa selecionando aleatoriamente **k pontos** como centroides iniciais.  
Esses centroides são os representantes dos clusters.

---

### 2️⃣ Atribuição de Pontos aos Clusters  
Cada ponto de dado é atribuído ao cluster **cujo centróide está mais próximo**,  
com base em uma **medida de distância**, geralmente a **distância euclidiana**.

---

### 3️⃣ Atualização dos Centroides  
Os centroides dos clusters são **recalculados como a média** de todos os pontos atribuídos a esse cluster.


## 📐 Como definir o parâmetro *k* (quantidade de clusters)?

### 📊 Método do Cotovelo (*Elbow Method*)
Este método envolve **plotar o valor da função de custo** (por exemplo, a soma dos quadrados das distâncias intra-cluster) em relação ao número de clusters (*k*) e observar onde ocorre uma **mudança significativa na inclinação da curva**.  
🔍 O ponto onde a curva começa a se nivelar é frequentemente escolhido como o **número ideal de clusters**.

### 🧭 Método da Silhueta (*Silhouette Method*)
Este método avalia a **qualidade dos clusters** formados por diferentes valores de *k*.  
Calcula a **silhueta média** de todos os pontos de dados em cada cluster para diferentes valores de *k* e escolhe o valor que **maximiza a média da silhueta**.

### 📏 Método Gap Statistics
Este método compara a **dispersão intra-cluster** para diferentes valores de *k* com uma **dispersão esperada** sob um modelo de referência nulo (por exemplo, dados aleatórios).  
📈 O número ideal de clusters é aquele que **maximiza a lacuna estatística** entre as duas dispersões.

### 🧪 Validação Externa
Em alguns casos, pode-se ter acesso a **informações externas** sobre os dados que indicam o número correto de clusters.  
Nesses casos, são usados métodos como:
- **índices de validação externa**;
- **comparação com rótulos conhecidos**.

### 🧠 Conhecimento de Domínio
Às vezes, o **conhecimento prévio do domínio** pode ajudar a determinar o número de clusters de forma mais precisa.  
Por exemplo, em **ciências sociais**, pode-se ter conhecimento sobre o número de **grupos ou categorias existentes**.


✅ Esses métodos ajudam a **determinar o número ideal de clusters** com base em conhecimento prévio.


## 📏 Medidas de Distância

### 🔹 Distância Euclidiana
É a **distância mais comum e simples**.  
Calculada como a **raiz quadrada da soma dos quadrados das diferenças** entre as coordenadas dos pontos em cada dimensão.

### 🔸 Distância Manhattan
Também conhecida como **distância de cidade**,  
é a **soma das diferenças absolutas** entre as coordenadas dos pontos em cada dimensão.

### 🟢 Distância de Minkowski
É uma **generalização** das distâncias **Euclidiana** e **Manhattan**.  
Dependendo do valor de um parâmetro *p*:
- Quando *p = 2*, equivale à **distância Euclidiana**;
- Quando *p = 1*, equivale à **distância Manhattan**.

### 🔵 Distância de Chebyshev
É a **maior diferença absoluta** entre as coordenadas dos pontos em qualquer dimensão.

### 🟣 Distância de Cosseno
É uma **medida de similaridade** entre dois vetores, definida como o **cosseno do ângulo** entre eles.  
➡️ Muito útil para dados em **espaços de alta dimensão**.

### 🟢 Distância de Hamming
Usada para **dados categóricos**, essa distância **conta o número de dimensões nas quais os pontos diferem**.


![image.png](attachment:image.png)

## 📊 Métricas de Algoritmos de Clusterização

### 🟩 Índice de Silhueta
Avalia a **coesão intra-cluster** e a **separação inter-cluster**.  
📈 Uma **pontuação alta** indica que os pontos estão **bem agrupados dentro de seus clusters**  
e **mal conectados aos clusters vizinhos**.

### 🟦 Índice Davies–Bouldin (DB)
Mede a **dispersão dentro de cada cluster** em relação à **separação entre clusters**.  
🔽 **Quanto menor o valor**, melhor a separação entre os clusters.

### 🟨 Índice de Calinski–Harabasz (CH)
Calcula a **relação entre a dispersão intra-cluster e a dispersão entre clusters**.  
🎯 **Pontua mais alto** para **clusters densos e bem separados**.

### 🟩 Índice Dunn
É a razão entre a **menor distância inter-cluster** e a **maior distância intra-cluster**.  
✅ Pontua mais alto para **clusters mais compactos e mais distantes** entre si.

### 🟦 Índice Rand Ajustado (ARI)
Compara os **rótulos atribuídos pelos algoritmos de clusterização** com os **rótulos verdadeiros** (quando disponíveis).  
🔍 Útil em contextos com **dados rotulados**.

### 🟨 Índice de Validade Interna (IV)
Baseia-se em **medidas internas** como **compacidade** e **separação dos clusters**,  
para **avaliar a qualidade da clusterização sem rótulos verdadeiros**.
