In [3]:
import pandas as pd
import numpy as np
import warnings

In [4]:
warnings.filterwarnings("ignore")

<span style="font-size: 12.5px; font-family: 'Trebuchet MS', sans-serif;font-weight: 100; letter-spacing: 0.8px;">

# K-Means Clustering

## Introdução

K-Means é um algoritmo de clustering que particiona um conjunto de dados em K grupos distintos, onde cada grupo é caracterizado pelo seu centroide. O objetivo é minimizar a variância dentro dos clusters.

<img src="https://miro.medium.com/v2/resize:fit:1200/1*rw8IUza1dbffBhiA4i0GNQ.png" width="500">

## Parâmetros

- **K (Número de Clusters):** Número de grupos a serem formados. Este valor é definido pelo usuário.
- **Iterações:** Número máximo de iterações que o algoritmo pode realizar para encontrar os clusters.
- **Inicialização:** Método para escolher os centroides iniciais (por exemplo, aleatoriamente ou usando K-Means++).

## Passos do Algoritmo K-Means

1. **Inicialização:** Selecionar K centroides iniciais.
2. **Atribuição de Clusters:** Atribuir cada ponto de dados ao centroide mais próximo.
3. **Atualização dos Centroides:** Recalcular os centroides como a média dos pontos de dados atribuídos a cada cluster.
4. **Convergência:** Repetir os passos 2 e 3 até que os centroides não mudem significativamente ou até atingir o número máximo de iterações.

<img src="https://miro.medium.com/v2/resize:fit:832/1*AzX-3FPncrZaIfWbI5EwCw.gif" width="500">

## Fórmulas

### Distância Euclidiana

A distância euclidiana entre dois pontos $( \mathbf{x_i} )$ e $( \mathbf{c_j} )$ é dada por:

$[ d(\mathbf{x_i}, \mathbf{c_j}) = \sqrt{\sum_{k=1}^{n} (x_{ik} - c_{jk})^2} ]$

onde $( n )$ é o número de características (dimensões) dos dados.

### Recalcular Centroides

O novo centroide $( \mathbf{c_j} )$ para um cluster $( j )$ é calculado como a média dos pontos $( \mathbf{x_i} )$ no cluster:

$[ \mathbf{c_j} = \frac{1}{|C_j|} \sum_{\mathbf{x_i} \in C_j} \mathbf{x_i} ]$

onde $( |C_j| )$ é o número de pontos no cluster $( j )$.

## Métricas de Avaliação

### Inércia (Within-cluster Sum of Squares - WCSS)

A inércia mede a soma das distâncias quadradas dos pontos ao centroide mais próximo. O objetivo do K-Means é minimizar a inércia:

$[ \text{WCSS} = \sum_{j=1}^{K} \sum_{\mathbf{x_i} \in C_j} d(\mathbf{x_i}, \mathbf{c_j})^2 ]$

### Silhouette Score

O Silhouette Score mede quão similar um ponto é ao seu próprio cluster em comparação com outros clusters. É definido como:

$[ s(i) = \frac{b(i) - a(i)}{\max \{a(i), b(i)\}} ]$

onde:
- $( a(i) )$ é a distância média entre $( \mathbf{x_i} )$ e todos os outros pontos no mesmo cluster.
- $( b(i) )$ é a distância mínima média entre $( \mathbf{x_i} )$ e todos os pontos nos outros clusters.

O Silhouette Score varia de -1 a 1, onde valores próximos de 1 indicam clusters bem definidos.

## Determinação do Número Ótimo de Clusters

### Método do Cotovelo (Elbow Method)

<img src="https://www.researchgate.net/publication/339823520/figure/fig3/AS:867521741733888@1583844709013/The-elbow-method-of-k-means.png" width="500">

O Método do Cotovelo é usado para determinar o número ideal de clusters. Ele envolve:

1. Executar o K-Means para diferentes valores de K.
2. Calcular a inércia (WCSS) para cada valor de K.
3. Plotar a inércia contra K.
4. Identificar o ponto onde a diminuição na inércia começa a se tornar menos acentuada (o "cotovelo").

</span>