# K-Means

O K-Means é um algoritmo de aprendizado de máquina não supervisionado que é usado para resolver problemas de agrupamento. O objetivo do K-Means é dividir n observações em k agrupamentos, em que cada observação pertence ao cluster com a média mais próxima.

**EXEMPLO**

Vamos supor que você queria agrupar os carros em categorias semelhantes. Imagine que você tenha um dataset que descreve diferentes características de carros, incluindo "Horsepower" (Cavalos de potência), "MPG" (Milhas por Galão), e "Weight" (Peso).

| Carro                     | Horsepower | MPG  | Weight |
| ------------------------- | ---------- | ---- | ------ |
| Ford Mustang              | 110        | 21.0 | 2670   |
| Honda Civic               | 85         | 30.0 | 2020   |
| Chevrolet Malibu          | 100        | 25.0 | 2280   |
| Dodge Charger             | 105        | 20.0 | 2500   |
| Toyota Corolla            | 75         | 35.0 | 1750   |
| Nissan Altima             | 95         | 27.0 | 2100   |
| Chevrolet Camaro          | 130        | 22.0 | 2750   |
| Hyundai Elantra           | 70         | 33.0 | 1850   |
| BMW 3 Series              | 120        | 24.0 | 2600   |
| Toyota Prius              | 80         | 29.0 | 2000   |
| Ford Taurus               | 125        | 21.5 | 2700   |
| Honda Accord              | 90         | 28.0 | 2200   |
| Chevrolet Impala          | 110        | 20.5 | 2670   |
| Dodge Dart                | 85         | 30.5 | 2020   |
| Nissan Sentra             | 100        | 25.5 | 2280   |
| Ford Fusion               | 105        | 20.2 | 2500   |
| Hyundai Sonata            | 75         | 35.5 | 1750   |
| Toyota Camry              | 95         | 27.2 | 2100   |
| Chevrolet Traverse        | 130        | 22.3 | 2750   |
| Honda Fit                 | 70         | 33.5 | 1850   |

## Considerações

A seguir algumas considerações que você deve saber.

1. **Número de Clusters (K):** Uma das maiores limitações do K-means é que você precisa especificar o número de clusters (K) no início. Na prática, o número ideal de clusters é muitas vezes desconhecido.

2. **Sensibilidade à Inicialização:** O K-means é muito sensível à inicialização. Se os centróides iniciais são escolhidos de forma inadequada, o algoritmo pode convergir para um mínimo local, o que significa que o algoritmo não alcança a solução ótima.

3. **Forma dos Clusters:** O algoritmo K-means assume que os clusters são esféricos e isotrópicos. Isso significa que o K-means pode produzir resultados insatisfatórios se os clusters tiverem formas complexas ou alongadas.

4. **Sensibilidade a Outliers:** O K-means é sensível a outliers. Um único outlier pode mover significativamente o centróide de um cluster, o que pode resultar em um agrupamento subóptimo.

5. **Tamanho dos Clusters:** O K-means assume que os clusters têm aproximadamente o mesmo tamanho, por isso não funciona bem com clusters de tamanhos muito diferentes.

6. **Variáveis Categóricas:** O K-means não é diretamente aplicável a variáveis categóricas, pois usa a distância euclidiana como medida de similaridade. Outros métodos, como o K-modes, são mais adequados para variáveis categóricas.

## O Algoritmo na Prática

**Bibliotecas**

In [6]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import plotly.express as px

**Ingestão**

In [7]:
data = {
    'Carro': ['Ford Mustang', 'Honda Civic', 'Chevrolet Malibu', 'Dodge Charger', 'Toyota Corolla', 'Nissan Altima', 'Chevrolet Camaro', 'Hyundai Elantra', 'BMW 3 Series', 'Toyota Prius', 'Ford Taurus', 'Honda Accord', 'Chevrolet Impala', 'Dodge Dart', 'Nissan Sentra', 'Ford Fusion', 'Hyundai Sonata', 'Toyota Camry', 'Chevrolet Traverse', 'Honda Fit'],
    'Horsepower': [110, 85, 100, 105, 75, 95, 130, 70, 120, 80, 125, 90, 110, 85, 100, 105, 75, 95, 130, 70],
    'MPG': [21.0, 30.0, 25.0, 20.0, 35.0, 27.0, 22.0, 33.0, 24.0, 29.0, 21.5, 28.0, 20.5, 30.5, 25.5, 20.2, 35.5, 27.2, 22.3, 33.5],
    'Weight': [2670, 2020, 2280, 2500, 1750, 2100, 2750, 1850, 2600, 2000, 2700, 2200, 2670, 2020, 2280, 2500, 1750, 2100, 2750, 1850]
}
df = pd.DataFrame(data)

**Preparação**

In [8]:
# Normalização dos dados
scaler = StandardScaler()
df[['Horsepower', 'MPG', 'Weight']] = scaler.fit_transform(df[['Horsepower', 'MPG', 'Weight']])

**Exploração**

Para escolher o número ideal do $k$ podemos utilizar o método do cotovelo. O método do cotovelo é uma técnica bem utilizada para determinar o número ideal de clusters em um dataset para o algoritmo K-means. O nome "método do cotovelo" vem da forma do gráfico que é gerado durante o processo, que muitas vezes se parece com um braço dobrado no cotovelo.

In [10]:
# Lista para armazenar as inércias
inertias = []

# Range de valores de k que queremos testar
k_values = range(1, 10)

# Executamos o K-means para cada valor de k e armazenamos a inércia
for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(df[['Horsepower', 'MPG', 'Weight']])
    inertias.append(kmeans.inertia_)

# Transformamos as inércias e os valores de k em um DataFrame
df_inertias = pd.DataFrame({'k': k_values, 'inertia': inertias})

# Criamos o gráfico usando Plotly Express
fig = px.line(df_inertias, x='k', y='inertia', title='Método do Cotovelo', 
              labels={'k': 'Número de clusters (k)', 'inertia': 'Inércia'})

fig.show()

Com alguma imaginação você pode ver que o gráfico parece um braço dobrado. À medida que aumentamos o número de clusters, a inércia diminui porque os pontos estão mais próximos dos centróides. No entanto, veja que quando $k=3$, o benefício de adicionar mais clusters diminui, resultando em uma curva que se aplana. Esse ponto de inflexão, onde a taxa de diminuição da inércia começa a diminuir significativamente, é conhecido como o "cotovelo".

**Treinamento**

In [12]:
# Para efeitos didáticos, o código será repetido aqui como treinamento

k = 3 # Obtido acima
kmeans = KMeans(n_clusters=k, random_state=42)
df['Cluster'] = kmeans.fit_predict(df[['Horsepower', 'MPG', 'Weight']])

# Ordenar o DataFrame com base na coluna 'Cluster'
df_sorted = df.sort_values('Cluster')

print(df_sorted)

                 Carro  Horsepower       MPG    Weight  Cluster
0         Ford Mustang    0.653682 -1.104193  1.179538        0
15         Ford Fusion    0.386873 -1.263787  0.681966        0
3        Dodge Charger    0.386873 -1.303686  0.681966        0
6     Chevrolet Camaro    1.720918 -0.904700  1.413689        0
12    Chevrolet Impala    0.653682 -1.203939  1.179538        0
8         BMW 3 Series    1.187300 -0.505714  0.974655        0
18  Chevrolet Traverse    1.720918 -0.844852  1.413689        0
10         Ford Taurus    1.454109 -1.004446  1.267345        0
17        Toyota Camry   -0.146745  0.132663 -0.488791        1
14       Nissan Sentra    0.120064 -0.206475  0.038050        1
13          Dodge Dart   -0.680363  0.790989 -0.722943        1
9         Toyota Prius   -0.947172  0.491750 -0.781481        1
5        Nissan Altima   -0.146745  0.092764 -0.488791        1
2     Chevrolet Malibu    0.120064 -0.306222  0.038050        1
1          Honda Civic   -0.680363  0.69