# K-Means
## K-Means é um popular algoritmo de agrupamento (clustering) não supervisionado usado em aprendizado de máquina e análise de dados. Seu objetivo é dividir um conjunto de dados em KK grupos (ou clusters) com base nas características dos dados, minimizando a variação dentro de cada grupo e maximizando a variação entre grupos diferentes.

## Como funciona
* Escolha Inicial de Centroides: O algoritmo começa escolhendo KK pontos aleatórios do dataset como centroides iniciais dos clusters.

* Atribuição de Dados aos Clusters: Cada ponto de dados é atribuído ao cluster cujo centroide é o mais próximo, com base em alguma medida de distância (geralmente a distância euclidiana).

* Atualização dos Centroides: Após todos os pontos serem atribuídos a um cluster, os centroides são recalculados como a média de todos os pontos no cluster.

* Iteração: Os passos 2 e 3 são repetidos até que os centroides não mudem significativamente entre iterações, indicando que os clusters foram estabilizados.

### Vantagens
* Simplicidade e Eficiência: K-Means é fácil de implementar e entender. É eficiente em termos de tempo de execução, especialmente em grandes conjuntos de dados.

* Adaptação a Diferentes Tipos de Dados: Pode ser aplicado a uma ampla variedade de tipos de dados e é útil em muitos domínios diferentes.

* Identificação de Clusters Naturalmente Formados: É eficaz na identificação de clusters naturais dentro dos dados.

### Desvantagens
* Escolha de KK: Determinar o número correto de clusters (KK) nem sempre é fácil e pode requerer várias execuções com diferentes valores de KK.

* Sensibilidade a Inicializações: Os resultados podem variar com diferentes inicializações de centroides, o que pode levar a uma convergência para ótimos locais.

* Sensível a Outliers: K-Means é sensível a outliers, pois eles podem distorcer a média de um cluster.

* Limitação a Formas de Cluster: Assume que os clusters são esféricos e de tamanho similar, o que pode não ser adequado para alguns conjuntos de dados.

### Aplicações
#### Segmentação de Mercado:
* Identificação de Grupos de Consumidores com Comportamentos Semelhantes.
* Personalização de Estratégias de Marketing.

#### Análise de Imagens:
* Compressão de Imagens por Agrupamento de Pixels Semelhantes.
* Segmentação de Regiões em Imagens Médicas.

#### Agrupamento de Documentos:
* Organização de Documentos em Categorias Temáticas.
* Análise de Tópicos em Grandes Conjuntos de Textos.

#### Sensoriamento Remoto:
* Agrupamento de Dados de Satélites para Identificação de Padrões Geográficos.
* Classificação de Terrenos e Coberturas Terrestres.

#### Monitoramento de Rede:
* Detecção de Anomalias em Tráfego de Rede.
* Agrupamento de Dispositivos com Comportamentos Semelhantes.

#### Exemplo de código com K-Means

In [1]:
from sklearn.datasets import make_moons
from sklearn.cluster import KMeans
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler
import numpy as np

In [2]:
X, y_true = make_moons(n_samples=300, noise=0.05, random_state=42)

In [3]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [4]:
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X_scaled)
y_kmeans = kmeans.labels_

  super()._check_params_vs_input(X, default_n_init=10)


In [5]:
y_corrected = np.zeros_like(y_kmeans)
for i in range(2):
    mask = (y_kmeans == i)
    y_corrected[mask] = np.argmax(np.bincount(y_true[mask]))

In [6]:
conf_matrix = confusion_matrix(y_true, y_corrected)
report = classification_report(y_true, y_corrected)

In [7]:
print(conf_matrix)

[[127  23]
 [ 24 126]]


In [8]:
print(report)

              precision    recall  f1-score   support

           0       0.84      0.85      0.84       150
           1       0.85      0.84      0.84       150

    accuracy                           0.84       300
   macro avg       0.84      0.84      0.84       300
weighted avg       0.84      0.84      0.84       300

