<img src="logoINPE.png">

# Resumo sobre K-means

# K-means Clustering: Visão Geral

#### Definição Teórica

**K-means clustering** é um método de aprendizado não supervisionado usado para particionar um conjunto de dados em \( k \) grupos (ou clusters), onde cada observação pertence ao cluster com a média mais próxima (centroide). O objetivo é minimizar a variância dentro dos clusters, ou seja, a soma das distâncias quadradas entre os pontos de dados e os centroides dos clusters.

#### Estrutura e Parâmetros

1. **Escolha dos Centroides Iniciais**: Inicialmente, \( k \) pontos (centroides) são escolhidos aleatoriamente dentro do espaço de dados.

2. **Atribuição dos Pontos**: Cada ponto de dado é atribuído ao centroide mais próximo com base em uma medida de distância, geralmente a distância Euclidiana.

3. **Atualização dos Centroides**: Após a atribuição de todos os pontos, os centroides são recalculados como a média dos pontos atribuídos a cada cluster.

4. **Iteração**: As etapas de atribuição e atualização são repetidas até que os centroides não mudem significativamente entre as iterações ou até que um número máximo de iterações seja alcançado.

5. **Convergência**: O algoritmo para quando a diferença entre os centroides de uma iteração para a próxima é menor que um valor de tolerância ou quando o número máximo de iterações é alcançado.

#### Cálculo Numérico

O cálculo envolve principalmente:

- Cálculo das distâncias entre pontos de dados e centroides.
- Atribuição dos pontos ao cluster mais próximo.
- Recalcular os centroides como a média dos pontos em cada cluster.
- Repetição até a convergência.

#### Tópico de Aprendizado de Máquina

K-means se enquadra no **aprendizado não supervisionado**, uma subárea do aprendizado de máquina onde o modelo é treinado com dados que não possuem rótulos de saída conhecidos. Dentro do aprendizado não supervisionado, K-means é um método de **clustering**, utilizado para agrupar dados com base em características e semelhanças.

# Uso do K-means no Scikit-Learn

O `scikit-learn` é uma biblioteca de aprendizado de máquina em Python que fornece uma implementação eficiente e fácil de usar do algoritmo K-means. A classe usada para isso é `KMeans`.

#### Principais Parâmetros

- **`n_clusters`**: Número de clusters a serem formados (valor de \( k \)).
- **`init`**: Método para inicialização dos centroides, como 'k-means++' (padrão) que ajuda a escolher bons centroides iniciais.
- **`n_init`**: Número de vezes que o algoritmo será executado com diferentes inicializações. O resultado final será o melhor em termos de inércia (soma das distâncias quadradas).
- **`max_iter`**: Número máximo de iterações do algoritmo de K-means para uma única execução.
- **`tol`**: Tolerância para a convergência.
- **`random_state`**: Semente usada pelo gerador de números aleatórios para inicialização.

#### Exemplo de Uso

In [1]:
from sklearn.cluster import KMeans
import numpy as np

# Exemplo de dados
X = np.array([[1, 2], [1, 4], [1, 0],
              [4, 2], [4, 4], [4, 0]])

# Configurando o modelo
kmeans = KMeans(n_clusters=2, init='k-means++', n_init=10, max_iter=300, tol=1e-4, random_state=42)

# Ajustando o modelo aos dados
kmeans.fit(X)

# Resultados
print("Centroides dos clusters:", kmeans.cluster_centers_)
print("Rótulos dos clusters:", kmeans.labels_)

Centroides dos clusters: [[4. 2.]
 [1. 2.]]
Rótulos dos clusters: [1 1 1 0 0 0]


# Parâmetros do `KMeans`

1. **`n_clusters`**: 
   - **Descrição**: Número de clusters a serem formados e número de centroides a serem gerados.
   - **Tipo**: int, opcional (padrão = 8).

2. **`init`**: 
   - **Descrição**: Método de inicialização dos centroides.
   - **Tipo**: {'k-means++', 'random'}, callable, ou array-like de forma (n_clusters, n_features), opcional.
   - **Valores**:
     - `'k-means++'`: Seleção dos centroides iniciais de forma a acelerar a convergência (padrão).
     - `'random'`: Seleciona \( k \) observações aleatórias do conjunto de dados para os centroides iniciais.
     - Callable: Um método que retorna um array de forma (n_clusters, n_features).
     - Array-like: Um array pré-definido de centroides iniciais.

3. **`n_init`**: 
   - **Descrição**: Número de vezes que o algoritmo K-means será executado com diferentes centroides iniciais. O resultado será o melhor em termos de inércia.
   - **Tipo**: int, opcional (padrão = 10).

4. **`max_iter`**: 
   - **Descrição**: Número máximo de iterações do algoritmo de K-means para uma única execução.
   - **Tipo**: int, opcional (padrão = 300).

5. **`tol`**: 
   - **Descrição**: Tolerância relativa com relação à inércia para declarar convergência.
   - **Tipo**: float, opcional (padrão = 1e-4).

6. **`precompute_distances`**: 
   - **Descrição**: Se as distâncias entre todos os pontos devem ser pré-computadas. (Este parâmetro foi removido na versão 0.23.0 do `scikit-learn`).
   - **Tipo**: {'auto', True, False}, opcional (padrão = 'auto').

7. **`verbose`**: 
   - **Descrição**: Modo verboso. Se definido como `True`, mensagens de status serão exibidas durante a execução.
   - **Tipo**: int, opcional (padrão = 0).

8. **`random_state`**: 
   - **Descrição**: Semente usada pelo gerador de números aleatórios para inicialização. Pode ser um inteiro, um gerador de números aleatórios ou `None`.
   - **Tipo**: int, RandomState instance, ou None, opcional (padrão = None).

9. **`copy_x`**: 
   - **Descrição**: Se verdadeiro, o `X` será copiado; caso contrário, ele pode ser modificado.
   - **Tipo**: boolean, opcional (padrão = True).

10. **`n_jobs`**: 
    - **Descrição**: Número de trabalhos paralelos a serem usados para o cálculo. `None` significa 1, e `-1` significa usar todos os processadores disponíveis.
    - **Tipo**: int, opcional (padrão = None). (Este parâmetro foi removido na versão 0.23.0 do `scikit-learn`).

11. **`algorithm`**: 
    - **Descrição**: Algoritmo usado para computar o K-means.
    - **Tipo**: {'auto', 'full', 'elkan'}, opcional (padrão = 'auto').
    - **Valores**:
      - `'auto'`: Escolhe automaticamente entre 'full' e 'elkan' com base nos dados.
      - `'full'`: Algoritmo clássico do K-means.
      - `'elkan'`: Variante do K-means mais rápida para distâncias Euclidianas, usando triângulo-inequality.

# Aplicação de K-means para a Seleção de Canal

**Objetivo:**
A seleção de canais envolve identificar quais canais (variáveis ou características) são mais relevantes para um determinado problema ou análise. A aplicação de K-means para a seleção de canal tem como objetivo agrupar canais semelhantes em clusters, facilitando a identificação dos mais significativos com base em suas características comuns.

**Etapas da Aplicação de K-means:**

1. **Coleta e Preparação dos Dados:**
   - Obtenção dos dados brutos de observação, que incluem várias características para cada canal.
   - Pré-processamento dos dados para lidar com valores ausentes, normalização ou padronização, se necessário.

2. **Seleção de Atributos:**
   - Escolha dos atributos que serão usados para o clustering. Neste caso, atributos como `oer`, `omf`, `oma`, `imp`, e `dfs`.

3. **Aplicação do K-means:**
   - Definição do número de clusters (`n_clusters`). Este valor pode ser determinado com base em conhecimento prévio ou utilizando métodos como o "cotovelo" (elbow method) para encontrar o número ideal de clusters.
   - Aplicação do algoritmo K-means para agrupar os dados em `n_clusters` com base nos atributos selecionados.

4. **Análise dos Clusters:**
   - Cada cluster resultante representa um grupo de canais com características semelhantes.
   - Estatísticas descritivas para cada cluster ajudam a entender as características comuns dentro de cada grupo.

5. **Interpretação dos Resultados:**
   - Identificação dos canais dentro de cada cluster e análise de suas características para determinar os mais relevantes.
   - Pode-se utilizar métricas de avaliação, como o coeficiente de Silhouette e o índice Davies-Bouldin, para verificar a qualidade do clustering.

**Papel do K-means na Seleção de Canais:**

- **Agrupamento de Canais Similares:**
  K-means agrupa canais com base em características comuns, facilitando a identificação de padrões e similaridades entre eles.

- **Redução de Dimensionalidade:**
  Ao agrupar canais semelhantes, é possível reduzir a complexidade dos dados, focando em representantes ou características comuns dos clusters.

- **Identificação de Canais Relevantes:**
  Analisando os clusters, é possível identificar quais canais possuem características mais distintas ou são mais representativos de cada grupo, auxiliando na seleção dos canais mais relevantes para análise posterior.

# Conclusão

K-means é um algoritmo de clustering poderoso e amplamente utilizado em aprendizado não supervisionado. Sua implementação no `scikit-learn` é eficiente e oferece uma variedade de parâmetros para ajuste fino, permitindo flexibilidade na criação de modelos de clustering adequados às necessidades específicas dos dados.