# Artigo sobre modelagem matemática

Em [K-Nearest-Neighbor Consistency in Data Clustering: Incorporating Local Information into Global Optimization](https://dl.acm.org/doi/pdf/10.1145/967900.968021) os autores buscam explorar o conceito do KNN no contexto de clusterização de dados e propoẽm o conceito de: 
> **Consistência do cluster com o vizinho mais próximo**: onde "para qualquer objeto de dados em um cluster, os vizinhos mais próximos devem estar no mesmo cluster".

E a partir disso investigam 3 questões:

- (Q1) Os clusters que são produzidos dentro de algoritmos de cluster padrão, como K-means, apresenta consistência do kNN?
- (Q2) A consistência do kNN poderia ser aprimorada em um algoritmo de cluster?
- (Q3) A consistência aprimorada de kNN melhoraria a precisão do cluster?

Para seguir com a investigação das peguntas acima, os autores fazem uma série de definições e propõem uma forma de melhorar a consistência do kNN em um algoritmo de cluster. Por fim, aplicam o algoritmo e apresentam os resultados.

## Definição formal do problema de Clusterização

HRUSCHKA & EBECKEN (2001) apresentam uma definição formal do problema de Clusterização:

Considerando um conjunto de ${n}$ objetos ${X = {X_1, X_2,...,X_n}}$ onde cada ${X_i}\in{\mathbb{R}^p}$ é um vetor de ${p}$ medidas reais que dimensionam as características do objeto, estes devem ser clusterizados em ${k}$ clusters disjuntos 
${C = {C_1, C_2,...,C_k}}$, de forma que tenhamos as seguintes condições respeitadas:

(1) ${{C_1}\cup{C_2}\cup{...}\cup{C_k} = X}$

(2) ${C_i}\neq{\varnothing},\forall{i},{1}\leq{i}\leq{k}$

(3) ${C_i}\cap{C_j} = \varnothing, \forall{i}\neq{j},{1}\leq{i}\leq{k},{1}\leq{j}\leq{k}$


---




## Modelagem do artigo
*KNN Consistency in clustering*

**Teorema 1:** (Cover and Hart,1967) O erro de classificação na classificação 1NN é, no máximo, duas vezes o erro de Bayes da atribuição ideal para qualquer distribuição de dados no grande limite de amostra.

**Definição 1:** Ponto de dados com consistência KNN

Dado um ponto $x$ e um cluster $C_p$, que é um subconjunto do conjunto $X$.  
O ponto $x$ é dito consistente com o KNN se todos os vizinhos mais próximos  
de $x$ estiverem dento do cluster $C_p$.

Além disso, o cluster $C_p$ é dito consistente com o KNN se todos os  
seus membros seguirem a mesma condição.

---

**Definição 2:** Máxima Consistência com NN(Vizinho mais próximo)

Dado um ponto $x$ e um cluster $C_p$ de tamanho $n_p$, $x$ é dito de  
máxima consistencia com NN se cada ponto $x$ no cluster tem  
$(n_p - 1)$NN também no mesmo cluster.

Além disso, $C_p$ é dito de máxima consistencia se todos os membros  
seguirem a mesma condição.

---

**Theorema 2:** Para ${x_i}$ ter maxima consistencia NN, nenhum ponto ${x_j}$ fora de ${C_p}$  
é mais próximo de ${x_i}$ do que qualquer outro ponto ${x_k}$ dentro do cluster ${C_p}$.

(1) $\underset{{x_j}\notin{C_p}}\min{d(x_i, x_j)} > \underset{{x_k}\in{C_p}}\max{d(x_i, x_k)}\$

Além disso, cluster Cp is maximal NN-consistent se seus membros safistazem:

(2) $\underset{{x_i}\in{C_p},{x_j}\notin{C_p}}\min{d(x_i, x_j)} > \underset{{x_i}\in{C_p},{x_k}\in{C_p}}\max{d(x_i, x_k)}\$

**Definição 3:** Consistência KNN fracionária

Dado um cluster $C_p$ com $n_p$ elementos, se existir $n_k$ elementos que tenham  
pelo menos consistência KNN (Definição 1), então a consistência fracionária  
é definida para ser $\frac{n_k}{n_p}$.

---

*K-Mutual Nearest Neighbor(kMN)consistency*

**Definição 4:** Vizinho mais próximo mútuo | Mutual Nearest Neighbor (MNN)

Se o vizinho mais próximo de $x$ é $y$ e o vizinho mais próximo de $y$ é $x$, então dizemos  
que o vizinho mais próximo mútuo de $x$ é $y$ e vice-versa.  
A adoção de MNNs define um "bairro" mais restrito do que os kNNs usuais.

**Teorema 3:** Se $x$ é kNN consistente no cluster $C_p$, $x$ deve ser kMN consistente no cluster $C_p$.  
Se cluster $C_p$ tem máxima consistência, cluster $C_p$ tem também máxima MN consistência.

Além disso se x é $(k+1)$MN consistente em cluster $C_p$, $x$ deve ser kMN consistente em cluster $C_p$.

## Aplicando a consistência kNN e kMN 


**3 casos:** 
1. Se a estrutura do cluster já é conhecida ou dada, podemos checar se os rótulos dos clusters são consistentes ou não.
2. A estrutura do cluster não é conhecida e nós desejamos encontrar a máxima NN consistência ou MN consistência do cluster.
3. A estrutura do cluster não é conhecida e os agrupamentos se sobrepõe até certo ponto. Nesse caso o objetivo é melhorar a consistência kNN/kMN em uma solução de cluster existente fornecida por um algoritmo específico, como o K-means.
---


**Operação em cadeia:**

Considerando o elemento $x$ em um cluster $C_p$, e o 1 vizinho mais próximo de $x$ sendo $x_1$,  
que está em outro cluster. Para melhorar a 1NN consistência tenta-se mover $x_1$ para dentro  
do cluster $C_p$. 

Agora, identificando $x_2$ como o 1 vizinho mais próximo de $x_1$ e que pode estar em qualquer cluster, vamos precisar mover $x_2$ para dentro do cluster $C_p$, caso ele já não faça parte de $C_p$. 


**Teorema 4:** Para consistência kNN, todos os objetos envolvidos em uma operação  
em cadeia devem ser um componente conectado em um gráfico kNN. 

Um grafo kNN é formado pelo adição de uma borda entre os objetos e seus vizinhos mais próximos.  
Assim, pode-se ver o seguinte:

(a) Se $x, y$ estão diretamente dentre os vizinhos um do outro então $x$ e $y$ devem  
ser envolvidos na operação em cadeia.

(b) Se $x, y$ não estão diretamente dentre os vizinhos um do outro, mas estão na vizinhança  
de um terceiro objeto $z$, então $x$ e $y$ devem estar envolvidos em uma operação em cadeia. 

Repetindo (b), vemos que todos os objetos em uma operação em cadeia são os nós no gráfico  
kNN que podem ser alcançados a partir de um nó. Assim, todos os nós no componente conectado  
do gráfico kNN estão envolvidos em uma operação de cadeia única.

**Algoritmo Enforce:**
- Passe por cada conjunto vizinho fechado. 
- Para cada conjunto de vizinhos fechados, reúna todos  
os objetos no conjunto em um cluster $C_p$.  
$C_p$ é determinado pelo voto da maioria.

### K-means-CP
*Preservando a consistência do K-means*

**Algoritmo K-means-CP**

1. Inicializa os centróides
2. Itera entre A e B até convergir
 1. Atribui a afiliação ao cluster. Atribui um conjunto $S$ de vizinhos fechados por vez.  
 Atribui todos os objetos do conjunto de vizinhos fechados ao cluster mais próximo $C_p$,  
 onde a proximidade é definida no sentido médio $p = arg \min_k{\sum_{i\in{S}}{(x_i - c_k)}^2}$
 2. Atualiza os centróides: $c_k = \sum_{i\in{C_k}}{\frac{x_i}{n_k}}$
