# Anotações sobre o paper ["Tutorial sobre *Fuzzy-c-Means* e *Fuzzy Learning Vector Quantization*: Abordagens híbridas para tarefas de agrupamento e classificação"](https://seer.ufrgs.br/rita/article/view/rita_v19_n1_p120)

* Essas anotações são focadas em entender o algoritmo *Fuzzy c-means* (FCM) para o projeto. Por isso não tem nada sobre o algoritmo *Fuzzy learning vector quantization*.

## 1. Teoria de conjuntos *Fuzzy* (TCF)

* A essência dessa teoria está na aceitação da "incerteza" como um fato das situações reais, que deve ser apropriadamente modelado e tratado por métodos matemáticos.
> A ideia de "incerteza" passa pelas dificuldades em lidar com informações imprecisas, falta de especificidade, conceitos vagos entre outras características que podem fazer com que uma situação não pareça clara ou nítada o suficiente para ser analisada pela teoria de conjuntos *crisp* (ou clássica).

* A TCF é uma generalização da teoria de conjuntos clássica que, ao liberar os estudos dos conjuntos da dicotomia imposta na teoria clássica, aumenta o poder de expressividade dos conjuntos, de forma que um elemento pode pertencer ou não a um conunto com determinados graus de pertinência e, mais do que isso, pode pertencer, com graus apropriados, a diferentes conjuntos definidos sobre um mesmo universo de discurso.

* O que caracteriza a pertinência de um elemento a um conjunto é a função característica que o define, associando, no caso de conjuntos *crisp*, os valores 0 ou 1 a cada elemento de um universo de discurso, de forma a discriminá-lo como pertencente ou não ao conjunto em questão.

$f_A: X \to {0,1}$

> Onde $X$ é o universo de discurso (um conjunto de elementos) e ${0,1}$ define um conjunto de dois estados: não pertence (0) e pertence (1).

* No caso da TCF, uma função característica generalizada associa a cada elemento do universo de discurso um valor de um intervalo, entre 0 e 1, indicando o grau de pertinência dos elementos ao conjunto. Essa função assume o papel de **função de pertinência** que define um **conjunto** ***fuzzy***.

$\mu_A: X \to [0,1]$

> Onde $\mu_A$ é a função de pertinência, $X$ é o universo de discurso (um conjunto de elementos *crisp*) e $[0,1]$ define um intervalo infinito de estados cujas extremindades significam a não pertinência de um elemento a um conjunto (0) e a pertinência total de um elemento a um conjunto (1)

![crisp versus fuzzy](crisp_and_fuzzy.png)

## 2. Medidas de Similaridade

* A **similaridade** entre dois vertores corresponde a uma medida que compara sua igualdade, podendo também ser utilizada como uma forma de medir a distinção entre eles (**dissimilaridade**). Normalmente, a similaridade é calculada com base em uma medida de distância entre dois vetores.

* Essas medidas servem para guiar o processo de construção da superfície de decisão que determinará qual é a região de abrangência de uma classe de dados no caso da tarefa de **classificação**, ou quais dados pertencem a quais grupos no caso da tarefa de **agrupamento**.

* Existem diferentes medidas de distância que podem ser aplicads dependendo do problema e do tipo de dado, como **distância Euclidiana**, **distância de** ***Hamming***, **distância de** ***Chebyschev***, **distância de** ***City-Block***, **métrica de** ***Tanimoto***, **métrica de** ***Mahalanobis***, mais exemplos [aqui](https://onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-0258%2819990228%2918%3A4%3C491%3A%3AAID-SIM57%3E3.0.CO%3B2-T)

* No nosso contexto a medida de similaridade é sempre aplicada visando medir o quão similares são um vetor de dados e um que representa uma classe ou grupo, para isso usaremos **distância Euclidiana**:

$d(\overrightarrow{v_i}, \overrightarrow{v_j}) = (\sum_{t=1}^{p}(v_{il} - v_{jl})^2)^\frac{1}{2}$

> Onde $p$ é a dimensão do espaço dos vetores, já $\overrightarrow{v_i}$ e $\overrightarrow{v_j}$ são os vetores sobre os quais se deseja a similaridade.

## 3. *c-Means*

* Nesse algoritmo, $c$ agrupamentos são representados como um conjunto $C = \overrightarrow{C_1}, ..., \overrightarrow{C_c}$ de vetores chamados **protótipos**. Cada vetor protótipo sempre está associado à representação de uma classe  ou grupo do conjunto de dados e, para isso, deve residir no mesmo espaço $R^p$ que os dados do conjunto.
* O conjunto $C$ é representado por uma matriz de dimensão $c \times p$
* O algoritmo realiza várias iterações na busca de uma configuração ótima de parâmetros para minimizar $J_CM(U_h,C)$

$J_CM(U_h,C) = \sum_{i=1}^{c} \sum_{j=1}^{n}u_{ij}d(\overrightarrow{C_i},\overrightarrow{x_j}^2$

> Onde $d(\overrightarrow{C_i},\overrightarrow{x_j}^2$, é a distância entre o vetor de dados $\overrightarrow{x_j}$ e o protótipo do grupo $\overrightarrow{C_i},c$ é o número de grupos a ser determinado pelo algoritmo, $n$ é o número de dados no conjunto de dados e $U_h$ é uma matriz binária chamada **matriz de partição**, de dimensões $c \times n$.

> Nessa **matriz de partição**, cada elemento $u_{ij} \in {0,1}$  indica associação de um dado a um grupo. Um dado ${\overrightarrow{x_j}$ está associado ao grupo representado pelo protótipo $\overrightarrow{C_i}$ se $u_{ij} = 1$, caso contrário, se $u_{ij} = 0$, o dado $\overrightarrow{x_j}$ não está associado ao grupo $i$. Com o processo de minimização, os dados são associados aos grupos de forma que, quanto menores forem as distâncias entre o dado $\overrightarrow{x}$ e o vertor protótipo $\overrightarrow{C}$ associado a ele, menor é o valor da equação.

* Visto que o objetivo de um processo de agrupamento de dados é associar um elemento a um grupo, e que no caso do *c-Means* a base é a teoria de conjuntos *crisp*, é necessário garantir que cada dado esteja associado a exatamente um grupo.

$\sum_{i=1}^{c}u_{ij} = 1, \forall j \in 1, ..., n.$

> Isso garante que a soma das pertinências de um dado $\overrightarrow{x_j}$ a todos os grupos em $C$ seja igual a 1, ou seja, cada coluna da matriz de partição deve possuir o valor 1 em **uma e somente uma** célula

* Para garantir que todos os $c$ grupos tenham, ao menos, um dado associado:

$\sum_{j=1}^{c}u_{ij} = 1, \forall i \in 1, ..., c.$

> Tal que cada linha da matriz de partição deve possuir o valor 1 em pelo menos uma célula.





## 4. Agrupamento *Fuzzy* e *Fuzzy c-Means*

### 4.1. Agrupamento *Fuzzy*

### 4.2. *Fuzzy-c-Means*

### 4.3. Estudo da atualização da Matriz de Pertinência *Fuzzy* $U_f$

### 4.4. Estudo da atualização da Matriz de Protótipos $M$