## Tratamento dos dados

### Importando bibliotecas

In [1]:
import numpy as np
from sklearn.metrics import adjusted_rand_score
from sklearn.metrics import adjusted_mutual_info_score
import pandas as pd

### Importando o dataset

In [2]:
df = pd.read_csv('/Users/thomazaraujo/Documents/CIn-UFPE/PIBIC/Fuzzy_Clustering/datasets/seeds.csv')
df.head()

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8
0,15.26,14.84,0.871,5.763,3.312,2.221,5.22,1
1,14.88,14.57,0.8811,5.554,3.333,1.018,4.956,1
2,14.29,14.09,0.905,5.291,3.337,2.699,4.825,1
3,13.84,13.94,0.8955,5.324,3.379,2.259,4.805,1
4,16.14,14.99,0.9034,5.658,3.562,1.355,5.175,1


### Retirando variáveis inúteis e transformando classes em números

In [3]:
df = df.rename(columns={'V8': 'Class'})
df["Class"].replace({1: 0, 2: 1, 3: 2}, inplace=True)
df.head()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Class"].replace({1: 0, 2: 1, 3: 2}, inplace=True)


Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,Class
0,15.26,14.84,0.871,5.763,3.312,2.221,5.22,0
1,14.88,14.57,0.8811,5.554,3.333,1.018,4.956,0
2,14.29,14.09,0.905,5.291,3.337,2.699,4.825,0
3,13.84,13.94,0.8955,5.324,3.379,2.259,4.805,0
4,16.14,14.99,0.9034,5.658,3.562,1.355,5.175,0


### Armazenando as classes em uma variável separada

In [4]:
labels = df["Class"].values
labels

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [5]:
df.drop("Class", axis=1, inplace=True)
df.head()

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7
0,15.26,14.84,0.871,5.763,3.312,2.221,5.22
1,14.88,14.57,0.8811,5.554,3.333,1.018,4.956
2,14.29,14.09,0.905,5.291,3.337,2.699,4.825
3,13.84,13.94,0.8955,5.324,3.379,2.259,4.805
4,16.14,14.99,0.9034,5.658,3.562,1.355,5.175


### Retirando a classe para isolar as variáveis

In [6]:
dados = df.to_numpy()
dados

array([[15.26  , 14.84  ,  0.871 , ...,  3.312 ,  2.221 ,  5.22  ],
       [14.88  , 14.57  ,  0.8811, ...,  3.333 ,  1.018 ,  4.956 ],
       [14.29  , 14.09  ,  0.905 , ...,  3.337 ,  2.699 ,  4.825 ],
       ...,
       [13.2   , 13.66  ,  0.8883, ...,  3.232 ,  8.315 ,  5.056 ],
       [11.84  , 13.21  ,  0.8521, ...,  2.836 ,  3.598 ,  5.044 ],
       [12.3   , 13.34  ,  0.8684, ...,  2.974 ,  5.637 ,  5.063 ]],
      shape=(210, 7))

## Clustering

### Inicialização da matriz de pertinência

A matriz de pertinência é inicializada aleatoriamente $u_{ik}(i=1,...c$ e $k=1,...,n)$ do objeto $k$ pertencente ao grupo $C_i$ tal que:
- $u_{ik} \in [0,1]$;
- $0 < \sum_{k=1}^nu_{ik} < n$;
- $\sum_{i=1}^cu_{ik} = 1$ para todo $k \in \Omega$.

In [7]:
def inicializacao_matriz_pertinencia(num_amostras, num_clusters):
    matriz_pertinencia = np.random.rand(num_amostras, num_clusters) # gera uma matriz inicial aleatória com valores entre 0 e 1
    matriz_pertinencia = matriz_pertinencia / matriz_pertinencia.sum(axis=1, keepdims=True) # normalização da matriz pra garantir que a soma dos graus dê um
    return matriz_pertinencia

### Inicialização dos pesos

O peso é inicializado de maneira fixa $\lambda_i^j$, que é calculado para ser proporcional ao inverso da variância (dispersão) da variável $j$ no cluster $i$, seguindo a única restrição seguinte:
- $\lambda_i^j=1,\forall i, j$

In [8]:
def inicializacao_pesos(num_clusters, num_variaveis):
    pesos = np.ones((num_clusters, num_variaveis)) # inicializa os pesos com 1
    return pesos

### Atualização dos centroides

Fixo os graus de pertinência, os centroides são atualizados com base nessa equação:

### $y_i = \frac{\sum_{k=1}^n(u_{ik})^mx_k}{\sum_{k=1}^n(u_{ik})^m}$

In [9]:
def atualizacao_centroides(dados, matriz_pertinencia, m):
    matriz_pertinencia_m = matriz_pertinencia ** m # preparação dos graus de pertinência
    centroides = np.dot(matriz_pertinencia_m.T, dados) / np.sum(matriz_pertinencia_m.T, axis=1, keepdims=True) # fórmula para o cálculo dos centroides
    return centroides

### Atualização da matriz de pertinência

Fixo o protótipo, os graus de pertinência são atualizados com base nessa equação:

### $u_{ik} = \left[\sum_{h=1}^c\left\{\frac{\sum_{j=1}^p\lambda_i^j(x_{jk}-y_{ij})^2}{\sum_{j=1}^p\lambda_h^j(x_{jk}-y_{hj})^2}\right\}^\frac{1}{m-1}\right]^{-1}$

In [10]:
def atualizacao_matriz_pertinencia(dados, centroides, pesos, m):
    diff_sq = (dados[:, np.newaxis, :] - centroides) ** 2 # (xjk - yij)^2
    weighted_diff_sq = pesos * diff_sq # λij
    matriz_distancias = np.sum(weighted_diff_sq, axis=2) # \sum_{j=1}^p
    matriz_distancias = np.fmax(matriz_distancias, np.finfo(np.float64).eps) # evita que matriz_distancias seja 0, np.finfo... é o menor número maior que zero aaqui
    matriz_distancias_inversa = 1 / matriz_distancias
    potencia = 1 / (m-1)
    matriz_pertinencia_atualizada = matriz_distancias_inversa ** potencia / np.sum(matriz_distancias_inversa ** potencia, axis=1, keepdims=True) # fórmula para atualizar os graus de pertinência
    return matriz_pertinencia_atualizada

### Atualização dos pesos

Fixo o protótipo e o grau de pertinência, atualize os pesos com base na seguinte equação:

### $\lambda_i^j=\frac{\{\prod_{h=1}^p[\sum_{k=1}^n(u_{ik})^m(x_{hk}-y_{ih})^2]\}^{\frac{1}{p}}}{\sum_{k=1}^n(u_{ik})^m(x_{jk}-y_{ij})^2}$

sob a restrição:

$\prod_{j=1}^p\lambda_i^j=1, \forall i=1,\ldots,c$

In [11]:
def atualizacao_pesos(dados, centroides, matriz_pertinencia, m):
    num_amostras, num_variaveis = dados.shape
    num_clusters = centroides.shape[0]

    # D[i, j] = sum_k( (u_ik)^m * (x_jk - y_ij)^2 )
    
    matriz_pertinencia_m = matriz_pertinencia ** m
    diff_sq = (dados[:, np.newaxis, :] - centroides) ** 2
    weighted_diff_sq = matriz_pertinencia_m[:, :, np.newaxis] * diff_sq

    D = np.sum(weighted_diff_sq, axis=0) # (C, P)
    D = np.fmax(D, np.finfo(np.float64).eps)

    # Numerador_i = { Prod_h( D_ih ) } ^ (1/p)
    # logaritmos para estabilidade numérica (evita underflow/overflow)
    # log(Numerador_i) = (1/p) * sum_h( log(D_ih) )
    
    log_D = np.log(D)
    soma_log_D = np.sum(log_D, axis=1) # soma os logs das dispersões sobre as variáveis 'h' (axis=1)
    numerador = np.exp(soma_log_D / num_variaveis) # média geométrica

    pesos = numerador[:, np.newaxis] / D # peso final
     
    return pesos

### FCM-C²

Ações:
1. Inicialização da matriz de pertinência
2. Inicialização dos pesos
3. Atualização dos centroides
4. Atualização dos pesos
5. Atualização da matriz de pertinência

Critérios de parada:
1. Número máximo de iterações atingido
2. Pouca diferença (erro) entre as matrizes de pertinência de iterações consecutivas

In [12]:
def fcm(dados, num_clusters, m=2, max_iter=10**6, erro=1e-9):
    num_amostras, num_variaveis = dados.shape
    matriz_pertinencia = inicializacao_matriz_pertinencia(num_amostras, num_clusters)
    pesos = inicializacao_pesos(num_clusters, num_variaveis)
    for _ in range(max_iter): # primeiro critério de parada
        centroides = atualizacao_centroides(dados, matriz_pertinencia, m)
        pesos = atualizacao_pesos(dados, centroides, matriz_pertinencia, m)
        nova_matriz_pertinencia = atualizacao_matriz_pertinencia(dados, centroides, pesos, m)
        if np.linalg.norm(nova_matriz_pertinencia - matriz_pertinencia) < erro: # segundo critério de parada
            break
        matriz_pertinencia = nova_matriz_pertinencia
    return centroides, matriz_pertinencia, pesos

### Índice de Rand Ajustado (IRA)

In [13]:
def indice_rand(labels, predicted_labels):
    return adjusted_rand_score(labels, predicted_labels)

### Simulação de Monte Carlo

In [14]:
def simulacao_monte_carlo(dados, labels, num_clusters, num_trials):
    ari = []
    ami = []
    for _ in range(num_trials):
        centroides, matriz_pertinencia, pesos = fcm(dados, num_clusters)
        predicted_labels = np.argmax(matriz_pertinencia, axis=1)
        idx_rand = indice_rand(labels, predicted_labels)
        ari.append(idx_rand)
        ami_rand = adjusted_mutual_info_score(labels, predicted_labels)
        ami.append(ami_rand)
    mean_ari = np.mean(ari)
    std_ari = np.std(ari)
    mean_ami = np.mean(ami)
    std_ami = np.std(ami)
    return mean_ari, std_ari, mean_ami, std_ami

### Definição de parâmetros e execução do método

In [None]:
num_clusters = 3
num_trials = 100
mean_ari, std_ari, mean_ami, std_ami = simulacao_monte_carlo(dados, labels, num_clusters, num_trials)

print(f"Monte Carlo FCM-C² Clustering Results ({num_trials} trials)")
print(f"Mean Rand Index: {mean_ari:.4f}")
print(f"Standard Deviation of Rand Index: {std_ari:.4f}")
print("")
print(f"Mean Adjusted Mutual Information: {mean_ami:.4f}")
print(f"Standard Deviation of Adjusted Mutual Information: {std_ami:.4f}")

Monte Carlo FCM-C² Clustering Results (100 trials)
Mean Rand Index: 0.6666
Standard Deviation of Rand Index: 0.0000

Mean Adjusted Mutual Information: 0.6554
Standard Deviation of Adjusted Mutual Information: 0.0000
