## Tratamento dos dados

### Importando bibliotecas

In [1]:
import numpy as np
from sklearn.metrics import adjusted_rand_score
from sklearn.metrics import adjusted_mutual_info_score
import pandas as pd

### Importando o dataset

In [2]:
df = pd.read_csv('/Users/thomazaraujo/Documents/CIn-UFPE/PIBIC/Fuzzy_Clustering/datasets/haberman.csv')
df.head()

Unnamed: 0,30,64,1,1.1
0,30,62,3,1
1,30,65,0,1
2,31,59,2,1
3,31,65,4,1
4,33,58,10,1


In [3]:
df.columns = ["Age", "Op_year", "Axil_nodes", "Surv_status"]
df.head()

Unnamed: 0,Age,Op_year,Axil_nodes,Surv_status
0,30,62,3,1
1,30,65,0,1
2,31,59,2,1
3,31,65,4,1
4,33,58,10,1


In [4]:
df = df.rename(columns={"Surv_status": "Class"})
df["Class"].replace({1: 0, 2: 1}, inplace=True)
df.head()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Class"].replace({1: 0, 2: 1}, inplace=True)


Unnamed: 0,Age,Op_year,Axil_nodes,Class
0,30,62,3,0
1,30,65,0,0
2,31,59,2,0
3,31,65,4,0
4,33,58,10,0


### Armazenando as classes em uma variável separada

In [5]:
labels = df["Class"].values
labels

array([0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0,
       1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0,
       0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0,
       0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0,

In [6]:
df.drop("Class", axis=1, inplace=True)
df.head()

Unnamed: 0,Age,Op_year,Axil_nodes
0,30,62,3
1,30,65,0
2,31,59,2
3,31,65,4
4,33,58,10


### Retirando a classe para isolar as variáveis

In [7]:
dados = df.to_numpy()
dados

array([[30, 62,  3],
       [30, 65,  0],
       [31, 59,  2],
       [31, 65,  4],
       [33, 58, 10],
       [33, 60,  0],
       [34, 59,  0],
       [34, 66,  9],
       [34, 58, 30],
       [34, 60,  1],
       [34, 61, 10],
       [34, 67,  7],
       [34, 60,  0],
       [35, 64, 13],
       [35, 63,  0],
       [36, 60,  1],
       [36, 69,  0],
       [37, 60,  0],
       [37, 63,  0],
       [37, 58,  0],
       [37, 59,  6],
       [37, 60, 15],
       [37, 63,  0],
       [38, 69, 21],
       [38, 59,  2],
       [38, 60,  0],
       [38, 60,  0],
       [38, 62,  3],
       [38, 64,  1],
       [38, 66,  0],
       [38, 66, 11],
       [38, 60,  1],
       [38, 67,  5],
       [39, 66,  0],
       [39, 63,  0],
       [39, 67,  0],
       [39, 58,  0],
       [39, 59,  2],
       [39, 63,  4],
       [40, 58,  2],
       [40, 58,  0],
       [40, 65,  0],
       [41, 60, 23],
       [41, 64,  0],
       [41, 67,  0],
       [41, 58,  0],
       [41, 59,  8],
       [41, 5

## Clustering

### Inicialização da matriz de pertinência

A matriz de pertinência é inicializada aleatoriamente $u_{ik}(i=1,...c$ e $k=1,...,n)$ do objeto $k$ pertencente ao grupo $C_i$ tal que:
- $u_{ik} \in [0,1]$;
- $0 < \sum_{k=1}^nu_{ik} < n$;
- $\sum_{i=1}^cu_{ik} = 1$ para todo $k \in \Omega$.

In [8]:
def inicializacao_matriz_pertinencia(num_amostras, num_clusters):
    matriz_pertinencia = np.random.rand(num_amostras, num_clusters) # gera uma matriz inicial aleatória com valores entre 0 e 1
    matriz_pertinencia = matriz_pertinencia / matriz_pertinencia.sum(axis=1, keepdims=True) # normalização da matriz pra garantir que a soma dos graus dê um
    return matriz_pertinencia

### Inicialização dos pesos

O peso é inicializado de maneira fixa $w_j$ para cada variável $j$:
- $w_j=1,\forall j$


In [9]:
def inicializacao_pesos(num_variaveis):
    pesos = np.ones(num_variaveis) / num_variaveis # pesos iguais somam 1
    return pesos

### Atualização dos centroides

Fixo os graus de pertinência, os centroides são atualizados com base nessa equação:

### $y_i = \frac{\sum_{k=1}^n(u_{ik})^mx_k}{\sum_{k=1}^n(u_{ik})^m}$

In [10]:
def atualizacao_centroides(dados, matriz_pertinencia, m):
    matriz_pertinencia_m = matriz_pertinencia ** m # preparação dos graus de pertinência
    centroides = np.dot(matriz_pertinencia_m.T, dados) / np.sum(matriz_pertinencia_m.T, axis=1, keepdims=True) # fórmula para o cálculo dos centroides
    return centroides

### Atualização da matriz de pertinência

Fixo o protótipo, os graus de pertinência são atualizados com base nessa equação:

### $u_{ik} = \left[\sum_{h=1}^c\left\{\frac{\left(d_{ik}^{(w)}\right)^2}{\left(d_{hk}^{(w)}\right)^2}\right\}^\frac{1}{m-1}\right]^{-1}$

onde 

$d_{ik}^{(w)} = \sqrt{\sum_{j=1}^pw_j^{\beta}(x_{kj} - y_{ij})^2}$

In [11]:
def atualizacao_matriz_pertinencia(dados, centroides, pesos, m, beta):
    diff_sq = (dados[:, np.newaxis, :] - centroides) ** 2 # diferença ao quadrado (x_kj - y_ij)^2
    
    pesos_potencia = pesos ** beta
    weighted_diff_sq = pesos_potencia * diff_sq # aplica o peso elevado
    
    matriz_distancias = np.sum(weighted_diff_sq, axis=2) # d_ik^(w)^2 = sum_j( w_j^beta * (x_kj - y_ij)^2 )
    matriz_distancias = np.fmax(matriz_distancias, np.finfo(np.float64).eps)
    
    potencia = 1.0 / (m - 1)
    
    matriz_distancias_inversa = 1 / matriz_distancias # fórmula transformada: u_ik = (1/d_ik^2)^P / sum_h( (1/d_hk^2)^P )
    
    num = matriz_distancias_inversa ** potencia
    
    den = np.sum(num, axis=1, keepdims=True) # sum_h( (1/d_hk^2)^P )
    
    nova_matriz_pertinencia = num / den
    
    nova_matriz_pertinencia = nova_matriz_pertinencia / np.sum(nova_matriz_pertinencia, axis=1, keepdims=True)
    
    return nova_matriz_pertinencia

### Atualização dos pesos

Fixo o protótipo e o grau de pertinência, atualize os pesos com base na seguinte equação:

### $w_j = \left[ \sum_{t=1}^{p} \left\{ \frac{D_j}{D_t} \right\} \right]^{\frac{1}{\beta - 1}}$

onde

$D_j = \sum_{i=1}^c\sum_{k=1}^nu_{ik}(x_{kj}-y_{ij})^2$

In [12]:
def atualizacao_pesos(dados, centroides, matriz_pertinencia, beta):
    matriz_pertinencia_broadcast = matriz_pertinencia[:, :, np.newaxis] 
    
    diff_sq = (dados[:, np.newaxis, :] - centroides) ** 2 # diferença ao quadrado (x_kj - y_ij)^2
    weighted_diff_sq = matriz_pertinencia_broadcast * diff_sq # multiplicação
    D_j = np.sum(weighted_diff_sq, axis=(0, 1))
    D_j = np.fmax(D_j, np.finfo(np.float64).eps)

    beta_exponente = 1.0 / np.fmax(beta - 1, np.finfo(np.float64).eps) # 1 / (beta - 1)
    razao = D_j[:, np.newaxis] / D_j[np.newaxis, :] # D_j / D_t
    razao_potencia = razao ** beta_exponente
    soma_termos = np.sum(razao_potencia, axis=1) # sum_t

    pesos = 1.0 / soma_termos # tem no paper original
     
    pesos = pesos / np.sum(pesos) # pesos somam 1
     
    return pesos

### W-FCM

Ações:
1. Inicialização da matriz de pertinência
2. Inicialização dos pesos
3. Atualização dos centroides
4. Atualização da matriz de pertinência
5. Atualização dos pesos

Critérios de parada:
1. Número máximo de iterações atingido
2. Pouca diferença (erro) entre as matrizes de pertinência de iterações consecutivas

In [13]:
def fcm(dados, num_clusters, m=2, beta=2, max_iter=10**6, erro=1e-9):
    num_amostras, num_variaveis = dados.shape
    matriz_pertinencia = inicializacao_matriz_pertinencia(num_amostras, num_clusters)
    pesos = inicializacao_pesos(num_variaveis)
    for _ in range(max_iter): # primeiro critério de parada
        centroides = atualizacao_centroides(dados, matriz_pertinencia, m)
        nova_matriz_pertinencia = atualizacao_matriz_pertinencia(dados, centroides, pesos, m, beta)
        pesos = atualizacao_pesos(dados, centroides, nova_matriz_pertinencia, beta)
        if np.linalg.norm(nova_matriz_pertinencia - matriz_pertinencia) < erro: # segundo critério de parada
            break
        matriz_pertinencia = nova_matriz_pertinencia
    return centroides, matriz_pertinencia, pesos

### Índice de Rand Ajustado (IRA)

In [14]:
def indice_rand(labels, predicted_labels):
    return adjusted_rand_score(labels, predicted_labels)

### Simulação de Monte Carlo

In [15]:
def simulacao_monte_carlo(dados, labels, num_clusters, num_trials):
    ari = []
    ami = []
    for _ in range(num_trials):
        centroides, matriz_pertinencia, pesos = fcm(dados, num_clusters)
        predicted_labels = np.argmax(matriz_pertinencia, axis=1)
        idx_rand = indice_rand(labels, predicted_labels)
        ari.append(idx_rand)
        ami_rand = adjusted_mutual_info_score(labels, predicted_labels)
        ami.append(ami_rand)
    mean_ari = np.mean(ari)
    std_ari = np.std(ari)
    mean_ami = np.mean(ami)
    std_ami = np.std(ami)
    return mean_ari, std_ari, mean_ami, std_ami

### Definição de parâmetros e execução do método

In [16]:
num_clusters = 2
num_trials = 100
mean_ari, std_ari, mean_ami, std_ami = simulacao_monte_carlo(dados, labels, num_clusters, num_trials)

print(f"Monte Carlo W-FCM Clustering Results ({num_trials} trials)")
print(f"Mean Rand Index: {mean_ari:.4f}")
print(f"Standard Deviation of Rand Index: {std_ari:.4f}")
print("")
print(f"Mean Adjusted Mutual Information: {mean_ami:.4f}")
print(f"Standard Deviation of Adjusted Mutual Information: {std_ami:.4f}")

Monte Carlo W-FCM Clustering Results (100 trials)
Mean Rand Index: -0.0039
Standard Deviation of Rand Index: 0.0000

Mean Adjusted Mutual Information: -0.0018
Standard Deviation of Adjusted Mutual Information: 0.0000
