## Tratamento dos dados

### Importando bibliotecas

In [2]:
import numpy as np
from sklearn.metrics import adjusted_rand_score
import pandas as pd
import seaborn as sns
from sklearn.metrics import pairwise_distances

### Carregando o dataset

In [3]:
df = sns.load_dataset('iris')
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### Verificando as classes

In [4]:
df["species"].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

### Verificando o nome exato das colunas

In [5]:
df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

### Transformando classes em números

In [6]:
df["species"].replace({"setosa": 0, "versicolor": 1, "virginica": 2}, inplace=True)
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### Verificando a corretude das classes

In [7]:
df["species"].unique()

array([0, 1, 2], dtype=int64)

### Renomeando a coluna da classe

In [8]:
df.columns = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidthCm", "Class"]
df.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### Armazenando as classes em uma variável separada

In [9]:
labels = df["Class"].values
labels

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype=int64)

### Isolando os dados da classe

In [10]:
df.drop("Class", axis=1, inplace=True)
df.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


### Transformando os dados em uma array

In [11]:
dados = df.to_numpy()
dados

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

## Clustering

### Inicialização da matriz de pertinência

A matriz de pertinência é inicializada aleatoriamente $u_{ik}(i=1,...c$ e $k=1,...,n)$ do objeto $k$ pertencente ao grupo $C_i$ tal que:
- $u_{ik} \in [0,1]$;
- $0 < \sum_{k=1}^nu_{ik} < n$;
- $\sum_{i=1}^cu_{ik}=1$ para todo $k \in \Omega$.

In [12]:
def inicializacao_matriz_pertinencia(num_amostras, num_clusters):
    matriz_pertinencia = np.random.rand(num_amostras, num_clusters) # gera uma matriz inicial aleatória com valores entre 0 e 1
    matriz_pertinencia = matriz_pertinencia / matriz_pertinencia.sum(axis=1, keepdims=True) # normalização da matriz pra garantir que a soma dos graus dê um
    return matriz_pertinencia

### Inicialização dos medoides

#### 1. Primeiro Medoide
Selecione o primeiro medoide $m_1$ como o ponto com a menor distância total para todos os outros pontos no conjunto de dados $X$, com $n$ amostras:


$m_1 = \arg \min_i \left( \sum_{j=1}^{n} d(x_i, x_j) \right)$


onde $d(x_i, x_j)$ representa a dissimilaridade entre os pontos $x_i$ e $x_j$.

#### 2. Próximos Medoides
Para cada próximo medoide $m_k$, com $k = 2, \dots, c$, encontre o ponto $x$ que maximize a menor distância em relação aos medoides já selecionados. Para cada ponto candidato $x$ (ainda não selecionado como medoide), calcule:


$\text{dist\_mínima}(x) = \min_{m_j \in \{m_1, \dots, m_{k-1}\}} d(x, m_j)$


Então, selecione o ponto $x$ com a maior distância mínima como o próximo medoide:


$m_k = \arg \max_{x \in X \setminus \{m_1, \dots, m_{k-1}\}} \left( \min_{m_j \in \{m_1, \dots, m_{k-1}\}} d(x, m_j) \right)$

In [30]:
def fuzzy_c_medoids_init(X, c):
    total_distances = np.sum(pairwise_distances(X), axis=1) # distância somada de cada ponto para os outros
    
    first_medoid_idx = np.argmin(total_distances) # ponto com menor distância total
    medoids_indices = [first_medoid_idx]  # lista para os índices dos medoides
    medoids = [X[first_medoid_idx]]  # lista para os medoides

    for _ in range(1, c): # (1, c) pois já temos um medoide
        max_min_dist = -np.inf # armazena a maior entre as menores distâncias
        next_medoid_idx = -1 # armazena o índice do candidato a medoide

        for i in range(len(X)):
            if i in medoids_indices: # ignora os pontos que já são medoides
                continue 

            # primeiro ele calcula a distância do ponto para cada um dos medoides
            # depois ele seleciona a menor dessas distâncias
            min_dist = np.min([pairwise_distances(X[i].reshape(1, -1), np.array([medoid])).flatten()[0] for medoid in medoids])

            if min_dist > max_min_dist: # a maior distância entre as menores
                max_min_dist = min_dist
                next_medoid_idx = i

        # adiciona o ponto escolhido como medoide
        medoids_indices.append(next_medoid_idx)
        medoids.append(X[next_medoid_idx])

    return np.array(medoids)

### Atualização da matriz de pertinência

Fixo o protótipo, os graus de pertinência são atualizados com base nessa equação:

#### $u_{ik} = [\sum_{l=1}^c(\frac{d(x_k,v_i)}{d(x_k,v_l)})^{\frac{1}{m-1}}]^{-1}$

In [14]:
def atualizacao_matriz_pertinencia(dados, medoides, m):
    matriz_distancias = np.linalg.norm(dados[:, np.newaxis] - medoides, axis=2) ** 2
    matriz_distancias = np.fmax(matriz_distancias, np.finfo(np.float64).eps) # evita que matriz_distancias seja 0, np.finfo... é o menor número maior que zero aaqui
    matriz_distancias_inversa = 1 / matriz_distancias
    potencia = 1 / (m-1)
    matriz_pertinencia_atualizada = matriz_distancias_inversa ** potencia/ np.sum(matriz_distancias_inversa ** potencia, axis=1, keepdims=True) # fórmula para atualizar os graus de pertinência
    return matriz_pertinencia_atualizada

### Atualização dos medoides (mudar)

Fixo os graus de pertinência, os centroides são atualizados com base nessa equação:

#### $m_i = \argmin_{p \in C_i} \sum_{x \in C_i} d(x,p)$

Essa fórmula busca, para cada medoide $m_i$, o ponto $p \in C_i$ que minimiza a soma das distâncias dentro do cluster, garantindo que o novo medoide minimize o custo de distância.

In [53]:
def fuzzy_swap_medoids(X, medoids, memberships, m=2):
    n, c = X.shape[0], len(medoids)
    updated_medoids = np.zeros_like(medoids) # inicializa os novos medoides como zeros
    chosen_medoids_indices = set()  # armazena os índices dos novos medoides

    for i in range(c): 
        min_weighted_distance = np.inf # inicializa a menor distância ponderada
        best_medoid = None
        best_medoid_idx = -1

        distances = pairwise_distances(X, X)  # matriz de distância entre os pontos

        for j in range(n):
            if j in chosen_medoids_indices: # ignora os pontos que já são medoides
                continue
            # aplicação pura da fórmula
            ### Verificar se está correto
            weighted_distance = np.sum([(memberships[k, i] ** m) * distances[k, j] for k in range(n)])

            if weighted_distance < min_weighted_distance: # caso a distância seja menor
                min_weighted_distance = weighted_distance
                best_medoid = X[j]
                best_medoid_idx = j

        updated_medoids[i] = best_medoid # atualizar o medoide com o melhor candidato
        #print(updated_medoids)
        chosen_medoids_indices.add(best_medoid_idx)

    return updated_medoids

In [None]:
### TESTE
### TESTE
### TESTE
a = 1
X = np.array([
    [1.0, 2.0], [1.5, 2.5], [1.2, 1.8],  # Cluster 0
    [2.0, 3.0], [2.5, 2.7], [2.3, 3.2],  # Cluster 0 (overlapping with cluster 1)
    [3.5, 3.5], [4.0, 4.0], [3.8, 3.8],  # Cluster 1
    [5.0, 5.0], [5.5, 5.2], [4.9, 5.1],   # Cluster 1 (but overlapping with cluster 2)
    [7.0, 8.0], [7.5, 7.8], [6.8, 8.1],  # Cluster 2
])

matriz_pertinencia = np.array([[a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a],
       [a, a, a]])

fuzzy_c_medoids_init(X, 3)
fuzzy_swap_medoids(X, fuzzy_c_medoids_init(X, 3), matriz_pertinencia) # não sei porque não está funcionando

[[3.8 3.8]
 [7.5 7.8]
 [1.  2. ]]
[[3.8 3.8]
 [4.  4. ]
 [1.  2. ]]
[[3.8 3.8]
 [4.  4. ]
 [3.5 3.5]]


array([[3.8, 3.8],
       [4. , 4. ],
       [3.5, 3.5]])

In [37]:
X = np.array([
    [1.0, 2.0], [1.5, 2.5], [1.2, 1.8],  # Cluster 0
    [2.0, 3.0], [2.5, 2.7], [2.3, 3.2],  # Cluster 0 (overlapping with cluster 1)
    [3.5, 3.5], [4.0, 4.0], [3.8, 3.8],  # Cluster 1
    [5.0, 5.0], [5.5, 5.2], [4.9, 5.1],   # Cluster 1 (but overlapping with cluster 2)
    [7.0, 8.0], [7.5, 7.8], [6.8, 8.1],  # Cluster 2
])

medoids = fuzzy_c_medoids_init(X, 3)
matriz_pertinencia = inicializacao_matriz_pertinencia(X.shape[0], medoids.shape[0])
matriz_pertinencia

array([[0.67124992, 0.01490118, 0.3138489 ],
       [0.12062653, 0.4134717 , 0.46590178],
       [0.43147693, 0.34200401, 0.22651906],
       [0.2178134 , 0.61721106, 0.16497554],
       [0.33166231, 0.3315136 , 0.33682409],
       [0.27538285, 0.61667537, 0.10794178],
       [0.60122914, 0.21568716, 0.1830837 ],
       [0.5109894 , 0.26971929, 0.21929131],
       [0.33895923, 0.47250599, 0.18853478],
       [0.27476596, 0.37409728, 0.35113676],
       [0.04703665, 0.15698916, 0.79597419],
       [0.00176644, 0.54152058, 0.45671298],
       [0.03487649, 0.32028919, 0.64483432],
       [0.25931122, 0.26501732, 0.47567146],
       [0.38629924, 0.07735863, 0.53634212]])

### Índice de Rand Ajustado (IRA)

In [15]:
def indice_rand(labels, predicted_labels):
    return adjusted_rand_score(labels, predicted_labels)

### Simulação de Monte Carlo

### Definição de parâmetros e execução do método

In [16]:
'''num_clusters = 3
num_trials = 1
m = 2
media_indice_rand, dp_indice_rand = experimento_monte_carlo_fuzzy(dados, labels, num_clusters, m, num_trials)

print(f"Monte Carlo FCMdd Clustering Results ({num_trials} trials)")
print(f"Mean Rand Index: {media_indice_rand:.4f}") # 0.7294 or 0.3589
print(f"Standard Deviation of Rand Index: {dp_indice_rand:.4f}")'''

'num_clusters = 3\nnum_trials = 1\nm = 2\nmedia_indice_rand, dp_indice_rand = experimento_monte_carlo_fuzzy(dados, labels, num_clusters, m, num_trials)\n\nprint(f"Monte Carlo FCMdd Clustering Results ({num_trials} trials)")\nprint(f"Mean Rand Index: {media_indice_rand:.4f}") # 0.7294 or 0.3589\nprint(f"Standard Deviation of Rand Index: {dp_indice_rand:.4f}")'