## Tratamento dos dados

### Importando bibliotecas

In [3]:
import numpy as np
from sklearn.metrics import adjusted_rand_score
import pandas as pd

### Importando o dataset

In [4]:
df = pd.read_csv("Iris.csv")
df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


### Retirando variáveis inúteis e transformando classes em números

In [6]:
df.drop("Id", axis=1, inplace=True)
df["Species"].replace({"Iris-setosa": 0, "Iris-versicolor": 1, "Iris-virginica": 2}, inplace=True)
df.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### Renomeando a coluna da classe

In [7]:
df.columns = ["SepalLengthCm", "SepalWidthCm", "PetalLengthCm", "PetalWidthCm", "Class"]
df.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### Armazenando as classes em uma variável separada

In [8]:
labels = df["Class"].values
labels

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype=int64)

In [9]:
df.drop("Class", axis=1, inplace=True)
df.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


### Retirando a classe para isolar as variáveis

In [11]:
dados = df.to_numpy()
dados

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

## Clustering

### Inicialização da matriz de pertinência

A matriz de pertinência é inicializada aleatoriamente $u_{ijk}(i=1,...c;$ $j=1,...,p$ e $k=1,...,n)$ do objeto $k$ pertencente ao grupo $C_i$ para a variável $j$ tal que:
- $u_{ijk} \in [0,1]$ para todo $i, j$ e $k$;
- $0 < \sum_{j=1}^p\sum_{k=1}^nu_{ijk} < n$ para todo $i$;
- $\sum_{i=1}^c\sum_{j=1}^pu_{ijk} = 1$ para todo $k \in \Omega$.

In [None]:
def inicializacao_matriz_pertinencia(num_amostras, num_clusters, num_variaveis):
    matriz_pertinencia = np.random.rand(num_amostras, num_clusters, num_variaveis)
    
    for k in range(num_amostras): # normalizar as linhas
        matriz_pertinencia[k, :, :] /= matriz_pertinencia[k, :, :].sum()
    
    matriz_pertinencia = np.clip(matriz_pertinencia, 0, 1) # limitar os valores entre 0 e 1
    return matriz_pertinencia

### Atualização dos centroides

Fixo os graus de pertinência, os centroides são atualizados com base nessa equação:

### $y_{ij} = \frac{\sum_{k=1}^n(u_{ijk})^mx_{kj}}{\sum_{k=1}^n(u_{ijk})^m}$

In [None]:
def atualizacao_centroides(dados, matriz_pertinencia, m):
    num_amostras, num_clusters, num_variaveis = matriz_pertinencia.shape
    centroides = np.zeros((num_clusters, num_variaveis))
    
    for i in range(num_clusters):
        for j in range(num_variaveis):
            pertinencia_m = matriz_pertinencia[:, i, j] ** m # pra uma variável e cluster específicos
            
            numerador = np.sum(pertinencia_m * dados[:, j])
            denominador = np.sum(pertinencia_m)
            if denominador == 0: # evitando esse problema
                raise ValueError("Denominador igual a zero")
            centroides[i, j] = numerador / denominador # atualizando o centroide
    
    return centroides

### Atualização da matriz de pertinência

Fixo o protótipo, os graus de pertinência são atualizados com base nessa equação:

### $u_{ik} = [\sum_{a=1}^c\sum_{b=1}^p(\frac{d_{ijk}}{d_{abk}})^\frac{1}{m-1}]^{-1}$

onde

$d_{ijk} = (x_k^j - y_i^j)^2$

In [None]:
def calcula_matriz_distancias(dados, centroides):
    num_amostras, num_clusters, num_variaveis = dados.shape[0], centroides.shape[0], dados.shape[1]
    matriz_distancias = np.zeros((num_amostras, num_clusters, num_variaveis))
    
    for k in range(num_amostras):
        for i in range(num_clusters):
            for j in range(num_variaveis):
                # Calculate squared distance for each sample, cluster, and variable
                matriz_distancias[k, i, j] = (dados[k, j] - centroides[i, j]) ** 2
    
    return matriz_distancias


def atualizacao_matriz_pertinencia(distancias, m):
    num_amostras, num_clusters, num_variaveis = distancias.shape
    matriz_pertinencia = np.zeros((num_amostras, num_clusters, num_variaveis))
    
    for k in range(num_amostras):
        for i in range(num_clusters):
            denominador = 0
            for a in range(num_clusters):
                for j in range(num_variaveis):
                    # Sum the terms for the denominator
                    denominador += (distancias[k, i, j] / distancias[k, a, b]) ** (1 / (m - 1))
            
            # Update membership for sample k, cluster i, and normalize by variable
            matriz_pertinencia[k, i, :] = 1 / denominador
        
        # Normalize the membership values across clusters and variables for each sample k
        matriz_pertinencia[k, :, :] /= np.sum(matriz_pertinencia[k, :, :])

    return matriz_pertinencia

### Multivariate Fuzzy C-Means

Ações:
1. Inicialização da matriz de pertinência
2. Atualização dos centroides
3. Atualização da matriz de pertinência

Critérios de parada:
1. Número máximo de iterações atingido
2. Pouca diferença (erro) entre as matrizes de pertinência de iterações consecutivas

### Índice de Rand Ajustado

### Simulação de Monte Carlo

### Definição de parâmetros e execução do método