Normalize os dados e compute 3 matrizes de dissimilaridade (uma para cada tabela de dados mfeat-fac (VIEW1), mfeat-fou (VIEW2), mfeat-kar (VIEW3)) usando a distancia Euclidiana.
Execute o algoritmo "Partitioning fuzzy K-medoids clustering algorithms with relevance weight for each dissimilarity matrix estimated locally" 100 vezes para obter uma partição fuzzy em 10 grupos e selecione o melhor resultado segundo a função objetivo, considerando os seguintes casos: i) simultaneamente nessas 3 matrizes de dissimilaridade; ii) em cada uma delas individualmente.

In [1]:
# imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import cv2
from google.colab import drive
import argparse
import sys,os
from sklearn import preprocessing
from scipy.spatial.distance import pdist
from scipy.spatial.distance import squareform
import random

In [2]:
dir_remoto = "/content/drive/My Drive/"
dir_local = os.getcwd() # path para rodar em máquina local ao invés do colab

kar = pd.read_csv(os.path.join(dir_remoto,'data/mfeat-kar'),  delim_whitespace=True, header= None)
fou = pd.read_csv(os.path.join(dir_remoto,'data/mfeat-fou'),  delim_whitespace=True, header= None)
fac = pd.read_csv(os.path.join(dir_remoto,'data/mfeat-fac'),  delim_whitespace=True, header= None)

print("mfeat-kar")
print(kar.shape, kar.head())
print("mfeat-fou")
print(fou.shape, fou.head())
print("mfeat-fac")
print(fac.shape, fac.head())

mfeat-kar
(2000, 64)           0          1          2   ...        61        62        63
0 -10.297008 -11.666789  11.560669  ...  1.814691 -1.351353 -0.473910
1  -5.036009 -12.885333   0.161155  ...  0.485792  0.642451  0.613107
2  -9.639157  -6.655898   0.388687  ...  1.097748  0.827182 -1.767840
3  -6.650375  -7.043851   4.104350  ... -0.913552 -0.771735  0.304992
4 -10.664524 -10.974133   0.194391  ...  0.298318 -0.943213  1.149847

[5 rows x 64 columns]
mfeat-fou
(2000, 76)          0         1         2   ...        73        74        75
0  0.065882  0.197312  0.103826  ...  0.394366  0.049971  0.344871
1  0.049142  0.175971  0.105515  ...  0.445277  0.083978  0.354092
2  0.034172  0.227649  0.108766  ...  0.445029  0.071234  0.261465
3  0.062336  0.217979  0.080243  ...  0.408291  0.063010  0.401376
4  0.061970  0.198358  0.111239  ...  0.434701  0.069218  0.405403

[5 rows x 76 columns]
mfeat-fac
(2000, 216)    0    1    2    3    4    5    6    ...  209  210  211  212  213  

# **Normalizando os Dados**

In [3]:
def normalization(data):
  x = data.values #returns a numpy array
  min_max_scaler = preprocessing.MinMaxScaler()
  x_scaled = min_max_scaler.fit_transform(x)
  datapd = pd.DataFrame(x_scaled)
  return datapd

kar = normalization(kar)
fou = normalization(fou)
fac = normalization(fac)

print("mfeat-kar")
print(kar.shape, kar.head())
print("mfeat-fou")
print(fou.shape, fou.head())
print("mfeat-fac")
print(fac.shape, fac.head())

mfeat-kar
(2000, 64)          0         1         2   ...        61        62        63
0  0.191173  0.128265  0.889728  ...  0.836661  0.219735  0.433051
1  0.354385  0.089040  0.498033  ...  0.618422  0.565718  0.595312
2  0.211582  0.289563  0.505851  ...  0.718921  0.597774  0.239905
3  0.304303  0.277075  0.633523  ...  0.388613  0.320316  0.549319
4  0.179772  0.150561  0.499175  ...  0.587634  0.290560  0.675432

[5 rows x 64 columns]
mfeat-fou
(2000, 76)          0         1         2   ...        73        74        75
0  0.155955  0.247037  0.148847  ...  0.628352  0.095886  0.588917
1  0.113125  0.219041  0.151407  ...  0.711892  0.162660  0.604874
2  0.074823  0.286835  0.156336  ...  0.711485  0.137636  0.444575
3  0.146884  0.274150  0.113103  ...  0.651201  0.121489  0.686703
4  0.145945  0.248410  0.160085  ...  0.694537  0.133679  0.693673

[5 rows x 76 columns]
mfeat-fac
(2000, 216)         0         1         2    ...       213       214       215
0  0.069196  0.3202

# **Matriz de Dissimilaridade**

In [4]:

def dissimilaridade(data):
  pairwise = pd.DataFrame(squareform(pdist(data)),columns = data.index,index = data.index)
  return pairwise

# default metric: euclidian distance para a função pdist

matriz_kar = dissimilaridade(kar)
matriz_fou = dissimilaridade(fou)
matriz_fac = dissimilaridade(fac)


print("mfeat-kar")
print(matriz_kar.shape, matriz_kar)
print("mfeat-fou")
print(matriz_fou.shape, matriz_fou)
print("mfeat-fac")
print(matriz_fac.shape, matriz_fac)

mfeat-kar
(2000, 2000)           0         1         2     ...      1997      1998      1999
0     0.000000  1.270193  1.397034  ...  1.605476  1.375733  1.655586
1     1.270193  0.000000  1.470758  ...  1.616383  1.314507  1.666247
2     1.397034  1.470758  0.000000  ...  1.495470  1.353730  1.698088
3     1.330976  1.379091  1.438538  ...  1.469890  1.398961  1.585118
4     1.333689  1.141953  1.638747  ...  1.773640  1.408295  1.821250
...        ...       ...       ...  ...       ...       ...       ...
1995  1.589321  1.776687  1.552311  ...  1.389383  1.157987  1.394733
1996  1.567723  1.378748  1.741908  ...  1.686252  1.467261  1.342234
1997  1.605476  1.616383  1.495470  ...  0.000000  1.246467  1.742059
1998  1.375733  1.314507  1.353730  ...  1.246467  0.000000  1.466838
1999  1.655586  1.666247  1.698088  ...  1.742059  1.466838  0.000000

[2000 rows x 2000 columns]
mfeat-fou
(2000, 2000)           0         1         2     ...      1997      1998      1999
0     0.000000  

In [5]:
## salvando as matrizes
#matriz_kar.to_csv(os.path.join('data/matriz_kar.csv'), sep = ";")
#matriz_fou.to_csv(os.path.join('data/matriz_fou.csv'), sep = ";")
#matriz_fac.to_csv(os.path.join('data/matriz_fac.csv'), sep = ";")

In [6]:
# PARÂMETROS INICIAIS

K = 10 # Número de classes
N = 2000 # Número de objetos
t = 0 # tempo inicial
m = 1.6 # valor m 
T = 10 # Número máximo de rodadas
e = 1e-10 # Erro permissível
s = 1 # valor s 
q = 2 # cardinalidade q

In [7]:
# Criar a matriz de dissimilaridade com P visoões
#dj = matriz_kar # Matriz Kar
di = matriz_fou # Matriz Fou
#dz = matriz_fac # Matriz Fac
Dj = [[0]] # Cria-se uma matriz nula
Dj[0] = di # Acrescenta na posição 0, a matriz
#Dj[1] = di # Acrescenta na posição 1, a matriz Fou
#Dj[2] = dz # Acrescenta na posição 2, a matriz Fac
print(Dj)

[          0         1         2     ...      1997      1998      1999
0     0.000000  1.353952  1.308675  ...  2.243905  1.966262  2.135231
1     1.353952  0.000000  0.989246  ...  2.653470  2.302680  2.427257
2     1.308675  0.989246  0.000000  ...  2.584899  2.295063  2.339336
3     1.509073  1.483755  1.554480  ...  2.493053  2.332205  2.156193
4     0.950964  1.098226  1.200663  ...  2.398640  2.097823  2.192949
...        ...       ...       ...  ...       ...       ...       ...
1995  1.934992  2.225521  2.146542  ...  2.009816  1.680042  1.941845
1996  2.071977  2.381274  2.346521  ...  2.082268  1.817247  1.825216
1997  2.243905  2.653470  2.584899  ...  0.000000  1.836826  2.155979
1998  1.966262  2.302680  2.295063  ...  1.836826  0.000000  1.596391
1999  2.135231  2.427257  2.339336  ...  2.155979  1.596391  0.000000

[2000 rows x 2000 columns]]


In [8]:
P = len(Dj) # Número de Partições Fuzzy
print(P)

# Matriz V de vetores de pesos de relevância
v = np.arange(K*P)  
v = v.reshape((K, P))
v = np.ones_like(v, dtype=float) # Inicialmente é igual a 1 para todo v_kj
print('v =',v)

# Matriz U (dimensão NxK)
U = np.arange(N*K) 
U = U.reshape((N, K))
U = np.zeros_like(U, dtype=float) # Inicialmente é igual a 0 para todo U_ik
print('U =',U)


1
v = [[1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]
 [1.]]
U = [[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [9]:
# Função de Adequação "J" (Equações: 06 e 07)
def FMatching(ki, ii): # Equação 07
  vkj1 = 0
  for j in range(0,P):
    dj1 = 0
    for e in G[ki]:
      dj1 += Dj[j][ii][e-1]
    vkj1 += dj1 * v[ki][j]
  return vkj1

def fitnessFunction(): # Equação 06
  J = 0
  for i in range(0, N):
    for j in range(0, K):
      J += ((U[i][j])**m) * FMatching(j, i)
  return J

# Etapa 1: Cálculo dos melhores protótipos (Procedimento 2.3):
# A partição Fuzzy U e o vetor de vetores de pesos de relevância V_k são fixos
def argumentos(ki, hi): # Essa função vai retornar o calculo dos somatórios para o k-ésimo cluster e o h-éssimo argumento.
  L = 0
  somaUVD = 0
  for i in range(0, N):
    somaVD = 0
    for j in range(0, P):
       somaVD += ((v[ki][j])**s) * Dj[j][i][hi] # Não ficou tão claro na função, se ele soma também cada matriz de dissimilaridade Dj para as p visões diferentes
    somaUVD += ((U[i][ki])**m) * somaVD
  L += somaUVD
  return L

def Arg():
  mat = []
  for k in range(0, K):
    G_in = []  # Para armazenar os argumentos internos de cada k
    for h in range(0, N):
      G_in.append(argumentos(k, h))
    mat.append(G_in)
  return mat   # Retorna a matriz (NxK) com todos os argumentos calculados

def prototype(matrixArgumentos, cluster, G_verificação):
  G_out = [] # Para armazenar os prototipos para todos os K cluster
  L = np.argmin(matrixArgumentos[cluster], axis=0)
  while len(G_out) == 0:
    if (L+1) not in G_verificação:
      G_out.append(L+1)
    else:
      matrixArgumentos[cluster][L] = 1000000000000
      L = np.argmin(matrixArgumentos[cluster], axis=0)
  return G_out[0]

#Etapa 2: Cálculo do melhor vetor de pesos de relevância das visões nos grupos (Equação 09)
# Partição Fuzzy U e vetor de representantes G fixos!
def relevanceWeights(ki, ji):
  prodUP = 1
  for h in range(0, P):
    uik2 = 0
    for i in range(0,N):
      DjUp2 = 0
      for e in G[ki]:
        DjUp2 += Dj[h][i][(e)-1]
      uik2 += ((U[i][ki])**m) * DjUp2
    prodUP *= uik2
  DjUDown2 = 0
  for i in range(0,N):
    DjDown2 = 0
    for e in G[ki]:
      DjDown2 += Dj[ji][i][(e)-1]
    DjUDown2 += ((U[i][ki])**m) * DjDown2 
  resultado = (prodUP**(1/P))/(DjUDown2)
  return resultado

# Etapa 3: Definição da Melhor Partição Fuzzy (Equação 11)
# Vetores de representantes G e vetores dos pesos V são fixos!
# Q maior do que 1
def fuzzyPartition(ii, ki, s):
  total3 = 0
  soma3 = 0
  for h in range(0,K):
    vikUP3 = 0
    for j in range(0,P):
      djUP3 = 0
      for e in G[ki]:
        djUP3 += Dj[j][ii][(e)-1]
      vikUP3 += (v[ki][j]**s) * djUP3
    vikDown3 = 0
    for j in range(0,P):
      djDown3 = 0
      for e in G[h]:
        djDown3 += Dj[j][ii][(e)-1]
      vikDown3 += (v[h][j]**s) * djDown3
    soma3 += (vikUP3/vikDown3)**(1/(m-1))
  total3 = (soma3**(-1))
  return total3

In [10]:
# Escolher um melhor de N rodadas
J_lista = [] # A lista de soluções J inicia com números com diferença bem alta
Cluster = []
rod = 0 # rodada inicial
rodada = 10 # rodada final
# Matriz de representantes Gk para cada cluster k
while rod < rodada:
  rod += 1
  G = []
  check_list = []
  for c in range(0,K):
    G_i = []
    while len(G_i) < q:
      num = random.randint(1,N)
      if num not in check_list:
        G_i.append(num)
        check_list.append(num)
    G.append(G_i)
  Cluster.append(G)
  #print('G(t=0)=',G)
  # Para o grau de pertinência Uik inicial.
  for i in range(0,N):
    for k in range(0,K):
      U[i][k] = fuzzyPartition(i, k, s)
  J_lista.append(fitnessFunction()) # Etapa Inicial para o J(0)

menor = np.argmin(J_lista)
print(menor)

2


In [11]:
import time
inicio=time.time()

# Algoritmo, união de todas as etapas:

#1) Inicialização
Jt = [10000000] # A lista de soluções J inicia com números com diferença bem alta
t = 0 # tempo inicial
# Matriz de representantes Gk para cada cluster k
G = Cluster[menor]
print('G(t=0)=',G)
print('')
# Para o grau de pertinência Uik inicial.
for i in range(0,N):
  for k in range(0,K):
    U[i][k] = fuzzyPartition(i, k, s)
print("U_ij (t=0)", U) # A matriz com a Partição Fuzzy calculada na Inicialização
print('')
Jt.append(fitnessFunction()) # Etapa Inicial para o J(0)
print("J(t=0)", Jt[-1])
print('')
parada = True
while parada == True:
  if ((Jt[-2]-Jt[-1]) > e) and (t < T):
    t += 1
    #2) Etapa 1:
    G_verificação = []  # Uma lista para armazenar todos os protótipos de G e servir para verificar se o elemento eL já está na lista
    matrixArgumentos = np.array(Arg())
    #print("matrixArgumentos:", matrixArgumentos)
    for cluster in range(0,K):
      eL = []
      while len(eL) < q:
        eL.append(prototype(matrixArgumentos, cluster, G_verificação))
        if len(eL) == 1:
          G_verificação.append(eL[0])
        elif len(eL) == 2:
          G_verificação.append(eL[1])
      G[cluster] = eL
    print("G:",G)

    #3) Etapa 2:
    for k in range(0, K):
      for j in range(0, P):
        v[k][j] = relevanceWeights(k, j) 
    
    #4) Etapa 3:
    for i in range(0,N):
      for k in range(0,K):
        U[i][k] = fuzzyPartition(i, k, s)

    #5) Critério de parada:
    Jt.append(fitnessFunction())
    print("ERRO", abs(Jt[-1]-Jt[-2]))
    print("t = %.f e J(t) = %.10f" %(t, Jt[-1]))
    print('')
    #print("U = ",U)
    #print("V = ",v)
  else:
    parada = False
    print("FIM do algoritmo")

print("J: ",Jt[-1])
print("G = ",G)
print("U = ",U)
print("V = ",v)
fim=time.time()
print("Tempo total de execução do modelo: %f" %(fim-inicio))

# Salvar a saída em csv:
dir_remoto = "/content/drive/My Drive/"
dir_local = os.getcwd() # path para rodar em máquina local ao invés do colab

pd.DataFrame(U).to_csv('drive/My Drive/data/Fou/matriz_U_q2-3.csv', index=False)
pd.DataFrame(v).to_csv('drive/My Drive/data/Fou/matriz_v_q2-3.csv', index=False)


G(t=0)= [[860, 2000], [1587, 1462], [129, 756], [1588, 1011], [922, 320], [1569, 1651], [1384, 940], [1116, 967], [285, 1731], [1939, 1853]]

U_ij (t=0) [[0.10164784 0.09257458 0.09721607 ... 0.09551992 0.11870612 0.09441162]
 [0.09984379 0.08748026 0.11695477 ... 0.09466555 0.12810082 0.09051935]
 [0.1018144  0.09502339 0.11309256 ... 0.09124691 0.12306803 0.09465347]
 ...
 [0.09571974 0.10688046 0.07409592 ... 0.09686271 0.08281794 0.11061093]
 [0.11645284 0.10991264 0.07154002 ... 0.09306015 0.09301644 0.11679097]
 [0.30254724 0.0767412  0.06453718 ... 0.07503049 0.07473699 0.08283924]]

J(t=0) 2073.0825565613927

G: [[393, 375], [526, 818], [1718, 396], [662, 297], [385, 322], [316, 1908], [243, 940], [693, 350], [1769, 1612], [1392, 289]]
ERRO 251.57806314780214
t = 1 e J(t) = 1821.5044934136

G: [[393, 375], [818, 526], [396, 297], [662, 385], [322, 316], [1908, 1718], [243, 940], [693, 350], [1769, 1612], [1392, 289]]
ERRO 0.638556066792944
t = 2 e J(t) = 1820.8659373468

G: [[3

# **Modified Partition Entropy & Partition Entropy**
- O Coeficiente de Partição Modificado é usado para medir a quantidade de sobreposição entre os grupos.
- O Partition Entropy mede a imprecisão de uma partição do grupo.

In [12]:
#print(U)
# Modified Partition Entropy
def mpc(matrizU, N):
  MPC = (sum(sum(matrizU**2)))/N
  return MPC

print("MPC:", mpc(U, N))

# Partition Entropy
def part_Entropy(MatrizU, N):
  L = np.log10(MatrizU)
  PE = -(sum(sum((MatrizU**2)*L)))/N
  return PE
print("PE:", part_Entropy(U, N))

MPC: 0.10150395028501806
PE: 0.10044245891319817
Partição Crispy [[1, 9], [2, 9], [3, 9], [4, 9], [5, 9], [6, 9], [7, 9], [8, 9], [9, 9], [10, 9], [11, 9], [12, 9], [13, 9], [14, 9], [15, 9], [16, 9], [17, 9], [18, 9], [19, 9], [20, 9], [21, 9], [22, 9], [23, 9], [24, 9], [25, 9], [26, 9], [27, 9], [28, 9], [29, 9], [30, 9], [31, 9], [32, 9], [33, 9], [34, 9], [35, 9], [36, 9], [37, 9], [38, 9], [39, 9], [40, 9], [41, 9], [42, 9], [43, 9], [44, 9], [45, 9], [46, 9], [47, 9], [48, 9], [49, 9], [50, 7], [51, 9], [52, 9], [53, 9], [54, 6], [55, 9], [56, 9], [57, 9], [58, 9], [59, 9], [60, 9], [61, 9], [62, 9], [63, 9], [64, 9], [65, 9], [66, 9], [67, 9], [68, 9], [69, 9], [70, 9], [71, 9], [72, 9], [73, 9], [74, 9], [75, 9], [76, 9], [77, 9], [78, 9], [79, 9], [80, 9], [81, 9], [82, 9], [83, 9], [84, 9], [85, 9], [86, 9], [87, 9], [88, 9], [89, 9], [90, 9], [91, 9], [92, 9], [93, 9], [94, 9], [95, 9], [96, 9], [97, 9], [98, 9], [99, 9], [100, 9], [101, 9], [102, 9], [103, 9], [104, 9], [1

# **Criando uma Partição Crispy**

In [13]:
# Partição Crispy
def crispyPartition(matrizU):
  crispy_partition = []
  i = 0
  for linha in matrizU:
    i += 1
    crispy_partition.append([i, (np.argmax(linha)+1)])
  return crispy_partition

print("Partição Crispy", crispyPartition(U))

Partição Crispy [[1, 9], [2, 9], [3, 9], [4, 9], [5, 9], [6, 9], [7, 9], [8, 9], [9, 9], [10, 9], [11, 9], [12, 9], [13, 9], [14, 9], [15, 9], [16, 9], [17, 9], [18, 9], [19, 9], [20, 9], [21, 9], [22, 9], [23, 9], [24, 9], [25, 9], [26, 9], [27, 9], [28, 9], [29, 9], [30, 9], [31, 9], [32, 9], [33, 9], [34, 9], [35, 9], [36, 9], [37, 9], [38, 9], [39, 9], [40, 9], [41, 9], [42, 9], [43, 9], [44, 9], [45, 9], [46, 9], [47, 9], [48, 9], [49, 9], [50, 7], [51, 9], [52, 9], [53, 9], [54, 6], [55, 9], [56, 9], [57, 9], [58, 9], [59, 9], [60, 9], [61, 9], [62, 9], [63, 9], [64, 9], [65, 9], [66, 9], [67, 9], [68, 9], [69, 9], [70, 9], [71, 9], [72, 9], [73, 9], [74, 9], [75, 9], [76, 9], [77, 9], [78, 9], [79, 9], [80, 9], [81, 9], [82, 9], [83, 9], [84, 9], [85, 9], [86, 9], [87, 9], [88, 9], [89, 9], [90, 9], [91, 9], [92, 9], [93, 9], [94, 9], [95, 9], [96, 9], [97, 9], [98, 9], [99, 9], [100, 9], [101, 9], [102, 9], [103, 9], [104, 9], [105, 9], [106, 9], [107, 9], [108, 9], [109, 9], [