# Eksperimentering med evalueringsmetoder
### 1) Archetypal correlation coefficient
### 2) Normalised mutual information
### 3) ...

In [5]:
import numpy as np

## Archetypal Correlation Coefficient
NOTE: Hvis vi følger Bachelor thesis, så er metoden for at finde vores korrelations-koefficient ret underligt. Vi skal vel finde en rækkefølge på rækkerne i vores A-matricer. Så kan vi sammenligne rækkerne parvis, således at vi får så høje korrelations-koefficienter som muligt. Bachelor thesis vil gerne have at vi kan genbruge rækker. Jeg ville umiddelbart forvente at hver række kun måtte bruges én gang.

In [42]:
np.random.seed(42)
K = 4
A1 = np.random.rand(K,K)
A2 = np.random.rand(K,K)
corr = np.zeros((K,K))

In [44]:
for i in range(K):
    for j in range(K):
        corr[i][j] = np.corrcoef(A1[i,:], A2[j,:])[0][1]

In [46]:
# hver række svarer til række 'i' på A1, og hver kolonne er række 'j' på A2
corr

array([[ 0.90442152, -0.9890276 ,  0.42024089, -0.6127424 ],
       [-0.58578611,  0.07133999,  0.17193385, -0.47962678],
       [-0.34874947,  0.07330612,  0.72340376, -0.71473635],
       [-0.47322721,  0.85723967, -0.05286688,  0.52446162]])

In [51]:
np.amax(corr, axis=1)

array([0.90442152, 0.17193385, 0.72340376, 0.85723967])

In [47]:
A1,A2

(array([[0.37454012, 0.95071431, 0.73199394, 0.59865848],
        [0.15601864, 0.15599452, 0.05808361, 0.86617615],
        [0.60111501, 0.70807258, 0.02058449, 0.96990985],
        [0.83244264, 0.21233911, 0.18182497, 0.18340451]]),
 array([[0.30424224, 0.52475643, 0.43194502, 0.29122914],
        [0.61185289, 0.13949386, 0.29214465, 0.36636184],
        [0.45606998, 0.78517596, 0.19967378, 0.51423444],
        [0.59241457, 0.04645041, 0.60754485, 0.17052412]]))

#### The coefficient

In [53]:
np.mean(np.amax(corr, axis=1))

0.664249699278022

## Normalised Mutual Information
NOTE IGEN: Bachelor thesis driller os igen. Dimensionerne på hans matricer matcher ikke dimensionerne på vores. Jeg bliver jævnt forvirret.<br>
Fx synes han at Z er NxK og A er KxM (side 15)


In [84]:
M, p = 10,5 #attributes, number of archetypes
# X = Z*A  
s = np.random.rand(M,p) # Simulated archetype matrix (S)
z = np.random.rand(M,p) # True archetype matrix Z

# In matlab, it's referred to as: Z1 - DxN

In [85]:
def calcMI(Z1,Z2):
    P = Z1@Z2.T
    PXY=P/sum(sum(P))
    PXPY=np.outer(np.sum(PXY,axis=1), np.sum(PXY,axis=0))
    ind = np.where(PXY>0)
    MI=sum(PXY[ind]*np.log(PXY[ind]/PXPY[ind]))
    return MI

In [86]:
def calcNMI(Z1,Z2):
    NMI = (2*calcMI(Z1,Z2)) / (calcMI(Z1,Z1) + calcMI(Z2,Z2))
    return NMI

In [87]:
#z1 = np.array([[2,4],[5,4]])
#z2 = np.array([[1,7],[4,3]])

calcNMI(s,z)

0.9350332962895589