## Exploring conversion from distance matrix to probabilities of changing the hidden state in Forward-Backward algorithm

In [1]:
import pandas as pd
import numpy as np

from copy import deepcopy

In [9]:
df = pd.read_csv('../configs/matrix.csv', sep=';', index_col=0)
sorted_header = list(sorted(list(df)))
df = df.sort_index()[sorted_header]
print(np.around(df.values, 3))

[[0.    0.068 0.061 0.007 0.082 0.084 0.069 0.033 0.084]
 [0.068 0.    0.046 0.068 0.098 0.113 0.085 0.071 0.113]
 [0.061 0.046 0.    0.061 0.091 0.106 0.077 0.064 0.106]
 [0.007 0.068 0.061 0.    0.082 0.084 0.068 0.032 0.084]
 [0.082 0.098 0.091 0.082 0.    0.127 0.09  0.085 0.127]
 [0.084 0.113 0.106 0.084 0.127 0.    0.114 0.087 0.06 ]
 [0.069 0.085 0.077 0.068 0.09  0.114 0.    0.072 0.114]
 [0.033 0.071 0.064 0.032 0.085 0.087 0.072 0.    0.087]
 [0.084 0.113 0.106 0.084 0.127 0.06  0.114 0.087 0.   ]]


### The aim is to convert distances between populations into probabilities

In [3]:
def probability_gen(df, scale=3):
    for i, pop in enumerate(list(df)):
        row = deepcopy(df[pop].values)
        # set distance between population and itself from 0 to (1/3 * minimum)
        row[i] = np.min(row[np.nonzero(row)]) / scale
        s = np.log(row)
        s = s / np.sum(s)
        yield np.around(s, 3)

In [4]:
g = probability_gen(df)
matrix = np.vstack(tuple(g))
matrix

array([[0.2  , 0.09 , 0.094, 0.164, 0.084, 0.083, 0.089, 0.114, 0.083],
       [0.11 , 0.171, 0.126, 0.11 , 0.095, 0.089, 0.101, 0.108, 0.089],
       [0.112, 0.123, 0.166, 0.112, 0.096, 0.09 , 0.102, 0.11 , 0.09 ],
       [0.164, 0.09 , 0.094, 0.2  , 0.084, 0.083, 0.089, 0.114, 0.083],
       [0.112, 0.104, 0.107, 0.112, 0.161, 0.092, 0.108, 0.11 , 0.092],
       [0.109, 0.096, 0.099, 0.109, 0.091, 0.172, 0.095, 0.107, 0.123],
       [0.114, 0.105, 0.109, 0.114, 0.102, 0.092, 0.16 , 0.112, 0.092],
       [0.128, 0.099, 0.103, 0.128, 0.092, 0.091, 0.099, 0.169, 0.091],
       [0.109, 0.096, 0.099, 0.109, 0.091, 0.123, 0.095, 0.107, 0.172]])

In [7]:
state_matrix = np.array(
    [[0.2  , 0.09 , 0.094, 0.164, 0.084, 0.083, 0.089, 0.114, 0.083],
     [0.11 , 0.171, 0.126, 0.11 , 0.095, 0.089, 0.101, 0.108, 0.089],
     [0.112, 0.123, 0.166, 0.112, 0.096, 0.09 , 0.102, 0.11 , 0.09 ],
     [0.164, 0.09 , 0.094, 0.2  , 0.084, 0.083, 0.089, 0.114, 0.083],
     [0.112, 0.104, 0.107, 0.112, 0.161, 0.092, 0.108, 0.11 , 0.092],
     [0.109, 0.096, 0.099, 0.109, 0.091, 0.172, 0.095, 0.107, 0.123],
     [0.114, 0.105, 0.109, 0.114, 0.102, 0.092, 0.16 , 0.112, 0.092],
     [0.128, 0.099, 0.103, 0.128, 0.092, 0.091, 0.099, 0.169, 0.091],
     [0.109, 0.096, 0.099, 0.109, 0.091, 0.123, 0.095, 0.107, 0.172]]
)
state_matrix[2, 3]

0.112

In [26]:
import pathlib

In [28]:
p = pathlib.Path('../configs/matrix.csv')
print(p.parent)

../configs


In [29]:
p.name


'matrix.csv'