# Creating a Distance Matrix

多くの配列が与えられたときに各々の距離を一読できるように行列を作成するタスク．  
ハミング距離を用いて距離行列を作成する．

同じ長さの2つの文字列 s1 と s2 に対して、両者の **p-distance**（p距離）を dp(s1, s2) と表す。p距離とは、s1 と s2 の対応する位置にある記号（塩基）を比較したときに **異なる記号の割合**（全長に対する不一致数の比率）である。  

↑ハミング距離を文字列の長さで割ったもの．

n 個のタクソン（taxa） s1, s2, …, sn に対する一般の距離関数 d を考える（タクソンはしばしば遺伝子配列文字列として表される）。タクソンの各ペア間の距離は、距離行列 D を用いて表現でき、行列の要素は  
Di,j = d(si, sj)  
で定義される。

**与えられるもの（Given）**  
同じ長さの DNA 文字列 s1, …, sn（n ≤ 10、長さは最大 1 kbp）の集合。文字列は FASTA 形式で与えられる。

**求めるもの（Return）**  
与えられた文字列に対して p-distance dp を用いて計算した距離行列 D を出力せよ。なお、解答は **絶対誤差 0.001 まで許容**される。
`


In [1]:
# read fasta
def read_fasta(fasta: str) -> dict[str, str]:
    sequences = {}
    header = None
    seq = []
    fasta = fasta.splitlines()
    for line in fasta:
        if line.startswith('>'):
            if header is not None:
                sequences[header] = ''.join(seq)
            header = line[1:]  # Remove '>'
            seq = []
        else:
            seq.append(line)
    if header is not None:
        sequences[header] = ''.join(seq)  # Add the last sequence
    return sequences

In [2]:
# calculate humming distance. 
# From 005 created by Kuno-sensei.
def hamming_distance(s: str, t: str) -> int:
    return sum(1 for a, b in zip(s, t) if a != b)

In [3]:
# create distance matrix
def create_distance_matrix(sequences: dict[str, str]) -> list[list[float]]:
    # 初期化
    header = list(sequences.keys())
    n = len(header)
    distance_matrix = [[0.0] * n for _ in range(n)]
    
    for i in range(n):
        for j in range(i + 1, n):
            dist = hamming_distance(sequences[header[i]], sequences[header[j]]) / len(sequences[header[i]])
            distance_matrix[i][j] = dist
            distance_matrix[j][i] = dist 
    
    return distance_matrix

In [4]:
# NG例
# https://docs.python.org/ja/3/library/stdtypes.html#:~:text=%E3%81%AB%E3%81%82%E3%82%8A%E3%81%BE%E3%81%99%E3%80%82-,%E3%82%B7%E3%83%BC%E3%82%B1%E3%83%B3%E3%82%B9%E5%9E%8B,-%2D%2D%2D%20list%2C
n = 4
D = [[0.0]*n]*n
print("default")
for row in D:
    print(row)
D[0][1] = 0.5
print("changed")
for row in D:
    print(row)

default
[0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0]
changed
[0.0, 0.5, 0.0, 0.0]
[0.0, 0.5, 0.0, 0.0]
[0.0, 0.5, 0.0, 0.0]
[0.0, 0.5, 0.0, 0.0]


In [5]:
# NG例: appendの回数と生成される要素の個数が感覚と異なっていて面白く思った．
lists = [[]] * 3
lists[0].append(3)
lists[1].append(5)
lists[2].append(7)
print(lists)

[[3, 5, 7], [3, 5, 7], [3, 5, 7]]


In [6]:
def creating_a_distance_matrix(fasta: str) -> list[list[float]]:
    sequences = read_fasta(fasta)
    distance_matrix = create_distance_matrix(sequences)
    return distance_matrix

In [7]:
sample_input = """>Rosalind_9499
TTTCCATTTA
>Rosalind_0942
GATTCATTTC
>Rosalind_6568
TTTCCATTTT
>Rosalind_1833
GTTCCATTTA
"""

In [8]:
creating_a_distance_matrix(sample_input)

[[0.0, 0.4, 0.1, 0.1],
 [0.4, 0.0, 0.4, 0.3],
 [0.1, 0.4, 0.0, 0.2],
 [0.1, 0.3, 0.2, 0.0]]