# 問題文

## 背景

DNAに生じる点突然変異は、**転移（transition）**と**転換（transversion）**の2種類に分類される。  
転移とは、プリン塩基同士（A↔G）またはピリミジン塩基同士（C↔T）が置き換わる変異であり、つまり**塩基の骨格構造が変わらない**変異である。  
一方、転換はプリン塩基がピリミジン塩基と、またはその逆に置き換わる変異である（図1参照）。  
RNA変異についても、同様の定義で転移・転換を区別することができる。

転換変異は塩基の化学構造をより大きく変える必要があるため、**転移変異よりも発生頻度が低い**。  
ゲノム全体では、転移と転換の比（transition/transversion ratio）は**平均して約2**である。  
しかし、**コード領域ではこの比がより高く（しばしば3を超える）**なる傾向がある。  
これは、コード領域での転移変異の多くが**アミノ酸配列を変えない**ためであり、特に置換がコドンの3番目の塩基で起こる場合に顕著である（DNAコドン表を確認すると理解できる）。  
このように、タンパク質配列に影響を与えない置換は**サイレント変異（silent substitution）**と呼ばれる。

この性質を利用して、**2本のDNA配列間の転移/転換比**は、**コード領域の検出やゲノム解析における有用な指標**となる。


## 問題

同じ長さをもつ2つのDNA文字列 s₁ と s₂ に対して、  
その**転移/転換比 R(s₁, s₂)** は、転移変異の総数を転換変異の総数で割った値として定義される。  
ここで、塩基の対応はハミング距離のように、対応する位置で異なる塩基の組み合わせから推定される（「Counting Point Mutations」を参照）。

**与えられるもの:**  
同じ長さ（最大1 kbp）のDNA文字列 s₁ と s₂。  

**返すもの:**  
転移/転換比 R(s₁, s₂)。

---

## サンプルデータセット

```text
>Rosalind_0209  
GCAACGCACAACGAAAACCCTTAGGGACTGGATTATTTCGTGATCGTTGTAGTTATTGGA  
AGTACGGGCATCAACCCAGTT  
>Rosalind_2200  
TTATCTGACAAAGAAAGCCGTCAACGGCTGGATAATTTCGCGATCGTGCTGGTTACTGGC  
GGTACGAGTGTTCCTTTGGGT  
```

## サンプル出力

1.21428571429

In [None]:
def read_fasta(fasta: str) -> dict[str, str]:
    sequences = {}
    header = None
    seq = []
    fasta = fasta.splitlines()
    for line in fasta:
        if line.startswith('>'):
            if header is not None:
                sequences[header] = ''.join(seq)
            header = line[1:]  # Remove '>'
            seq = []
        else:
            seq.append(line)
    if header is not None:
        sequences[header] = ''.join(seq)  # Add the last sequence
    return sequences

In [None]:
fasta = """>Rosalind_0209
GCAACGCACAACGAAAACCCTTAGGGACTGGATTATTTCGTGATCGTTGTAGTTATTGGA
AGTACGGGCATCAACCCAGTT
>Rosalind_2200
TTATCTGACAAAGAAAGCCGTCAACGGCTGGATAATTTCGCGATCGTGCTGGTTACTGGC
GGTACGAGTGTTCCTTTGGGT
"""

In [None]:
S1, S2 = read_fasta(fasta).values()

In [None]:
transitions = 0
transversions = 0
for s1, s2 in zip(S1, S2):
    if s1 == s2:
        continue
    if {s1, s2} == {"A", "G"} or {s1, s2} == {"C", "T"}:
        transitions += 1
    else:
        transversions += 1

print(transitions / transversions)

In [None]:
from pathlib import Path
fasta = Path("rosalind_tran.txt").read_text()
S1, S2 = read_fasta(fasta).values()
print(S1)

In [None]:
transitions = 0
transversions = 0
for s1, s2 in zip(S1, S2):
    if s1 == s2:
        continue
    if {s1, s2} == {"A", "G"} or {s1, s2} == {"C", "T"}:
        transitions += 1
    else:
        transversions += 1

print(transitions / transversions)