# 011-GRPH

担当: 久野 朗広

## グラフ理論の簡単な紹介

ネットワークは、特に生物学の分野で、現実世界のあらゆるところに現れます。たとえば、病気の拡散をモデル化するような人気のある応用でもネットワークは多く使われますが、その適用範囲は大衆科学をはるかに超えています。最初の問いは、「ネットワークの図を実際に描かなくても、計算機上でどうモデル化するか？」という点です。

まず、いくつかの用語を定義します。

- **グラフ**はネットワークの技術的な用語であり、**ノード 頂点**と呼ばれるハブ 接点と、それらを繋ぐ**エッジ 辺**で構成されます。
- ノード`v`と`w`を繋ぐエッジがあれば、それは`v,w` または同様に`w,v`と表されます。
- エッジ`v,w`はノード`v`と`w`に**接続している incident**と言い、`v`と`w`は互いに**隣接 adjacent**していると言います。
- ノード`v`の**次数 degree**は、そのノードに接続しているエッジの数です。
- **ウォーク walk**とは、あるエッジの終点が次のエッジの始点になるように並べたエッジの列 例: {v1,v2}, {v2,v3}, {v3,v4}です。
- **パス path**とは、各ノードが最大で2回しか登場しないウォークです。
- **パス長 path length**は、パスに含まれるエッジの数です。
- **サイクル cycle**とは、始点と終点が同じノードで、各ノードがちょうど2つのエッジに接続されているパスです。
- 2つのノード間の**距離 distance**とは、それらを結ぶ最短パスの長さのことです。

**グラフ理論**とは、グラフおよびその性質を抽象的に数学的に研究する分野です。

---

## 問題文

ノードにラベルが付けられたグラフは、**隣接リストadjacency list**という形で表すことができます。これは、各行に1つのエッジ 2つのノードのラベルのペアを記述したものです。

**有向グラフ directed graphまたはdigraph**とは、**向きのある辺 有向エッジ**を持つグラフのことです。有向エッジは、線分ではなく矢印で表され、始点と終点のノードはそれぞれ**尾 tail**と**頭 head**と呼ばれます。有向エッジは`(v,w)` vが尾でwが頭と表され、`(w,v)`とは異なります。また、`(v,v)`のように始点と終点が同じエッジは**有向ループ**と呼ばれます。

**文字列の集合と正の整数k**が与えられたとき、その集合に対する**オーバーラップグラフ overlap graph**`Oₖ`は以下のように構成されます：

- 各文字列をノードとし、
- 文字列`s`の長さ`k`の**接尾辞**と、文字列`t`の長さ`k`の**接頭辞**が一致する場合、sからtに向かう**有向エッジ**を引く ただし、s ≠ t。

このとき`s ≠ t`とすることで、有向ループ 自己ループを防ぎます ただし、有向サイクルは存在する可能性があります。

---

## 与えられるもの

FASTA形式で与えられるDNA文字列の集合 総長10kbp以下

---

## 出力すべきもの

長さ3のオーバーラップに基づく隣接リスト `O₃` に対応するエッジの一覧 順不同で可




# 解答例

In [1]:
from pathlib import Path
import sys
import os
P = print

# 作業ディレクトリを本リポジトリのルートに設定
while not Path(os.getcwd(), "LICENSE").exists():
    os.chdir("..")
    if os.getcwd() == "/":
        P("Error: Could not find LICENSE file in parent directories.")
        sys.exit(1)
P("Current working directory:", os.getcwd())

Current working directory: /mnt/e/LARC-GitHub/Rosalind


In [2]:
S = """>Rosalind_0498
AAATAAA
>Rosalind_2391
AAATTTT
>Rosalind_2323
TTTTCCC
>Rosalind_0442
AAATCCC
>Rosalind_5013
GGGTGGG""".split("\n")

In [3]:
def parse_fasta(lines):
    fasta_dict = {}
    current_key = None
    current_seq = []

    for line in lines:
        if line.startswith(">"):
            if current_key:
                fasta_dict[current_key] = "".join(current_seq)
            current_key = line[1:]
            current_seq = []
        else:
            current_seq.append(line)

    # 最後のレコードの追加
    if current_key:
        fasta_dict[current_key] = "".join(current_seq)

    return fasta_dict

In [4]:
S_fasta = parse_fasta(S)


P(S_fasta)

{'Rosalind_0498': 'AAATAAA', 'Rosalind_2391': 'AAATTTT', 'Rosalind_2323': 'TTTTCCC', 'Rosalind_0442': 'AAATCCC', 'Rosalind_5013': 'GGGTGGG'}


## 愚直にO3を求める

In [5]:
ans = []
for key1 in S_fasta:
    for key2 in S_fasta:
        if key1 == key2:
            continue
        if S_fasta[key1][-3:] == S_fasta[key2][:3]:
            ans.append(f"{key1} {key2}")

for a in ans:
    P(a)

Rosalind_0498 Rosalind_2391
Rosalind_0498 Rosalind_0442
Rosalind_2391 Rosalind_2323


## itertools.combinationsを使う

In [11]:
from itertools import combinations

ans = []
for key1, key2 in combinations(S_fasta, 2):
    if S_fasta[key1][-3:] == S_fasta[key2][:3]:
        ans.append(f"{key1} {key2}")
    if S_fasta[key2][-3:] == S_fasta[key1][:3]:
        ans.append(f"{key2} {key1}")

for a in ans:
    P(a)

Rosalind_0498 Rosalind_2391
Rosalind_0498 Rosalind_0442
Rosalind_2391 Rosalind_2323


In [None]:
S = Path("data", "rosalind_grph.txt").read_text().strip().split("\n")
S_fasta = parse_fasta(S)

ans = []
for key1 in S_fasta:
    for key2 in S_fasta:
        if key1 == key2:
            continue
        if S_fasta[key1][-3:] == S_fasta[key2][:3]:
            ans.append(f"{key1} {key2}")

Path("data/ans_rosalind_grph.txt").write_text("\n".join(ans) + "\n")

FileNotFoundError: [Errno 2] No such file or directory: 'data/rosalind_grph.txt'