# 問題文

## 背景

DNA中のモチーフ（短い配列）は、必ずしも連続して現れるとは限らない。  
タンパク質をコードするDNAはイントロンによって分断されることがあるため、  
**モチーフが途中で切れていても同じ順序で現れる場合**を認識する必要がある。  

- **部分列（subsequence）**とは：  
  文字の順序は保たれているが、必ずしも連続していない部分配列。  
  例：`ACG` は `TATGCTAAGATC` の部分列（位置は 2, 5, 9）。
- 同じ部分列が複数の位置の組み合わせで出現することがある。  
  例：`ACG` は `AACCGGTT` に 8 通り存在。

## 問題

- **入力：**  
  FASTA形式の2つのDNA配列 s, t（各長さ ≤ 1000 bp）

- **出力：**  
  s 内で t が部分列として現れる位置（1始まりのインデックス）。  
  解が複数ある場合は、そのうち1つを出力すればよい。

---

## サンプルデータセット

**入力：**
```
>Rosalind_14
ACGTACGTGACG
>Rosalind_18
GTA

**出力：**
```
3 8 10
```

In [None]:
def read_fasta(fasta: str) -> dict[str, str]:
    sequences = {}
    header = None
    seq = []
    fasta = fasta.splitlines()
    for line in fasta:
        if line.startswith('>'):
            if header is not None:
                sequences[header] = ''.join(seq)
            header = line[1:]  # Remove '>'
            seq = []
        else:
            seq.append(line)
    if header is not None:
        sequences[header] = ''.join(seq)  # Add the last sequence
    return sequences

In [None]:
fasta = """>Rosalind_14
ACGTACGTGACG
>Rosalind_18
GTA
"""

In [None]:
S, T = read_fasta(fasta).values()
print(S)

In [None]:
ans = []
i_T = 0
for i, s in enumerate(S):
    if s == T[i_T]:
        i_T += 1
        ans.append(i + 1)
    if i_T == len(T):
        break
print(' '.join(map(str, ans)))

In [None]:
from pathlib import Path
fasta = Path("rosalind_sseq.txt").read_text()
S, T = read_fasta(fasta).values()
print(S)

In [None]:
ans = []
i_T = 0
for i, s in enumerate(S):
    if s == T[i_T]:
        i_T += 1
        ans.append(i + 1)
    if i_T == len(T):
        break
print(' '.join(map(str, ans)))