# 問題文

## 概要

DNA配列を長さ **k** の部分配列（k-mer）に分解し、  
それぞれの k-mer がどのくらい出現するかを数える問題。  

DNA配列長を n とすると、得られる k-mer の数は **n−k+1** 個。  
各 k-mer の出現頻度を **辞書順（A < C < G < T）** に並べた配列として表す。

## 背景

- **1-mer**（塩基頻度）は GC 含量の一般化。  
- **2-mer, 3-mer, 4-mer** はそれぞれジヌクレオチド・トリヌクレオチド・テトラヌクレオチド組成に相当。  
- GC 含量や k-mer 組成は、
  - 未知DNA領域の同定  
  - エクソン領域（GCリッチ）の検出  
  - ゲノム断片の再構成（アセンブリ）  
  に重要。  
- k が大きいほど、その配列特有の「指紋（fingerprint）」として識別力が高まる。


## 問題

1. **アルファベット** `{A, C, G, T}` からすべての k-mer（4^k 通り）を生成。  
2. それらを辞書順に並べる。  
3. 与えられた DNA 配列 s の中で各 k-mer の出現回数を数える。  
4. 結果を整数配列として出力する。


---

## サンプルデータセット

**入力：**
```
>Rosalind_6431
CTTCGAAAGTTTGGGCCGAGTCTTACAGTCGGTCTTGAAGCAAAGTAACGAACTCCACGG
...
```

**出力：**
```
4 1 4 3 0 1 1 5 1 3 1 2 2 1 2 0 ...
```

In [2]:
def read_fasta(fasta: str) -> dict[str, str]:
    sequences = {}
    header = None
    seq = []
    fasta = fasta.splitlines()
    for line in fasta:
        if line.startswith('>'):
            if header is not None:
                sequences[header] = ''.join(seq)
            header = line[1:]  # Remove '>'
            seq = []
        else:
            seq.append(line)
    if header is not None:
        sequences[header] = ''.join(seq)  # Add the last sequence
    return sequences

In [3]:
fasta = """>Rosalind_6431
CTTCGAAAGTTTGGGCCGAGTCTTACAGTCGGTCTTGAAGCAAAGTAACGAACTCCACGG
CCCTGACTACCGAACCAGTTGTGAGTACTCAACTGGGTGAGAGTGCAGTCCCTATTGAGT
TTCCGAGACTCACCGGGATTTTCGATCCAGCCTCAGTCCAGTCTTGTGGCCAACTCACCA
AATGACGTTGGAATATCCCTGTCTAGCTCACGCAGTACTTAGTAAGAGGTCGCTGCAGCG
GGGCAAGGAGATCGGAAAATGTGCTCTATATGCGACTAAAGCTCCTAACTTACACGTAGA
CTTGCCCGTGTTAAAAACTCGGCTCACATGCTGTCTGCGGCTGGCTGTATACAGTATCTA
CCTAATACCCTTCAGTTCGCCGCACAAAAGCTGGGAGTTACCGCGGAAATCACAG
"""

In [9]:
# S, = read_fasta(fasta).values()
S = next(iter(read_fasta(fasta).values()))
print(S)

CTTCGAAAGTTTGGGCCGAGTCTTACAGTCGGTCTTGAAGCAAAGTAACGAACTCCACGGCCCTGACTACCGAACCAGTTGTGAGTACTCAACTGGGTGAGAGTGCAGTCCCTATTGAGTTTCCGAGACTCACCGGGATTTTCGATCCAGCCTCAGTCCAGTCTTGTGGCCAACTCACCAAATGACGTTGGAATATCCCTGTCTAGCTCACGCAGTACTTAGTAAGAGGTCGCTGCAGCGGGGCAAGGAGATCGGAAAATGTGCTCTATATGCGACTAAAGCTCCTAACTTACACGTAGACTTGCCCGTGTTAAAAACTCGGCTCACATGCTGTCTGCGGCTGGCTGTATACAGTATCTACCTAATACCCTTCAGTTCGCCGCACAAAAGCTGGGAGTTACCGCGGAAATCACAG


In [None]:
# https://github.com/larc-tsukuba/Rosalind/blob/main/022-LEXF/LEXF.ipynb
from itertools import product

def get_possible_str(_input:list[str], n:int) -> list[str]:
    sorted_input = sorted(_input)
    all_permutations = product(sorted_input, repeat=n)
    result = []
    for p in all_permutations:
        string = []
        for s in p:
            string.append(s)
        result.append("".join(string))
    return result

In [12]:
ans = {k: 0 for k in get_possible_str(['A', 'C', 'G', 'T'], 4)}

In [14]:
for i in range(len(S) - 4 + 1):
    kmer = S[i:i+4]
    ans[kmer] += 1

In [15]:
print(*list(ans.values()))

4 1 4 3 0 1 1 5 1 3 1 2 2 1 2 0 1 1 3 1 2 1 3 1 1 1 1 2 2 5 1 3 0 2 2 1 1 1 1 3 1 0 0 1 5 5 1 5 0 2 0 2 1 2 1 1 1 2 0 1 0 0 1 1 3 2 1 0 3 2 3 0 0 2 0 8 0 0 1 0 2 1 3 0 0 0 1 4 3 2 1 1 3 1 2 1 3 1 2 1 2 1 1 1 2 3 2 1 1 0 1 1 3 2 1 2 6 2 1 1 1 2 3 3 3 2 3 0 3 2 1 1 0 0 1 4 3 0 1 5 0 2 0 1 2 1 3 0 1 2 2 1 1 0 3 0 0 4 5 0 3 0 2 1 1 3 0 3 2 2 1 1 0 2 1 0 2 2 1 2 0 2 2 5 2 2 1 1 2 1 2 2 2 2 1 1 3 4 0 2 1 1 0 1 2 2 1 1 1 5 2 0 3 2 1 1 2 2 3 0 3 0 1 3 1 2 3 0 2 1 2 2 1 2 3 0 1 2 3 1 1 3 1 0 1 1 3 0 2 1 2 2 0 2 1 1


In [16]:
from pathlib import Path
fasta = Path("rosalind_kmer.txt").read_text()
# S, = read_fasta(fasta).values()
S = next(iter(read_fasta(fasta).values()))
print(S)

CTAGTACTCCGTATCAATGCGGGCTCCTAATGAGACCGTGACATCATGAGTAAGACAGGGATTCAAGCATTTCTAATAGCCAGATTGCACGGCAGAGCGAATTGAACATGTTCGGCTGCCATCCATATGAAATCCCCAAGTAAGCGGGTAGATGTGGTAACAGCGTTCCTCCCTGGGTAACTCGGATCAAGATGGACTACTTGGCATGTATCTCGGCGTACAGCGTAATGCAGACCAGTCCAGGCGTTTAGGCGCTGGGAGTTATCAGCGTCAGAGTTCTTACATCCGATCGGACTAACAGGACGAGCAGCCTTTGCATGGCACGGGGTAGGCGATATACGTTCCATCCATCATACGAGGAGATGGGCATACAATGCGCTTAGCTGCTGGAACTCGACCGAAAGTGAGCTTGCGTACAGTTTACAGTGTCTACATCCCTTATACACTCTTTTGACTGCGTTTGCTGCGGAGTTGTCATGTACCGTATTGAAGTTTATGCCACATCCCCCCAAAACCAATCTGTACTCGCGGGCCCCCGAAATTGATTCCGCGTCATCCAACCCCTTGGCTCAGTTTGCCCATTGACCCATTATACAGTCGGACAGAACCTCGACTGCACCAGTAGGGCCTGCGTGTGTCCATCTTATAGGGTAAATTACACGAGGTAAGCCGAATCTAACCTTGAGTAGTCTGGCTCATGCGAGGGGGATCGTAGCATGCTATAACCGTTACCACCATAATCAACAAGCTTCTTAAGCGACTGATTCTTATCCGATAACCTCGCAGTCACTAGCAGCCTCACGGTCCGCTGGCATCCCAAACACTACCTTAACCTGTTAGTTAGCCACAGTTCCGGGGTTCAATAATATACGTTCAATAATGCGACGAAGAAAGAGTGTCCCGAGGTTGGGGTCAGCAGAGCGTAGTGTGACTGCTTTACACTGATGTTGTCACTGTCCATATAAACAGCAGAACGGCGAGGGACCTTGCTATTCATAAC

In [17]:
ans = {k: 0 for k in get_possible_str(['A', 'C', 'G', 'T'], 4)}

for i in range(len(S) - 4 + 1):
    kmer = S[i:i+4]
    ans[kmer] += 1

print(*list(ans.values()))

340 359 322 318 330 319 327 362 322 330 315 350 305 312 340 317 330 364 331 306 348 316 323 313 313 325 329 324 338 321 333 325 343 303 322 357 329 336 320 324 325 319 341 301 342 319 317 346 332 319 331 306 312 348 282 307 331 315 349 308 312 343 302 319 289 321 317 330 324 331 328 347 355 354 303 342 329 326 322 285 304 346 331 338 312 331 310 322 354 308 301 327 323 323 319 312 329 323 303 310 302 304 313 341 312 318 303 332 346 298 307 326 358 296 339 296 318 309 333 316 274 316 335 350 360 301 324 323 351 324 318 300 337 319 307 317 303 322 329 286 322 301 370 311 309 312 350 311 363 301 322 313 315 313 329 326 314 308 314 356 310 318 343 335 320 315 328 329 326 309 325 315 326 302 334 293 343 360 319 322 318 327 301 293 303 326 330 334 347 336 313 289 359 334 360 326 340 331 329 291 345 303 339 346 332 310 271 363 314 308 342 307 296 327 335 329 283 314 306 300 313 324 309 315 311 336 272 302 331 344 322 298 343 347 306 307 330 320 335 320 346 316 344 352 323 303 287 345 313 338 