# 000-DNA

## 分子生物学の迅速な入門

すべての生物は細胞から構成されており、細胞は生命の基本単位と考えられている。真核細胞の大半に存在する「核」は、150年前に細胞活動の中心として特定された。光学顕微鏡で観察すると、核は細胞内で暗く見える部分にすぎないが、倍率を上げると「クロマチン」と呼ばれる巨大分子の混合物で満たされていることがわかる。有糸分裂中には、クロマチンの多くが凝縮し、「染色体」と呼ばれる細長いひも状構造になる（図1参照）。

クロマチンに含まれる巨大分子の一種が「核酸（nucleic acids）」である。20世紀初頭の研究により、核酸は同様の構造をもつ小さな単位（モノマー）が連なった「ポリマー（高分子）」であることが明らかになった。核酸のポリマーは細長い構造をしているため、「ストランド（鎖）」と呼ばれることが多い。

核酸のモノマーは「ヌクレオチド」と呼ばれ、ストランドの長さの単位（nt）として使われる。1つのヌクレオチドは以下の3つの部分から構成される：

- 糖（sugar）分子  
- 負電荷をもつリン酸（phosphate）  
- 塩基（nucleobase、略して「base」）

ポリマー化は、あるヌクレオチドの糖と次のヌクレオチドのリン酸が結合することで進行し、核酸ストランドの「糖-リン酸骨格」が形成される。重要なのは、特定の種類の核酸では糖とリン酸は常に同じで、違いは塩基の種類だけであるという点である。そのため、塩基の並び順（＝一次構造）によって核酸ストランドが定義される。

例として図2はデオキシリボ核酸（DNA）のストランドを示しており、DNAでは糖は「デオキシリボース」、塩基は以下の4種類である：

- アデニン（A）  
- シトシン（C）  
- グアニン（G）  
- チミン（T）

DNA はすべての生物（細菌を含む）に存在し、多くのウイルス（非生物とされる場合もある）にも見られる。そのため、**ゲノム（genome）**という語は「生物の染色体内に含まれる全DNAの総体」を意味する。


## 問題

**文字列**とは、あるアルファベット（記号の集合）から選ばれた記号を順番に並べたものである。文字列の長さは、その中に含まれる記号の数で定義される。

例：  
長さ21のDNA文字列（アルファベットは 'A', 'C', 'G', 'T'）：  
`"ATGCTTCAGAAAGGTCTTACG"`

**与えられるもの：**  
最大長1000 nt のDNA文字列 `s`

**返すべきもの：**  
文字列 `s` における 'A', 'C', 'G', 'T' の出現回数を、それぞれスペース区切りで並べた4つの整数として出力せよ。

## 回答例

In [5]:
# 入力DNA文字列
s = "AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"

## countを使う

In [6]:
count_A = s.count('A')
count_C = s.count('C')
count_G = s.count('G')
count_T = s.count('T')

print(count_A, count_C, count_G, count_T)

20 12 17 21


## 辞書を使う

In [9]:
counts = {"A": 0, "C": 0, "G": 0, "T": 0}

for base in s:
    counts[base] += 1

print(*counts.values())

# `*`はアンパック演算子と呼ばれていて、リストの要素を個別の引数に展開します

20 12 17 21


## defaultdictを使う

In [11]:
from collections import defaultdict

counts = defaultdict(int)

for base in s:
    counts[base] += 1

print(*counts.values())

20 17 12 21


## Counterを使う

In [10]:
from collections import Counter

counts = Counter(s)

print(*counts.values())

20 17 12 21
