# 042 Matching Random Motifs
## 課題背景
- モチーフは確率的に生じる可能性があり、それがどのくらいの頻度で生じるのかを定量することが大切である
- モチーフとして有名クラスとして、プロモーターや、転写開始領域が知られている。
- プロモーターは遺伝子の始まりの少し前に存在し、RNA polymerase の最初の結合サイト、転写開始点となる。
- したがって、プロモーターの探索は、ORF を発見した後にそれが遺伝子かどうかかを予測する第二段階である
- しかし、プロモーターを定義する、配列上のわかりやすいルールはない。

- 大腸菌では、プロモーターの - 35 bpと -10 bp の配列を平均化するとモチーフがある。
- しかし、それらのほとんどは平均化したモチーフとは完全一致せず、どこかは違う。
- 細菌のプロモーターは非常に多様で、その -35 -10 というのもずれることがある

- 真核生物のプロモーターはそれよりも難しい
- ほとんどのプロモーターにはTATAボックス（コンセンサス配列：TATAAA）が存在し、その前方にはB認識要素（BRE）と呼ばれる領域が位置する。
- これらの要素は通常、転写開始点から40塩基対以内の範囲に存在する。
- 真核生物のプロモーターには追加の調節領域が多数存在し得る。これらは遺伝子の上流数千塩基対離れた位置にまで見出されることがある。

## 課題概要 
- 目的は、与えられたモチーフがランダムなゲノムで起きる確率を求めることである。
- 難しい理由は、モチーフは短いので、比較する組み合わせがとても多いことである
- A の余事象を Ac とすると P(A)+P(Ac) = 1 である
- Given: 
  - 正の整数 N <= 100000,
  - 0 < x < 1
  - 10bp 以下の DNA 配列 s
- Return
  - 長さがsと同じで , GC content x の配列が N個ランダムに作成されたとき、少なくとも一つの配列が s と一致する確率
  - 同一の配列が複数回生成されることを許す = 各試行は独立である
  - 注意点 ここでいう GC content は出来上がった配列の GC 率ではなく、各塩基が G or C である確率のこと

## 解法
- GC 率は、普段の GC 率ではないので、一つ一つ見ていく必要がある

In [9]:
N = 90000
s = "ATAGCCGA"
x = 0.6

In [10]:
def calc_proba(N,s,x):
    proba = 1
    for base in s:
        if base == "A" or base == "T":
            # A or Tの時は、(1-x)/2の確率で出現する
            proba *= (1-x)/2
        elif base == "G" or base == "C":
            # G or Cの時は、x/2の確率で出現する
            proba *= x/2
    ans = 1 - (1-proba)**N
    return ans

In [11]:
print(f"{calc_proba(N,s,x):.3f}")

0.689
