# 配列と GC 含量を用いた確率計算

## 配列
配列（array）とは、順序付けられたオブジェクト（数値、文字列、他の配列など）の集まりを格納する構造です。  
配列 **A** の k 番目の値を **A[k]** と表記します。  

配列は、1 行しか持たない行列と考えることもできます。

---

## ランダム文字列
**ランダム文字列**は、各記号を選択する確率があらかじめ定められた記号の出現頻度に基づいて構築されます。

---

## GC 含量
DNA 文字列をランダムに構築する場合、**GC 含量（GC-content）**が自然な記号頻度を与えます。  

- GC 含量が **x** のとき：  
  - **C** と **G** の出現頻度 = `x / 2`  
  - **A** と **T** の出現頻度 = `(1 − x) / 2`  

### 例
GC 含量が **40%** の場合：
- 次に選ばれる記号が **G または C** である確率 = `0.2`  
- 次に選ばれる記号が **A または T** である確率 = `0.3`  

---

## 小さい確率の扱い
実際には、多くの確率が非常に小さな値になることがあります。  
小さな確率を扱いやすくするために、それらを比較のために「拡大」してくれる関数に代入します。  

ここで用いるのが **常用対数（log10）** です。  

- 定義： `log10(x)` （x > 0）  
- 意味：10 を何乗すれば **x** になるかを表す。  

---

## 常用対数の性質
関数 **y = log10(x)** のグラフ（図 1 を参照）を見ると：

- `0 < x < 1` の範囲では、  
  **対数値は −∞ から 0 の間に写像される**。  
- **x が 0 に近いほど log10(x) → −∞**  
- **x が 1 に近いほど log10(x) → 0**  

したがって、**小さな確率値を比較するために常用対数を用いる**ことにします。

---

## 問題設定
- **与えられるもの**:  
  - 長さが最大 **100 bp** の DNA 文字列 **s**  
  - 0 から 1 の間の数を最大 20 個含む配列 **A**  

- **求めるもの**:  
  - 配列 **B** （A と同じ長さ）  
  - 各要素 **B[k]** は、GC 含量 **A[k]** をもとに構築されたランダム文字列が **s** と完全一致する確率の常用対数。  


In [1]:
import math

def count_gc(seq):
    gc_conts = seq.count('G') + seq.count('C')
    return gc_conts

def calculate_probability(seq,gc_prob):
    at_prob = (1 - gc_prob) / 2
    gc_prob = gc_prob / 2
    prob = (gc_prob ** count_gc(seq)) * (at_prob ** (len(seq) - count_gc(seq)))
    log_prob = math.log10(prob)
    return log_prob

In [2]:
def main(seq, prob_list):
    results = []
    for prob in prob_list:
        results.append(calculate_probability(seq, prob))
    return results

In [3]:
sample_seq =  "ACGATACAA"
sample_prob = [0.129, 0.287, 0.423, 0.476, 0.641, 0.742, 0.783]

In [4]:
main(sample_seq, sample_prob)

[-5.7373919000321045,
 -5.21708709166266,
 -5.263193979916315,
 -5.360461380911992,
 -5.958129180949464,
 -6.628340009359368,
 -7.009226271710824]