## 求めるもの

**言語学的複雑性 lc(s) を出力せよ。**

言語学的複雑性は簡単に言うと, 任意の長さk<=nについて
1. 文字列 S に含まれる相異なる部分文字列の数 (部分文字列数, sub_k(s))
2. その文字列の長さとアルファベットのサイズから**理論上可能**な部分文字列の最大数  (最大部分文字列数, m(a,k,n))

の比率を各々求め, その合計をとったものである.  
つまり任意のkについては，Sが長さkの文字列（理論上可能な）をどのくらい含んでいるかということ

## 定義
文字列 s の **言語学的複雑性（linguistic complexity）** lc(s) は

- m(a, n) = Σ_{k=1..n} m(a, k, n) = 40
- sub(s)  = Σ_{k=1..n} sub_k(s)  = 35
として、

lc(s) = sub(s) / m(a, n)

で定義される。これは、s で観測された部分文字列が、理論上可能な部分文字列の総数に対してどれだけの割合を占めるか（％）を表す。  
なお 0 < lc(s) < 1 であり、lc(s) が小さいほど s はより反復的（repetitive）である。

>lc(s) が小さいほど s はより反復的（repetitive）である。

あるkについてみてみると直観的にわかる．k = 1の場合  

S = "AAAA", A = {A, C, G, T}   
lc = {A} / {A, C, G, T} = 0.25 となり，かなり反復的であることがわかる．


S = "ATGC", A = {A, C, G, T}  
lc = {A, T, G, C} / {A, C, G, T} = 1.0 となり，反復的ではないことがわかる．

## 例

DNA 文字列（a = 4）として s = ATTTGGATT を考える。  
表より、

lc(s) = 35 / 40 = 0.875

となる。

| k | sub_k(s) | m(a, k, n) |
|---:|---:|---:|
| 1 | 3 | 4 |
| 2 | 5 | 8 |
| 3 | 6 | 7 |
| 4 | 6 | 6 |
| 5 | 5 | 5 |
| 6 | 4 | 4 |
| 7 | 3 | 3 |
| 8 | 2 | 2 |
| 9 | 1 | 1 |
| **合計** | **35** | **40** |



## 与えられるもの

長さが最大 100 kbp の DNA 文字列 s。

In [1]:
def sub(seq):
    substrings = set()
    n = len(seq)

    # 部分文字列の長さk. 例の表のように1からnまで
    for k in range(1, n + 1):
        # 開始位置iから長さkの部分文字列を抽出状態であればすべて追加，いわゆるsub_k(s)の用意
        for i in range(0, n - k + 1):      
            substrings.add(seq[i:i + k])

    #sequenceで追加して，文字列数を返す
    return len(substrings)


In [2]:
sample_seq = "ATTTGGATT"

In [3]:
sub(sample_seq)

35

理論上可能な部分文字列数は以下の3要素によって決まり，1,2の要素に制限される．  
1. 与えられる文字列の長さ n
2. アルファベットの集合の要素数 a
3. 部分文字列の長さ k


例1, 長さ1の部分配列  
a = 4の時，理論上可能な部分配列数は4^1 = 4個である．  
n = 2とすると，2-1+1 = 2通りの選び方があるので，理論上可能な部分配列数は2個である．

例2, 長さ2の部分配列  
a = 4の時，理論上可能な部分配列数は4^2 = 16個である．  
n = 100とすると，100-2+1 = 99通りの選び方があるので，理論上可能な部分配列数は99個である．  

例3,長さ100の部分配列  
a = 4の時，理論上可能な部分配列数は4^100個である．  
n = 100とすると，100-100+1 = 1通りの選び方があるので，理論上可能な部分配列数は1個である．

一般化，長さkの部分配列  
a = aの時，理論上可能な部分配列数はa^k個である．  
n = nとすると，n-k+1通りの選び方があるので，理論上可能な部分配列数はn-k+1個である．  

これらはどちらか小さい方が理論上可能な部分配列数となるので, min(a^k, n-k+1)で求められる．

In [4]:
def m(a, n):
    total = 0
    for k in range(1, n + 1):
        total += min(a**k, n - k + 1)
    return total

In [5]:
m(4, len(sample_seq))

40

In [6]:
def lc(alpha_size, sequence):
    n = len(sequence)
    return sub(sequence) / m(alpha_size, n)

In [7]:
lc(4, sample_seq)

0.875