# 章節 15：維度處理

## 15.12 覆蓋的範圍

最後一個問題是「需要多少額外的讀數才能將觀察到的物種的比例增加到給定的門檻值？」

要回答此問題，我們需要另一個 RunSimulation 的版本計算觀察到的物種比例而非新觀察到的物種。

<pre>
# class Subject
    def RunSimulation(self, num_reads):
        m, seen = self.GetSeenSpecies()
        n, observations = self.GenerateObservations(num_reads)
        curve = []
        for k, obs in enumerate(observations):
            seen.add(obs)
            frac_seen = len(seen) / float(n)
            curve.append((k+1, frac_seen))
            
        return curve
</pre>

接下來我們迭代每個 curve 產生一個字典 d，它把 k 個測序片段對應到一序列的 fracs ，也就是一序列在看到 k 個測序片段後觀察到物種的比例。

<pre>
    def MakeFracCdfs(self, curves):
        d = {}
        for curve in curves:
            for k, frac in curve:
                d.setdefault(k, []).append(frac)
                
        cdfs = {}
        for k, fracs in d.iteritems():
            cdf = thinkbayes.MakeCdfFromList(fracs)
            cdfs[k] = cdf
            
        return cdfs
</pre>

對每一個 k 我們將 fracs 產生一個 Cdf；這個 Cdf 代表看到 k 個測序片段後觀察到物種的覆蓋比例分佈。Cdf 可以知道在某個門檻值之下的機率，所以互補的 Cdf 可以知道超過門檻值得機率。

In [2]:
#TODO

上圖是不同 k 值互補 CDFs 的圖型。

To read this figure, select the level of coverage you want to achieve along the x-axis. As an example, choose 90%.
Now you can read up the chart to find the probability of achieving 90% coverage after k reads. For example, with 200 reads, you have about a 40% chance of getting 90% coverage. With 1000 reads, you have a 90% chance of getting 90% coverage.

有了上圖，我們已經回答了構成看不見的物種問題的四個問題。為了驗證本章的演算法在真實資料的表現，作者需要處理更多的細節。但本章節已經太多篇幅累，所以這邊就此打住。

你可以在此閱讀作者如何解決此問題：http://allendowney.blogspot.com/2013/05/belly-button-biodiversity-end-game.html

你可以在此下載作者的程式碼：http://thinkbayes.com/species.py
