# 추정1

### (1) 주사위 문제

4면체, 6면체, 8면체, 12면체, 20면체 주사위가 든 상자가 있다고 해보자 <br />
상자에서 임의로 주사위 하나를 집어서 던졌더니 6이 나왔다. <br />
이 경우 각 주사위를 선택했을 확률은 어떻게 될까?

3단계로 구분하여 접근한다.
- 가설을 나타내자
- 데이터를 나타내자
- 우도 함수를 작성하자

#### 전체 코드

In [1]:
from thinkbayes2 import Suite

class Dice(Suite):
    """Represents hypotheses about which die was rolled."""

    def Likelihood(self, data, hypo):
        """Computes the likelihood of the data under the hypothesis.

        hypo: integer number of sides on the die
        data: integer die rolla
        """
        if hypo < data:
            return 0
        else:
            return 1.0/hypo


def main():
    suite = Dice([4, 6, 8, 12, 20])

    suite.Update(6)
    print('After one 6')
    suite.Print()

    for roll in [4, 8, 7, 7, 2]:
        suite.Update(roll)

    print('After more rolls')
    suite.Print()


if __name__ == '__main__':
    main()


After one 6
4 0.0
6 0.3921568627450981
8 0.29411764705882354
12 0.19607843137254904
20 0.11764705882352944
After more rolls
4 0.0
6 0.0
8 0.9158452719690099
12 0.08040342579700499
20 0.0037513022339850668


2장에서는 가설과 데이터를 문자열로 나타냈지만, 주사위 문제는 숫자로 표현하겠다. <br />
정확히 정수 4, 6, 8, 12, 20으로 가설을 나타내겠다.

In [None]:
    suite = Dice([4, 6, 8, 12, 20])

그리고 정수 1부터 20까지를 사용하여 데이터를 나타낼 것이다. <br />
이렇게 표현하면 우도 함수를 작성하기가 쉬워진다.

In [None]:
class Dice(Suite):
    def Likelihood(self, data, hypo):
        if hypo < data:
            return 0
        else 
            return 1.0/hypo

위처럼 Likelihood가 작동한다. <br />
hypo < data는 주사위를 굴려서 나온 값이 주사위의 면수 보다 크다는 말이다. <br />
이런 일은 발생할 수 없으므로 우도는 0이다. <br />
다른 경우는 hyop-면체의 주사위가 있을 때 각 데이터의 값이 나 올 수 있는 확률은 데이터에 상관없이 답은 1/hypo이다.

다음은 6이 나왔을 때를 가정한 데이터 갱신 코드다.

In [None]:
suite.Update(6)

몇 번 더 던져서 6, 8, 7, ,7 ,5, 4가 나왔다면 어떨까?

In [None]:
    for roll in [6, 8, 7, 7, 5, 4]:
        suite.Update(roll)

### (2)기관차 문제

"각 철도에는 이를 지나가는 기관차에 1부터 N까지의 순서로 번호를 붙인다. <br />
어느날 60호 기관차를 보았다. 이 때 이 철도에는 몇 개의 기관차가 지나가는지 추측해보자."

관측 결과에 따르면, 이 철도에는 60개 이상의 기관차가 있다는 것을 알 수 있다. <br />
하지만 얼마나 더 많을까? <br />

베이지안 추론법에 따라 2단계로 해결한다.
- 데이터를 보기전에 N에 대해서 알고 있는 것이 무엇인가?
- N에 어떤 값이 주어졌을 때 관측한 데이터(60호 기관차)의 우도는 어떻게 되는가? <br />
첫 번째 질문의 답은 사전확률, 두 번째 질문의 답은 우도이다.

#### 전체 코드

In [2]:
from dice import Dice
import thinkplot


class Train(Dice):
    """Represents hypotheses about how many trains the company has.

    The likelihood function for the train problem is the same as
    for the Dice problem.
    """


def main():
    hypos = range(1, 1001)
    suite = Train(hypos)

    suite.Update(60)
    print(suite.Mean())

    thinkplot.PrePlot(1)
    thinkplot.Pmf(suite)
    thinkplot.Save(root='train1',
                   xlabel='Number of trains',
                   ylabel='Probability',
                   formats=['pdf', 'eps'])


if __name__ == '__main__':
    main()


333.41989326371095
Writing train1.pdf
Writing train1.eps




사전 확률을 간단한 가정으로 시작한 다음 이를 변경해 가자. <br />
일단 N은 1부터 1,000까지 어떤 값이든 동일한 확률로 선택될 수 있다고 가정하자.

In [None]:
    hypos = xrange(1, 1001)

이제 우도 함수만 있으면 된다. <br /> 
N개의 기관차 무리중에 60호 기관차를 볼 확률은 얼마인가? <br />
각 기관차를 볼 확률이 동일하다면 그 확률은 1/N이다.

우도 함수는 다음과 같다.

In [None]:
class Train(Suite):
    def Likelihood(self, data, hypo):
        if hypo < data:
            return 0
        else:
            return 1.0/hypo

In [None]:
갱신 함수는 다음과 같다.

In [None]:
suite = Train(hypos)
suite.Update(60)

출력하기엔 가설 수가 너무 많으므로 아래의 그래프로 나타내었다. <br />
당연히 60이하의 모든 값은 제거한다. <br />
추측하기에 가장 가능성이 높은 값은 60이다.<br />

<img src="./Images/1.png" width=400 />

하지만 원하는 것은 이게 아니다. <br />
다음은 사후 확률의 평균을 계산하는 것이다.

In [None]:
def Mean(suite):
    total = 0
    for hypo, prob in suite.Items():
        total += hypo*prob
    return total

In [None]:
print(Mean(suite))
print(suite.Mean())

### (3) 사전 확률로 할 수 있는 것

기관차 문제를 해결하기 위해, 몇 가지 임의적인 가설을 만들어 봐야한다. <br />
예를들면, 균등 분포라고 설정하거나 상세한 설정 정의하에 1,000개를 고르는 대신 <br />
1부터 1,000까지의 균등 사전 확률을 만든다.

철도 회사에서 기관차 1,000대를 운행한다고 생각하는 게 이상한 것은 아니지만, 합리적인 사람이라면 <br />
이보다 많거나 적게 추측할 수도 있다. 따라서 이후 두 가지 방식으로 진행 할 수 있다.

데이터가 적다면(관측을 한 번만 했다면) 사후 확률 분포는 사전 확률 분포에 민감하게 반응한다.

- 데이터를 더 확보할 것
- 배경 지식을 더 확보할 것

#### 전체 코드

In [5]:
from dice import Dice
import thinkplot

class Train(Dice):
    """The likelihood function for the train problem is the same as
    for the Dice problem."""


def Mean(suite):
    total = 0
    for hypo, prob in suite.Items():
        total += hypo * prob
    return total


def MakePosterior(high, dataset):
    hypos = range(1, high+1)
    suite = Train(hypos)
    suite.name = str(high)

    for data in dataset:
        suite.Update(data)

    thinkplot.Pmf(suite)
    return suite


def main():
    dataset = [30, 60, 90]

    for high in [500, 1000, 2000]:
        suite = MakePosterior(high, dataset)
        print(high, suite.Mean())

    thinkplot.Save(root='train2',
                   xlabel='Number of trains',
                   ylabel='Probability')


if __name__ == '__main__':
    main()

500 151.84958795903822
1000 164.30558642273363
2000 171.33818109150937
Writing train2.pdf
Writing train2.eps




데이터가 더 많다면 다른 사전 확률 기반의 사후 확률도 수렴하는 경향을 보일 것이다. <br />
예를들어, 60호 기관차에 이어 30번과 90번 기관차도 봤다고 해보자 그러면 다음과 같이 분포를 갱신할 수 있다. 

In [None]:
    for data in [60, 30, 90]:
        suite.Update(data)

### (4) 사전 확률의 대안

만약 데이터를 더 확보할 수 없다면 다른 옵션으로 배경지식을 많이 수집해서 사전 확률을 개선하는 방식이 있다. <br />
예를 들어, 로버트 엑스텔이 사이언스 지에 기고한 멱법칙을 사용한다.

이 법칙에 따르면 기관차가 10대 미만인 회사가 1,000개일 때 100대의 기관차를 소유한 회사는 100개일 것이고 <br />
1,000대의 기관차를 소유한 회사는 10개, 10,000대의 기관차를 소유한 회사는 1개다.

수학적으로 멱법칙은 주어진 규모의 회사의 크기는 규모의 분포의 역수라는 뜻이다.

<img src="./Images/2.png" width=200 />

위와 같이 PMF(x)는 x의 확률 누적 함수고 알파는 보통 1에 가깝게 설정되는 매개변수이다.
멱법칙에 따르게 되면 사후 확률은 선택값에 대한 민감도가 낮아진다.

### 전체 코드

In [6]:
import thinkbayes2
import thinkplot

from dice import Dice


class Train(Dice):
    """Represents hypotheses about how many trains the company has."""


class Train2(Dice):
    """Represents hypotheses about how many trains the company has."""

    def __init__(self, hypos, alpha=1.0):
        """Initializes the hypotheses with a power law distribution.

        hypos: sequence of hypotheses
        alpha: parameter of the power law prior
        """
        thinkbayes2.Pmf.__init__(self)
        for hypo in hypos:
            self.Set(hypo, hypo**(-alpha))
        self.Normalize()


def MakePosterior(high, dataset, constructor):
    """Makes and updates a Suite.

    high: upper bound on the range of hypotheses
    dataset: observed data to use for the update
    constructor: function that makes a new suite

    Returns: posterior Suite
    """
    hypos = range(1, high+1)
    suite = constructor(hypos)
    suite.name = str(high)

    for data in dataset:
        suite.Update(data)

    return suite


def ComparePriors():
    """Runs the analysis with two different priors and compares them."""
    dataset = [60]
    high = 1000

    thinkplot.Clf()
    thinkplot.PrePlot(num=2)

    constructors = [Train, Train2]
    labels = ['uniform', 'power law']

    for constructor, label in zip(constructors, labels):
        suite = MakePosterior(high, dataset, constructor)
        suite.name = label
        thinkplot.Pmf(suite)

    thinkplot.Save(root='train4',
                xlabel='Number of trains',
                ylabel='Probability')

def main():
    ComparePriors()

    dataset = [30, 60, 90]

    thinkplot.Clf()
    thinkplot.PrePlot(num=3)

    for high in [500, 1000, 2000]:
        suite = MakePosterior(high, dataset, Train2)
        print(high, suite.Mean())

    thinkplot.Save(root='train3',
                   xlabel='Number of trains',
                   ylabel='Probability')

    interval = suite.Percentile(5), suite.Percentile(95)
    print(interval)

    cdf = thinkbayes2.Cdf(suite)
    interval = cdf.Percentile(5), cdf.Percentile(95)
    print(interval)


if __name__ == '__main__':
    main()



Writing train4.pdf
Writing train4.eps
500 130.70846986256004
1000 133.2752313750312
2000 133.99746308073065
Writing train3.pdf
Writing train3.eps
(91, 243)
(91, 243)


멱법칙 사전 확률은 다음과 같이 만들 수 있다.

In [None]:
class Train(Dice):
    def __init__(self, hypos, alpha=1.0):
        Pmf.__init__(self)
        for hypo in hypos:
            self.Set(hypo, hypo**(-alpha))
        self.Normalize()

다음은 사전 확률을 생성하는 코드다.

In [None]:
    hypos = range(1, 1001)
    suite = Trian(hypos)

In [None]:
상한값은 임의적이지만, 멱법칙에 따르게 되면 사후 확률은 선택값에 대해 민감도가 낮아진다.

<img src="./Images/3.png" width=400 />

- 파란색: 멱법칙에 의한 새로운 사후 확률
- 하늘색: 기존 균등 분포에 의한 사후 확률

### (5) 신뢰 구간

구간의 경우 보통 미확인 값이 어느 두 값 사이에 올 확률이 90%인 값을 나타낸다. 이 값들이 신뢰구간을 정의한다. <br />
신뢰구간을 계산하는 간단한 방법은 사후 분포 확률을 더한 후 그 값이 5%와 95%에 해당하는 값을 기록하는 것이다. <br />
즉, 5분위와 95분위 값이다.

다음은 분위값을 계산하는 함수이다. 

In [None]:
def Percentile(pmf, percentage):
    p = percentage / 100.0
    total = 0
    for val, prob in pmf.Items():
        total += prob
        if total >= p:
            return val

In [None]:
    interval = Percentile(suite, 5), Percentile(suite, 95)
    print(interval)

### (6) 누적 분포 함수

앞 장에서 Pmf에서 반복해서 값과 확률을 통해 분위수를 반복적으로 계산하였다. <br />
만약 몇 분위수 이상을 계산해야 하는 경우라면, 누적 분포 함수나 Cdf를 사용하는 것이 훨씬 효율적이다.

Cdf는 분포에 대해 동일한 정보를 가진다는 면에서 Pmf와 동일하고, 언제나 한 쪽에서 다른 쪽으로 바꾸는 것이 가능하다.<br />
Cdf의 장점은 분위수를 조금 더 효율적으로 계산할 수 있다는 것이다.

Pmf에서는 이에 대응하는 Cdf를 만드는 메서드를 제공한다.

In [None]:
cdf = suite.MakeCdf()

In [None]:
그리고 Cdf는 Percentile라는 함수를 제공한다.

In [None]:
    interval = cdf.Percentile(5), cdf.Percentile(95)

Pmf를 Cdf로 바꾸는 데에 값의 개수에 비례해 시간이 사용되는 len(pmf)를 사용한다. <br />
Cdf는 정렬된 리스트에 값과 확률을 저장하므로 값에 해당하는 확률을 찾는 데에 '로그의 시간'이 소요된다. <br />
즉 값의 개수의 로그에 비례해서 시간이 소요된다는 것이다. <br />
확률에 해당하는 값을 찾는 것 역시 로그값에 비례하므로 많은 계산에서 Cdf가 효율적이다.

### (8) 토의
베이지안의 선행 분포를 택하는 방법은 두 가지가 있다. 
- 정보적: 문제의 배경 지식을 가장 잘 표현하는 선행 분포를 고르는 것을 추천 <br />
단점으로 사람들이 서로 다른 배경 지식을 사용할 수 있음 (주관적)
- 비 정보적: 데이터가 최대한 말 하도록 가능한 한 제약을 두지 않는것
    
어차피 베이지안의 모델 판단에는 주관이 들어갈 수 밖에 없으므로 분석자의 주관적 판단 아래 <br />
정보적인 선행 분포를 택하는 것이 오히려 더 합리적이다.