### (1) 보스턴 브루인스 문제

미국 하키 리그 결승전에서 보스턴 브루인스와 벤쿠버 캐넉스가 7전 4선증제 챔피언십 시리즈 경기를 펼쳤다. <br />
보스턴은 처음 두 게임을 0-1, 2-1으로 지고 다음 두 게임에서는 8-1과 4-0으로 이겼다. <br /> 
시리즈의 이 시점에서, 보스턴이 다음 경기에서 이길 확률은 얼마고, 챔피언십에서 우승할 확률은 얼마인가?

#### 전체 코드

In [4]:
from __future__ import print_function, division

import math

import columns
import thinkbayes2
import thinkbayes2
import thinkplot


USE_SUMMARY_DATA = True

class Hockey(thinkbayes2.Suite):
    """Represents hypotheses about the scoring rate for a team."""

    def __init__(self, label=None):
        """Initializes the Hockey object.

        label: string
        """
        if USE_SUMMARY_DATA:
            # prior based on each team's average goals scored
            mu = 2.8
            sigma = 0.3
        else:
            # prior based on each pair-wise match-up
            mu = 2.8
            sigma = 0.85

        pmf = thinkbayes2.MakeNormalPmf(mu, sigma, 4)
        thinkbayes2.Suite.__init__(self, pmf, label=label)
            
    def Likelihood(self, data, hypo):
        """Computes the likelihood of the data under the hypothesis.

        Evaluates the Poisson PMF for lambda and k.

        hypo: goal scoring rate in goals per game
        data: goals scored in one period
        """
        lam = hypo
        k = data
        like = thinkbayes2.EvalPoissonPmf(k, lam)
        return like


def MakeGoalPmf(suite, high=10):
    """Makes the distribution of goals scored, given distribution of lam.

    suite: distribution of goal-scoring rate
    high: upper bound

    returns: Pmf of goals per game
    """
    metapmf = thinkbayes2.Pmf()

    for lam, prob in suite.Items():
        pmf = thinkbayes2.MakePoissonPmf(lam, high)
        metapmf.Set(pmf, prob)

    mix = thinkbayes2.MakeMixture(metapmf, label=suite.label)
    return mix


def MakeGoalTimePmf(suite):
    """Makes the distribution of time til first goal.

    suite: distribution of goal-scoring rate

    returns: Pmf of goals per game
    """
    metapmf = thinkbayes2.Pmf()

    for lam, prob in suite.Items():
        pmf = thinkbayes2.MakeExponentialPmf(lam, high=2, n=2001)
        metapmf.Set(pmf, prob)

    mix = thinkbayes2.MakeMixture(metapmf, label=suite.label)
    return mix


class Game(object):
    """Represents a game.

    Attributes are set in columns.read_csv.
    """
    convert = dict()

    def clean(self):
        self.goals = self.pd1 + self.pd2 + self.pd3


def ReadHockeyData(filename='hockey_data.csv'):
    """Read game scores from the data file.

    filename: string
    """
    game_list = columns.read_csv(filename, Game)

    # map from gameID to list of two games
    games = {}
    for game in game_list:
        if game.season != 2011:
            continue
        key = game.game
        games.setdefault(key, []).append(game)

    # map from (team1, team2) to (score1, score2)
    pairs = {}
    for key, pair in games.iteritems():
        t1, t2 = pair
        key = t1.team, t2.team
        entry = t1.total, t2.total
        pairs.setdefault(key, []).append(entry)

    ProcessScoresTeamwise(pairs)
    ProcessScoresPairwise(pairs)


def ProcessScoresPairwise(pairs):
    """Average number of goals for each team against each opponent.

    pairs: map from (team1, team2) to (score1, score2)
    """
    # map from (team1, team2) to list of goals scored
    goals_scored = {}
    for key, entries in pairs.iteritems():
        t1, t2 = key
        for entry in entries:
            g1, g2 = entry
            goals_scored.setdefault((t1, t2), []).append(g1)
            goals_scored.setdefault((t2, t1), []).append(g2)

    # make a list of average goals scored
    lams = []
    for key, goals in goals_scored.iteritems():
        if len(goals) < 3:
            continue
        lam = thinkbayes2.Mean(goals)
        lams.append(lam)

    # make the distribution of average goals scored
    cdf = thinkbayes2.MakeCdfFromList(lams)
    thinkplot.Cdf(cdf)
    thinkplot.Show()

    mu, var = thinkbayes2.MeanVar(lams)
    print('mu, sig', mu, math.sqrt(var))

    print('BOS v VAN', pairs['BOS', 'VAN'])


def ProcessScoresTeamwise(pairs):
    """Average number of goals for each team.

    pairs: map from (team1, team2) to (score1, score2)
    """
    # map from team to list of goals scored
    goals_scored = {}
    for key, entries in pairs.iteritems():
        t1, t2 = key
        for entry in entries:
            g1, g2 = entry
            goals_scored.setdefault(t1, []).append(g1)
            goals_scored.setdefault(t2, []).append(g2)

    # make a list of average goals scored
    lams = []
    for key, goals in goals_scored.iteritems():
        lam = thinkbayes2.Mean(goals)
        lams.append(lam)

    # make the distribution of average goals scored
    cdf = thinkbayes2.MakeCdfFromList(lams)
    thinkplot.Cdf(cdf)
    thinkplot.Show()

    mu, var = thinkbayes2.MeanVar(lams)
    print('mu, sig', mu, math.sqrt(var))


def main():
    #ReadHockeyData()
    #return

    formats = ['pdf', 'eps']

    suite1 = Hockey('bruins')
    suite2 = Hockey('canucks')

    thinkplot.Clf()
    thinkplot.PrePlot(num=2)
    thinkplot.Pmf(suite1)
    thinkplot.Pmf(suite2)
    thinkplot.Save(root='hockey0',
                xlabel='Goals per game',
                ylabel='Probability',
                formats=formats)

    suite1.UpdateSet([0, 2, 8, 4])
    suite2.UpdateSet([1, 3, 1, 0])

    thinkplot.Clf()
    thinkplot.PrePlot(num=2)
    thinkplot.Pmf(suite1)
    thinkplot.Pmf(suite2)
    thinkplot.Save(root='hockey1',
                xlabel='Goals per game',
                ylabel='Probability',
                formats=formats)


    goal_dist1 = MakeGoalPmf(suite1)
    goal_dist2 = MakeGoalPmf(suite2)

    thinkplot.Clf()
    thinkplot.PrePlot(num=2)
    thinkplot.Pmf(goal_dist1)
    thinkplot.Pmf(goal_dist2)
    thinkplot.Save(root='hockey2',
                xlabel='Goals',
                ylabel='Probability',
                formats=formats)

    time_dist1 = MakeGoalTimePmf(suite1)    
    time_dist2 = MakeGoalTimePmf(suite2)
 
    print('MLE bruins', suite1.MaximumLikelihood())
    print('MLE canucks', suite2.MaximumLikelihood())
   
    thinkplot.Clf()
    thinkplot.PrePlot(num=2)
    thinkplot.Pmf(time_dist1)
    thinkplot.Pmf(time_dist2)    
    thinkplot.Save(root='hockey3',
                   xlabel='Games until goal',
                   ylabel='Probability',
                   formats=formats)

    diff = goal_dist1 - goal_dist2
    p_win = diff.ProbGreater(0)
    p_loss = diff.ProbLess(0)
    p_tie = diff.Prob(0)

    print(p_win, p_loss, p_tie)

    p_overtime = thinkbayes2.PmfProbLess(time_dist1, time_dist2)
    p_adjust = thinkbayes2.PmfProbEqual(time_dist1, time_dist2)
    p_overtime += p_adjust / 2
    print('p_overtime', p_overtime) 

    print(p_overtime * p_tie)
    p_win += p_overtime * p_tie
    print('p_win', p_win)

    # win the next two
    p_series = p_win**2

    # split the next two, win the third
    p_series += 2 * p_win * (1-p_win) * p_win

    print('p_series', p_series)


if __name__ == '__main__':
    main()


Writing hockey0.pdf
Writing hockey0.eps
Writing hockey1.pdf
Writing hockey1.eps
Writing hockey2.pdf
Writing hockey2.eps
MLE bruins 2.872
MLE canucks 2.608
Writing hockey3.pdf
Writing hockey3.eps
0.457996492072 0.370293408955 0.171710098973
p_overtime 0.523471221795
0.089885295304
p_win 0.547881787376
p_series 0.571603127215


이런 문제에 대답할 때는 몇 가지 가정을 해야 한다. <br />
첫 번째로, 하키의 골에 대한 점수는 최소한 게임의 어떤 때든 골이 성공할 가능성이 동일하다고 보는 포아송 프로세스를 따른다. <br />
두 번째로, 특정 상대에 대해서, 각 팀의 게임별 장기적 평균 골 수는 $\lambda$라고 표기한다.

주어진 가정에 대해 이 질문에 대답하려면 다음 과정을 거친다.
- $\lambda$에 대한 사전 분포를 고르기 위해 전 게임에 대한 통계를 확인한다.
- 각 팀에 대한 $\lambda$추정을 위해 처음 네 게임의 점수를 사용한다.
- $\lambda$의 사후 분포를 통해 각 팀의 골의 분포, 골 차이의 분포, 각 팀이 다음에 이길 확률을 구한다.
- 각 팀이 이번 시리즈에서 이길 확률을 구한다.

사전 분포는 11-12시즌의 각 팀의 게임당 평균 골 수를 사용했다. 분포는 평균 2.8에 표준편차 0.3의 가우시안으로 나타났다.

가우시안 분포는 연속형이나, 이를 이산 Pmf로 추정해 보겠다.

In [None]:
def MakeGaussianPmf(mu, sigma, num_sigmas, n=101):
    pmf = Pmf()
    low = mu - num_sigmas*sigma
    high = mu - num_sigmas*sigma
    
    for x in numpy.linspace(low, high, n):
        p = scipy.stats.norm.pdf(mu, sigma, x)
        pmf.Set(x, p)
    pmf.Normalize()
    return pmf

mu와 sigma는 가우시안 분포의 평균과 표준편차다. num_sigmas는 Pmf 범위의 평균 이상/이하 범위에 속하는 편차의 수이고, n은 Pmf의 값의 수다. <br />
여기서도 low이상 hugh이하의 범위 값을 n개의 동일한 구간으로 나눈 값을 배열로 만드는 num.linspace를 사용한다. norm.pdf는 가우시안 확률 밀도 함수를 구한다.

하키 문제로 돌아가서 다음은 $\lambda$의 값에 대한 가설의 스윗에 대한 정의다.

In [None]:
class Hockey(thinkbayes2.Suite):
    
    def __init__(self):
        pmf = thinkbayes2.MakeGaussianPmf(2.7, 0.3, 4)
        thinkbayes2.Suite.__init__(self, pmf)

사전 분포는 평균 2.7에 표준편차가 0.3인 가우시안 분포를 따르고, 평균 상하로 4시그마씩의 범위를 갖는다. <br />
늘 그렇듯이, 각 가설을 어떻게 나타낼지 결정해야 한다. 이 경우에는 소수점 값을 갖는 x를 사용하여 $\lambda=x$형식으로 가설을 나타내기로 한다.

### (2) 포아송 프로세스

In [None]:
포아송 프로세스는 베르누이 프로세스의 연속형으로 사건이 어떤 시점에서든 동일한 확률로 발생할 수 있는 형태다. <br />
실제 많은 시스템의 경우 사건 확률은 시간에 따라 변한다. <br /> 
하지만 모든 모델은 단순화에서 기인하였으며, 이 경우 포아송 프로세스를 따르는 하키 게임을 모델링하는 것은 설득력 있는 선택이다. <br />
이 모델을 사용하면 효율적으로 게임당 골 수의 분포를 계산할 수 있을 뿐더러, 골 간의 시간 분포에 대해서도 알 수 있다. <br />
특히 게임당 평균 골 수가 lam이라면, 게임당 골의 분포는 포아송 PMF로 주어진다.

In [None]:
def EvalPoissonPmf(lam, k):
    return (lam)**k * math.exp(-lam) / math.factorial(k)

골 간의 시간 분포는 지수 PDF를 따른다.

In [None]:
def EvalExponentialPdf(lam, x):
    return lam*math.exp(-lam*x)

### (3) 사후 분포

게임에서 k골을 넣었을 때의 점수 lam의 가설 값을 갖는 팀의 우도를 구할 수 있다.

In [None]:
# class Hockey
    
    def Likelihood(self, data, hypo):
        lam = hypo
        k = data
        like = thinkbayes2.EvalPoissonPmf(lam, k)
        return like

각 가설은 $\lambda$에 대한 가능한 값으로 데이터는 관측된 골의 개수다. <br />
나와있는 우도 함수를 사용해서, 각 팀의 스윗을 만들고 처음 네 경기의 점수를 사용해서 갱신 할 수 있다.

In [None]:
    suite1 = Hockey('bruins')
    suite1.UpdateSet([0, 2, 8, 4])
    
    suite2 = Hockey('canucks')
    suite2.UpdateSet([1, 3, 1, 0])

다음 그림은 lam의 결과 사후 분포를 나타낸다. 처음의 네 경기를 기반으로 lam의 근사값은 개넉스의 경우 2.6이고 브루인스의 경우 2.9이다.

<img src="./Images/1.png" width=500 />

### (4) 골의 분포

각 팀이 다음 경기에서 이길 확률을 계산하려면 각 팀의 골의 분포를 계산해야 한다.

만약 우리가 lam값을 정확히 알고 있다면 포아송 분포를 다시 사용할 수 있다. <br />
다음은 포아송 분포의 절단 근사값을 계산하는 메서드이다.

In [None]:
def MakePoissonPmf(lam, high):
    pmf = Pmf()
    for k in range(0, high+1):
        p = EvalPoissonPmf(lam, k)
        pmf.Set(k, p)
    pmf.Normalize()
    return pmf

구해진 Pmf값의 범위는 0부터 high까지다. 따라서 lam의 값이 정확히 3.4라면 다음과 같이 계산할 수 있다.

In [None]:
lam = 3.4
goal_dist = thinkbayes2.MakePoissonPmf(lam, 10)

한 게임에서 10골 이상이 나올 가능성은 매우 낮으므로 여기서는 최대값을 10으로 정했다. <br />
여기까지는 매우 간단하다. 문제는 우리가 lam의 값을 정확하게 모른다는 것이다. 대신 lam의 가능한 값에 대한 분포가 있다. <br />
lam의 각 값에 대해, 골의 분포는 포아송 분포를 따른다. 따라서 골의 전체 분포는 포아송 분포의 혼합형으로 lam의 분포 확률에 따라 가중치가 주어진다. <br />
lam이 주어진 사후 분포에 대해, 골의 분포를 생성하는 코드는 다음과 같다.

In [None]:
def MakeGoalPmf(suite):
    metapmf = thinkbayes2.Pmf()
    
    for lam, prob in suite.Items():
        pmf = thinkbayes2.MakePoissonPmf(lam, 10)
        metapmf.Set(pmf, prob)
    
    mix = thinkbayes2.MakeMixture(metapmf)
    return mix

lam의 각 값에 포아송 Pmf를 만들고 이를 메타-Pmf에 더한다. 이 값은 Pmf의 값에 대한 pmf이므로 이를 메타-Pmf라고 부르기로 한다. <br />
그 다음은 혼합 분포 값 계산을 위해 MakeMixture를 사용한다. <br />
아래의 그림에서 브루인스와 캐넉스의 골의 분포 결과를 확인할 수 있다. 브루인스가 다음 게임에서 3골 이하를 받을 가능성은 더 적도 4골 이상을 받을 가능성은 더 높다.

<img src="./Images/2.png" width=500 />

### (5) 이길 확률

이길 확률을 구하기 위해서는, 우선 골 수 차이의 분포를 계산해야 한다.

In [None]:
    goal_dist1 = MakeGoalPmf(suite1)
    goal_dist2 = MakeGoalPmf(suite2)
    diff = goal_dist1 = goal_dist2

차이를 구하는 연산에서는 값의 쌍을 받아서 이 값 간의 차이를 구하는 Pmf.\__sub__를 호출한다. <br />
골의 차이가 양수라면 브루인스가 이기고, 음수라면 캐넉스가 이기는 것이다. 0일 경우는 비긴다.

In [None]:
    p_win = diff.ProbGreater(0)
    p_loss = diff.ProbLess(0)
    p_tie = diff.Prob(0)

앞 장의 분포대로라면, p_win은 46%, p_loss는 37%, p_tie는 17%이다. <br />

### (6) 서든 데스

정규 경기가 동점으로 끝나는 경우, 한 팀이 이길 때까지 정규 시간 이후에도 경기를 진행한다. <br />
첫 번째 골이 들어가는 순간 게임은 끝나고, 이런 시간 외 경기 형태를 서든 데스라고 한다.

시간 외의 서든 데스에서 이길 확률을 계산하기 위해서, 중요한 통계치는 게임당 골 수가 아니라 처음 골을 넣기 까지 걸리는 시간이다.

주어진 lam에 대해 다음과 같이 골 간의 시간을 계산할 수 있다.

In [None]:
lam = 3.4
time_dist = thinkbayes2.MakeExponentialPmf(lam, high=2, n=101)

high분포는 상한값이다. 이 경우 점수가 나지 않은 채 두 게임 이상 진행될 확률은 적으므로 2를 선택했다. n은 Pmf값의 개수다.

만약 lam을 정확히 알고 있다면 다 해결할 수 있다. 하지만 우리는 이 값을 알지 못한다. 대신 우리는 가능한 값의 사후 분포를 가지고 있다. <br />
따라서 골의 분포를 구해서, 메타-Pmf를 구하고 Pmf의 혼합값을 계산할 것이다.

In [None]:
def MakeGoalTimePmf(suite):
    metapmf = thinkbayes2.Pmf()
    
    for lam, prob in suite.Items():
        pmf = thinkbayes2.MakeExponentialPmf(lam, high=2, n=2001)
        metapmf.Set(pmf, prob)
        
    mix = thinkbayes2.MakeMixture(metapmf)
    ruturn mix

다음 그림은 결과 분포를 나타낸다. 시간 값이 1피리어드(게임의 1/3)보다 짧을 경우, 브루인스가 먼저 득점할 가능성이 높다. 캐넉스가 점수를 따기까지는 시간이 더 걸린다.

<img src="./Images/3.png" width=500 />

두 팀이 동시에 점수를 내기는 불가능하므로 동점 수를 최소화하기 위해 값의 수 n을 높게 설정한다. <br />
다음 브루인스가 먼저 점수를 낼 확률을 구해보자

In [None]:
    time_dist1 = MakeGoalTimePmf(suite1)
    time_dist2 = MakeGoalTimePmf(suite2)
    p_overtime = thinkbayes2.PmfProbLess(time_dist1, time_dist2)

브루인스가 본 경기 후 이길 확률은 52%이다. <br />
마지막으로 이길 전체 학률은 정규 경기 끝에 이길 확률과 경기 후 이길 확률의 합이다.

In [None]:
    p_tie = diff.Prob(0)
    p_overtime = thinkbayes2.PmfProbLess(time_dist1, time_dist2)
    p_win = diff.ProbGreater(0) + p_tie * p_overtime

브루인스가 다음 게임에서 이길 총 확률은 55%이다. <br />
이 시리즈에서 이기려면 브루인스는 다음 두 게임을 이기거나 다음 두 게임까지 승점이 동일하고 세 번째 게임에서 이겨야 한다. <br />
그럼 다시 총 확률을 계산해보자.

In [None]:
    # 다음 두 경기에서 이길 확률
    p_series = p_win**2
    
    # 다음 두 경기에서 승점이 동일하고, 세 번째 게임에서 이길 확률
    p_series += 2*p_win*(1-p_win)*p_win

브루인스가 시리즈에서 이길 확률은 57%이다.