### (1) 레드라인 문제

메사추세츠의 레드라인은 케임브리지와 보스턴을 연결하는 지하철 노선이다. 러시아워 때 레드라인은 평균 매 7~8분 간격으로 운행했다. <br />
역에 도착하면 플랫폼에서 기다리는 승객 수를 기초로 다음 기차가 도착할 때까지 걸리는 시간을 추정했었다. <br />
플랫폼에 승객이 별로 없다면 바로 직전 기차를 놓쳤으니 7분정도 기다려야겠다고 생각했다. <br />
승객이 어느정도 있다면 기차가 곧 도착할 거라고 예상했다. <br />
하지만 플랫폼에 승객이 굉장히 많다면 기차 운행에 문제가 있다고 생각하고 다시 도로로 나가서 택시를 탔다. <br />
이제 기차를 기다래는 동안 베이지안 추정이 대기 시간을 예측한 다음 기차를 포기하고 택시를 탈지 결정하는 데 얼마나 도움을 줄지 생각해보자.

#### 전체코드

In [4]:
from __future__ import print_function, division

import thinkbayes2

import thinkplot
import numpy

import math
import random
import sys

FORMATS = ['pdf', 'eps', 'png', 'jpg']

"""
Notation guide:

z: time between trains
x: time since the last train
y: time until the next train

zb: distribution of z as seen by a random arrival

"""

# longest hypothetical time between trains, in seconds

UPPER_BOUND = 1200

# observed gaps between trains, in seconds
# collected using code in redline_data.py, run daily 4-6pm
# for 5 days, Monday 6 May 2013 to Friday 10 May 2013

OBSERVED_GAP_TIMES = [
    428.0, 705.0, 407.0, 465.0, 433.0, 425.0, 204.0, 506.0, 143.0, 351.0, 
    450.0, 598.0, 464.0, 749.0, 341.0, 586.0, 754.0, 256.0, 378.0, 435.0, 
    176.0, 405.0, 360.0, 519.0, 648.0, 374.0, 483.0, 537.0, 578.0, 534.0, 
    577.0, 619.0, 538.0, 331.0, 186.0, 629.0, 193.0, 360.0, 660.0, 484.0, 
    512.0, 315.0, 457.0, 404.0, 740.0, 388.0, 357.0, 485.0, 567.0, 160.0, 
    428.0, 387.0, 901.0, 187.0, 622.0, 616.0, 585.0, 474.0, 442.0, 499.0, 
    437.0, 620.0, 351.0, 286.0, 373.0, 232.0, 393.0, 745.0, 636.0, 758.0,
]


def BiasPmf(pmf, label=None, invert=False):
    """Returns the Pmf with oversampling proportional to value.

    If pmf is the distribution of true values, the result is the
    distribution that would be seen if values are oversampled in
    proportion to their values; for example, if you ask students
    how big their classes are, large classes are oversampled in
    proportion to their size.

    If invert=True, computes in inverse operation; for example,
    unbiasing a sample collected from students.

    Args:
      pmf: Pmf object.
      label: string name for the new Pmf.
      invert: boolean

     Returns:
       Pmf object
    """
    new_pmf = pmf.Copy(label=label)

    for x in pmf.Values():
        if invert:
            new_pmf.Mult(x, 1.0/x)
        else:
            new_pmf.Mult(x, x)
        
    new_pmf.Normalize()
    return new_pmf


def UnbiasPmf(pmf, label=None):
    """Returns the Pmf with oversampling proportional to 1/value.

    Args:
      pmf: Pmf object.
      label: string label for the new Pmf.

     Returns:
       Pmf object
    """
    return BiasPmf(pmf, label, invert=True)


def MakeUniformPmf(low, high):
    """Make a uniform Pmf.

    low: lowest value (inclusive)
    high: highest value (inclusive)
    """
    xs = MakeRange(low, high)
    pmf = thinkbayes2.Pmf(xs)
    return pmf    
    

def MakeRange(low=10, high=None, skip=10):
    """Makes a range representing possible gap times in seconds.

    low: where to start
    high: where to end
    skip: how many to skip
    """
    if high is None:
        high = UPPER_BOUND

    xs = numpy.arange(low, high+skip, skip)
    return xs


class WaitTimeCalculator(object):
    """Encapsulates the forward inference process.

    Given the actual distribution of gap times (z),
    computes the distribution of gaps as seen by
    a random passenger (zb), which yields the distribution
    of wait times (y) and the distribution of elapsed times (x).
    """

    def __init__(self, pmf, inverse=False):
        """Constructor.

        pmf: Pmf of either z or zb
        inverse: boolean, true if pmf is zb, false if pmf is z
        """
        if inverse:
            self.pmf_zb = pmf
            self.pmf_z = UnbiasPmf(pmf, label="z")
        else:
            self.pmf_z = pmf
            self.pmf_zb = BiasPmf(pmf, label="zb")

        # distribution of wait time
        self.pmf_y = PmfOfWaitTime(self.pmf_zb)

        # the distribution of elapsed time is the same as the
        # distribution of wait time
        self.pmf_x = self.pmf_y

    def GenerateSampleWaitTimes(self, n):
        """Generates a random sample of wait times.

        n: sample size

        Returns: sequence of values
        """
        cdf_y = thinkbayes2.Cdf(self.pmf_y)
        sample = cdf_y.Sample(n)
        return sample

    def GenerateSampleGaps(self, n):
        """Generates a random sample of gaps seen by passengers.

        n: sample size

        Returns: sequence of values
        """
        cdf_zb = thinkbayes2.Cdf(self.pmf_zb)
        sample = cdf_zb.Sample(n)
        return sample

    def GenerateSamplePassengers(self, lam, n):
        """Generates a sample wait time and number of arrivals.

        lam: arrival rate in passengers per second
        n: number of samples

        Returns: list of (k1, y, k2) tuples
        k1: passengers there on arrival
        y: wait time
        k2: passengers arrived while waiting
        """
        zs = self.GenerateSampleGaps(n)
        xs, ys = SplitGaps(zs)

        res = []
        for x, y in zip(xs, ys):
            k1 = numpy.random.poisson(lam * x)
            k2 = numpy.random.poisson(lam * y)
            res.append((k1, y, k2))

        return res

    def PlotPmfs(self, root='redline0'):
        """Plots the computed Pmfs.

        root: string
        """
        pmfs = ScaleDists([self.pmf_z, self.pmf_zb], 1.0/60)

        thinkplot.Clf()
        thinkplot.PrePlot(2)
        thinkplot.Pmfs(pmfs)
        thinkplot.Save(root=root,
                       xlabel='Time (min)',
                       ylabel='CDF',
                       formats=FORMATS)


    def MakePlot(self, root='redline2'):
        """Plots the computed CDFs.

        root: string
        """
        print('Mean z', self.pmf_z.Mean() / 60)
        print('Mean zb', self.pmf_zb.Mean() / 60)
        print('Mean y', self.pmf_y.Mean() / 60)

        cdf_z = self.pmf_z.MakeCdf()
        cdf_zb = self.pmf_zb.MakeCdf()
        cdf_y = self.pmf_y.MakeCdf()

        cdfs = ScaleDists([cdf_z, cdf_zb, cdf_y], 1.0/60)

        thinkplot.Clf()
        thinkplot.PrePlot(3)
        thinkplot.Cdfs(cdfs)
        thinkplot.Save(root=root,
                       xlabel='Time (min)',
                       ylabel='CDF',
                       formats=FORMATS)


def SplitGaps(zs):
    """Splits zs into xs and ys.

    zs: sequence of gaps

    Returns: tuple of sequences (xs, ys)
    """
    xs = [random.uniform(0, z) for z in zs]
    ys = [z-x for z, x in zip(zs, xs)]
    return xs, ys


def PmfOfWaitTime(pmf_zb):
    """Distribution of wait time.

    pmf_zb: dist of gap time as seen by a random observer

    Returns: dist of wait time (also dist of elapsed time)
    """
    metapmf = thinkbayes2.Pmf()
    for gap, prob in pmf_zb.Items():
        uniform = MakeUniformPmf(0, gap)
        metapmf.Set(uniform, prob)

    pmf_y = thinkbayes2.MakeMixture(metapmf, label='y')
    return pmf_y


def ScaleDists(dists, factor):
    """Scales each of the distributions in a sequence.

    dists: sequence of Pmf or Cdf
    factor: float scale factor
    """
    return [dist.Scale(factor) for dist in dists]


class ElapsedTimeEstimator(object):
    """Uses the number of passengers to estimate time since last train."""

    def __init__(self, wtc, lam, num_passengers):
        """Constructor.

        pmf_x: expected distribution of elapsed time
        lam: arrival rate in passengers per second
        num_passengers: # passengers seen on the platform
        """
        # prior for elapsed time
        self.prior_x = Elapsed(wtc.pmf_x, label='prior x')

        # posterior of elapsed time (based on number of passengers)
        self.post_x = self.prior_x.Copy(label='posterior x')
        self.post_x.Update((lam, num_passengers))

        # predictive distribution of wait time
        self.pmf_y = PredictWaitTime(wtc.pmf_zb, self.post_x)

    def MakePlot(self, root='redline3'):
        """Plot the CDFs.

        root: string
        """
        # observed gaps
        cdf_prior_x = self.prior_x.MakeCdf()
        cdf_post_x = self.post_x.MakeCdf()
        cdf_y = self.pmf_y.MakeCdf()

        cdfs = ScaleDists([cdf_prior_x, cdf_post_x, cdf_y], 1.0/60)

        thinkplot.Clf()
        thinkplot.PrePlot(3)
        thinkplot.Cdfs(cdfs)
        thinkplot.Save(root=root,
                       xlabel='Time (min)',
                       ylabel='CDF',
                       formats=FORMATS)


class ArrivalRate(thinkbayes2.Suite):
    """Represents the distribution of arrival rates (lambda)."""

    def Likelihood(self, data, hypo):
        """Computes the likelihood of the data under the hypothesis.

        Evaluates the Poisson PMF for lambda and k.

        hypo: arrival rate in passengers per second
        data: tuple of elapsed_time and number of passengers
        """
        lam = hypo
        x, k = data
        like = thinkbayes2.EvalPoissonPmf(k, lam * x)
        return like


class ArrivalRateEstimator(object):
    """Estimates arrival rate based on passengers that arrive while waiting.
    """

    def __init__(self, passenger_data):
        """Constructor

        passenger_data: sequence of (k1, y, k2) pairs
        """
        # range for lambda
        low, high = 0, 5
        n = 51
        hypos = numpy.linspace(low, high, n) / 60

        self.prior_lam = ArrivalRate(hypos, label='prior')
        self.prior_lam.Remove(0)

        self.post_lam = self.prior_lam.Copy(label='posterior')

        for _k1, y, k2 in passenger_data:
            self.post_lam.Update((y, k2))

        print('Mean posterior lambda', self.post_lam.Mean())

    def MakePlot(self, root='redline1'):
        """Plot the prior and posterior CDF of passengers arrival rate.

        root: string
        """
        thinkplot.Clf()
        thinkplot.PrePlot(2)

        # convert units to passengers per minute
        prior = self.prior_lam.MakeCdf().Scale(60)
        post = self.post_lam.MakeCdf().Scale(60)

        thinkplot.Cdfs([prior, post])

        thinkplot.Save(root=root,
                       xlabel='Arrival rate (passengers / min)',
                       ylabel='CDF',
                       formats=FORMATS)
                       

class Elapsed(thinkbayes2.Suite):
    """Represents the distribution of elapsed time (x)."""

    def Likelihood(self, data, hypo):
        """Computes the likelihood of the data under the hypothesis.

        Evaluates the Poisson PMF for lambda and k.

        hypo: elapsed time since the last train
        data: tuple of arrival rate and number of passengers
        """
        x = hypo
        lam, k = data
        like = thinkbayes2.EvalPoissonPmf(k, lam * x)
        return like


def PredictWaitTime(pmf_zb, pmf_x):
    """Computes the distribution of wait times.

    Enumerate all pairs of zb from pmf_zb and x from pmf_x,
    and accumulate the distribution of y = z - x.

    pmf_zb: distribution of gaps seen by random observer
    pmf_x: distribution of elapsed time
    """
    pmf_y = pmf_zb - pmf_x
    pmf_y.label = 'pred y'
    RemoveNegatives(pmf_y)
    return pmf_y


def RemoveNegatives(pmf):
    """Removes negative values from a PMF.

    pmf: Pmf
    """
    for val in list(pmf.Values()):
        if val < 0:
            pmf.Remove(val)
    pmf.Normalize()


class Gaps(thinkbayes2.Suite):
    """Represents the distribution of gap times,
    as updated by an observed waiting time."""

    def Likelihood(self, data, hypo):
        """The likelihood of the data under the hypothesis.

        If the actual gap time is z, what is the likelihood
        of waiting y seconds?

        hypo: actual time between trains
        data: observed wait time
        """
        z = hypo
        y = data
        if y > z:
            return 0
        return 1.0 / z


class GapDirichlet(thinkbayes2.Dirichlet):
    """Represents the distribution of prevalences for each
    gap time."""

    def __init__(self, xs):
        """Constructor.

        xs: sequence of possible gap times
        """
        n = len(xs)
        thinkbayes2.Dirichlet.__init__(self, n)
        self.xs = xs
        self.mean_zbs = []

    def PmfMeanZb(self):
        """Makes the Pmf of mean zb.

        Values stored in mean_zbs.
        """
        return thinkbayes2.Pmf(self.mean_zbs)

    def Preload(self, data):
        """Adds pseudocounts to the parameters.

        data: sequence of pseudocounts
        """
        thinkbayes2.Dirichlet.Update(self, data)

    def Update(self, data):
        """Computes the likelihood of the data.

        data: wait time observed by random arrival (y)

        Returns: float probability
        """
        k, y = data

        print(k, y)
        prior = self.PredictivePmf(self.xs)
        gaps = Gaps(prior)
        gaps.Update(y)
        probs = gaps.Probs(self.xs)

        self.params += numpy.array(probs)


class GapDirichlet2(GapDirichlet):
    """Represents the distribution of prevalences for each
    gap time."""

    def Update(self, data):
        """Computes the likelihood of the data.

        data: wait time observed by random arrival (y)

        Returns: float probability
        """
        k, y = data

        # get the current best guess for pmf_z
        pmf_zb = self.PredictivePmf(self.xs)

        # use it to compute prior pmf_x, pmf_y, pmf_z
        wtc = WaitTimeCalculator(pmf_zb, inverse=True)

        # use the observed passengers to estimate posterior pmf_x
        elapsed = ElapsedTimeEstimator(wtc,
                                       lam=0.0333,
                                       num_passengers=k)

        # use posterior_x and observed y to estimate observed z
        obs_zb = elapsed.post_x + Floor(y)
        probs = obs_zb.Probs(self.xs)

        mean_zb = obs_zb.Mean()
        self.mean_zbs.append(mean_zb)
        print(k, y, mean_zb)

        # use observed z to update beliefs about pmf_z
        self.params += numpy.array(probs)


class GapTimeEstimator(object):
    """Infers gap times using passenger data."""

    def __init__(self, xs, pcounts, passenger_data):
        self.xs = xs
        self.pcounts = pcounts
        self.passenger_data = passenger_data

        self.wait_times = [y for _k1, y, _k2 in passenger_data]
        self.pmf_y = thinkbayes2.Pmf(self.wait_times, label="y")

        dirichlet = GapDirichlet2(self.xs)
        dirichlet.params /= 1.0

        dirichlet.Preload(self.pcounts)
        dirichlet.params /= 20.0

        self.prior_zb = dirichlet.PredictivePmf(self.xs, label="prior zb")
        
        for k1, y, _k2 in passenger_data:
            dirichlet.Update((k1, y))

        self.pmf_mean_zb = dirichlet.PmfMeanZb()

        self.post_zb = dirichlet.PredictivePmf(self.xs, label="post zb")
        self.post_z = UnbiasPmf(self.post_zb, label="post z")

    def PlotPmfs(self):
        """Plot the PMFs."""
        print('Mean y', self.pmf_y.Mean())
        print('Mean z', self.post_z.Mean())
        print('Mean zb', self.post_zb.Mean())

        thinkplot.Pmf(self.pmf_y)
        thinkplot.Pmf(self.post_z)
        thinkplot.Pmf(self.post_zb)

    def MakePlot(self):
        """Plot the CDFs."""
        thinkplot.Cdf(self.pmf_y.MakeCdf())
        thinkplot.Cdf(self.prior_zb.MakeCdf())
        thinkplot.Cdf(self.post_zb.MakeCdf())
        thinkplot.Cdf(self.pmf_mean_zb.MakeCdf())
        thinkplot.Show()


def Floor(x, factor=10):
    """Rounds down to the nearest multiple of factor.

    When factor=10, all numbers from 10 to 19 get floored to 10.
    """
    return int(x/factor) * factor


def TestGte():
    """Tests the GapTimeEstimator."""
    random.seed(17)

    xs = [60, 120, 240]
    
    gap_times = [60, 60, 60, 60, 60, 120, 120, 120, 240, 240]

    # distribution of gap time (z)
    pdf_z = thinkbayes2.EstimatedPdf(gap_times)
    pmf_z = pdf_z.MakePmf(xs=xs, label="z")

    wtc = WaitTimeCalculator(pmf_z, inverse=False)

    lam = 0.0333
    n = 100
    passenger_data = wtc.GenerateSamplePassengers(lam, n)

    pcounts = [0, 0, 0]

    ite = GapTimeEstimator(xs, pcounts, passenger_data)

    thinkplot.Clf()

    # thinkplot.Cdf(wtc.pmf_z.MakeCdf(label="actual z"))    
    thinkplot.Cdf(wtc.pmf_zb.MakeCdf(label="actual zb"))
    ite.MakePlot()


class WaitMixtureEstimator(object):
    """Encapsulates the process of estimating wait time with uncertain lam.
    """

    def __init__(self, wtc, are, num_passengers=15):
        """Constructor.

        wtc: WaitTimeCalculator
        are: ArrivalTimeEstimator
        num_passengers: number of passengers seen on the platform
        """
        self.metapmf = thinkbayes2.Pmf()

        for lam, prob in sorted(are.post_lam.Items()):
            ete = ElapsedTimeEstimator(wtc, lam, num_passengers)
            self.metapmf.Set(ete.pmf_y, prob)

        self.mixture = thinkbayes2.MakeMixture(self.metapmf)

        lam = are.post_lam.Mean()
        ete = ElapsedTimeEstimator(wtc, lam, num_passengers)
        self.point = ete.pmf_y

    def MakePlot(self, root='redline4'):
        """Makes a plot showing the mixture."""
        thinkplot.Clf()

        # plot the MetaPmf
        for pmf, prob in self.metapmf.Items():
            cdf = pmf.MakeCdf().Scale(1.0/60)
            width = 2/math.log(-math.log(prob))
            thinkplot.Plot(cdf.xs, cdf.ps,
                           alpha=0.2, linewidth=width, color='blue', 
                           label='')

        # plot the mixture and the distribution based on a point estimate
        thinkplot.PrePlot(2)
        #thinkplot.Cdf(self.point.MakeCdf(label='point').Scale(1.0/60))
        thinkplot.Cdf(self.mixture.MakeCdf(label='mix').Scale(1.0/60))

        thinkplot.Save(root=root,
                       xlabel='Wait time (min)',
                       ylabel='CDF',
                       formats=FORMATS,
                       axis=[0,10,0,1])



def GenerateSampleData(gap_times, lam=0.0333, n=10):
    """Generates passenger data based on actual gap times.

    gap_times: sequence of float
    lam: arrival rate in passengers per second
    n: number of simulated observations
    """
    xs = MakeRange(low=10)
    pdf_z = thinkbayes2.EstimatedPdf(gap_times)
    pmf_z = pdf_z.MakePmf(xs=xs, label="z")

    wtc = WaitTimeCalculator(pmf_z, inverse=False)
    passenger_data = wtc.GenerateSamplePassengers(lam, n)
    return wtc, passenger_data


def RandomSeed(x):
    """Initialize the random and numpy.random generators.

    x: int seed
    """
    random.seed(x)
    numpy.random.seed(x)
    

def RunSimpleProcess(gap_times, lam=0.0333, num_passengers=15, plot=True):
    """Runs the basic analysis and generates figures.

    gap_times: sequence of float
    lam: arrival rate in passengers per second
    num_passengers: int number of passengers on the platform
    plot: boolean, whether to generate plots

    Returns: WaitTimeCalculator, ElapsedTimeEstimator
    """
    global UPPER_BOUND
    UPPER_BOUND = 1200

    cdf_z = thinkbayes2.Cdf(gap_times).Scale(1.0/60)
    print('CI z', cdf_z.CredibleInterval(90))

    xs = MakeRange(low=10)

    pdf_z = thinkbayes2.EstimatedPdf(gap_times)
    pmf_z = pdf_z.MakePmf(xs=xs, label="z")

    wtc = WaitTimeCalculator(pmf_z, inverse=False)    

    if plot:
        wtc.PlotPmfs()
        wtc.MakePlot()

    ete = ElapsedTimeEstimator(wtc, lam, num_passengers)

    if plot:
        ete.MakePlot()

    return wtc, ete


def RunMixProcess(gap_times, lam=0.0333, num_passengers=15, plot=True):
    """Runs the analysis for unknown lambda.

    gap_times: sequence of float
    lam: arrival rate in passengers per second
    num_passengers: int number of passengers on the platform
    plot: boolean, whether to generate plots

    Returns: WaitMixtureEstimator
    """
    global UPPER_BOUND
    UPPER_BOUND = 1200

    wtc, _ete = RunSimpleProcess(gap_times, lam, num_passengers)

    RandomSeed(20)
    passenger_data = wtc.GenerateSamplePassengers(lam, n=5)

    total_y = 0
    total_k2 = 0
    for k1, y, k2 in passenger_data:
        print(k1, y/60, k2)
        total_y += y/60
        total_k2 += k2
    print(total_k2, total_y)
    print('Average arrival rate', total_k2 / total_y)

    are = ArrivalRateEstimator(passenger_data)

    if plot:
        are.MakePlot()

    wme = WaitMixtureEstimator(wtc, are, num_passengers)

    if plot:
        wme.MakePlot()

    return wme


def RunLoop(gap_times, nums, lam=0.0333):
    """Runs the basic analysis for a range of num_passengers.

    gap_times: sequence of float
    nums: sequence of values for num_passengers
    lam: arrival rate in passengers per second

    Returns: WaitMixtureEstimator
    """
    global UPPER_BOUND
    UPPER_BOUND = 4000

    thinkplot.Clf()

    RandomSeed(18)

    # resample gap_times
    n = 220
    cdf_z = thinkbayes2.Cdf(gap_times)
    sample_z = cdf_z.Sample(n)
    pmf_z = thinkbayes2.Pmf(sample_z)

    # compute the biased pmf and add some long delays
    cdf_zp = BiasPmf(pmf_z).MakeCdf()
    sample_zb = numpy.append(cdf_zp.Sample(n), [1800, 2400, 3000])

    # smooth the distribution of zb
    pdf_zb = thinkbayes2.EstimatedPdf(sample_zb)
    xs = MakeRange(low=60)
    pmf_zb = pdf_zb.MakePmf(xs=xs)

    # unbias the distribution of zb and make wtc
    pmf_z = UnbiasPmf(pmf_zb)
    wtc = WaitTimeCalculator(pmf_z)

    probs = []
    for num_passengers in nums:
        ete = ElapsedTimeEstimator(wtc, lam, num_passengers)

        # compute the posterior prob of waiting more than 15 minutes
        cdf_y = ete.pmf_y.MakeCdf()
        prob = 1 - cdf_y.Prob(900)
        probs.append(prob)

        # thinkplot.Cdf(ete.pmf_y.MakeCdf(label=str(num_passengers)))
    
    thinkplot.Plot(nums, probs)
    thinkplot.Save(root='redline5',
                   xlabel='Num passengers',
                   ylabel='P(y > 15 min)',
                   formats=FORMATS,
                   )


def main(script):
    RunLoop(OBSERVED_GAP_TIMES, nums=[0, 5, 10, 15, 20, 25, 30, 35])
    RunMixProcess(OBSERVED_GAP_TIMES)
    

if __name__ == '__main__':
    main(sys.argv)




Writing redline5.pdf
Writing redline5.eps
Writing redline5.png
Writing redline5.jpg
CI z (3.1000000000000001, 12.483333333333333)
Writing redline0.pdf
Writing redline0.eps
Writing redline0.png
Writing redline0.jpg
Mean z 7.77531374141
Mean zb 8.89677200069
Mean y 4.44838600035
Writing redline2.pdf
Writing redline2.eps
Writing redline2.png
Writing redline2.jpg
Writing redline3.pdf
Writing redline3.eps
Writing redline3.png
Writing redline3.jpg
20 0.896423076342 2
14 3.92182303717 7
20 2.91863429547 9
25 1.09691326515 2
2 2.96069021004 5
25 11.7944838842
Average arrival rate 2.11963492812
Mean posterior lambda 0.0367403216361
Writing redline1.pdf
Writing redline1.eps
Writing redline1.png
Writing redline1.jpg
Writing redline4.pdf
Writing redline4.eps
Writing redline4.png
Writing redline4.jpg


### (2) 모델

분석에 들어가기에 앞서서 몇 가지 모델링 원칙을 만들어야 한다. <br />
우선, 승객은 어떤 시간에든 동일한 확률로 도착하고, 이 때 분당 승객 수가 임의 비율 $\lambda$인 포아송 프로세스를 따른다고 가정한다. <br />
매일 동일한 시간에 짧은 시간 동안 승객을 관찰한 결과, $\lambda$는 상수라고 가정한다. <br />
반면, 기차 도착 프로세스는 포아송 분포를 따르지 않는다. 보스턴으로 가는 기차가 피크 타임에 매 7-8분마다 노선 끝에서 출발한다고 가정하자. <br />
하지만 켄달 스퀘어에 도착하는 시간을 기준으로 보면 기차 간 간격은 3분에서 12분까지 다양하다. 

기차의 시간 간격에 대한 데이터를 수입하였다. <br />
이 데이터에는 5일간 매일 오후 4시에서 6시 사이에서 일별 약 15개의 도착 내역을 기록했다. <br />
그 후 연달아 도착하는 기차 간의 시간을 계산해서 그 간격은 아래의 그림에 z라고 표시하였다.

<img src="./Images/1.png" width=500 />

수집된 데이터를 KDE로 평활화해서 나타낸 기차 도착 간격의 PMF. <br />
z는 실제 분포를 나타내고, zb는 보이는 승객 수의 편향 분포다.

만약 오후 4시에서 6시 사이 플랫폼에 서서 기차 간의 간격을 기록한다면 우리가 볼 수 있는 분포는 위의 그림과 같다. <br />
하지만 임의의 시간에 플랫폼에 도착하면 다른 분포를 볼 수 있다. 임의의 승객이 보는 기차 간 평균 시간은 실제 평균보다 상당히 높다. <br />
왜냐면 승객은 시간 간격이 짧은 경우보다 큰 경우 도착할 확률이 더 높기 때문이다. <br />
예를 들면, 기차간 시간 간격이 5분일 때와 10분일 때의 확률이 동일하다고 해보자. 이 때 기차 간의 평균 간격은 7.5분이다. <br />
하지만 승객은 5분 간격보다 10분 간격에 도착할 가능성이 더 높다. 대략 두배다. <br />
도착한 승객들에게 설문을 했다면 그 중 2/3가 10분 간격일 때 도착했고, 1/3만이 5분 간격일 때 도착했다는 것을 알 수 있을 것이다. <br />
따라서 승객이 본 기차 간 평균 시간은 8.33분이다.

각각의 경우, 실제 분포에서 가져온 값은 실제 값의 비율보다 오버 샘플링 된다. <br />
레드라인 예제에서도, 실제 관측 결과보다 시간 간격이 두 배 정도 크다.

이를 통해 실제 시간 차의 분포가 주어졌을 때 승객들이 보는 시간 간격의 분포를 계산할 수 있다.

In [None]:
def BiasPmf(pmf):
    new_pmf = pmf.Copy()
    
    for x, p in pmf.Items():
        new_pmf.Mult(x, x)
        
    new_pmf.Normalize()
    return new_pmf

pmf는 실제 분포고, new_pmf는 편향된 분포다. 반목문 안에서, 각 값 x와 x에 대해 x에 비례해 관측되는 우도에 의해 나온 확률을 곱한다. 그리고 결과를 표준화 한다.

## (3) 대기 시간

y라고 명명할 대기시간은 승객이 도착하고 다음 기차가 도착하는 사이의 시간이다. <br />
x라고 할 경과 시간은 이전 기차가 도착하고 승객이 도착한 사이의 시간이다. 이를 zb = x + y 라고 정의해 보자. <br />
zb의 분포가 주어지면 y의 분포를 계산할 수 있다.

간단한 예를 들어보자. <br />
가령 앞의 예에서, 5분일 떄의 zb는 1/3의 확률이고, 10분에 대해서는 2/3확률이다. <br />
5분 간격일 때 임의의 시간에 도착한 경우 y는 0에서 5분사이의 균등 분포를 따른다. <br />
만약 10분 간격일 때 도착했다면 y는 0에서 10사이의 균등 분포를 따를 것이다. <br />
따라서 전제 분포는 각 간격의 확률이 곱해진 균등 분포의 혼합 형태다.

다음 함수는 zb의 분포를 사용해서 y의 분포를 구한다.

In [None]:
def PmfOfWaitTime(pmf_zb):
    metapmf = thinkbayes2.Pmf()
    for gap, prob in pmf_zb.Items():
        uniform = MakeUniformPmf(0, gap)
        metapmf.Set(uniform, prob)
    
    pmf_y = thinkbayes2.MakeMixture(metapmf)
    return pmf_y

PmfOfWaitTime은 각 균등 분포를 확률에 연결해주는 메타 Pmf를 생성한다. 그리고 MakeMixture를 사용해서 혼합 형태를 계산한다.

PmfOfWaitTime에서도 다음의 MakeUniform를 사용한다.

In [None]:
def MakeUniformPmf(low, high):
    pmf = thinkbayes2.Pmf()
    for x in MakeRange(low=, high=):
        pmf.Set(x, 1)
        pmf.Normalize()
        return pmf

low와 high는 균등 분포의 범위(양 끝 값 포함)이다.

마지막으로 MakeUniformPmf는 다음에 정의된 MakeRange를 사용한다.

In [None]:
def MakeRange(low, high, skip=10):
    raturn range(low, high+skip, skip)

MakeRange는 대기 시간(초 단위)의 가능한 값의 집합을 정의한다. 기본적으로는 주어진 범위를 10초 간격으로 나눈다.

이 분포를 계산하는 과정을 캡슐화하기 위해 WaitTimeCalculator라는 클래스를 만들었다.

In [None]:
class WaitTimeCaculator(object):
    def __init__(self, pmf_z):
        self.pmf_z = pmf_z
        self.pmf_zb = BiasPmf(pmf)
        
        self.pmf_y = self.PmfOfWaitTime(self.pmf_zb)
        self.pmf_x = self.pmf_y

변수 pmf_z는 z의 비편향 분포다. pmf_zb는 승객들이 본 시간 간격의 편향 분포다. <br />
pmf_y는 대기 시간의 분포다. pmf_x는 경과 시간의 분포로, 대기 시간의 분포와 동일하다. <br />
왜 인지는 zp의 특정 값에 대해서 y의 분포는 0부터 zp까지의 균등 분포라는 것을 기억하면 된다. 즉 다음과 같은 식이 성립한다. <br />
x = zp - y <br />
따라서 x의 분포는 0부터 zp까지의 균등 분포다.

<img src="./Images/2.png" width=500 />

위 그림은 주어진 데이터를 기반으로 z, zb, y의 분포를 나타낸 것이다. <br />
z의 평균은 7.8분이다. zb의 평균은 8.8분으로 13%가량 더 높다. y의 평균은 4.4로 zb 평균의 반이다.

## (4) 대기 시간 예측

내가 플랫폼에 도착했을 때 10명이 대기하고 있는 것을 봤다. 그러면 다음 기차가 도착할 때까지 얼마나 기다려야 한다고 생각할까? <br />
실제 분포 z가 있고 승객 도착 비율 $\lambda$가 분당 2명이라는 것을 알고 있다고 가정하자. <br />
- z의 분포를 사용해서 승객이 보는 기차 시간 간격 zp의 사전 분포를 계산하자.
- 지난 기차로부터의 경과 시간 x에 대한 분포 추정을 위해 승객 수를 사용할 수 있다. 
- 마지막으로 y = zp - x 관계를 사용해서 y의 분포를 구한다.

첫 번째 단계에서는 승객 수를 계산하기 전에 zp, x, y의 분포를 캡슐화하는 WaitTimeCalculator를 생성하는 것이다. 

In [None]:
    wtc = WaitTimeCalculator(pmf_z)

pmf_z는 시간 간격에 대해 주어진 분포다.

다음 단계는 x의 사후 분포와 y의 예측 분포를 캡슐화하는 ElapsedTimeEstimator를 만드는 것이다.

In [None]:
    ete = ElapsedTimeEstimator(wtc, lam=2.0/60, num_passengers=15)

변수는 WaitTimeCalculator, 승객 도착 비율 lam(초당 승객 수로 나타남), 관측된 승객 수 (여기서는 15)다.

In [None]:
class ElapsedTimeEstimator(object):
    
    def __init__(self, wtc, lam, num_passengers):
        self.prior_x = Elapsed(wtc.pmf_x)
       
        self.post_x = self.prior_x.Copy()
        self.post_x.Update((lam, num_passengers))
        
        self.pmf_y = PredictWaitTime(wtc.pmf_zb, self.post_x)

prior_x와 posterior_x는 경과 시간의 사전 분포와 사후 분포다. pmf_y는 대기 시간의 예측 분포다.

ElapsedTimeEstimator는 다음에 정의할 Elapsed와 PredictWateTime을 사용한다.

Elapsed는 x의 가설 분포를 나타내는 Suite이다. x의 사전 분포는 WaitTimeCalculator에서 바로 나온다. <br />
그러면 도착 비율 lam과 플랫폼의 승객 수로 구성된 데이터를 사용해서 사후 분포를 계산한다.

In [None]:
class Elpased(thinkbayes2.Suite):
    
    def Likelihood(self, data, hypo):
        x = hypo
        lam, k = data
        like = thinkbayes2.EvalPoissonPmf(lam*x, k)
        return like

Likelihood는 가설과 데이터를 사용해서 가설하의 데이터의 우도를 계산한다. <br />
이 경우 hypo는 마지막 기차 이후 경과 시간이고, data는 lam과 승객 수의 튜플이다. 

데이터의 우도는 주어진 도착 비율 lam에 대해 시간 x에 k대가 도착할 확률이다. 여기서는 포아송 분포를 사용해서 계산했다. 

In [None]:
def PredictWaitTime(pmf_zb, pmf_x):
    pmf_y = pmf_zb - pmf_x
    RemoveNegatives(pmf_y)
    return pmf_y

pmf_zb는 기차 간의 간격 분포고, pmf_x는 관측된 승객 수에 따른 경과 시간 분포다. <br />
y = zb - x이므로 다음을 구할 수 있다.

In [None]:
    pmf_y = pmf_zb - pmf_x

빼기 연산자는 zb와 x의 모든 쌍을 나열하는 Pmf.__sub__를 호출해서 차를 구한 후 이 결과를 pmf_y에 더한다. <br />
결과 Pmf에는 우리가 불가능하다고 생각하는 경우에 대한 음수가 포함되어 있다. <br />
예를 들어, 기차가 5분 간격일 때 도착했다면 5분 이상 기다릴 리 없다. <br />
RemoveNegative는 이런 불가능한 값을 분포에서 제거하고 다시 정규화한다.

In [None]:
def RemoveNegatives(pmf):
    for val in pmf.Values():
        if val < 0:
            pmf.Remove(val)
    pmf.Normalize()

결과는 아래와 같다. <br />
x의 사전 분포는 y의 분포와 동일하다. x의 사후 분포는 플랫폼에 15명의 승객이 있을 경우 마지막 기차 이후 5-10분 지났을 것이라고 믿는다는 것을 보여준다. <br />
y의 예측 분포는 약 80%의 신뢰도로 다음 기차가 5분 이내에 올 것이라고 예상한다는 것을 가리킨다.

<img src="./Images/3.png" width=500 />

## (5) 도착 비율 추정

지금까지의 분석 내용은 (1)간격 분포와 (2)승객 도착 비율을 안다는 가정에 기반했다. <br />
이제 두 번째 가정은 잠시 무시한다. <br />
레드라인의 승객 도착 비율에 대해 전혀 모른다고 가정하자. <br />
정성적(출 퇴근)으로 혹은 정량적으로 $\lambda$를 추정할 수 있다. <br />
플랫폼에 도착하는 날 마다 시간과 대기 승객수를 기록하고, 자신이 대기한 시간과 대기하는동안 새로 도착하는 승객의 수를 기록한다. <br />
다음은 5일동안 기록을 한 내역이다. 

<img src="./Images/7.png" width=200 />

k1은 도착했을 때의 대기 승객 수, y는 분 단위 대기 시간, k2는 대기하는 동안 도착한 승객 수이다. <br />
1주일간 18분을 기다렸고 36명의 승객을 봤으므로 승객 도착 비율은 분당 2명이라고 추정할 수 있다. <br ?
이 추정은 연습용으로는 충분하지만, 완성도를 고려해서 $\lambda$의 사후 분포를 계산해서 이후 분석해서 이 분포를 어떻게 사용할지 살펴보겠다.

ArrivalRate는 $\lambda$에 대한 가설을 나타내는 Suite이다.

In [None]:
class ArrivalRate(thinkbayes2.Suite):
    def Likelihood(self, data, hypo):
        lam = hypo
        y, k = data
        like = thinkbayes2.EvalPoissonPmf(lam*y, k)
        return like

이 경우 가설은 $\lambda$의 값이다. 데이터는 대기 시간 y와 도착한 승객 수 k의 쌍이다. <br />
이 함수는 Elapsed.Likelihood와 거의 동일하다. 차이라면, 이 함수에서는 가설이 경과 시간인 x였는데 위 함수에서 <br />
가설은 도착 비율은 lam인 것이다. 하지만 양쪽 모두 우도는 주어진 lam에 대해 특정 시간 간격 동안 k명의 도착하는m 사람을 볼 확률이다.

ArrivalRateEstimator는 $\lambda$추정 프로세스를 캡슐화한다. 변수 passenger_data는 앞의 표 같은 k1, y, k2튜플의 리스트이다.

In [None]:
class ArrivalRateEstimaor(object):
    def __init__(self, passenger_data):
        low, high = 0, 5
        n = 51
        hypos = numpy.linspace(low, high, n) / 60
        
        self.prior_lam = ArrivalRate(hypos)
        self.post_lam = self.Prior_lam.Copy()
        for k1, y, k2 in passenger_data:
            self.post_lam.Update((y, k2))

\__init__는 lam의 가설 값의 시퀀스인 hypos를 만들고, 사전 분포 prior_lam을 만든다. <br />
for 반복문에서 사후 분호 post_lam을 호출해서 데이터를 사용해서 사전 값을 생성한다. <br />

다음 그림은 사전 분포와 사후 분포를 보여준다. 예상대로, 사후 분포의 평균과 중간값은 관측 비율대로 분당 2명 부근이다. <br />
하지만 사후 분포의 범위는 적은 샘플을 사용했을 때의 $\lambda$가 얼마나 불확실한지 보여준다.

<img src="./Images/4.png" width=400 />

### (6) 결합 불확실성

분석시 입력 값 중 하나라도 불확실한 것이 있다면 다음과 같은 프로세스를 고려할 수 있다. <br />
- 불확실한 변수(이 경우 $\lambda$)의 결정 값을 기반으로 한 분석을 구현한다.
- 불확실한 변수값의 분포를 계산한다.
- 변수의 각 값에 대해 분석을 실행한 후 예측 분포의 셋을 결정한다. 
- 변수의 분포에 가중치를 주어 예측 분포의 혼합을 계산한다.

(1), (2) 단계는 앞에서 이미 실행했고, (3), (4)단계를 처리하기 위해 WaitMixtureEstimator클래스를 작성했다. <br />

In [None]:
class WaitMixturesEstimator(object):
    
    def __init__(self, wtc, are, num_passengers=15):
        self.metapmf = thinkbayes2.Pmf()
        
        for lam, prob in sorted(are.post_lam.Items()):
            ete = ElapsedTimeEstimator(wtc, lam, num_passengers)
            self.metapmf.Set(ete.pmf_y, prob)
        self.mixture = thinkbayes2.MakeMixture(self.metapmf)

wtc는 zb분포를 포함하는 WaitTimeCalculator이다. are는 lam의 분포를 포함하는 ArrivalTimeEstimator이다.

첫 줄에서는 y 분포는 각 가능한 값에 확률을 연결하는 메타-Pmf를 생성한다. <br /> 
lam의 각 값에 대해 ElapsedTimeEstimator를 사용해서 y에 대응하는 분포를 계산하고 이를 메타-pmf에 저장한다. <br />
그리고 MaxMixture를 사용해서 혼합 분포를 계산한다. 이 결과가 다음 그림에 나와있다. <br />
배경의 흐린 선은 lam의 각 값에 대한 y의 분포로, 선의 굵기는 우도를 나타낸다. 진한 선은 이 분포의 혼합이다.

<img src="./Images/5.png" width=400 />

이 경우 lam의 단일 점 추정값을 사용해서 유사한 결과를 얻을 수 있었다. 따라서 연습 목적으로는 추정값의 불확실성을 포함 시킬 필요는 없다. <br />
일반적으로는 시스템의 응답 값이 선형이 아닌 경우 변동성을 포하하는 것은 중요하다. <br />
입력값에 생긴 작은 변화가 결괏값에는 큰 변화를 초래할 수 있다. 이 경우에는 lam의 사후 변동성이 작고 <br />
시스템의 응답이 선형에 가깝고 변화가 작다.

### (7) 의사 결정 분석

이제 우리는 대기 시간의 분포 예측을 위해 플랫폼의 승객 수를 사용할 수 있다. <br />
그럼 언제 기차를 기다리는 것을 멈추고 택시를 잡으러 가야 할까?

원래 시나리오를 생각해보면, 사무실에서 일찍 출발한 덕에 여유 시간이 15분 있고 사우스 스테이션에서 차를 갈아탄다고 가정하자. <br />
이 경우 num_passengers 함수로 y가 15분 이상일 확률을 알 수 있을 것이다. <br />
하지만 문제가 있다. 대기 시간이 긴 경우는 드물어서 이 경우 분석 내용은 빈도에 민감해지는데, 빈도를 추정하는 것이 어렵다. <br />
내가 가진 데이터는 1주일치 뿐이고, 내가 관측했던 가장 긴 대기 시간은 15분이다. <br />
대기 시간이 더 긴 경우의 빈도가 어떻게 되는 지는 정확하게 추정할 수 없다. <br />
하지만 기존의 관측 내용을 가지고 최소한 대략적인 추정은 할 수 있다. <br />
1년간 3개의 주요 장기 대기 시간이 있다고 추정하도록 해보자. <br />
하지만 관측은 편향적이므로 긴 관착이 많은 승객에게 영향을 끼치므로 더 관측하기 쉽다. <br />
그러므로 관측 내용은 z가 아니라 zb의 샘플로 사용해야 한다. 다음은 이를 코드로 나타내었다.

In [None]:
    n =220
    cdf_z = thinkbayes2.MakeCdfFromList(gap_times)
    sample_z = cdf_z.Sample(n)
    pmf_z = thinkbayes2.MakePmfFromList(sample_z)

그리고 zb의 분포를 얻기 위해 pmf_z를 편향시켜서 샘플을 고르고 30, 40, 50분의 대기 시간을 추가하자

In [None]:
    cdf_zp = BiasPmf(pmf_z).MakeCdf()
    sample_zb = cdf_zp.Sample(n) = [1800, 2400, 3000]

Cdf.Sample은 Pmf.Sample보다 더 효율적이므로 보통 샘플링 전에 Pmf를 Cdf로 바꾸는게 더 빠르다. <br />
그 다음 zb의 샘플을 사용해서 KDE로 Pdf를 추정하고, Pdf를 Pmf로 바꾼다.

In [None]:
    pdf_zb = thinkbayes2.EstimatedPdf(sample_zb)
    xs = MakeRange(low=60)
    pmf_zb = pdf_zb.MakePmf(xs)

마지막으로 zb의 분포를 비편향화해서 z의 분포를 구하고, 이를 사용해서 WaitTimeCalculator를 생성한다. 

In [None]:
    pmf_z = UnbiasPmf(pmf_zb)
    wtc = WaitTimeCalculator(pmf_z)

그럼 이제 장기 대기 시간의 확률을 계산할 준비가 끝났다.

In [None]:
    def ProbLongWait(num_passengers, minutes):
        ete = ElapsedTimeEstimator(wtc, lam, num_passengers)
        cdf_y = ete.pmf_y.MakeCdf()
        prob = 1 - cdf_y.Prob(minutes*60)

주어진 플랫폼의 승객 숫자를 사용해서, ProbLongWait에서는 ElapsedTimeEstimator를 만들고, <br /> 
대기 시간의 분포를 추출해서 minutes를 초과하는 대기 시간이 발생할 확률을 계산한다. <br />
다음 그림에서 결과가 나와있다. <br />
승객 수가 20이하 일 때 시스템이 일반적으로 돌아가고 있다고 추론할 수 있고, 장기 대기 시간이 나올 확률이 작다. <br />
만약 30명의 승객이 있다면 마지막 기차가 떠난 지 15분이 되었다고 추정할 수 있다. <br />
이는 일반적인 대기 시간보다 길므로 무언가가 잘못되었다고 추론하여 더 오래 기다릴 수도 있다고 예상할 수 있다.

<img src="./Images/6.png" width=400 />

만약 사우스 스테이션에서 환승 기차를 놓칠 확률이 10%이고 플랫폼에서 대기하는 승객이 30명 미만이라면 역에서 기다리고, <br /> 
더 많으면 택시를 타야한다. <br />
아니면, 분석을 한 단계 더 진행해서, 환승 기차를 놓쳤을 때의 비용과 택시를 타는 것의 비용을 정량화해서 예상 비용 최소화 지점을 찾을 수 있다.