In [1]:
%matplotlib inline

# 시행, 사건, 확률

- 대부분의 사건은 그 결과가 **"불확실"**. 따라서 모든 사건에는 확률이 관여.
- 확률에 의해 사건들이 어떤 모습으로 발생할지 예상하는 것이 목표.
- **"불확실한 결과가 나타나는 과정을 반복"**하면, 이를 실험(experiment) or **"시행(trial)"**이라 함
- **"어떤 시행을 하느냐가 결정"**되면 그 시행에 따른 **"결과도 범위가 정해짐"**
- 시행에 따라서 나타날 수 있는 **"모든 결과의 집합을 표본공간(sample space)"**라 부름.
- 일단 **"어떤 시행을 하면"**, 모든 가능한 결과를 나열할 수 있고, 그 **"결과 중에 하나가 실현."**
- 표본공간 상에 있는 결과 중, 그 **"일부를 사건(event)"**라 부름.
- **"확률(probability)"**은 **"사건들이 일어날 수 있는 가능성(likelihood)"**을 0~1 사이의 숫자로 나타낸 척도.
- 표본공간안에 있는 사건들은 총합이 1인 확률을 일어날 수 있는 가능성에 비례하여 나눠 갖음.
- 확률분포(distribution)에서 **"'distribute'는 총합이 1인 확률을 나눠준다는 의미"**.
- 확률을 사건들에게 나눠주는 방식에 따라서 불확실한 세상은 아주 다양한 모습을 보여줌. 
- 어떤 시행인지 정해지면 표본공간이 결정되고, 각 사건들에게 부여된 실현 가능성의 정도에 따라 다양한 결과가 나타남.
- **"시행(trial)에는 매우 전형적인 형태가 있음."** 때문에 어떤 시행은 특별한 이름을 갖음. 
- **"베르누이 시행(Bernoulli trial)"**은 그 중에 하나. 이 시행의 특징은 그 **"결과가 단 두가지"** 밖에 없다는 점. 그리고 베르누이 시행을 반복하면 사건은 조금 복잡한 모양이 됨. 성공확률이 p인 베르누이 시행을 n번 시도했을 때, k번 성공하는 사건을 생각할 수 있음.
- **"n번 베르누이 시행을 반복하는 시행을 이항시행(binomial trial)"**이라 함. 즉, 시행의 결과가 2개인 특성을 말함. 
- 이항시행의 확률은 이항 분포(binomial distribution)를 따름.

## Binomial trial and distribution

이항시행과 이항분포는 아이템 강화를 통해 알아봄.  
이항분포는 아래와 같음.
$$Bin(m|N, \mu)= \begin{pmatrix} N \\ m \end{pmatrix} \mu^{m}(1-\mu)^{N-m}$$ 
$$\begin{pmatrix} N \\ m \end{pmatrix}\equiv \frac{N!}{m!(N-m)!}$$

따라서 성공 확률이 $p$인 강화를 $n$번 시행했을 때, $k$번 성공할 확률을 함수는 아래와 같음.  
$$P(X=k) = \frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k}$$

이항분포를 함수로 정의해 보면 아래와 같음.

In [17]:
def binomial_dist(n, p, k):
    #TODO: n, k를 숫자가 아닌 object로 수정해야 함
    res = math.factorial(n) / (math.factorial(k) * math.factorial(n-k)) * (p)**k * (1 - p)**(n - k)
    return res
    
binomial_dist(20, 0.1, 0)

0.12157665459056935

In [28]:
def binomial(n, p, size=None): # real signature unknown; restored from __doc__
    """
    binomial(n, p, size=None)
    
            Draw samples from a binomial distribution.
    
            Samples are drawn from a binomial distribution with specified
            parameters, n trials and p probability of success where
            n an integer >= 0 and p is in the interval [0,1]. (n may be
            input as a float, but it is truncated to an integer in use)
    
            Parameters
            ----------
            n : int or array_like of ints
                Parameter of the distribution, >= 0. Floats are also accepted,
                but they will be truncated to integers.
            p : float or array_like of floats
                Parameter of the distribution, >= 0 and <=1.
            size : int or tuple of ints, optional
                Output shape.  If the given shape is, e.g., ``(m, n, k)``, then
                ``m * n * k`` samples are drawn.  If size is ``None`` (default),
                a single value is returned if ``n`` and ``p`` are both scalars.
                Otherwise, ``np.broadcast(n, p).size`` samples are drawn.
    
            Returns
            -------
            out : ndarray or scalar
                Drawn samples from the parameterized binomial distribution, where
                each sample is equal to the number of successes over the n trials.
    
            See Also
            --------
            scipy.stats.binom : probability density function, distribution or
                cumulative density function, etc.
    
            Notes
            -----
            The probability density for the binomial distribution is
    
            .. math:: P(N) = \binom{n}{N}p^N(1-p)^{n-N},
    
            where :math:`n` is the number of trials, :math:`p` is the probability
            of success, and :math:`N` is the number of successes.
    
            When estimating the standard error of a proportion in a population by
            using a random sample, the normal distribution works well unless the
            product p*n <=5, where p = population proportion estimate, and n =
            number of samples, in which case the binomial distribution is used
            instead. For example, a sample of 15 people shows 4 who are left
            handed, and 11 who are right handed. Then p = 4/15 = 27%. 0.27*15 = 4,
            so the binomial distribution should be used in this case.
    
            References
            ----------
            .. [1] Dalgaard, Peter, "Introductory Statistics with R",
                   Springer-Verlag, 2002.
            .. [2] Glantz, Stanton A. "Primer of Biostatistics.", McGraw-Hill,
                   Fifth Edition, 2002.
            .. [3] Lentner, Marvin, "Elementary Applied Statistics", Bogden
                   and Quigley, 1972.
            .. [4] Weisstein, Eric W. "Binomial Distribution." From MathWorld--A
                   Wolfram Web Resource.
                   http://mathworld.wolfram.com/BinomialDistribution.html
            .. [5] Wikipedia, "Binomial distribution",
                   http://en.wikipedia.org/wiki/Binomial_distribution
    
            Examples
            --------
            Draw samples from the distribution:
    
            >>> n, p = 10, .5  # number of trials, probability of each trial
            >>> s = np.random.binomial(n, p, 1000)
            # result of flipping a coin 10 times, tested 1000 times.
    
            A real world example. A company drills 9 wild-cat oil exploration
            wells, each with an estimated probability of success of 0.1. All nine
            wells fail. What is the probability of that happening?
    
            Let's do 20,000 trials of the model, and count the number that
            generate zero positive results.
    
            >>> sum(np.random.binomial(9, 0.1, 20000) == 0)/20000.
            # answer = 0.38885, or 38%.
    """
    pass

강화 성공 확률이 10%라면 20번 시도했을 때 한번도 성공하지 못할 확률은 아래와 같음.  

In [1]:
n, p, k = 20, .1, 0
trials = 1000

number_of_success = np.random.binomial(n=n, p=p, size=trials) == k
print('1 to 10 trials: ', number_of_success[:10])

result = sum(number_of_success) / trials * 100
print(f'Probability: {result}%')

1 to 10 trials:  [False False False False False False False False False False]
Probability: 13.0%


그리고 5번 이하 성공할 확률은 아래와 같음.

In [283]:
number_of_success = np.random.binomial(n=n, p=p, size=trials) <= 5
print('1 to 10 trials: ', number_of_success[:10])

result = sum(number_of_success) / trials * 100
print(f'Probability: {result}%')

1 to 10 trials:  [ True  True  True  True  True  True  True  True  True  True]
Probability: 99.2%


### TODO
상태를 갖는 클래스로 설계할 수 있을까? 시간만 많았으면 했을듯...

# References

1. [Box and Whisker blog](http://www.boxnwhis.kr/2015/05/21/binomial_dist_in_games.html)
2. [Numpy binomial distribution](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.binomial.html)

### Note

1. 시행의 결과값은 sample의 특성에 따라 결과의 범위가 정해지는 것 같은데, 왜 시행들에 따로 명칭을 붙였을까? 자연에서 관찰되는 sample들은 몇가지의 시행으로 표현이 가능한 것일까?
2. Likelihood는 $P(D|H)$의 형태로 알고있다. 여기서 D와 H 모두 사건이며 변수이다. 하지만 Likelihood에서는 H를 고정하여 상수로 취급한다. 그리고 조건부 확률(Conditional Proablity)의 형태는 $P(H|D)$이며, 다만 여기서는 D는 고정하여 상수로 취급한다. Lihelihood와 probability의 차이가 정확히 무엇일까? 일단 [기존 질문글](https://stats.stackexchange.com/questions/2641/what-is-the-difference-between-likelihood-and-probability)을 참조하면 될 듯.