# 확률 계산하기

1. T1~T5의 확률 문제를 분석하여 문제 해결과 관련한 확률 변수/분포를 파악하라.
1. [scipy.stats](https://docs.scipy.org/doc/scipy/reference/stats.html) package를 활용하여 주어진 문제에서 요구하는 확률 값을 계산하는 코드를 작성하라.
1. 계산 결과를 Google Form 형식 퀴즈의 답으로 입력하라 

## T1. 생일이 같은 사람이 존재할 확률 계산하기
* $N$명의 사람으로 이뤄진 모임이 있다.
* 모임의 사람들의 생일간에는 특별한 연관성이 없다고 가정한다. 
* 즉 어떤 사람의 생일은 1년 366일 (2월 29일도 포함) 중 하루를 모두 같은 확률 (1/366)로 가진다.

1.   $N=10$인 모임에서 생일이 같은 사람이 존재할 확률은 얼마나 되나?
2.  $N$이 몇 명 이상(Equal or Greater than)이면 생일이 같은 사람이 존재할 확률이 50% 이상이 될까? 

필요하다면 scipy.special package의 [perm](https://docs.scipy.org/doc/scipy/reference/generated/scipy.special.perm.html#scipy.special.perm) (순열, Permutation), [comb](https://docs.scipy.org/doc/scipy/reference/generated/scipy.special.comb.html#scipy.special.comb) (조합, Combination) 함수를 사용하라.

---
* 우선 $N$명의 사람들에게 번호를 1번부터 $N$번까지 부여하자.
* 1번이 가질 수 있는 생일의 경우의 수는 366, 2번이 가질 수 있는 생일의 경우의 수도 366, ...
* $N$명의 사람들이 가질 수 있는 모든 생일의 경우의 수는 $366^N$. 
* $N$명의 사람들이 모두 서로 다른 생일을 가진다면
>* 1번에 대해 가능한 생일의 경우의 수 : 366
>* 2번에 대해 가능한 생일은, 1번의 생일을 제외하여야 하므로 366-1 : 365
>* ...
>* $P(366,N) = \frac{366!}{(366-N)!}$
* N명의 사람들이 모두 다른 생일을 가질 확률은 $\therefore \frac{P(366,N)}{366^N}$

In [None]:
import numpy as np
import scipy.special as sp

N=np.arange(1,30)

P_all_different = sp.perm(366,N)/(366.0**N)

for i in range(len(N)) :
  print(f"N={i+1}, Prob(At least, a pair of people have the same birthday) = {1-P_all_different[i]:.3f}")

N=1, Prob(At least, a pair of people have the same birthday) = 0.000
N=2, Prob(At least, a pair of people have the same birthday) = 0.003
N=3, Prob(At least, a pair of people have the same birthday) = 0.008
N=4, Prob(At least, a pair of people have the same birthday) = 0.016
N=5, Prob(At least, a pair of people have the same birthday) = 0.027
N=6, Prob(At least, a pair of people have the same birthday) = 0.040
N=7, Prob(At least, a pair of people have the same birthday) = 0.056
N=8, Prob(At least, a pair of people have the same birthday) = 0.074
N=9, Prob(At least, a pair of people have the same birthday) = 0.094
N=10, Prob(At least, a pair of people have the same birthday) = 0.117
N=11, Prob(At least, a pair of people have the same birthday) = 0.141
N=12, Prob(At least, a pair of people have the same birthday) = 0.167
N=13, Prob(At least, a pair of people have the same birthday) = 0.194
N=14, Prob(At least, a pair of people have the same birthday) = 0.223
N=15, Prob(At least, a pair o

## T2. 주사위 던지기 확률 계산하기
* 주사위를 100번 던져 6이 나오는 횟수와 관련한 확률을 구하려 한다.
1. 6이 나오는 횟수가 20번 이상일 확률은 얼마인가?
1. 6이 나오는 횟수가 5번 이하일 확률은 얼마인가?

필요하다면 [scipy.stats](https://docs.scipy.org/doc/scipy/reference/stats.html) package의 확률분포 함수를 사용하라.

---
* **이하 문제들은 확률 문제에 대한 1) 기초 모델링 역량, 그리고 모델링에 따른 2) 확률 값 계산 역량을 묻는 것이다** 
* 이 문제는 $n=100, p=1/6$인 Binomial Random Variable로 모델링할 수 있다.
* 확률 계산을 위해서는 Discrete Random Variable의 경우 PMF를 이용하는 것이 일반적이며 Continuous Random Variable의 경우 CDF를 이용하는 것이 일반적이다.
* 우리가 이용하는 Scipy.stats Library의 경우 Discrete R.V에 대해 pmf(), cdf()를 Continuous R.V에 대해 cdf(), pdf()를 제공한다.

1. 6이 나오는 횟수가 20번 이상일 확률
>* $Pr(X \geq 20) = 1 - \sum_{k=0}^{19} P_X(k)$
>* $P_X(k)$는 pmf() 
>* Numpy에서는 가능한 Vectorization을 활용하는 코드를 짜기 위해 노력, 즉 for, while 등의 loop을 가능한 사용하지 않도록. 
2. 6이 나오는 횟수가 5번 이하일 확류
>* $Pr(X \leq 5) = \sum_{k=0}^{5} P_X(k)$
>* 아래 코드에서 포함해 두었듯이 Discrete Random Variable이지만 pmf()가 아닌 cdf()를 이용하여 문제를 풀수도 있다. 실제 코드 상으로는 더 간단하다. 다만 Discreter Random Variable의 경우 cdf()가 continuous가 아닌 점, 기준 값의 포함 여부에 대해 혼동이 있을 수 있는 점 등에 유의하여야 한다. 


In [None]:
import scipy.stats as stats

# Binomial Random Variable/Distribution
n, p = 100, 1/6
rv = stats.binom(n,p)

# Pr(X >= 20)
Ks = np.arange(20)  # [0, 1, 2, ..., 19]
print(f"Pr(X >= 20)= {1-sum(rv.pmf(Ks))}")
#print(1-rv.cdf(19)) # cdf() 

# Pr(X <= 5)
Ks = np.arange(6)  # [0, 1, 2, ..., 5]
print(f"Pr(X <=  5)= {sum(rv.pmf(Ks))}")
#print(rv.cdf(5))  # cdf()

Pr(X >= 20)= 0.21974984306262046
Pr(X <=  5)= 0.0003849232800486668


## T3. A형 간염 보균자 확률 계산하기
* 부산대학교 병원은 오랜 기간의 임상 조사와 분석을 통해 한국인의 A형 간염 보균과 관련한 특성을 얻었다.
* 결과에 따르면 한국인 10,000명당 평균 16명이 A형 간염균을 가지고 있는 것으로 파악되었다.
* 부산대학교 병원은 부산대학교 정보컴퓨터공학부에 재학 중인 학생 1,000명에 대해 A형 간염 보균 여부를 확인하는 검사를 시행할 계획이다.

1.  검사 결과 1,000명의 학생 중 A형 간염 보균자가 없을 (0명) 확률은 얼마인가?
1. 1,000명의 학생 중 A형 간염 보균자의 수가 5명 이상일 확률은 얼마인가?

---

Poisson Distribution을 적용하는 전형적인 사례이다.
>* Poisson은 이벤트가 Random하게 발생하는데 이벤트들 간의 관계가 독립(Independent)이며 그 발생 빈도의 평균이 알려져 있는 확률 문제에서 **이벤트의 발생 횟수**를 모델링 할 때 주로 쓰인다.
>* Poisson이 아닌 Binomial을 적용? 물론 가능하다. 사실 Poisson은 Binomial의 limiting case로 유도된 것이다. Poisson 근사화는 계산이 쉽지 않던 시대(컴퓨터가 없던 시대)에 계산의 복잡도를 상당 부분 줄여줬다. 물론 고속 연산의 시대에 살고 있어 $0.0016^{995}$와 같은 계산이 아무것도 아니라고 생각하는 사람들에게는 Poisson이 더 어렵게 인식될 수 있다.


* Poisson으로 Modeling할 때 핵심은 인자 $\lambda$이다. 10,000 명당 평균 16명이라고 했는데 대상의 크기가 1,000이므로 $\lambda = 1.6$인 Poisson R.V $X \sim Poisson(\lambda=1.6)$로 모델링하면 된다. 

1.  A형 간염 보균자가 없을 (0명) 확률
>* $P_X(0)$

1. A형 간염 보균자의 수가 5명 이상일 확률
>* $Pr(X\geq 5) = 1-\sum_{k=0}^{4} P_X(k)$


In [None]:
import numpy as np
import scipy.stats as stats

# Poisson Random Variable with lambda = 1.6
Rate = 1.6
rv = stats.poisson(Rate)

# Pr(X = 0)
print(f"Pr(X =  0)= {rv.pmf(0)}")

# Pr(X >= 5)
Ks = np.arange(5)  # [0, 1, 2, ..., 4]
print(f"Pr(X >= 5)= {1-sum(rv.pmf(Ks))}")
#print(1-rv.cdf(4))  # cdf()

Pr(X =  0)= 0.20189651799465538
Pr(X >= 5)= 0.023682278049311556
0.023682278049311667


## T4. 콜센터(Call Center) 통화 시간 길이 확률 계산하기
* 어떤 금융 회사 콜 센터(Call Center)는 오랜 기간의 경험과 기록 분석을 통해 고객 서비스를 위한 통화 시간 길이의 특성을 얻었다
* 분석 결과 고객 서비스를 위한 통화 시간은 서로 독립이며 (Independent)
 그 길이는 평균이 4 분(minute)인 지수 분포(Exponential Distribution)의 특성을 가지고 있었다.

 1. 어떤 고객과의 통화가 1분 이내에 끝날 확률은 얼마인가 ?
 1. 어떤 고객과의 통화가 8분 이상 걸릴 확률은 얼마인가? 

---
* Exponential Distribution으로 모델링하는 전형적 사례이다.
>* 핵심 인자 $\lambda$의 설정이 중요하다. Discrete Random Variable Poisson()과 Continuous Random Variable Exponential()은 모두 Poisson Process의 모델링에 쓰인다. Poisson()은 Event의 발생 횟수를, Exponential()은 Event간의 시간을 모델링할 때 쓰인다.
>* Event의 평균 발생 빈도가 $\lambda$라면 Poisson()의 평균은 $\lambda$이지만 Exponential()의 평균은 $1/\lambda$이다.
>* 문제에서 통화 시간의 평균, 즉 Exponential의 평균이 4분이라고 했으므로 $1/\lambda = 4$이다. Scipy.stats.expon() 함수 호출 시 scale = $1/\lambda=4$ 가 되어야 한다. (HW 04-1. T5 참조)

* Exponential은 Continuous Random Variable로서 pmf() $( P_X (k))$라는 개념을 적용할 수 없다. 확률 계산을 위해서는 cdf() $( F_X (x))$의 사용이 필요하다.

1. 통화가 1분 이내에 끝날 확률 ?
>* $Pr(X \leq 1) = F_X (1)$

1. 통화가 8분 이상 걸릴 확률 ?  
>* $Pr(X \geq 8) = 1-F_X (8)$

In [None]:
import scipy.stats as stats

# Exponential Random Variable with lambda = 1/4
Rate = 1/4
rv = stats.expon(scale = 1/Rate)

# Pr(X <= 1)
print(f"Pr(X <= 1)= {rv.cdf(1)}")

# Pr(X >= 8)
print(f"Pr(X >= 8)= {1-rv.cdf(8)}")

Pr(X <= 1)= 0.22119921692859515
Pr(X >= 8)= 0.1353352832366127


##T5. IQ 확률 계산하기
*  어떤 [조사](https://www.healthline.com/health/average-iq)에 따르면 한국인의 IQ는 평균이 106이라고 한다
* IQ 값의 정규(Normal/Gaussian) 분포를 따르며 표준 편차는 15 정도인 것으로 파악된다.

1. 임의로 선정한 어떤 한국인의 IQ 값이 120 이하일 확률은 얼마인가?
2. 임의로 선정한 어떤 한국인의 IQ 값이 135 이상일 확률은 얼마인가?
3. IQ 값이 상위 1%인 한국인은 IQ가 얼마보다 높아야 할까? (결과가 정수가 아닐 경우 반올림하여 답을 적어라)

scipy.stats package는 분포에 대해 pmf/pdf, cdf 외에도 ppf() - percent point function - 라는 함수를 제공한다. ppf()는 cdf의 역함수이다. 예를 들어 CDF(x) =  0.9 (즉 Pr(X <= x) = 90%)인 x 값은 PPF(0.9)를 통해 구할 수 있다. 

---
* Normal/Gaussian으로 Modeling한다. 인자 $\mu = 106, \sigma=15$로 주어졌다.

1. IQ 값이 120 이하일 확률?
>* $Pr(X\leq 120) = F_X (120)$

2. IQ 값이 135 이상일 확률?
>* $Pr(X\geq 135) = 1 - F_X (135)$

3. IQ 값이 상위 1%인 한국인은 IQ가 얼마보다 높아야 할까? 
>* ppf() 이용


In [None]:
import scipy.stats as stats

# Normal Random Variable with mu=106, sigma=15
mu, sigma = 106, 15
rv = stats.norm(mu, sigma)

# Pr(X <= 120)
print(f"Pr(X <= 120)= {rv.cdf(120)}")

# Pr(X >= 135)
print(f"Pr(X >= 135)= {1-rv.cdf(135)}")

# Pr(X >= x) = 0.01, Find x
print(f"Pr(X >= {rv.ppf(0.99)})=0.01")

Pr(X <= 120)= 0.8246760551477705
Pr(X >= 135)= 0.026597574021009596
Pr(X >= 140.8952181106126)=0.01
