# 베르누이 확률 분포

## 베르누이 시도

결과가 성공(Success) 혹은 실패(Fail) 두 가지 중 하나로만 나오는 것을 **베르누이 시도**(Bernoulli trial)라고 한다. 예를 들어 동전을 한 번 던져 앞면(H:Head)이 나오거나 뒷면(T:Tail)이 나오게 하는 것은 베르누이 시도의 일종이다.

베르누이 시도의 결과를 확률 변수(random variable) $X$ 로 나타낼 때는 일반적으로 성공을 정수 1 ($X=1$), 실패를 정수 0 ($X=0$)으로 정한다. 때로는  실패를 0 이 아닌 -1($X=-1$)로 정하는 경우도 있다.

## 베르누이 분포

베르누이 확률 변수는 0, 1 두 가지 값 중 하나만 가질 수 있으므로 이산 확률 변수(discrete random variable)이다. 따라서 확률 질량 함수(pmf: probability mass function)로 정의할 수 있다. 

베르누이 확률 분포의 확률 질량 함수는 다음과 같다.

$$
\text{Bern}(x;\theta) = 
\begin{cases} 
\theta   & \text{if }x=1, \\
1-\theta & \text{if }x=0
\end{cases}
$$

베르누이 확률 변수는 **1이 나올 확률**을 의미하는 $\theta$라는 하나의 모수를 가진다. 변수와 모수는 세미콜론(;, semi-colone)기호로 분리하였다. 0이 나올 확률은 $1 - \theta$이다.

위 식을 하나의 수식으로 표현하면 다음과 같이 쓸 수도 있다.

$$
\text{Bern}(x;\theta) = \theta^x(1-\theta)^{(1-x)}
$$

#### 연습 문제 1

위 식에서 $x=1$과 $x=0$을 각각 대입하여 원래의 확률 질량 함수 식이 나오는 것을 확인한다.

만약 베르누이 확률 변수가 1과 -1이라는 값을 가진다면 다음과 같은 수식으로 써야 한다.

$$ \text{Bern}(x; \theta) = \theta^{(1+x)/2} (1-\theta)^{(1-x)/2} $$

만약 어떤 확률 변수 $X$가 베르누이 분포에 의해 발생된다면 **"확률 변수 $X$가 베르누이 분포를 따른다"**라고 말하고 다음과 같이 수식으로 쓴다.

$$ X \sim \text{Bern}(x;\theta) $$

## SciPy를 사용한 베르누이 분포의 시뮬레이션

Scipy의 stats 서브 패키지에 있는 `bernoulli` 클래스가 베르누이 확률 분포를 위한 클래스다. `p` 인수로 분포의 모수 $\theta$을 설정한다. 

다음 예에서는 p = 0.6 으로 설정하였다.

In [27]:
import numpy as np
import scipy as sp

import pandas
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
import sklearn as sk

import matplotlib as mpl
mpl.use('Agg')
import matplotlib.pylab as plt
from mpl_toolkits.mplot3d import Axes3D

import seaborn as sns
sns.set()
sns.set_style("whitegrid")
sns.set_color_codes()


`pmf` 메서드를 사용하면 확률 질량 함수(pmf: probability mass function)를 계산할 수 있다.

In [25]:
theta = 0.6
rv = sp.stats.bernoulli(theta)

In [29]:
xx = [0, 1]
plt.bar(xx, rv.pmf(xx)) ## ,align="center") ## align 자동으로 해줌 
plt.xlim(-1, 2)## x 축지정 
plt.ylim(0, 1) ## y 축지정 
plt.xticks([0, 1], ["x=0", "x=1"]) # 원래 자동이지만 원하는 위치에 그리드 넣기 
plt.ylabel("P(x)")## 축의 이름 
plt.title("pmf of Bernoulli distribution")

plt.show()

시뮬레이션을 하려면 `rvs` 메서드를 사용한다.

In [15]:
x = rv.rvs(100, random_state=0) ## 동전던지기 
x

array([1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1,
       0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0,
       1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0,
       1, 0, 1, 1, 1, 1, 0, 1])

결과를 seaborn의 `countplot` 명령으로 시각화한다.

In [28]:
sns.countplot(x)
plt.show()

이론적인 확률 분포와 샘플의 확률 분포를 동시에 나타내려면 다음과 같은 코드를 사용한다.

In [21]:
y = np.bincount(x, minlength=2) / float(len(x)) ## bincount 숫자를 실제로 세어줌 ## 피벗 테이블 ## 저장불편

df = pd.DataFrame({"theoretic": rv.pmf(xx), "simulation": y})
df.index = [0, 1]
df

Unnamed: 0,simulation,theoretic
0,0.38,0.4
1,0.62,0.6


seaborn의 `barplot` 명령으로 시각화하면 다음과 같다.

In [22]:
df2 = df.stack().reset_index() ## 위와 같은 정보인데 다른 테이블 (stat table) ## 저장편함 
df2.columns = ["value", "type", "ratio"]
df2

Unnamed: 0,value,type,ratio
0,0,simulation,0.38
1,0,theoretic,0.4
2,1,simulation,0.62
3,1,theoretic,0.6


In [23]:
sns.barplot(x="value", y="ratio", hue="type", data=df2) ## hue 칼라정보
plt.show() ## seaborn 의 데이터는 stat테이블을 선호 

## 베르누이 분포의 모멘트

- 1차모멘트 = 기대값(Expectation)
- 2차모멘트 = 분산 (Variance)
- 3차모멘트 = 스큐니스(Skewness)
- 4차모멘트 = 커토시스 (Kurtosis) 첨도라고도 함 


모든 차수의 모멘트 값이 같으면 같은 확률 분포이다 

베르누이 분포의 모멘트는 다음과 같다.

### 기댓값

$$\text{E}[X]  = \theta$$

(증명)

$$\text{E}[X]  = 1 \cdot \theta + 0 \cdot (1 - \theta) =  \theta$$

### 분산

$$\text{Var}[X] = \theta(1-\theta)$$

(증명)

$$\text{Var}[X] = (1 - \theta)^2 \cdot \theta + (0 - \theta)^2 \cdot (1 - \theta) = \theta(1-\theta)$$

앞의 예에서는 $\theta = 0.6$이였으므로 이론적인 기댓값과 분산은 다음과 같다.

$$ \text{E}[X] = 0.6 $$
$$ \text{Var}[X] = 0.6 \cdot (1 - 0.6) = 0.24 $$

데이터에서 계산한 샘플 평균 및 샘플 분산은 다음과 같이 계산한다.

In [8]:
np.mean(x)

0.62

In [9]:
np.var(x, ddof=1)

0.23797979797979804

SciPy의 describe 명령을 쓰면 다음과 같이 계산할 수 있다.

In [31]:

s = sp.stats.describe(x)
s[2], s[3]

(0.62, 0.23797979797979804)

또는 Pandas의 시리즈 객체로 만든 뒤에 describe 메서드를 써서 다음과 같이 계산할 수도 있다.

In [11]:
pd.Series(x).describe()

count    100.000000
mean       0.620000
std        0.487832
min        0.000000
25%        0.000000
50%        1.000000
75%        1.000000
max        1.000000
dtype: float64

#### 연습 문제 2

베르누이 확률 분포의 모수가 다음과 같을 경우에 각각 샘플을 생성한 후 기댓값과 분산을 구하고 앞의 예제와 같이 확률 밀도 함수와 비교한 카운트 플롯을 그린다.
샘플의 갯수가 10개인 경우와 1000개인 경우에 대해 각각 위의 계산을 한다.

1. $\theta = 0.5$
2. $\theta = 0.9$

In [None]:
theta = 0.5
x = rv.rvs(100, random_state=0) ## 동전던지기 

pd.Series(x).describe()

## 베르누이 분포의 활용

베르누이 분포는 다음과 같은 경우에 사용된다.

1. 입력 데이터가 0 또는 1 혹은 참 또는 거짓, 두 개의 값으로 구분되는 카테고리 값인 경우, 두 종류의 값이 나타나는 비율을 표현하기 위해 사용된다.
2. 예측 문제의 출력 데이터가 두 개의 값으로 구분되는 카테고리 값인 경우, 두 값 중 어느 값이 가능성이 높은지를 표현하기 위해 사용된다.

예를 들어 스팸 메일과 정상 메일을 구분해야 하는 스팸 메일 필터를 만들어야 한다면 우선 특정한 특징(단어 등)을 가진 메일 중에 스팸 메일과 정상 메일의 비율이 어느 정도인지를 알아야 할 것이다. 이런 비율은 베르누이 분포를 이용하여 표현할 수 있다. 또한 최종적으로 스팸 메일인지 아닌지를 결정한 결론도 단순히 스팸 여부만을 알려주는 것이 아니라 그 가능성을 수치로 표현해 줄 수 있다.