(ch:discrete-distribution)=
# 이산 확률 분포

**기본 설정**

Numpy와 Pandas 라이브러리를 각각 np와 pd로 불러온다.

In [1]:
import numpy as np
import pandas as pd

데이터프레임의 [chained indexing을 금지시키기 위한 설정](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)을 지정한다.
Pandas 3.0 버전부터는 기본 옵션으로 지정된다.

In [2]:
pd.options.mode.copy_on_write = True

주피터 노트북에서 부동소수점의 출력을 소수점 이하 6자리로 제한한다.
아래 코드는 주피터 노트북에서만 사용하며 일반적인 파이썬 코드가 아니다.

In [3]:
%precision 6

'%.6f'

아래 코드는 데이터프레임 내에서 부동소수점의 출력을 소수점 이하 6자리로 제한한다.

In [4]:
pd.set_option('display.precision', 6)

데이터 시각화를 위해 `matplotlib.pyplot`를 `plt`라는 별칭으로 불러온다.

In [5]:
import matplotlib.pyplot as plt

**데이터 저장소 디렉토리**

코드에 사용되는 [데이터 저장소의 기본 디렉토리](https://github.com/codingalzi/DataSci/tree/master/data)를 지정한다.

In [6]:
data_url = 'https://raw.githubusercontent.com/codingalzi/DataSci/refs/heads/master/data/'

**주요 내용**

이산 확률 분포의 주요 개념을 소개한다.

- 이산 확률 변수
- 이산 확률 분포
- 확률 질량 함수
- 누적 분포 함수

## 이산 확률 변수

{numref}`%s장 <ch:probability>`에서 살펴본 확률 변수는 해당 변수에 할당될 수 있는 값과 그 값이
발생할 확률에 의해 정의되며, 확률 분포는 이를 정리한 결과다.

예를 들어 한 개의 정상적인 주사위를 던졌을 때 나올 수 있는 값을 가리키는 확률 변수를 $X$의
확률 분포는 다음과 같다.

| X | 1 | 2 | 3 | 4 | 5 | 6|
| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| 확률 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |

반면에 캘리포니아 주택가격 데이터셋에서 임의로 선택된 구역의 소득 범주를 가리키는 확류 변수 $X$의
확률 분포는 다음과 같다.

| X | 1 | 2 | 3 | 4 | 5 |
| :---: | :---: | :---: | :---: | :---: | :---: |
| 확률 | 0.041372 | 0.333011 | 0.361017 | 0.177992 | 0.086607 |

위 두 예제에서 확률 변수가 가리키는 값은 $x_1$, $x_2$, $x_3$ ... 등의 형식으로 하나, 둘, 셋 하며 셀 수 있다. 
이런 값을 가리키는 확률 변수를 **이산 확률 변수**<font size='2'>discrete random variable</font>,
이산 확률 변수가 따르는 확률 분포를 **이산 확률 분포**<font size='2'>discrete random distribution</font>라 한다.

:::{admonition} 단변량 분포
:class: note

하나의 확률 변수가 갖는 확률 분포를 **단변량 분포**<font size='2'>univariate distribution</font>라 한다.
:::

**예제: 소득 범주 이산 확률 분포**

캘리포니아 주택가격 데이터셋을 이용하여 앞서 언급된 소득 범주의 이산 확률 분포를 가리키는 데이터프레임을 직접 생성해본다.

캘리포니아 주택가격 데이터셋을 불러온 후에 가구중위소득과 주택중위가격만 활용한다.

In [7]:
housing = pd.read_csv(data_url+"california_housing.csv")
housing = housing.loc[:, ['median_income', 'median_house_value']]
housing

Unnamed: 0,median_income,median_house_value
0,8.3252,452600.0
1,8.3014,358500.0
2,7.2574,352100.0
3,5.6431,341300.0
4,3.8462,342200.0
...,...,...
20635,1.5603,78100.0
20636,2.5568,77100.0
20637,1.7000,92300.0
20638,1.8672,84700.0


중위주택가격이 50만을 초과하는 경우는 삭제하고 인덱스를 초기화한다.

In [8]:
house_value_max = housing['median_house_value'].max() # 500,001
mask = housing['median_house_value'] >= house_value_max
housing = housing[~mask]
housing = housing.reset_index(drop=True)
housing.index.name = 'district'
housing

Unnamed: 0_level_0,median_income,median_house_value
district,Unnamed: 1_level_1,Unnamed: 2_level_1
0,8.3252,452600.0
1,8.3014,358500.0
2,7.2574,352100.0
3,5.6431,341300.0
4,3.8462,342200.0
...,...,...
19670,1.5603,78100.0
19671,2.5568,77100.0
19672,1.7000,92300.0
19673,1.8672,84700.0


중위소득 범주 특성을 추가한다.

In [9]:
housing["income_cat"] = pd.cut(housing["median_income"],
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])

housing

Unnamed: 0_level_0,median_income,median_house_value,income_cat
district,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,8.3252,452600.0,5
1,8.3014,358500.0,5
2,7.2574,352100.0,5
3,5.6431,341300.0,4
4,3.8462,342200.0,3
...,...,...,...
19670,1.5603,78100.0,2
19671,2.5568,77100.0,2
19672,1.7000,92300.0,2
19673,1.8672,84700.0,2


소득 범주별로 그룹화하고 구간별 도수와 상대도수를 확인한다.

In [10]:
x_stratification = housing.iloc[:, [0, 2]].groupby('income_cat', observed=True, group_keys=True)
x_stratified_count = x_stratification.count()
x_stratified_ratio = x_stratified_count/(housing.shape)[0]
x_stratified_ratio

Unnamed: 0_level_0,median_income
income_cat,Unnamed: 1_level_1
1,0.041372
2,0.333011
3,0.361017
4,0.177992
5,0.086607


위 데이터프레임을 이용하여 소득 범주에 대한 확률 분포를 구한다.

In [11]:
prob_income = x_stratified_ratio.iloc[:, 0:1]
prob_income.columns = ['확률']
prob_income.index.name = 'X'

prob_income = prob_income.T
prob_income

X,1,2,3,4,5
확률,0.041372,0.333011,0.361017,0.177992,0.086607


### 확률 질량 함수(PMF)

이산 확률 변수 $X$가 가리키는 값이 $x$이고 $x$가 발생할 확률이 $p$일 때 다음과 같이 표기한다.

$$
P(X=x) = p
$$

확률 변수 $X$가 $x$를 취할 수 있는 확률을 계산하는 
**확률 질량 함수**<font size='2'>probability mass function</font>(PMF)함수 $f$를 다음과 같이 정의한다.

$$
f(x) = P(X = x)
$$

**예제: 소득 범주의 PMF**

소득 범주의 PMF는 다음과 같이 정의할 수 있다.

In [12]:
def f_income(x):
    return (prob_income[x].values)[0]

예를 들어 임의의 구역의 소득 범주가 2일 확률은 약 33.3%다.

In [13]:
f_income(2)

0.333011

그런데 `f_income()` 함수는 사실상 `prob_income` 자체와 다르지 않다.
따라서 `prob_income` 자체를 PMF로 대신 사용한다.
단, 함수 호출 대신 데이터프레임 인덱싱 기능과 적절한 메서드를 사용한다.

**확률의 성질**

이산 확률 분포가 주어졌을 때 모든 경우에 대한 확률은 0과 1사이의 부동소수점이고, 
모든 확률의 합은 1이다.
즉 다음이 성립해야 한다.

- 첫째, 확률 변수가 취할 수 있는 임의의 값 $x_k$에 대한 확률은 0과 1 사이의 값이다.

    $$0 \le f(x_k) \le 1$$

- 둘째, 확률 변수가 취할 수 있는 모든 값에 대한 확률의 합은 1이다.

    $$\sum_k f(x_k) = 1$$


소득 범주의 확률 변수 또한 위 성질을 만족한다.

- 모든 확률은 0과 1사이의 값

In [14]:
(0 <= prob_income) & (prob_income <= 1)

X,1,2,3,4,5
확률,True,True,True,True,True


다음 방식도 가능하다.

In [15]:
((0 <= prob_income) & (prob_income <= 1)).all(axis=1)

확률    True
dtype: bool

- 모든 확률의 합은 1

In [16]:
prob_income.sum(axis=1)

확률    1.0
dtype: float64

### 누적 분포 함수(CDF)

확률 변수 $X$가 $x$보다 같거나 작은 값을 가질 확률을 계산하는 함수를
**누적 분포 함수**<font size='2'>cumulative distribution function</font>(CDF)라고 부르며
아래처럼 정의된다.

$$
F(x) = P(X \le x) = \sum_{x_k \le x} f(x_k)
$$

**소득 범주의 CDF**

소득 볌주의 CDF 또한 `prob_income`을 이용하여 정의된다.

In [17]:
def income_cdf(x):
    return np.sum([prob_income[x_k] for x_k in prob_income.columns if x_k <= x])

예를 들어 소득 범주가 1부터 3까지에 속할 확률은 약 73.5%다.

In [18]:
income_cdf(3)

0.735400

모든 소득 범주의 합이 1임을 아래 방식으로도 확인한다.

In [19]:
income_cdf(5)

1.000000

## 다변량 분포

여러 개의 확률 변수들이 결합된 확률 분포를 **다변량 분포**<font size='2'>multivariate distribution</font>라 부른다.
여기서는 두 개의 이산 확률 변수가 결합된 다변량 분포의 기초 개념을 살펴 본다.

### 이산 결합 확률 분포

$X$, $Y$ 두 개의 이산 확률 변수가 주어졌을 때 `(X, Y)`는 각각의 확률 변수가 취할 수 있는 값들의 분포가 
**이산 결합 확률 분포**<font size='2'>discrete joint probability distribution</font>다.
이산 결합 확률 분포의 확률 질양 합수는 **결합 확률 질량 함수**<font size='2'>joint probability mass function</font>는
확률 변수 $X$는 $x$를, 확률 변수 $Y$는 $y$를 취할 확률을

$$
P(X=x, Y=y) = p
$$

로 표현한다.

**예제: 소득 범주와 주택가격 범주**

캘리포니아 주택가격에 데이터셋에 포함된 중위주택가격을 가격 구간으로 나눠 새로운 이산 확률 변수 $Y$를 선언한다.
먼저 주택가격 범주를 소득 범주와 유사한 방식으로 추가한다.

중위주택가격의 범위는 14,999부터 500,000만까지다.

In [20]:
housing.median_house_value.describe()

count     19675.000000
mean     192477.921017
std       97711.509613
min       14999.000000
25%      116600.000000
50%      173800.000000
75%      248200.000000
max      500000.000000
Name: median_house_value, dtype: float64

주택가격의 사분위수 정보를 이용하여 중위주택가격을 6개 범주로 나눈다.

In [21]:
housing["value_cat"] = pd.cut(housing["median_house_value"],
                                    bins=[0, 50_000, 100_000, 150_000, 250_000, 400_000, np.inf],
                                    labels=range(1, 7))

housing

Unnamed: 0_level_0,median_income,median_house_value,income_cat,value_cat
district,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,8.3252,452600.0,5,6
1,8.3014,358500.0,5,5
2,7.2574,352100.0,5,5
3,5.6431,341300.0,4,5
4,3.8462,342200.0,3,5
...,...,...,...,...
19670,1.5603,78100.0,2,2
19671,2.5568,77100.0,2,2
19672,1.7000,92300.0,2,2
19673,1.8672,84700.0,2,2


주택가격 범주별로 그룹화하고 구간별 도수와 상대도수를 확인한다.

In [22]:
y_stratification = housing.iloc[:, [1, 3]].groupby('value_cat', observed=True, group_keys=True)
y_stratified_count = y_stratification.count()
y_stratified_ratio = y_stratified_count/(housing.shape)[0]
y_stratified_ratio

Unnamed: 0_level_0,median_house_value
value_cat,Unnamed: 1_level_1
1,0.010673
2,0.175248
3,0.201372
4,0.367878
5,0.205235
6,0.039593


주택가격 범주에 대한 확률 분포는 다음과 같다.

In [23]:
prob_value = y_stratified_ratio.iloc[:, 0:1]
prob_value.columns = ['확률']
prob_value.index.name = 'Y'

prob_value = prob_value.T
prob_value

Y,1,2,3,4,5,6
확률,0.010673,0.175248,0.201372,0.367878,0.205235,0.039593


참고로 소득 범주에 대한 확률 분포는 다음과 같다.

In [24]:
prob_income

X,1,2,3,4,5
확률,0.041372,0.333011,0.361017,0.177992,0.086607


**$P(X=4\mid Y=5)$ 계산**

캘리포니아 주택가격 데이터셋에 포함된 총 19,674개의 구역에서 한 구역을
임의로 선택했을 때 해당 구역의 소득 범주는 4, 주택가격 범주는 5일 확률 계산해보자.

먼저 두 확률 변수 $X$와 $Y$는 상호 독립적인 관계가 아님에 주의한다.
이유는 일반적으로 소득이 높은 지역일수록 주택가격이 높은 편이기 때문이다.
실제로 두 특성 사이의 상관계수가 0.64 정도로 매우 높은 편이다.

In [27]:
housing.iloc[:, :2].corr()

Unnamed: 0,median_income,median_house_value
median_income,1.0,0.642611
median_house_value,0.642611,1.0


이는 $P(X=4, Y=5)$가 $P(X=4)\cdot P(Y=5)$ 아님을 의미한다.

**조건부 확률**

$P(A\mid B)$는 사건 $B$가 일어났다는 전제 하에 사건 $A$가 발생할
**조건부 확률**<font size='2'>conditional probability</font>을 나타내며,
아래 그림에서 파랑색 영역 $B$에서 보라색 영역이 차지하는 부분의 비율을 가리킨다.

<p><div align="center"><img src="https://github.com/codingalzi/DataSci/blob/master/jupyter-book/images/conditional02.png?raw=true" style="width:300px"></div></p>

$P(A\cap B)$, 즉 $P(A, B)$는 검정색 영역 $U$에서 보라색 영역이 차지하는 비율이며, 따라서 $P(A \mid B)$와
일반적으로 다르다.
하지만 다음 식이 성립한다.

$$
P(A\mid B) = \frac{P(A, B)}{P(B)}
$$

이유는 앞서 설명한 대로 조건부 확률
$P(A\mid B)$가 영역 $B$에서 보라색 영역이 차지하는 부분의 비율을 가리키기 때문이다.

:::{admonition} 예제
:class: example

15명으로 구성된 동아리가 진행하는 행사에 참여하는 회원수가 다음과 같다고 가정한다.

|  | 미참여(0) | 참여(1) | 합계 |
| :---: | :---: | :---:| :---: |
| 여성회원(0) | 2 | 6 | 8 |
| 남성회원(1) | 2 | 5 | 7 |
| 합계 | 4 | 11 | 15 |

15명 중에 한 명을 임의로 선택할 때
확률 변수 $X$는 여성회원 여부를,
확률 변수 $Y$는 행사 참여 여부를 가리킨다고 하자.

그러면 임의로 선택된 사람이 여성일 때 그 여성이 행사에 참여할 확률
$P(Y=1\mid X=0)$는 총 8명 여성회원 중에서 행사에 참여하는
6명의 비율인 3/4이다.
반면에 임의로 한 명을 선택했을 때 행사에 참여하는 여성일 확률 $P(Y=1, X=0)$는
총 15명 중에 6명의 비율인 6/15이다.

15명 중에 8명이 여성이기에 $P(X=1)=8/15$이다. 
따라서 위 식을 이용해도 동일한 조건부 확률을 얻는다.

$$
P(Y=1 \mid X=0) = \frac{P(Y=1, X=0)}{P(X=0)} = \frac{\frac{6}{15}}{\frac{8}{15}} = \frac 6 8 = \frac 3 4
$$
:::

이제 $P(X=4, Y=5)$를 아래 식을 이용하여 계산할 수 있다.

$$
P(A, B) = P(A\mid B)\cdot P(B)
$$

- $P(X=4\mid Y=5)$

In [33]:
cats = housing.iloc[:, -2:]
cats

Unnamed: 0_level_0,income_cat,value_cat
district,Unnamed: 1_level_1,Unnamed: 2_level_1
0,5,6
1,5,5
2,5,5
3,4,5
4,3,5
...,...,...
19670,2,2
19671,2,2
19672,2,2
19673,2,2


In [47]:
cats_crossed = pd.crosstab(cats.iloc[:, 1], cats.iloc[:, 0], margins=True)
cats_crossed

income_cat,1,2,3,4,5,All
value_cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,72,131,6,1,0,210
2,436,2335,650,24,3,3448
3,159,1880,1652,251,20,3962
4,108,1799,3343,1753,235,7238
5,33,358,1273,1289,1085,4038
6,6,49,179,184,361,779
All,814,6552,7103,3502,1704,19675


In [54]:
p_x4_y5 = cats_crossed.loc[5, 4] / cats_crossed.loc[5, 'All']
p_x4_y5

0.319217

- $P(Y=5)$

In [55]:
p_y5_all = cats_crossed.loc[5, 'All'] / cats_crossed.loc['All', 'All']
p_y5_all

0.205235

- $P(X=4\mid Y=5) \cdot P(Y=5)$

In [57]:
p_x4_y5 * p_y5_all

0.065515

아래 값과 동일하다.

- $P(X=4\cap Y=5)$

In [60]:
cats_crossed.loc[5, 4] / cats_crossed.loc['All', 'All']

0.065515

## 연습문제

참고: [(연습) 이산 확률 분포](https://colab.research.google.com/github/codingalzi/DataSci/blob/master/practices/practice-discrete_distribution.ipynb)