In [1]:
%matplotlib inline
import numpy as np
import pandas as pd

# pmf

## 정의

pmf: probability mass function, 확률 질량 함수

분포를 표현하는 또다른 방식은 확률 질량 함수(probability mass function) (PMF)로 각 값을 확률로 매핑한다. 확률(probability)은 표본 크기 n의 일부로서 표현되는 빈도다. 빈도에서 확률을 얻기 위해서, n으로 나누는데 이를 정규화(normalization)라고 부른다.

## 예시

정육면체 주사위의 여섯 면 중 3개의 면에는 눈금이 1개, 2개의 면에는 눈금이 2개, 1개의 면에는 눈금이 3개 그려져 있다.

In [2]:
number = pd.DataFrame({'number': [1, 1, 1, 2, 2, 3]}).number
number

0    1
1    1
2    1
3    2
4    2
5    3
Name: number, dtype: int64

1. 주사위를 굴렸을 때 1이 나올 확률: PMF(1) = 1/2
1. 주사위를 굴렸을 때 2가 나올 확률: PMF(2) = 1/3
1. 주사위를 굴렸을 때 3이 나올 확률: PMF(3) = 1/6

In [3]:
pmf = number.value_counts().sort_index()  # 각 값들의 빈도 수 계산
pmf /= pmf.sum()  # 전체 수로 나누어 확률 계산 (normalization)
pmf

1    0.500000
2    0.333333
3    0.166667
Name: number, dtype: float64

In [4]:
print(pmf[1], pmf[2], pmf[3])

(0.5, 0.33333333333333331, 0.16666666666666666)


## 성질

모든 확률을 다 더하면 1이다.

In [5]:
pmf.sum()

0.99999999999999989

## 연산

### 기본 연산

In [6]:
print('# index 구하기')
print(pmf.index)

print('# 확률 구하기')
print(pmf.values)

print('# 모든 확률 더하기')
print(pmf.sum())

# index 구하기
Int64Index([1, 2, 3], dtype='int64')
# 확률 구하기
[ 0.5         0.33333333  0.16666667]
# 모든 확률 더하기
1.0


### Mean 구하기

$\bar{x}$: mean (눈금의 기대값)

$x_i$: 눈금의 수

$PMF(x_i)$: 눈금이 $x_i$개 나올 확률

$$\bar{x} = \sum_i PMF(x_i) x_i$$

In [7]:
pmf.mul(pmf.index).sum()

1.6666666666666665

In [9]:
number.mean()  # 원 데이터로 구한 mean

1.6666666666666667

### Variance 구하기

$S^2$: Variance

$\bar{x}$: mean (눈금의 기대값)

$x_i$: 눈금의 수

$PMF(x_i)$: 눈금이 $x_i$개 나올 확률

$$S^2 = \sum_i PMF(x_i) (x_i − \bar{x})^2$$

In [13]:
pmf.mul((pmf.index - pmf.mul(pmf.index).sum()) * (pmf.index - pmf.mul(pmf.index).sum())).sum()

0.55555555555555558

In [19]:
number.values.var()  # 원 데이터로 구한 mean

0.55555555555555558