# ch13. 기대 빈도와 관측 빈도 

기대 빈도와 관측 빈도로 들어가기 앞서서 먼저 포아송 분포를 짚어보겠습니다.  

## 포아송 분포
정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을  λ 라고 했을 때, 그 사건이  n 회 일어날 확률은 다음과 같습니다.

$$f(x;\lambda)=\frac{\lambda^ne^{-\lambda}}{n!}$$

![poisson.jpg](attachment:854a0d46-d9dc-41c8-99d1-b6434fe6094c.jpg)

다른 분포들과 마찬가지로 수식에 겁먹을 필요가 전혀 없습니다. 다만, 분포의 형태를 결정짓는 것이 무엇인지만 알면 됩니다. 포아송 분포는 그리스 문자로 L을 나타내는 λ(람다)라는 수에 의해서 형태가 결정됩니다. λ는 특정 시간 내에 어떤 사건이 일어날 횟수에 대한 기대값을 의미합니다. 

예를 들어 어떤 공장에서 1시간 동안 발생할 불량품의 수가 5개라면, 실제로 발생하는 불량품의 수는 λ가 5인 포아송 분포를 따르게 됩니다. 이를 정규 분포에 빗대어 생각하면 쉽습니다. 1시간에 발생하는 불량품의 기대값이 5라면, 실제로 발생하는 불량품의 수는 5를 중심으로 정규 분포와 유사한 분포를 띄겠죠? 그런데 정규 분포는 연속 확률 변수에 대한 분포이니, 이산 확률 변수에 대응되는 확률 분포가 포아송 분포입니다.

포아송 분포의 평균과 분산은 모두 λ입니다. 유도 과정이 궁금하신 분들은 아래 링크를 참고해주세요.  
포아송 분포의 평균과 분산 유도: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=yunjh7024&logNo=220826152660

### 포아송 분포 예제
*Q. 보험사 A는 2000건의 보험 계약을 가지고 있다. 이 보험을 계약한 사람이 보험을 청구할 확률이 0.001이라고 할 때 포아송 근사를 이용하여 다음 확률을 구하시오.*

1) 보험 청구가 한번도 없을 확률
2) 보험 청구가 3번 이하일 확률

풀이)  
보험 청구의 기대값: 2000 * 0.001 = 2  
1. 보험 청구가 한번도 없을 확률
$$n=0,\;\lambda=2$$
$$f(0;2)=\frac{2^0e^-2}{0!}\approx0.1353$$

2. 보험 청구가 2번 이하일 확률
$$\sum_{i=0}^2f(i;2) = \left(\frac{2^0\times e^{-2}}{0!}+\frac{2^1\times e^{-2}}{1!}+\frac{2^2\times e^{-2}}{2!}\right)\approx0.8571$$

### 포아송 분포의 활용

포아송 분포는 다음과 같은 확률적인 문제를 알아내기 위해 쓰입니다.
- 일정 주어진 시간 동안에 도착한 고객의 수
- 1킬로미터 도로에 있는 흠집의 수
- 일정 주어진 생산시간 동안 발생하는 불량 수
- 하룻동안 발생하는 출생자 수
- 어떤 시간 동안 톨게이트를 통과하는 차량의 수
- 어떤 페이지 하나를 완성하는 데 발생하는 오타의 발생률
- 어떤 특정 량의 방사선을 DNA에 쬐였을 때 발생하는 돌연변이의 수
- 어떤 특정 면적의 다양한 종류의 나무가 섞여 자라는 삼림에서 소나무의 수
- 어떤 특정 진도 이상의 지진이 발생하는 수

### 연습 문제

*Q1. 어느 전공 책 5 페이지를 검사하였는데 오타가 총 10개 발견되었다고 한다. 이 책에서 어느 한 페이지를 검사했을 때, 오타가 3개 나올 확률을 구하시오*

$$f(x;\lambda)=\frac{\lambda^ne^{-\lambda}}{n!}$$

𝜆 = 2, n=3

In [None]:
import numpy as np
from math import factorial

def poisson_prob(lambda_, n):
    return ((lambda_ ** n) * np.exp(-lambda_)) / factorial(n)

*Q2. 어느 택배 회사 상담실에 1시간당 평균 240건의 전화 요청이 들어온다고 한다. 1분당 걸려오는 전화 요청이 2건 이하일 확률을 구하시오*

𝜆=4, n=0 or n=1 or n=2

## 기대 빈도와 관측 빈도

사실 포아송 분포를 살펴본 이유는 카테고리형 변수의 관측 빈도가 포아송 분포를 따르기 때문입니다. 먼저 아래와 같이 범주형 변수만으로 이루어진 데이터가 주어졌다고 가정하겠습니다.

| 성별 | M | F | F | M | F | F | M | F | F | M | M | M | F | F | M | M | M | F | F | M |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 혈액형 | A | B | B | O | O | A | AB | A | B | B | B | B | B | A | O | A | O | AB | A | B |

성별과 혈액형 데이터를 가지고, 두 변수가 서로 독립인지, 아니면 연관성이 있는지를 검정하고 싶습니다. 이 때, 카이 제곱 검정을 사용할 수 있는데, 이를 위해선 먼저 기대 빈도와 관측 빈도를 집계해야 합니다. 그리고 관측 빈도가 포아송 분포를 따르는지를 확인해보겠습니다.

### 분할표
먼저 특정 범주가 등장하는 빈도 수를 집계하여 표 형식으로 만들어보겠습니다. 이를 분할표(contingency table)을 만들어야 합니다.
|  | A | B | O | AB | 합 |
| --- | --- | --- | --- | --- | --- |
| F | 4 | 4 | 1 | 1 | 10 |
| M | 2 | 4 | 3 | 1 | 10 |
| 합 | 6 | 8 | 4 | 2 | 20 |

확률로 표현하면 아래와 같습니다. 이를 상대 도수 분할표로라고 부릅니다(relative frequency contigency table). 
|  | A | B | O | AB | 합 |
| --- | --- | --- | --- | --- | --- |
| F | 0.2 | 0.2 | 0.05 | 0.05 | 0.5 |
| M | 0.1 | 0.2 | 0.15 | 0.05 | 0.5 |
|합|0.3|0.4|0.2|0.1|20|

$$P(F)=\frac{10}{20}=0.5$$

$$P(A)=\frac{6}{20}=0.3$$

### 기대 빈도 계산
만약 성별과 혈액형이 서로 독립이라면 여성임과 동시에 A형일 확률은 각 확률의 곱입니다.

$$\text{A와 F가 독립이라고 가정하면}$$

$$P(A \cap F)=P(A)P(F)=0.5*0.3=0.15$$

두 변수가 독립임을 가정하고 구한 결합 확률을 전체 빈도 수에 곱한 값이 기대 빈도가 됩니다.

$$기대빈도\;E_{AF}=P(A)P(B)*n=0.15*20=3$$

이런 식으로 분할표 상의 모든 값들의 기대 빈도를 구하여 괄호 안에 표기해주면 아래와 같습니다.

|  | A | B | O | AB | 합 |
| --- | --- | --- | --- | --- | --- |
| F | 4(3) | 4(4) | 1(2) | 1(1) | 10 |
| M | 2(3) | 4(4) | 3(2) | 1(1) | 10 |

### 기대 빈도 구하기
만약 성별과 혈액형이 서로 독립이라면 여성임과 동시에 A형일 확률은 여성일 확률 x A 형일 확률이 됩니다. 

$$\text{A와 F가 독립이라고 가정하면}$$
$$P(A \cap F)=P(A)P(F)=0.5*0.3=0.15$$

이렇게 두 변수가 독립임을 가정하고 구한 결합 확률을 전체 빈도 수에 곱한 값이 기대 빈도가 됩니다.

$$기대빈도\;E_{AF}=P(A)P(B)*n=0.15*20=3$$

이런 식으로 분할표 상의 모든 값들의 기대 빈도를 구하여 괄호 안에 표기해주면 아래와 같습니다.

|  | A | B | O | AB | 합 |
| --- | --- | --- | --- | --- | --- |
| F | 4(3) | 4(4) | 1(2) | 1(1) | 10 |
| M | 2(3) | 4(4) | 3(2) | 1(1) | 10 |
| 합 | 6 | 8 | 4 | 2 | 20 |

기대 빈도와 일치하는 값도 있고, 그렇지 않은 값도 있습니다. 이 표만 보고 두 변수는 독립이라고 얘기할 수 있을까요? 이를 통계적으로 검정하기 위해서 먼저 가설을 세워보겠습니다.

### 관측 빈도의 확률 분포

두 변수가 독립임을 가정했을 때, 관측 빈도는 𝜆가 기대 빈도인 포아송 분포를 따릅니다. 이를 이용해 각각의 관측 빈도가 발생할 확률을 계산해보겠습니다.

$$P(O_{FA}=4)=f(4;3)=\frac{3^4e^{-3}}{4!}\approx0.1680$$

즉, 혈액형이 A형이면서 여성일 확률은 기대값이 3인 포아송 분포를 따르고, 이 때, 관측 빈도가 4가 발생할 확률은 0.1680이 됩니다.

## 관측 빈도와 기대 빈도 측정 

실제 데이터 셋을 활용하여 기대 빈도와 관측 빈도를 측정해보겠습니다. 

1000개만 샘플링해서 사용하겠습니다.

### 분할표 생성

### 기대 빈도 측정

cut이 Ideal일 사건과 clarity가 VS2일 사건이 독립 사건이라고 가정하고, 결합 확률과 기대 빈도를 측정해보겠습니다.

$$P(cur=Ideal)=0.421$$

$$P(clarity=VS2)=0.243$$

$$\text{두 사건이 독립임을 가정했을 때}$$
$$P(Ideal \cap VS2)\approx0.1023$$

$$E_{Ideal,VS2}=0.1023*1000\approx102.3$$

### 연습문제

*Q1. cut과 color 변수의 분할표와 상대 도수 분할표를 그려보세요.*

*Q2. cut이 Premium일 사건과 color가 G일 사건이 독립임을 가정하고, 기대 빈도를 구해보세요.*

## 정리
이번 챕터에서는 포아송 분포의 개념에 대해서 알아보았습니다. 그리고 범주형 데이터를 기대 빈도와 관측 빈도로 표현하고, 포아송 분포를 이용해서 관측 빈도가 발생할 확률을 계산하는 작업을 해보았습니다. 만약 두 변수가 완벽히 독립이라면, 관측 빈도가 포아송 분포를 따라갈 것이라는 걸 예측해볼 수 있었습니다.