### 4강. 카운트 데이터분석 및 최대우도추정 이해를 위한 마지막 기회
#### 2.3 포아송분포란 무엇인가?
- 단위구간안에 발생하는 카운트(사건의 횟수) 값을 모델링 함

In [None]:
import sympy as sp

# Define the variables
k, lambd = sp.symbols('k lambd')

# Poisson probability distribution formula
poisson_distribution = (lambd**k * sp.exp(-lambd)) / sp.factorial(k)

# Display the formula
poisson_distribution

- P(X = k) 는 확률변수 X가 k번 발생할 확률
- \lambda 는 사건이 발생하는 평균 횟수
- k 는 사건이 발생한 횟수
- e 는 자연상수 (약 2.718)

포아송 확률분포에서 **파라미터(λ, 람다)**를 조정하면 분포의 모양이 변화할 수 있다.
포아송 분포는 카운트 데이터에 사용되며, 사건이 발생하는 평균 횟수를 나타내는 λ 값에 따라 분포가 달라진다.

포아송 분포와 λ의 관계: 
- λ가 작을 때: 분포는 왼쪽으로 치우치고, 사건이 발생하지 않는 경우(0)가 많아진다. 이때 분포는 비대칭적이고, 정규분포와는 거리가 있다.
- λ가 커질수록: 분포는 점점 대칭에 가까워지며, 정규분포와 비슷해진다. λ 값이 충분히 크면 포아송 분포는 정규분포에 근사하게 됨

그러나 람다가 커지더라도 특정 조건에서 포아송 분포의 평균과 분산이 달라지는 경우, 데이터가 좌우로 치우쳐 보일 수 있다. 이처럼 파라미터 조정에 따라 분포가 대칭에서 벗어나거나 한쪽으로 치우칠 수가 있다.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import poisson

# Define the y values (number of events)
y = np.arange(0, 21)

# Define different lambda values
lambdas = [3.5, 7.7, 15.1]

# Plot the Poisson distributions
plt.plot(y, poisson.pmf(y, lambdas[0]), 'bo-', label=f'λ = {lambdas[0]}', linestyle='--', marker='o')
plt.plot(y, poisson.pmf(y, lambdas[1]), 'go-', label=f'λ = {lambdas[1]}', linestyle='--', marker='s')
plt.plot(y, poisson.pmf(y, lambdas[2]), 'ro-', label=f'λ = {lambdas[2]}', linestyle='--', marker='^')

# Add labels and legend
plt.xlabel('Number of Events (y)')
plt.ylabel('Probability (P)')
plt.title('Poisson Distribution for Different Lambda Values')
plt.legend(title="Lambda", loc="upper right", fontsize=8)

# Show the plot
plt.show()

![figure 2.6](./Poisson%20Distribution.png)
여러 가지 평균에 따른 포아송 분포. 평균이 커지면 분산도 커짐 (scope가 길어졌다.)

다음의 분포들은 하나 씩 배워나가야 한다. (그래야 총알이 많아짐)
- 정규분포
- 이항분포
- 감마분포
- 지수분포
- 포아송분포
- 균일분포/베르누이분포
- 베타분포

#### **오차**
여기서의 오차는 **조정가능한 오차**에 대해서 말한다.

포아송 분포에서 개체마다 동일한 평균 값을 따르는 경우에 대한 이야기. 

예시: 
나무 1에서 씨앗을 2개 관측했다.
나무 2에서도 씨앗을 2개 관측했다.
나무 3에서는 씨앗을 4개 관측했다.

이런 식으로 나무에서 씨앗 수가 다르게 관측되지만, 이 관측값들이 평균적으로는 1에 가까워질 거라는 가정을 하는거야. 그럼에도 불구하고 개별 나무마다의 씨앗 수는 다를 수 있다.

쉽게 말해서:
각 나무가 얼마나 많은 씨앗을 낼지 정확히는 알 수 없지만, 평균적으로 1개씩 씨앗을 낸다고 생각하자는 거다. 그러나 현실에서는 어떤 나무는 더 많이, 어떤 나무는 더 적게 씨앗을 낼 수 있을거다. 그래서 모든 나무가 동일한 평균 값을 따르지만, 개별 나무마다 관측된 씨앗 수는 차이가 있을 수 있다는게 핵심이다. 

그리고 **식물 개체들끼리 서로 독립적**이고, **상관관계**나 **상호작용이 없다는 전제**가 필요하다.
#### **왜 독립성과 상호작용이 없는게 중요할까?**

포아송 분포를 이용해서 통계 모델을 만들 때, 개체들(여기서는 식물)의 행동이나 결과가 서로 영향을 미치지 않는 다는 가정이 있어야 한다.

**예시:**
1. 독립적인 경우
각 나무는 자기만의 씨앗을 맺고, 그 씨앗 수는 다른 나무들과 관계없이 결정된다고 가정한다.
예를 들어, 나무1에서 씨앗이 2개 나오고, 나무2에서 씨앗이 3개 나오면, 그 두 나무의 씨앗 수는 서로 관련이 없어야 한다.
즉, 나무 1이 씨앗을 많이 맺었다고 해서, 나무2가 씨앗을 적게 맺거나 많이 맺는 것과는 상관이 없어야 한다는 의미다.

2. 상관관계가 있는 경우
만약 나무들이 서로 영향을 미친다면 어떻게 될까?
예를 들어, 나무1이 잘 자라서 씨앗을 많이 맺으면, 근처 나무들이 자원(물, 햇빛)을 덜 받아 씨앗을 적게 맺는다고 가정해보자. 이런 경우는 상호작용이 있는 상황이다. 이렇게 상관관계나 상호작용이 있으면, 각 나무가 독립적으로 씨앗을 맺는다는 가정이 깨져버린다. 그러면 포아송 분포 모델을 사용하기가 어려워진다.

**핵심:**

포아송 분포를 적용하려면, **각 나무가 독립적으로 씨앗을 맺고, 서로 간에 영향을 주고받지 않아야** 한다. 만약 나무들이 서로 영향을 주고받으면, 씨앗 수를 독립적인 사건으로 볼 수 없으니까, 통계 모델의 가정이 깨지게 된다.

교수님의 말씀의 요지는, 실전에서는 개체간 **상관과 상호작용**이 많은 경우에 관과되는데. 이 사실을 아는 사람만 안다. 라는 것이였다.

#### **통계 모델링의 가정이 중요한 이유**

신약 개발, 특히 코로나바이러스 백신의 경우를 생각해보자. 백신이 개발되고 전 세계에 배포되기 위해서는 임상시험을 거쳐야 한다. 그렇다면 임상시험에서 백신의 안전성과 효과를 어떻게 평가할까?

임상시험에서는 보통 1상과 2상에서는 동물 실험을 거치고, 3상에서는 사람을 대상으로 백신의 안전성과 효과를 검증하게 된다. 이때, 통계 모델이 중요한 역할을 한다. 통계 모델은 백신의 효과가 유의미한지, 안전한지 판단할 수 있는 기준을 제공한다. 이 기준이 바로 통계검정이다.

**1. 샘플 사이즈와 효과 크기**

임상시험에서 중요한 점은 얼마나 많은 샘플을 표집해야 하고, 약의 효과가 얼마나 커야 하는지를 정하는 것이다. 예를 들어, 10명에게 테스트해서 8명에게 효과가 있었다고 하더라도, 이를 근거로 “효과가 있다”고 선언할 수는 없다. 왜냐하면, 이는 충분한 샘플 크기로 볼 수 없기 때문이다. 그래서 샘플 사이즈가 적절하게 설정되어야 한다.

이 약의 효과 크기, 즉 effect size가 충분히 커야만 통계적으로 유의미한 결과를 얻을 수 있다. 단순한 미미한 효과만으로는, 백신이 타이레놀 같은 진통제와 다르지 않다고 오해할 수 있기 때문이다. 여기서 효과 크기란 약을 먹고 호전되는 정도를 말한다.

**2. 검정력의 중요성**

통계적으로 유의미한 결과를 얻기 위해서는 **검정력 (statistical power)**도 중요한 요소다. 검정력은 통계 모델이 얼마나 신뢰할 수 있는 결과를 제공하는지를 나타낸다. 보통 80% 이상의 검정력을 확보해야 한다.

**3. 세 가지 요소의 관계**

샘플 사이즈, 효과 크기, 검정력 이 세 가지는 서로 밀접하게 연결되어 있다. 샘플 사이즈를 늘리면 검정력이 강해지고, 효과 크기를 더 정확하게 측정할 수 있다. 이 요소들이 균형을 이루어야 신뢰할 수 있는 임상시험 결과를 얻을 수 있다.

임상시험 프로토콜의 단순화 문제

그러나 코로나 백신처럼 긴급하게 신약이 필요할 때는, 샘플 사이즈를 줄이고 싶은 유혹이 생긴다. 이때 통계적 가정을 단순화하거나, 효과 크기를 조절하는 등의 방식으로 샘플 사이즈를 줄일 수 있다. 하지만 가정이 맞지 않는 모델을 사용하면, 결과가 왜곡될 위험이 있다.

예를 들어, 한 나라에서만 샘플을 모집하거나, 개체 간의 차이를 무시하는 단순화된 가정을 사용하면, 모델의 신뢰도가 낮아진다. 이는 결과적으로 통계적 정직성의 문제로 이어진다.

**결론: 데이터 사이언티스트의 정직성**

임상시험에서 통계 모델은 신약의 효과를 평가하는 핵심 도구다. 그러나 통계 모델은 가정에 의존하기 때문에, 이를 잘못 설정하거나 무시하면 심각한 결과를 초래할 수 있다. 따라서 데이터 사이언티스트는 정직성을 가지고, 올바른 가정을 세우고 통계 모델을 사용하는 것이 중요하다.

#### **최우추정법 (Maximum Likelihood Estimation, MLE)** 
- 방법론을 의미함. 최우추정에서 '최(가장,최대)우(특별하다, 가능성이 높다)'는 한자어로 가장 가능성이 높다 라는 의미를 담고있다.

1. 최우추정법의 개념
최우추정법은 포아송 분포 뿐만 아니라 **다양한 확률분포 모델**에서 모수를 추정하는 방법으로, 데이터가 관측된 확률을 최대화하는 값을 찾는 것이 목표다.

2. 데이터와 표기법
여기서는 50개의 데이터가 주어졌다고 가정하고, 각각의 데이터를  y_i 로 표현한다. 그리고 각 데이터가 포아송분포를 따른다고 가정할 때, 특정 값  y_i 가 발생할 확률   p(y_i | \lambda) 를 정의한다.

3. 예시
예를 들어, 평균 λ가 3.65일 때, 특정 값   y_i = 2 가 발생할 확률이 약 0.180이라고 설명하고 있다 이를 통해 람다가 주어졌을 때 특정 값이 발생할 확률을 계산할 수 있다는 점을 보여준다. 

4. 최우추정법의 적용
최우추정법을 통해 관측된 데이터가 가장 잘 설명되도록 하는 람다를 찾는 것이 목표이다. 이 값은 관측된 데이터가 발생할 확률을 최대화하는 람다를 의미한다. 따라서 모든 데이터에 대해 그 확률을 곱하여 구체적인 값을 얻을 수 있다. 

#### **우도(Likelihood)란? 우(특별히) 도(정도,측정)**
**어떤 모수 값이 주어졌을 때, 관측된 데이터가 일어날 가능성**을 나타내는 통계적 개념이다.

통계 모델에서는 특정한 모수(λ 등)가 있을 때, 우리가 관측한 데이터가 나올 **확률**을 말한다.
예를 들어, 우리가 주사위를 던졌을 때 특정 눈이 나올 확률을 계산하는 것과 비슷하게, 모수를 설정했을 때 데이터가 실제로 관측될 확률을 계산하는 것 이다.

**우도 함수 (Likelihood Function)**는, 모수를 입력값으로 받아서 데이터가 발생할 가능성을 계산하는 함수다. 관측된 데이터를 고정해두고, 어떤 모수가 주어졌을 때 이 데이터가 나올 확률을 계산하는 것이다. 

**예시:**

포아송 분포의 예를 들어보면, λ가 특정 값일 때 각 데이터가 관측될 확률을 나타내는 함수를 우도 함수라고 할 수 있다. 이 우도 함수에서, 관측된 데이터를 가장 잘 설명하는 λ를 찾는 것이 최우추정법(MLE)이다.

정리하자면:
	•	우도(Likelihood): 주어진 모수에서 관측된 데이터가 발생할 가능성.
	•	우도 함수 (Likelihood Function): 모수를 바꿔가며 관측된 데이터를 얼마나 잘 설명하는지를 계산하는 함수.

이를 통해 최우추정값을 구하는 것이 통계 모델링의 중요한 과정 중 하나이다.

**최우추정량 (Matimum Likkelihood Estimator, MLE)**
관측된 데이터를 가장 잘 설명하는 모수의 추정치를 찾기 위한 방법. 이를 통해 데이터에서 모수(θ)를 추정하게 된다.

쉽게말하면
우리가 특정한 확률분포를 가정했을 때, 그 확률분포의 모수(θ)가 실제 관측된 데이터를 가장 잘 설명할 수 있는 값이 되도록 하는 최적의 모수를 찾는 게 목적이다. 이때 이 최적의 모수를 **최우추정량**이라고한다.

수학적으로:
최우추정법에서 관측된 데이터의 **우도(Likelihood)""를 계산하고, 그 우도를 최대화하는 모수의 값을 구하게 된다.

예시로 설명:
1. 우도 함수는 주어진 모수에서 관측된 데이터가 나올 가능성을 나타낸다.
    - 예를 들어, 포아송 분포에서 λ가 주어졌을 때, 특정 데이터가 발생할 확률을 계산하는 것이다.
2. 로그 우도를 계산하는 이유:
    - 여러 개의 데이터가 있을 때, 모든 데이터가 동시에 발생할 확률을 곱으로 표현한다. 그런데 곱셈이 많아지면 계산이 복잡해지기 때문에, 로그를 취해 더하기로 바꿔서 계산한다.
3. 최우추정량은 결국, 이 로그 우도를 최대화하는 모수 값을 찾는 거다.

최우추정법의 목표:
- 최우추정법을 사용하면, 관측된 데이터가 가장 잘 설명되도록 하는 **모수(λ, θ 등)**를 찾아낼 수 있다.
- 이 모수가 바로 **최우추정량 (MLE)**이 된다.

쉽게 말하면, 최우추정량은 관측된 데이터를 가장 잘 설명하는 모수를 의미한다.

**최우추정법 (Estimation), 최우추정량 (Estimotor), 최우추정치 (Estimate) 구분하기**
1. 최우추정법(Estimation) - 방법론
정의: 데이터를 사용해 모수를 추정하는 방법
비유: 요리를 할때, 요리 법(레시피) 같은 개념

2. 최우추정량(Estimator)
정의: 최우추정법을 통해 계산된 수학적인 공식이나 함수를 의미한다. 즉, 관측 된 데이터에서 모수를 추정할 수 있도록 만들어진 공식이다.
비유: 요리법을 따를 때의 요리 도구

3. 최우추정치(Estimate)
정의: 최우추정법을 사용해 실제로 계산된 구체적인 모수의 값. 데이터를 넣어서 구해낸 결과이다.
비유: 요리를 다 하고 난 뒤 완성된 요리. 추정된 값을 의미함