<a href="https://colab.research.google.com/github/jooeun921/Big-Data-Analyst/blob/main/Part04_Section_02_probability_distribution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Section 02 학습 : 확률분포 다루기

파이썬 Scipy 라이브러리에 여러 확률분포 함수가 있음.
- 확률질량함수(PMF) : 이산형 확률질량함수 값 계산
- 확률밀도함수(PDF) : 연속형 확률밀도함수 값 계산
- 누적분포함수(CDF) : 분포에서 주어진 값 이하가 될 확률계산
- 생존함수(SF) : 1에서 누적분포함수(CDF) 값을 뺀 값으로, 분포에서 주어진 값 이상이 될 확률 계산
- 분위수 함수(PPF) 누적분포함수(CDF)의 역함수로, 주어진 확률에 해당하는 분포의 값(분위수) 계산
- 확률표본함수(RVS) : 지정된 분포에서 표본 발생



#### 이산확률분포

In [None]:
# 베르누이 확률분포 : 한번의 시행에서 두 가지 결과를 가지는 실험.
from scipy.stats import bernoulli

# print(bernoulli.pmf.__doc__)

# bernoulli.pmf(k, p) 확률질량함수
# bernoulli.cdf(k, p)  누적분포함수
# bernoulli.ppf(q, p)  분위수함수
# bernoulli.rvs(p, size, random_state)  확률표본함수

# 앞이 나올 확률이 0.6인 동전을 던졌을 때 앞이 나올 확률?
prob = bernoulli.pmf(1, 0.6)
print(prob)

In [None]:
# 이항분포 : n번의 베르누이 시행에서 성공한 횟수에 대한 확률분포
from scipy.stats import binom

# print(binom.pmf.__doc__)

# binom.pmf(k, n, p)
# binom.cdf(k, n, p)
# binom.ppf(q, n, p)
# binom.rvs(n, p, size, random_state)

# 동전을 10번 던졌을 때 4번 앞면이 나올 확률?
prob = binom.pmf(4, n = 10, p = 0.5)
print(prob)

# 앞면이 적어도 4번 이상 나올 확률?
prob2 = 1 - binom.pmf(3, n = 10, p = 0.5)
print(prob2)

In [None]:
# 포아송 분포 : 특정 시간 동안 어떤 사건이 발생하는 횟수
from scipy.stats import poisson

# print(poisson.__doc__)

# poisson.pmf(k, mu)
# poisson.cdf(k, mu)
# poisson.ppf(q, mu)
# poisson.rvs(mu, size, random_state)

# 단위 시간당 평균 2번의 사건이 발생하는 시스템에서, 정확히 3번 사건이 발생활 확률은?
prob = poisson.pmf(3, mu = 2)
print(prob)

# 같은 시스템에서 5번 이상 사건이 발생할 확률? => 누적(cdf)을 얘기하는 것. 근데 이제 5번 이상이라는 건, 전체 확률 1에서 4번 이하로 나온 것을 제외한 것과 같다.(1-cdf = sf)
# 따라서 생존함수 sf나 1 - cdf 방식으로 계산할 수 있는데, 대부분 거의 동일하지만 sf의 정확도가 더 높음. 따라서 왠만하면 sf를 사용하자!
prob2 = poisson.sf(4, mu = 2)
prob3 = 1 - poisson.cdf(4, mu = 2)
print(prob2)
print(prob3)

In [None]:
# 이항분포를 포아송 분포로 근사.
# 포아송 근사는 다음과 같은 조건을 만족할 때, 이항 분포에서의 확률계산을 대치해서 사용할 수 있음.
# 시행 횟수(n, 보통 20 이상)가 크고, 성공확률(p, 0.05 이하)가 작으며, np(평균 성공 횟수)가 상대적으로 작은 값을 유지한다.

from scipy.stats import binom, poisson

# 통상적으로 호텔을 예약한 사람의 5% 정도는 당일 호텔을 이용하지 않고 예약을 취소한다. 객실 수가 95개인 호텔에서 예약건수가 100이라고 할 때, 당일 호텔에 도착한 사람들이 모두 호텔에 들어갈 확률은?
# = 5명 이상이 예약을 취소할 확률

# 이항분포로 풀기
# 1 - P(x <= 4)
prob = 1 - binom.cdf(4, 100, 0.05)
print(prob)

# 포아송분포로 풀기
prob2 = poisson.sf(4, 5)
print(prob2)

#### 연속확률분포

##### 정규분포

In [None]:
# 정규분포

from scipy.stats import norm

# norm.pdf(x, mu, sigma)
# norm.cdf(x, mu, sigma)
# norm.ppf(q, mu, sigma)
# norm.rvs(mu, sigma, size, random_state)

# 정규분포에서의 평균과 분산의 의미
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

mu1, sigma1 = 0, 1
mu2, sigma2 = 2, 1
mu3, sigma3 = 0, 2

x = np.linspace(mu1 - 3*sigma3, mu2+3*sigma3, 100)

pdf1 = norm.pdf(x, mu1, sigma1)
pdf2 = norm.pdf(x, mu2, sigma2)
pdf3 = norm.pdf(x, mu3, sigma3)

plt.figure(figsize = (6, 4))
plt.plot(x, pdf1, label='N(0, 1)')
plt.plot(x, pdf2, label='N(2, 1)')
plt.legend()
plt.show()

plt.figure(figsize = (6, 4))
plt.plot(x, pdf1, label='N(0, 1)')
plt.plot(x, pdf3, label='N(0, 2)')
plt.legend()
plt.show()

In [None]:
# 어느 고등학교에서 실시한 모의고사의 점수가 평균이 70점이고, 표준편차가 10점인 정규분포를 따른다고 한다. 한 학생이 이 모의고사에서 85점 이상을 받을 확률은?

from scipy.stats import norm

prob = norm.sf(85, loc = 70, scale = 10)
print(prob)

# 한 학생이 이 모의고사에서 65점에서 75점 사이의 점수를 받을 확률은?
# cdf(75) - cdf(65)
prob2 = norm.cdf(75, loc = 70, scale = 10) - norm.cdf(65, loc = 70, scale = 10)
print(prob2)

In [None]:
# 표본평균의 분포
# 모집단이 정규분포 N을 따를 때 크기가 n인 독립 확률변수의 표본평균 X는 정규분포를 따르게 됨 -> 즉, 모평균과 동일한 평균을 가짐. 하지만 분산은 모분산 / n(표본크기)를 가짐.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

mu = 70; sigma = 10; n = 8

simulations = 10000

# 표본추출. 모집단이 정규분포를 따르기 때문에, 표본추출 시에도 정규분포를 따름.
# my_sample에는 평균이 70, 표준편차가 10인 정규분포에서 뽑은 숫자들이 8개씩 세트를 이루어 10000개가 들어있음.
my_sample = np.random.normal(mu, sigma, (simulations, n))

sample_means = np.mean(my_sample, axis = 1)
sample_means.shape

In [None]:
# 이론적으로 계산한 표본평균의 분포(norm.pdf)와 실제 시뮬레이션으로 돌린 분포(히스토그램)이 동일한 형태를 띔
# 표본평균은 모집단의 평균을 그대로 가지고, 표준편차는 모표준편차의 표본 크기만큼 나눈 값을 가짐.
sample_mean_std = sigma / np.sqrt(n)

plt.hist(sample_means, bins = 30, density = True, alpha = 0.6, color = 'g', label = 'Simulated Sample Means')

x = np.linspace(mu - 4*sample_mean_std, mu + 4*sample_mean_std, 100)
plt.plot(x, norm.pdf(x, mu, sample_mean_std), 'r', lw = 2, label = 'Theoretical Distribution')

plt.title('Distribution of Sample Means')
plt.xlabel('Sample Mean')
plt.ylabel('Density')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# 이전문제(모의고사)의 고등학교에서 8명의 학생을 무작위로 선발하여 모의고사 점수의 평균을 구했을 때, 이 평균 점수가 72점 이상일 확률은?
# 모평균 = 70, 모표준편차는 10

from scipy.stats import norm

prob = norm.sf(72, 70, 10/np.sqrt(8))
print(prob)

##### 카이제곱 분포 / t-분포 / F-분포

In [None]:
# 카이제곱 분포

from scipy.stats import chi2

# print(chi2.__doc__)

# chi2.pdf(x, df)
# chi2.cdf(x, df)
# chi2.ppf(q, df)
# chi2.rvs(df, size, random_state)

# 표준 정규분포와 카이제곱 분포의 관계 : 표준 정규분포에서 독립적으로 추출된 k개의 확률변수의 제곱합은 카이제곱 분포를 따름.
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2, norm

x = norm.rvs(size = (1000, 5))**2
samples = np.sum(x, axis = 1)

plt.hist(samples, bins = 30, density = True, alpha = 0.6, color = 'b', label = 'Squared Sum of Z')

k = np.linspace(0, 20, 100)
plt.plot(k, chi2.pdf(k, 5), color = 'r', lw = 2, label = 'Chi-squared pdf')

plt.legend()
plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Histogram of Squared Sum of Z with Chi-Squared PDF')
plt.show()

- 표본분산과 카이제곱 분포의 관계
정규분포를 따르는 모집단에서 추출한 독립표본의 크기가 n일 때, 표본분산 확률변수 S**2은 자유도가 n-1인 카이제곱 분포를 따름.

In [None]:
# t-분포 : 정규분포와 유사한 모양이지만, 꼬리가 더 두꺼움(더 넓게 퍼짐). 자유도라는 단일 모수에 의해 정의.
# 자유도가 클수록 꼬리가 두꺼워지고, 표준 정규분포에 수렴함.
# 검정이나 신뢰구간 계산 등에 활용.

from scipy.stats import t

# t.pdf(x, df)
# t.cdf(x, df)
# t.ppf(q, df)
# t.rvs(df, size, random_state)

# 다음 데이터가 귀무가설 하에서의 모평균이 10으로 알려져 있는 정규분포에서 추출된 데이터라고 할 때, t-검정통계량 값은?
x = np.array([9.76, 11.1, 10.7, 10.72, 11.8, 6.15, 10.52, 14.83, 13.03, 16.46, 10.84, 12.45])

n = len(x)
x_bar = np.mean(x)
s = np.std(x, ddof = 1) # ddof는 자유도.

t = (x_bar - 10) / (s / np.sqrt(n))
print(t)

# 위 문제의 검정통계량 값이 따르는 분포에서 계산된 검정통계량 값보다 큰 값이 나올 확률은?
# 위 문제의 데이터는 모집단이 따로 있고, 그중에서 12(n)개의 값을 추출해온 것. 따라서 해당 t분포의 자유도는 n-1 = 11임.
from scipy.stats import t

print(t.sf(2.05, df = 11))

# 위 문제의 검정통계량 값이 따르는 분포에서 상위 5%에 해당하는 값은?
print(t.ppf(0.95, df = 11))

In [None]:
# F-분포 : 두 집단의 분산을 비교하는데 사용되는 확률 분포. 비대칭성(오른쪽 꼬리가 김), 비음수 값(항상 0 이상), 자유도에 따라 변화하는 특징을 가짐.
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import f

# 자유도 설정
d1, d2 = 5, 10

# x값 범위 설정
x = np.linspace(0, 5, 1000)

# F-분포의 확률밀도함수(PDF) 계산
y = f.pdf(x, d1, d2)

# 그래프 그리기
plt.plot(x, y, 'r-', label = f'F-distribution PDF (d1 = {d1}, d2 = {d2})')
plt.title('F Distribution PDF')
plt.xlabel('F value')
plt.ylabel('Probability density')
plt.legend()
plt.grid(True)
plt.show()

### Section 02 연습문제 : 확률분포 다루기

In [None]:
#1 한 제조업체가 생산하는 부품의 길이는 평균 5.00cm, 표준편차 0.05cm의 정규분포를 따름. 길이가 4.95 이하인 제품은 모두 불량으로 간주할 때, 생산된 부품이 불량일 확률을 구하시오. (단, 소수점 넷째자리까지 표기)

from scipy.stats import norm

prob = norm.cdf(4.95, 5.00, 0.05)
print(f"{prob:.4f}")

In [None]:
#2 검색대 통과하는 시간은 평균 8분, 표준편차 2분의 정규분포를 따름. 수속마감까지 6분밖에 남지 않은 승객이 검색대 통과 확률? (단, 소수점 넷째자리까지 반올림)

from scipy.stats import norm

prob = norm.cdf(6, 8, 2)
print(prob.round(4))

In [None]:
#3 통근시간은 정규분포를 따름. 평균 통근시간이 32분이고 표준편차가 6분일 때, 통근시간이 상위 10%에 해당하는 기준 시간은? (단, 소수점 첫째자리까지 반올림)

time = norm.ppf(0.9, 32, 6)
print(time.round(1))

##### ❌ 4번
포아송분포는 이산확률분포임. 그리고 여기에서 구하고자 하는 것은, 평균적으로 4번 일어나는 사건이, 2번 이상 일어날 확률임!   
`poisson.pmf(0, 4)` = 평균 4번 일어나는 사건이 0번 발생할 확률

In [None]:
#4 포아송분포 X~Pois(λ=4)에서 P(X>=2)의 값을 구하시오. (단, 소수점 넷째자리까지 표기)

from scipy.stats import poisson

prob = 1 - (poisson.pmf(0, 4) + poisson.pmf(1, 4))
print(f"{prob:.4f}")

##### ❌5번
표본 표준편차 계산할 때는 n-1을 자유도로 해야 하기 때문에 np.std에서 ddof = 1로 설정해줬음.   
검정통계량 t를 계산할 때의 식은, `(표본평균 - 모평균) / (표본표준편차 / np.sqrt(표본크기))`

In [None]:
#5 어떤 집단의 평군은 36.5라고 알려져 있다. 한 실험에서 15명의 체온을 측정한 결과는 다음과 같다. 이대, t-분포를 사용하여 평균 체온이 36.5도 이상인지 확인하기 위한 검정통계량 t를 구하시오. (단, 소수점 넷째자리까지 표기)

import numpy as np
data = np.array([36.3, 36.7, 36.6, 36.5, 36.8, 36.6, 36.4, 36.7, 36.5, 36.3, 36.9, 36.4, 36.2, 36.8, 36.6])

sample_mean = np.mean(data)
sample_std = np.std(data, ddof = 1)
n = len(data)

mu_0 = 36.5

t = (sample_mean - mu_0) / (sample_std / np.sqrt(n))
print(f"{t:.4f}")