# 연속형 확률분포 

## 균일분포

- $f(x) = 1/(b-a), \quad a<x<b$
- $E(X) = (a+b)/2$
- $Var(X) = (b-a)^2/12$

In [5]:
# 균일분포
# 확률변수 X가 (5,15)에서 균일분포를 따를 때 12와 15 사이의 확률은?
a = 5 # 확률변수의 범위
b = 15 # 확률변수의 범위
range_ = [(12,15)]
p = 1/(b-a) #확률밀도함수
cdf = 0
for (x1, x2) in range_:
    print(x1,x2)
    cdf += (x2-x1) * p #누적분포함수
E = (a+b)/2
V = (b-a)**2/12
print(f"범위 내 누적확률은 {cdf}")
print(f"해당 분포의 기대값은 {E}, 해당 분포의 분산은 {V} ")

12 15
범위 내 누적확률은 0.30000000000000004
해당 분포의 기대값은 10.0, 해당 분포의 분산은 8.333333333333334 


In [9]:
# 버스가 오전 7시부터 15분 간격으로 정류장을 출발한다. 한 승객이 이 정류장에 도착하는 시간은 7시에서 7시 30분 사이에 
# 균등분포를 따른다고 할 때 이 승객이 버스를 5분 미만 기다릴 확률은?
a = 0 # 확률변수의 범위
b = 30 # 확률변수의 범위

# 승객이 버스를 5분 미만으로 기다릴 구간 : 7시 10분 ~ 7시 15분, 7시 25분 ~ 7시 30분
range_ = [(10,15),(25,30)] # 구할 범위
p = 1/(b-a) #확률밀도함수
cdf = 0
for (x1,x2) in range_:
    print(x1,x2)
    cdf += (x2-x1) * p

E = (b+a)/2
V = (b-a)**2/12

print(f"범위 내 누적확률은 {cdf}")
print(f"해당 분포의 기대값은 {E}, 분산은 {V}")

10 15
25 30
범위 내 누적확률은 0.3333333333333333
해당 분포의 기대값은 15.0, 분산은 75.0


## 정규분포

- $f{x} = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma}^2)}, \quad -\infty< x< \infty$
- $E(X) = \mu$
- $Var(X) = \sigma^2$

In [11]:
# 정규분포 
# 확률변수 X가 정규분포 N(30,64)를 따를 때 26 ~ 46 구간의 확률은?
from scipy.stats import norm # 표준정규분포
import numpy as np
E = 30 # 평균 
V = 64 
S = np.sqrt(V)
x1 = 26
x2 = 46
zstat1 = (x1 - E)/S #표준화
zstat2 = (x2 - E)/S #표준화
cdf = norm.cdf(zstat2)- norm.cdf(zstat1)
print(f"범위 내 누적확률은 {cdf}")
print(f"해당 분포의 기대값{E} 분산은 {V}")

범위 내 누적확률은 0.6687123293258339
해당 분포의 기대값30 분산은 64


## 표준정규분포

- $f(z) = \frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}, \quad -\infty < z < \infty$
- $E(Z) = 0$
- $Var(Z) =1$

In [12]:
# 표준정규분포
# 확률변수 X가 표준정규분포를 따를 때 -1.96 ~ 1.96 구간의 확률은?
E = 0 #평균
V = 1 
S = np.sqrt(V) # 표준편차
zstat1 = -1.96
zstat2 = 1.96
cdf = norm.cdf(zstat2)- norm.cdf(zstat1)
print(f"범위 내 누적확률은 {cdf}")
print(f"해당 분포의 기대값{E} 분산은 {V}")

범위 내 누적확률은 0.950004209703559
해당 분포의 기대값0 분산은 1


## 지수분포

- $f(x) = \lambda e^{\lambda x}, \quad x > 0,\lambda>0$
- $E(X) = 1/\lambda$
- $Var(X) = 1/\lambda^2$

In [33]:
# 지수분포 
from scipy.stats import expon

# 자동차들 사이 시간 간격이 평균 3분인 지수확률 분포를 따르는 경우, 연속한 두대의 차량이 도착하는 시간이 2분 이내일 확률은?
lam = 1/3 # lambda : 단위시간 동안 평균적으로 발생한 사건 = 3분동안 1건, 1분동안 1/3건
x = 2 # 사건이 일어날때까지 걸린 시간

E = 1/lam
V = 1/(lam**2)
# scale에 1/lam을 입력해주어야함
cdf = expon.cdf(x, scale = 1/lam)

print(f'누적확률 {cdf}')
print(f'해당 분포의 기대값 {E} 분산 {V}')

누적확률 0.486582880967408
해당 분포의 기대값 3.0 분산 9.0


## 감마분포

- $f(x) = \frac{1}{\gamma(\alpha)\beta^{\alpha}} x^{\alpha-1} e^{-\frac{x}{\beta}}, \quad x> 0 , \alpha >0, \beta >0$
- $E(X) = \alpha\beta = \alpha / \lambda$
- $Var(X) = \alpha\beta^2 = \alpha/\lambda^2$

In [34]:
# 감마분포
from scipy.stats import gamma
# 낚시를 하는데 어부가 물고기를 30분에 한마리씩 잡는다. 어부가 4마리의 물고기를 잡을 때까지 걸리는 시간이 1시간에서 3시간 사이로 소요될 확률은?
lam = 2 # lambda :  30에 한마리 = 1시간에 두마리 잡음
beta = 1/lam
alpha = 4 # 4마리 물고기
E = alpha * beta
V = alpha * beta**2
range_ = (1,3) # 1시간 ~ 3시간 

# scale에 beta를 입력해주어야 함
cdf = gamma.cdf(range_[1],alpha, scale=beta) - gamma.cdf(range_[0],alpha,scale=beta)

print(f"누적확률 {cdf}")
print(f"해당 분포의 기대값 {E} 분산은 {V}")

누적확률 0.7059195777218992
해당 분포의 기대값 2.0 분산은 1.0


In [35]:
# 배송 시간 alpha = 20, lambda = 1.6인 감마분포를 따를 때,
# 20개 철판을 배송할 때 걸리는 시간이 15분 이내일 확률?
lam = 1.6
beta = 1/1.6
alpha = 20
E = alpha * beta
V = alpha * beta**2
range_ = (0,15)

cdf = gamma.cdf(range_[1],alpha,scale = beta) - gamma.cdf(range_[0],alpha,scale=beta)
print(f"누적확률 {cdf}")
print(f"해당 분포의 기대값 {E} 분산은 {V} ")

누적확률 0.8197394858298082
해당 분포의 기대값 12.5 분산은 7.8125 


## 카이제곱분포


- $f(x) = \frac{1}{\gamma(\frac{n}{2})2^{\frac{n}{2}}}x^{\frac{n}{2}-1}e^{\frac{x}{2}}, \quad x>0, n>0$
- $E(X) = n$
- $Var(X) = 2n$

## t분포

- $f(x) = \frac{\gamma(\frac{k+1}{2})}{\gamma(\frac{k}{2})\sqrt{\pi k}}(1+\frac{x^2}{k})^{-\frac{k+1}{2}}, - \infty < x < \infty$ 
- $E(X) = 0$
- $Var(X) = k/(k-2), k > 2$

## F분포

- $ f(x) = \begin{cases} \gamma(\frac{m+2}{2})(\frac{m}{n})^{\frac{m}{2}} \cdot \frac{x^{\frac{m}{2}-1}}{(1+\frac{m}{n}x)^{\frac{m+n}{2}}}, \quad x>0 \\ \quad\quad 0, \quad\quad\quad x \leq 0 \end{cases}$
- $E(X) = n/(n-2), \quad n>2 $

- $Var(X) = \frac{2n^2(m+n-2)}{m(n-2)^2(n-4)}, \quad n>4$

---

## example

1. 어느 권총 사격 선수가 과녁의 정중앙을 맞힐 확률이 80%라고 한다. 이 선수가 총 5번 사격을 할 때 평균적으로 몇번 정중앙을 맞히는지 구하시오

2. 전체 청소년의 40%가 11시 이전에 잠을 잔다고 한다면, 임의로 선택한 10명의 청소년 중에서 3명이 11시 이전에 잠을 잘 확률을 계산하시오(소수점 첫째짜리까지 반올림)

3. 어느 아파트 단지에서 밤 11시부터 새벽2시 사이에 배달되는 음식 배달 건수는 시간 당 평균 5건이다. 음식 배달 건수의 분포가 포아송분포를 따른다면 오늘 새벽 12시와 1시 사이에 배달이 1건만 발생할 확률을 구하시오 (소수점 둘째까지 반올림)

4. A대학교 B전공 시험의 성적 분포는 평균이 65, 표준편차 12인 정규분포를 따른다고 한다. 최고 점수부터 10%까지를 A+로 분류한다면, A+를 받기 위해 최소 몇점을 받아야 하는가?

In [5]:
#1 과녁을 정중앙에 맞힐 확률은 80%, 5번 사격하여 평균적으로 성공할 확률 -> 베르누이 시행에서 첫번째 성공까지의 확률 이항분포
# from scipy.stats import binorm
n = 5
p = 0.8

n*p


4.0

In [8]:
#2 전체 청소년 40%가 잔다, 60% 안잔다 / 임의로 선택 10명 3명이 11시 잔다.
p = 0.4
# 이항 분포
from scipy.stats import binom

binom.pmf(3,10,0.4)

0.21499084799999982

In [10]:
#3 11~02 음식 배달 건수는 평균 5건, 음식 -> 포아송 분포
from scipy.stats import poisson
x = 1
lam = 5

poisson.pmf(x,5)


0.03368973499542734

In [19]:
#4 성적 분포는 정규분포를 따른다. 상위 10%의 점추정 
mu = 65
V = 12
from scipy.stats import norm

Z = norm.ppf(0.9)

# z = (x-mu)/V
# x = z*V/mu
x = Z *V +mu
print(x)

80.3786187865352


In [20]:
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler