# 개념
- 확률: 사건이 발생할 가능성

- 포본공간: 실험 결과 발생 가능한 모든 결과의 집합
- 확률변수: 표본공간상 모든 가능한 결과에 특정 수치를 부여하는 것

- 확률함수: 확률변수에 대해 정의된 실수를 0과 1 사이의 실수(확률)에 대응시키는 함수
    - PMF 이산확률함수 (probabilty mass function) 
    - PDF 연속확률함수 (probabilty density function) )

- 누적확률함수: CDF (cumulative PDF)

- 확률분포: 확률 변수 값과 그 값이 발생활 확률 값을 도수분포표나 그래프로 나타낸 것


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats
import statsmodels.api as sm
from scipy import stats
import seaborn as sns
from statsmodels.stats.proportion import proportions_ztest
import os
import matplotlib
%matplotlib inline
matplotlib.rc('font', family='Maigun Gothic')
plt.rc('font', family='Maigun Gothic')
plt.rcParams['axes.unicode_minus']=False

# 정규분포

In [17]:
mu = 115
sigma = 20
x = 135

# x(135)까지 누적 확률 값: CDF
prob=stats.norm.cdf(x,mu,sigma)
print(prob)

# 1. 135분 이상의 누적확률값 계산
## 100명 중 16명이 불만있는 공장=> 매우 좋지 않다.
print('{0}분 이상 걸리는 A/S 작업 비율: {1:.1f}%'.format(x, (1-prob)*100))

0.8413447460685429
135분 이상 걸리는 A/S 작업 비율: 15.9%


# Z 변환
z로 변환하면 평균이 0이고 표준편차가 1인 표준정규분포가 된다.
표준정규분포표는 면적을 적분해놓은 표이다.
x,y축은 소수점 개수의 차이이다.

In [16]:
# 정규분포
mu = 12
sigma = 3
x = 15

# x(135)까지 누적 확률 값: CDF
prob=stats.norm.cdf(x,mu,sigma)
print(prob)

# 15이하의 누적확률값 계산
print('{0}km이상 {1}km이하 달릴 확률: {2:.1f}%'.format(mu, x, (prob-0.5)*100)
     )

0.8413447460685429
12km이상 15km이하 달릴 확률: 34.1%


# t 분포

In [20]:
df=5
t = 1.53

# 누적 확률 값: CDF
prob=stats.t.cdf(t, df)

# 누적확률값 계산
print('t 분포 누적확률 계산: {:.3f}'.format(prob))    

t 분포 누적확률 계산: 0.907


# 카이제곱 분포 ($\chi{2}$)

P(x<=F) = 0.904


# F 분포

In [24]:
f = 2.0
df_num = 15
df_den = 15

prob=stats.f.cdf(f, df_num, df_den)
print("P(x<=F) = {:.3f}".format(prob))

P(x<=F) = 0.904


# 와이블 분포

In [26]:
x = 1500
alpha = 2.2
beta = 1200

prob=stats.weibull_min.cdf(x, alpha, scale=beta)
print("P(x>=F) = {:.3f}".format(1-prob))
# 해석: 1500시간 이상 작동할 확률이 19.5% 이다.

P(x>=F) = 0.195


# 이항분포 (binomial distribution)
베르누이 실행을 여러 번 시행해서 특정 횟수의 성공/실패 나타날 확률

## 베르누이 실행
표본 공간이 단지 두 


In [31]:
n = 3 # 차량 수
p = 0.4 # 공정 불량 확률

for i in range(n+1):
    prob=stats.binom.pmf(k=i, n=n, p=p)
    print("P(x={}) = {:.3f}".format(i,prob))

P(x=0) = 0.216
P(x=1) = 0.432
P(x=2) = 0.288
P(x=3) = 0.064


In [33]:
n = 3 # 차량 수
p = 0.4 # 공정 불량 확률

# 2대 이하 나올 누적 확률
prob=stats.binom.cdf(2, n=n, p=p)
print("P(x>={}) = {:.3f}".format(2,prob))

P(x>=2) = 0.936


# 포아송 분포
일정 시간/공간 단위에서 발생하는 성공 횟수에 대한 이산확률분포

In [38]:
# 1분당 2번의 전화가 걸려올 확률
mu = 2

# 1분당 3번의 전화가 걸려올 확률
prob = stats.poisson.pmf(3,mu)

# 1분당 최대 2회 이하 전화가 걸려올 확률
cdf_prob = stats.poisson.cdf(2,mu)

print("1분당 {0}번의 전화가 걸려올 확률: {1:.1f}%".format(3,prob*100))
print("1분당 {0}번 이하의 전화가 걸려올 확률: {1:.1f}%".format(2,cdf_prob*100))

1분당 3번의 전화가 걸려올 확률: 18.0%
1분당 2번 이하의 전화가 걸려올 확률: 67.7%


## 1. [실습] 정규분포의 확률계산