# 0. 확률(Probability)
---

- 확률 : 경험 혹은 실험의 결과로 특정사건이나 결과가 발생할 가능성

**확률의 조건** <br>
- Random Process
- Mutually Exclusive outcomes
- Law of Large Numbers
- Independence

**표본공간과 확률변수** <br>
- 표본공간 : 발생할 수 있는 모든 가능한 결과의 집합 <br>
- 확률변수 : 표본공간상의 모든 가능한 결과에 특정 수치를 부여하는 것

<br>

# 1. 확률변수 (Random Variable)
---

**정의**<br>
표본공간상의 모든 가능한 결과에 특정 수치를 부여하는 것으로, <u>확률실험의 결과를 실수에 대응시키는 함수(또는 방법)</u>를 확률변수라고 한다.

**확률변수는 이산 확률변수(discrete random variable)과 연속 확률변수(continuous random variable)로 구분된다.**
- 이산 확률변수 : 확률변수가 취하는 값이 유한개일 때
    - 예) 동전을 세 번 던지고, 그 결과를 기록하는 실험
- 연속 확률변수 : 구간내의 임의의 모든 점을 취할 수 있을 때
    - 예) 임이의 점 a에서 원점까지의 거리

<br>

# 2. 확률함수 (Probability Distribution Function)
---

## ▪️ 확률함수
확률변수(x)에 대하여 정의된 실수를 0과 1 사이의 실수(확률)에 대응시키는 함수
- 이산확률변수 (**PMF**, Probability Mass Function)
- 연속확률변수 (**PDF**, Probability Density Function)

## ▪️ 누적확률함수(CDF, Cumulative Probability Distribution Function)
- 확률변수 X가 x이하의 값을 취할 확률 : F(x)=P(X<=x)

<br>

# 3. 확률분포 (Probability Distribution)
---

## ▪️ 확률분포
- 확률변수가 특정 값을 가질 확률, 즉 상대적 가능성
- 모든 가능한 확률변수 값과 그 값이 발생할 확률 값을 도수분포표나 그래프로 나타낸 것

예) 같은 동전 3개를 던져서 앞면(H)와 뒷면(T)이 나타나는 사항을 관찰하는 문제. 확률변수 X를 x=앞면의 개수로 정의할 때

|PMF P(X=x)=P(x)|x의 값|CDF P(X=x)=P(x)|
|:------:|:---:|:---:|
|1/8|0|1/8|
|3/8|1|4/8|
|3/8|2|7/8|
|1/8|3|1|

## ▪️ 확률분포종류
**1) 연속 확률분포**
- 정규분포
- 표준정규분포
- t분포
- 카이제곱분포
- F분포
- 와이블 분포

**2) 이산 확률분포**
- 베르누이 분포
- 이항 분포
- 포아송 분포
- 초기하 분포

<br>

# 4. 정규분포 (Normal Distribution)
---

![image.png](attachment:image.png)

## ▪️ 정의
- 평균을 중심으로 좌우 대칭인 종모양 분포 (gauss distribution)
- 정규분포는 어떤 실수값이라도 모두 취할 수 있는 연속확률변수 X(-inf<=X<inf)에 관한 분포로, x의 평균(μ)와 표준편차(σ) 두 모수에 의해 분포의 특징이 결정됨

## ▪️ 특징
- 평균=μ(분포위치), 분산=σ^(분포모양)
- 종모양이며 μ 중심으로 대칭
- 기호 : X~N(μ, σ^)

## ▪️ 용도
- 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있음
- 따라서, 정규분포는 수집된 자료의 분포를 근사하는 데에 사용

## ▪️ 분포형태 변화
- 평균과 표준편차의 변화에 따라 정규분포는 다양한 모습으로 나타남
    - case1) 평균이 다르고, 표준편차에 차이가 없을 때
    - case2) 평균이 같고, 표준편차에 차이가 있을 때

<br>

# 4. 연습 및 실습
---

## python 패키지 불러오기

In [2]:
# 데이터 구성 패키지
import pandas as pd

# 행렬 연산 패키지
import numpy as np

# 데이터 시각화 패키지
import matplotlib
import matplotlib.pyplot as plt

# 데이터 시각화(추세 등) 패키지
import seaborn as sns

# 통계 분석 패키지
from scipy import stats
import scipy.stats

# 선형모델 formula
import statsmodels.formula.api as smf
import statsmodels.api as sm

from statsmodels.stats.proportion import proportions_ztest
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm


%matplotlib inline

In [3]:
# matplotlib 패키지 한글 깨침 처리
matplotlib.rc('font', family = 'AppleGothic')
plt.rc('font', family = 'AppleGothic')

## [연습1] 정규분포의 확률 계산

In [4]:
# 누적 확률값 계산
mu = 115
sigma = 20
x = 135

# prob : 135분까지 누적확률값 계산
prob = stats.norm.cdf(x, mu, sigma)

# 135분 이상의 누적확률값 계산
print("{0}분 이상 걸리는 A/S 작업 비율 : {1:.1f}%".format(x, (1-prob)*100))

135분 이상 걸리는 A/S 작업 비율 : 15.9%


## [실습1] 정규분포의 확률 계산 - p.43

In [5]:
# 누적 확률값 계산
mu = 175
sigma = 5
x = 180

# prob : 180cm까지의 누적확률값 계산
prob = stats.norm.cdf(x, mu, sigma)

# 180cm 이상의 누적확률값 계산
print("{0}cm인 경우, 상위 {1:.1f}% 에 해당".format(x, (1-prob)*100))

180cm인 경우, 상위 15.9% 에 해당


## [연습2] 정규분포의 확률 계산

In [6]:
# 누적확률 값 계산
mu = 12
sigma = 3
x1 = 15

# prob1 : 누적확률 15이하 값 계산
prob1 = stats.norm.cdf(x1, mu, sigma)


print("{0}km 이상 {1}km 이하를 달릴 확률은 {2:.1f}%에 해당함".
     format(mu, x1, (prob1-0.5)*100))

12km 이상 15km 이하를 달릴 확률은 34.1%에 해당함


## [실습2] 정규분포 확률 계산

**1) 1리터를 가지고 9km 이상 15km 이하를 달릴 확률은 얼마인가?**

In [7]:
# 누적확률 값 계산
mu = 12
sigma = 3
x1 = 15

# prob: 누적확률 15이하 값 계산
# 9km~12km & 12~15km 영역의 확률은 동일하므로 한 곳만 구하여 x2한다!
prob1 = stats.norm.cdf(x1, mu, sigma)

print("{0}km 이상 {1}km 이하를 달릴 확률은 {2:.1f}%에 해당함".
     format(mu, x1, (2*(prob1-0.5))*100))

12km 이상 15km 이하를 달릴 확률은 68.3%에 해당함


**2) 1리터를 가지고 15km 이상 달릴 확률은 얼마인가?**

In [8]:
# 누적확률 값 계산
mu = 12
sigma = 3
x1 = 15

# prob2 : 누적확률 15이상 값 계산
#
prob2 = stats.norm.cdf(x1, mu, sigma)


print("{0}km 이상 달릴 확률은 {1:.1f}%에 해당함".
     format(x1,(1-prob2)*100))

15km 이상 달릴 확률은 15.9%에 해당함
