In [None]:
!git clone https://github.com/Seung-hwanSong/HS_0706.git #코랩 사용

# Diagnostic Data Analytics 1

# 1. 다양한 분포 생성
# 이산확률분포, 연속확률분포

##### jupyter notebook 단축키

- ctrl+enter: 셀 실행   
- shift+enter: 셀 실행 및 다음 셀 이동   
- alt+enter: 셀 실행, 다음 셀 이동, 새로운 셀 생성
- a: 상단에 새로운 셀 만들기
- b: 하단에 새로운 셀 만들기
- dd: 셀 삭제(x: 셀 삭제)
- 함수 ( ) 안에서 shift+tab: arguments description. shift+tab+tab은 길게 볼 수 있도록

## 1. 모듈 불러오기

In [None]:
""" 데이터 전처리 """
import numpy as np
import pandas as pd

""" 통계 및 계산 """      
import statistics
import scipy.stats as stats
from scipy.stats import binom
from scipy.special import factorial
import math

""" 시각화 """
import matplotlib.pyplot as plt

## 2. 이산확률분포

### 2-1. 이항 분포 

- 이항 분포 (Binomial distribution)는 연속된 n번의 독립시행에서 각 시행이 성공할 (또는 일어날) 확률 p를 가질 때 만들어지는 이산 확률 분포를 의미함

- 이 때 성공한 횟수를 X라는 확률변수로 나타내면, 확률변수 X는 이항 분포를 따르고 평균, 분산, 확률 질량 함수 (probability mass function)는 아래와 같이 주어짐

- <strong> E(X) = np, V(X) = npq </strong>

# $f(x)={}_{n} C_{x} p^{x}(1-p)^{n-x}$

In [None]:
np.array(range(21))

In [None]:
""" 이항분포 """

n = 20                        # 시행 횟수
x = np.array(range(21))       # 성공한 횟수
p = 0.5                       # 시행이 성공할 확률

In [None]:
# Combination 함수 정의
def combination(x,n):
    comb = factorial(n) / (factorial(x) * factorial(n - x))
    return comb 

In [None]:
# 각 시행에서 성공할 확률
y = combination(x,n) * p ** x * (1 - p) ** (n - x)
print(y)

In [None]:
# n = 20 , p= 0.5일 때 이항분포의 확률질량함수(pmf) 시각화 

plt.figure(figsize=(12, 8))
plt.bar(x, y, label='(n=' + str(n) +', p='+str(p)+ ')' )
plt.xlabel('X')
plt.ylabel('P(X)')
plt.title('Binomial Distribution(n = 20, p = 1/2)')
plt.grid()
plt.legend()

plt.show()

### N의 크기에 따른 이항분포의 확률질량함수 시각화

In [None]:
 np.array(range(5))

In [None]:
# Scipy 모듈을 활용한 p= 0.5 일 때의 이항분포의 확률질량함수 시각화 

p = 0.5
N= [4, 8, 12, 16, 20, 24, 28, 32, 36, 40]

plt.figure(figsize=(12, 8))

for n in N:
    x = np.array(range(n+1))
    plt.plot(x, binom(n, p).pmf(x), 'o--', label='(n=' + str(n) +', p='+str(p)+ ')')
    
plt.xlabel('X')
plt.ylabel('P(X)')
plt.title('Binomial Distribution(p = .5)')
plt.grid()
plt.legend()
plt.show()

### 2-2. 포아송 분포 

- 포아송 분포 (Poisson distribution)는 단위 시간 안에 어떤 사건이 몇 번 일어날 것인지를 표현하는 이산 확률 분포

- 이항분포를 따르는 분포에서 시행횟수 n이 아주 커지고 사상 발생의 확률 p가 아주 작을 경우, 이항분포는 포아송분포로 근사시킬 수 있음

- 포아송 분포에서, 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값이 λ라고 했을 때, 그 사건이 n회 일어날 확률은 아래와 같이 주어짐

- <strong> E(X) = λ , V(X) = λ </strong>

# $P(X=n)=\cfrac{\lambda^{n}e^{-\lambda}}{n!}$

In [None]:
""" 포아송분포 """

x = np.arange(40)      # 확률 변수 생성
Lamb = 5               # 포아송 분포의 평균 (정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값)

In [None]:
# 확률 변수에 따른 확률 값 정의

def pois_dist(n, lamb):
    p = (lamb ** n) * math.exp(-lamb) / math.factorial(n)
    return p

In [None]:
# 사건이 n회 일어날 확률 
y = np.array([pois_dist(n, Lamb) for n in range(40)]) 
print(y)

In [None]:
# λ= 5 일 때, 포아송 분포의 확률 질량 함수(pmf) 시각화

plt.figure(figsize=(8,4))
plt.ylim(0, 0.15)
plt.bar(x, y, color='lightcoral')
plt.title('Poisson Distribution ($\lambda$ = 5)')
plt.show()

In [None]:
# λ= 5, 10, 20, 30 일 때, 포아송 분포의 확률 질량 함수 시각화

x = np.arange(40)

Lamb = [5,10,20,30]
graph_color = ['royalblue', 'mediumaquamarine', 'lightcoral', 'purple']

plt.figure(figsize=(16,8))
plt.title('Poisson Distribution')

for i,lamb in enumerate(Lamb):
    plt.subplot(2,2,i+1)
    pd1 = np.array([pois_dist(n, lamb) for n in range(40)])
    plt.ylim(0, 0.15)
    plt.title(f'Poisson Distribution ($\lambda$ = {lamb})')
    plt.bar(x, pd1, color=graph_color[i])

plt.show()    

## 3. 연속확률분포

### 3-1. 정규 분포

- 정규 분포 (Normal distribution)는 통계학에서 연속 확률 분포의 한 종류로서 데이터의 분포를 근사하는데 가장 흔하게 사용됨

- 정규 분포의 모양은 2개의 매개 변수인 평균 μ과 표준편차 σ에 의해 결정되며, 이 때의 분포를 N(μ,σ2)으로 나타냄

- 정규 분포 N(μ,σ2)를 갖는 확률 변수 x는 기대값, 최빈값, 중앙값이 모두 μ이며, 분산은 σ2로 주어짐

- 정규 분포 N(μ,σ2)를 갖는 확률 변수 x에 대한 확률 밀도 함수 (Probability Density Function)는 아래와 같이 주어짐

- <strong> E(X) = μ , V(X) = σ2 </strong>

# $N(x|\mu, \, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} exp \left[ -\frac{(x-\mu)^2}{2\sigma^2} \right] $

In [None]:
""" 정규분포 """

mu = 0.0                      # 정규분포의 평균
sigma = 1.0                   # 정규분포의 표준편차

x = np.linspace(-8, 8, 1000)  # -8부터 8까지의 범위를 1000등분 하는 확률 변수 x 생성

y = (1 / np.sqrt(2 * np.pi * sigma**2)) * np.exp(-(x-mu)**2 / (2 * sigma**2))   # 정규분포의 확률밀도함수

In [None]:
# 평균이 0, 표준편차가 1인 정규분포의 확률 밀도 함수 시각화

plt.figure(figsize=(8,4))
plt.plot(x, y, 'g', alpha=0.7, linewidth=5, label='PDF of N(0, 1)')
plt.xlabel('x', fontsize =12 )
plt.ylabel('f(x)', fontsize =12)
plt.legend(loc='upper left', fontsize =12)
plt.show()

In [None]:
# 다양한 정규분포 생성

mu1, sigma1 = 0.0, 1.0   # 첫 번째 정규분포의 평균과 표준편차
mu2, sigma2 = 1.5, 1.5   # 두 번째 정규분포의 평균과 표준편차
mu3, sigma3 = 3.0, 2.0   # 세 번째 정규분포의 평균과 표준편차

x = np.linspace(-8, 8, 1000) # -8부터 8까지의 범위를 1000등분 하는 확률 변수 x 생성

y1 = (1 / np.sqrt(2 * np.pi * sigma1**2)) * np.exp(-(x-mu1)**2 / (2 * sigma1**2))   #첫 번째 정규분포의 확률밀도함수
y2 = (1 / np.sqrt(2 * np.pi * sigma2**2)) * np.exp(-(x-mu2)**2 / (2 * sigma2**2))   #두 번째 정규분포의 확률밀도함수
y3 = (1 / np.sqrt(2 * np.pi * sigma3**2)) * np.exp(-(x-mu3)**2 / (2 * sigma3**2))   #세 번째 정규분포의 확률밀도함수

In [None]:
# 다양한 정규분포 시각화 

plt.figure(figsize=(12,6))
plt.plot(x, y1, alpha=0.7, linewidth=5, label=r'PDF of N(0, $1^2$)')
plt.plot(x, y2, alpha=0.7, linewidth=5, label=r'PDF of N(1.5, $1.5^2$)')
plt.plot(x, y3, alpha=0.7,linewidth=5, label=r'PDF of N(3.0, $2.0^2$)')
plt.xlabel('x', fontsize =12)
plt.ylabel('f(x)', fontsize =12)
#plt.legend(bbox_to_anchor=(1.0, 0.4))
plt.legend()
plt.show()

### 3-2. t 분포

- t 분포는 모집단 표준편차를 알 수 없을 때 표본 평균과 모집단 평균 사이 표준화된 거리를 설명하며, 관측값은 정규 분포를 따르는 모집단에서 추출됨

- 정규 분포와 마찬가지로 t 분포도 평균에 대하여 대칭형임

- 정규 분포에서는 모집단 표준편차를 알고 있다고 가정 (t 분포에서는 이러한 가정을 내리지 않음)

- 표본 크기가 커질수록(자유도가 커질수록) 정규분포에 가까워짐

- t 분포 자유도 v를 갖는 확률 변수 t에 대한 확률 밀도 함수 (Probability Density Function)는 아래와 같이 주어짐

- <strong>E(t) = 0 , V(t) = ν / (ν-2) </strong> 

# $f(t)=\frac{\Gamma[\frac{(k+1}{2}]}{\sqrt{\pi k} \Gamma(\frac{k}{2})}\frac{1}{\left[ \frac{t^2}{k}+1 \right]^{\frac{k+1}{2}}},  -\infty < t < \infty $

In [None]:
""" t분포"""

nu = 1                                                                           # t 분포의 자유도
t = np.linspace(-8, 8, 1000)                                                     # -8부터 8까지의 범위를 1000등분 하는 확률 변수 t 생성
y = (math.gamma((nu+1) / 2) / (math.gamma(nu / 2) * math.sqrt(math.pi * nu))) * (1 + t ** 2 / nu) ** (-(nu + 1) / 2) # t 분포의 확률밀도함수

In [None]:
plt.figure(figsize=(10, 6))          # 플롯 사이즈 지정
plt.plot(t, y,'g',linewidth=5)                       
plt.xlabel("t", fontsize=12)         # x축 레이블 지정
plt.ylabel("f(t)", fontsize=12)      # y축 레이블 지정
plt.title("t Distribution")          # 타이틀 표시
plt.legend([f"t({nu})"])             # 범례 표시
plt.show()                           # 플롯 보이기

In [None]:
# 다양한 자유도의 t 분포 생성을 위한 함수정의
def t_dist (t, nu) :
    y = (math.gamma((nu+1) / 2) / (math.gamma(nu / 2) * math.sqrt(math.pi * nu))) * (1 + t ** 2 / nu) ** (-(nu + 1) / 2)
    return y

In [None]:
legend = []


plt.figure(figsize=(20, 6))           # 플롯 사이즈 지정
plt.subplot(1, 2, 1)                  # 첫번째 서브플롯

# 1~10까지 자유도를 가지는 t 분포 생성
for i in np.arange(10) + 1:           
    plt.plot(t, t_dist(t, i))             
    legend.append("t(" + str(i) + ")")

plt.title("t Distribution")          # 타이틀 표시
plt.legend(legend)                   # 범례 표시
plt.grid()                           # 플롯에 격자 보이기
plt.xlabel("t")                      # x축 레이블 지정
plt.ylabel("y")                      # y축 레이블 지정


# t 분포와 비교를 위한 정규 분포 시각화

# 정규분포 생성
x = np.linspace(-8, 8, 1000)                                                    # -8부터 8까지의 범위를 1000등분 하는 확률 변수 x 생성
mu = 0.0                                                                        # 정규분포의 평균
sigma = 1.0                                                                     # 정규분포의 표준편차
y = (1 / np.sqrt(2 * np.pi * sigma**2)) * np.exp(-(x-mu)**2 / (2 * sigma**2))   # 정규분포의 확률밀도함수


# 평균이 0, 표준편차가 1인 정규분포의 확률 밀도 함수 시각화

plt.subplot(1, 2, 2)                 # 두번째 서브플롯 
plt.plot(x,y, label=r'PDF of N(0, $1^2$)')  
plt.title("Normal Distribution")
plt.grid()
plt.xlabel("x")
plt.ylabel("y")
plt.legend() 
plt.show()                         

## -> t 분포의 자유도가 커질수록 정규분포와 유사

### 3-3. 지수 분포 

- 지수 분포 (Exponential distribution)는 사건이 발생하기까지 경과 시간에 대한 연속확률분포를 나타냄

- 푸아송 분포가 단위 시간 동안 사건이 몇 번 일어날지를 나타내는 이산확률분포라면,

- 지수 분포는 사건이 일어나고 다음 사건이 일어나기까지 걸리는 시간을 나타내는 분포임

- 음이 아닌 값을 갖는 확률변수 X의 확률밀도함수가 임의의 양수 λ에 대해 확률밀도함수는 아래와 같습니다.

- <strong> E(X)= 1/λ    V(X)=1/λ^2 </strong>

# $f(x)=\lambda e^{-\lambda x} (x \geq 0)$

In [None]:
""" 지수분포 """

x = np.linspace(0, 3, 100)      # 지수 분포의 확률 변수 정의
ld1, ld2, ld3 = 0.5, 1.0, 1.5   # 지수 분포의 모수 정의

y1 = ld1 * np.exp(-ld1 * x)     # λ = 0.5 일 때, 확률밀도함수 정의
y2 = ld2 * np.exp(-ld2 * x)     # λ = 1.0 일 때, 확률밀도함수 정의
y3 = ld3 * np.exp(-ld3 * x)     # λ = 1.5 일 때, 확률밀도함수 정의

In [None]:
# 지수분포의 확률밀도함수 시각화

plt.plot(x, y1, alpha=0.7, linewidth=5, label=r'$\lambda$=0.5')
plt.plot(x, y2, alpha=0.7, linewidth=5, label=r'$\lambda$=1.0')
plt.plot(x, y3, alpha=0.7, linewidth=5, label=r'$\lambda$=1.5')
plt.xlabel('x',fontsize=12)
plt.ylabel('f(x)',fontsize=12)
plt.legend()
plt.show()

# EOD