# 파이썬 기반의 AI를 위한 기초수학, 확률및통계

In [1]:
## 강봉주 
## bonjour.kang@gmail.com
##
## 표본 분포
##

In [2]:
# 필요한 패키지
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

import scipy
from scipy import linalg as la
import scipy.stats as ss
import scipy.special

# 한글출력
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

# 필요한 패키지 2
from pgmpy.factors.discrete import JointProbabilityDistribution as JPD
import sympy

scipy.__version__

'1.3.2'

In [3]:
#
# 데이터 구성
#

# [HFWS] 데이터: “가계금융복지조사( 2017년 이후) > 가구마스터(제공)[2018가구금융복지조사]”
df = pd.read_csv('https://github.com/bong-ju-kang/kmu-mba-statistics/raw/master/Data/MDIS_2018_HFWS.txt', 
                 header=None)
df.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,151,152,153,154,155,156,157,158,159,160
0,2018,10200261,P,1127.905175,,2255.0,G2,1,2,G1,...,,,1.0,80.0,60,150,4.0,,,
1,2018,10200371,P,2223.797699,,4515.0,G1,1,4,G2,...,,,1.0,70.0,150,200,4.0,,,


In [4]:
# 가구당 연간 소득액: 110번째
income = df[109]
np.round(np.mean(income), 1)

5364.0

In [5]:
# 모집단으로 가정
# 모 평균, 모 표준편차
np.round([np.mean(income),np.std(income, ddof=0)], 1 )

array([5364. , 5818.4])

In [6]:
# 크기가 100인 임의 표본 1개의 표본 평균
size = 100
np.random.seed(1)

# 비복원 추출
index = np.random.choice(len(income), size, replace=False)

sample_mean = np.mean(income[index])
np.round(sample_mean, 1)

5323.1

In [7]:
# 표본 비율
np.round(size / len(income), 4)

0.0054

In [8]:
# 표본평균의 평균
num_samples = 1000
size = 100
result = []

np.random.seed(123)
for i in np.arange(num_samples):
    index = np.random.choice(len(income), size, replace=False)
    result.append(np.mean(income[index]))
np.round(np.mean(result), 2)

5343.76

In [9]:
#
# 이항분포의 평균의 분포
#

# 이항 분포 모수 정의
num_samples = 100
trials = 1000
event_prob = 1/6
size = 5

# 기대값
expected_count = trials * event_prob
np.round(expected_count, 2)

166.67

In [10]:
# 표본 성공건수의 평균
result = []

np.random.seed(1234)
for i in np.arange(num_samples):
    value = np.random.binomial(n=trials, p=event_prob, size=size)
    result.append(np.mean(value))

np.round(np.mean(result), 2)

166.23

In [11]:
# CLT를 이용한 확률 계산
z = (30-100*1/5)/np.sqrt(100*1/5*4/5)
prob = 1 - ss.norm.cdf(z)
prob.round(4)

0.0062

## 카이제곱 분포

In [12]:
# 적률생성 함수를 이용한 평균과 분산 계산
k, t = sympy.symbols('k, t')
expr = (1-2*t)**(-k/2)

# 1차 적률(기대값)
M1 = sympy.Lambda(t, expr.diff(t).simplify())
EX = M1(0)
EX

k

In [13]:
# 2차 적률
M2 = sympy.Lambda(t, expr.diff(t, t).simplify())
EXX = M2(0)
EXX

k*(k + 2)

In [14]:
# 분산
(EXX- EX**2).simplify()

2*k

## t 분포

In [15]:
# 확률 계산
dof = 10
prob = 1 - ss.t.cdf(2, df=dof)
prob.round(3)

0.037

## F 분포

In [16]:
# 확률 계산
dof = [90, 100]
prob = 1 - ss.f.cdf(1.5, dfn=dof[0], dfd=dof[1])
prob.round(3)

0.024

In [17]:
# 상위 % 지정 후 분위수 계산: ppf(percent point function) 함수
alpha = 0.05
dof = [90, 100]
qpoint = ss.f.ppf(1-alpha, dfn=dof[0], dfd=dof[1])
qpoint.round(3)

1.402