통계적 추정 : 모수 즉 모집단의 파라미터를 추정
모집단 분포가 정규분포임을 가정했을 때 모수를 알면 모집단 분포를 추정할 수 있음
점추정 : 모수를 어느 1개의 값으로 추정하는 방법
모평균 추정에 표본평균을 사용하는데 표본평균은 불편성과 일치성을 가지고 있는 통계량이기 때문임
모분산의 점추정값으로 표본에서 계산된 통계량으로 불편분산을 사용
구간추정 : 추정값이 폭을 가지게 하는 추정 방법. 추정의 폭 계산에는 확률의 개념을 사용
폭을 가지므로 추정오차를 가미할 수 있으며 추정오차가 작으면 구간 추정의 폭이 좁아짐.
샘플사이즈가 커져도 구간 추정의 폭은 좁아짐
신뢰계수(신뢰수준)와 신뢰구간
신뢰계수란 구간 추정의 폭에 대한 신뢰 정도를 확률로 표현한 것. 95%, 99%
신뢰구간이란 특정 신뢰계수를 만족하는 구간
신뢰계수가 클수록 신뢰구간의 폭이 넓어짐
신뢰한계 : 신뢰구간의 하한값과 상한값
신뢰구간 계산 : "(표본평균 - 모평균) / 표준오차"로 계산한 t값. 구간추정을 할 때는 t분포의 퍼센트포인트 사용
신뢰계수를 95%라고 했을 때 t분포를 따른다면 2.5% 지점과 97.5% 지점을 계산.
t분포를 따르는 변수가 이 구간에 들어갈 확률은 95%가 됨
표본의 분산 크기가 커지면 신뢰구간의 폭이 넓어짐
샘플사이즈가 커지면 자유도가 커지고 표준오차가 작아짐
신뢰계수가 커질수록 안전해진다고 볼 수 있으며 신뢰구간의 폭이 넓어짐
[모평균 μ의 신뢰구간을 추정]

만약 누군가가 점추정를 통해 "A후보의 지지율은 54.3%입니다"라고 말한다면, 자신감 있어 보이더라도 틀린 말이 될 수 있다. 실제 지지율이 54.9%라면 말이다. 이와 같은 점추정은 틀릴 가능성이 높다. 반면 구간추정을 통해 "A후보의 지지율은 신뢰수준 95%로 신뢰구간 51.3%~57.3% 내에 있습니다"라고 말한다면, 좀 더 안전하다. 물론 구간추정도 틀릴 수 있지만, 점추정에 비하면 틀릴 가능성이 적다.

모수가 신뢰구간 안에 포함되지 않을 확률을 보통 α 로 표현한다. 자연스럽게 모수가 신뢰구간 안에 포함될 확률, 즉 신뢰수준은 1 − α로 표현된다.
만약 신뢰수준 1 − α이 0.95 즉, 95%라면 α = 0.05 이다.



In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import scipy as sp
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

In [67]:
df = pd.read_csv('C:/caba2012/workspace/Caba_stat/dataset-20210111T020713Z-001/dataset/5_7_fl.csv')

TypeError: 'str' object is not callable

In [3]:
df

Unnamed: 0,length
0,4.352982
1,3.735304
2,5.944617
3,3.798326
4,4.087688
5,5.265985
6,3.272614
7,3.526691
8,4.150083
9,3.736104


In [4]:
fish = df['length']
fish

0    4.352982
1    3.735304
2    5.944617
3    3.798326
4    4.087688
5    5.265985
6    3.272614
7    3.526691
8    4.150083
9    3.736104
Name: length, dtype: float64

In [None]:
# 모평균의 점추정
# 모평균의 의미

In [6]:
mu = np.mean(fish)
round(mu, 2)

4.19

In [9]:
# 모분산의 점추정
sigma_2 = np.var(fish, ddof=1)
round(sigma_2, 2)

0.68

In [10]:
# 자유도
df = len(fish) - 1
df

9

In [14]:
# 표준오차
sigma = np.std(fish, ddof=1)
se = sigma/np.sqrt(len(fish))
round(se, 2)

0.26

In [18]:
# 신뢰구간 계산 : stats.interval(alpha 신뢰계수, df, loc, scale)

interval = stats.t.interval(
                alpha=0.95, df=df, loc=mu, scale=se)

interval

(3.597010056835825, 4.777068592173221)

In [19]:
# 97.5% 지점
t_975 = stats.t.ppf(q=0.975, df=df)
t_975

2.2621571627409915

In [20]:
#하측신뢰한계
lower = mu - t_975 * se
lower

3.597010056835825

In [21]:
# 상측신뢰한계
upper = mu + t_975*se
upper

4.777068592173221

In [23]:
# 표준편차를 10배로 늘려서 신뢰구간 계산
# 표본의 분산 크기가 커지면 신뢰구간의 폭이 넓어짐
se2 = (sigma*10) / np.sqrt(len(fish))
stats.t.interval(alpha = 0.95, df=df, loc=mu, scale=se2)

(-1.7132533521824618, 10.087332001191509)

In [26]:
# 샘플사이즈를 10배로 늘려서 신뢰구간 계산
df2 = (len(fish)*10) - 1
se3 = sigma / np.sqrt(len(fish)*10)

stats.t.interval(alpha = 0.95, df=df2, loc=mu, scale=se3)

(4.0233803082774395, 4.350698340731607)

In [28]:
# 신뢰계수가 커질수록 안전해진다고 볼 수 있으며, 신뢰구간의 폭이 넓어짐
# 99% 신뢰구간

stats.t.interval(alpha = 0.99, df=df2, loc=mu, scale=se3)

(3.9704123408076932, 4.403666308201353)

In [29]:
# 95% 신뢰수준의 신뢰구간을 구하는 시행
be_included_array = np.zeros(20000, dtype = 'bool')
be_included_array

array([False, False, False, ..., False, False, False])

In [32]:
np.random.seed(1)
norm_dist = stats.norm(loc=4, scale=0.8)
for i in range(0,20000):
    sample = norm_dist.rvs(size=10)
    df = len(sample) - 1
    mu = np.mean(sample)
    std = np.std(sample, ddof=1)
    se = std/np.sqrt(len(sample))
    interval = stats.t.interval(0.95, df, mu, se)
    if(interval[0] <= 4 and interval[1] >= 4):
        be_included_array[i] = True
        

sum(be_included_array) / len(be_included_array)

0.948

In [33]:
junk_food = pd.read_csv('C:/caba2012/workspace/Caba_stat/dataset-20210111T020713Z-001/dataset/5_8_jfw.csv')

In [34]:
junk_food

Unnamed: 0,weight
0,58.52982
1,52.353039
2,74.446169
3,52.983263
4,55.876879
5,67.659849
6,47.726141
7,50.266907
8,56.500826
9,52.36104


In [35]:
#표본평균
mu = np.mean(junk_food)
mu

weight    55.384966
dtype: float64

In [36]:
#자유도
#자유도가뭐지?
df = len(junk_food) - 1
df

19

In [37]:
# 표준오차
sigma = np.std(junk_food, ddof=1)
se = sigma / np.sqrt(len(junk_food))
se

weight    1.957928
dtype: float64

In [39]:
# t값이 크면 유의미한 차이가 있다고 판단할 수 있음
# 과장봉지 중량의 평균이 50이다. (귀무가설)
t_value = (mu - 50) / se
t_value

weight    2.75034
dtype: float64

In [40]:
# p값(유의 확률)이 유의수준 0.5보다 작으므로 귀무가설을 기각
# 봉지과자의 평균 중량은 50g과 유의미하게 차이가 있다는 판단이 가능

alpha = stats.t.cdf(t_value, df=df)
[1 - alpha] * 2 #양측검정

[array([0.0063628]), array([0.0063628])]

In [41]:
# t검정
stats.ttest_1samp(junk_food, 50)

Ttest_1sampResult(statistic=array([2.75033968]), pvalue=array([0.01272559]))

In [61]:
paired_test_data = pd.read_csv('C:/caba2012/workspace/Caba_stat/dataset-20210111T020713Z-001/dataset/5_9_ptt.csv')


TypeError: 'str' object is not callable

In [45]:
paired_test_data

Unnamed: 0,person,medicine,body_temperature
0,A,before,36.2
1,B,before,36.2
2,C,before,35.3
3,D,before,36.1
4,E,before,36.1
5,A,after,36.8
6,B,after,36.1
7,C,after,36.8
8,D,after,37.1
9,E,after,36.9


In [50]:
before = paired_test_data.query('medicine == "before"')['body_temperature']
after = paired_test_data.query('medicine == "after"')['body_temperature']

before = np.array(before)
after = np.array(after)
diff = after - before
diff

array([ 0.6, -0.1,  1.5,  1. ,  0.8])

In [51]:
# 평균값이 0과 다른지 검정
# 유의미한 차이가 있다고 주장할 수 있음

stats.ttest_1samp(diff, 0)

Ttest_1sampResult(statistic=2.901693483620596, pvalue=0.044043109730074276)

In [53]:
#독립표본 t검정
#평균치

mean_bef = np.mean(before)
mean_aft = np.mean(after)

#분산
sigma_bef = np.var(before, ddof=1)
sigma_aft = np.var(after, ddof=1)

# 샘플 사이즈
m = len(before)
n = len(after)

# t값
t_value = (mean_aft - mean_bef) / np.sqrt((sigma_bef / m + sigma_aft/n))
t_value

3.1557282344421034

In [54]:
stats.ttest_ind(after, before, equal_var=False)

Ttest_indResult(statistic=3.1557282344421034, pvalue=0.013484775682079892)

In [None]:
# 분할표에 대한 독립성 검정

In [None]:
# 분할표
cross = pd.pivot_table(data=click_data, values='freq')

In [None]:
# Q. 'dataset/5_2shoes.csv'를 데이터프레임으로 불러와서 아래작업을 수행하세요

# 4행 3열을 복사하여 수직으로 결합하여 8행 4열의 데이터프레임 df로 만드세요
# 교차분석표를 만드세요 (values='sales, aggfunc='sum',index='store',columns='color')
# 독립성 검정을 수행하세요

In [68]:
df = pd.read_csv('C:/caba2012/workspace/Caba_stat/dataset-20210111T020713Z-001/dataset/5_2_shoes.csv')

TypeError: 'str' object is not callable