#### 구간 추정
- 모수가 존재할 것으로 예상되는 구간을 추정하는 방법
- 신뢰구간은 확률변수이다.

In [6]:
# 모평균 계산 (모분산을 모르는 경우)

# 표본 데이터
data = [4.3, 4.1, 5.2, 4.9, 5.0, 4.5, 4.7, 4.8, 5.2, 4.6]

from scipy.stats import t
import numpy as np

mean = np.mean(data)

n = len(data)

se = np.std(data, ddof=1) / np.sqrt(n)

# 95 신뢰구간
print(round(mean- t.ppf(0.975, n-1) * se , 3), round(mean + t.ppf(0.975, n-1) * se , 3))

4.469 4.991


In [13]:
# t.interval로 신뢰구간 구하기

ci = t.interval(0.95, loc = mean, scale = se, df = n-1)

print([round(i, 3) for i in ci])

[4.469, 4.991]


#### python t-검정 수행


In [None]:
# 단일 표본 t-검정

sample = [9.76, 11.1, 10.7, 10.72, 11.8, 6.15, 10.52, 14.83, 13.03, 16.46, 10.84, 12.45]

from scipy.stats import ttest_1samp

# 양측 검정
t_statistic, p_value = ttest_1samp(sample, popmean = 10, alternative='two-sided')
print(t_statistic)
print(p_value)

# 즉 학생들의 성적 평균이 10점 아니라고 판단한 통계적 근거가 부족하므로 귀무가설 기각할 수 없음

2.0508338167773075
0.06488240727465687


In [26]:
# 독립 2 표본 t-검정

import pandas as pd

sample = [9.76, 11.1, 10.7, 10.72, 11.8, 6.15, 10.52, 14.83, 13.03, 16.46, 10.84, 12.45]
gender = ['Female'] * 7 + ['Male'] * 5

my_tab2 = pd.DataFrame({"score": sample, "gender": gender})
print(my_tab2)

    score  gender
0    9.76  Female
1   11.10  Female
2   10.70  Female
3   10.72  Female
4   11.80  Female
5    6.15  Female
6   10.52  Female
7   14.83    Male
8   13.03    Male
9   16.46    Male
10  10.84    Male
11  12.45    Male


In [None]:
from scipy.stats import ttest_ind

male = my_tab2[my_tab2['gender']=='Male']
female = my_tab2[my_tab2['gender']=='Female']

# 단측검정 (한쪽이 크거나 작다)
t_statistic, p_value = ttest_ind(male['score'], female['score'], equal_var=True, alternative ='greater') #대립이 남자가 여자보다 높다. /equal_var:합동분산추정량

print(t_statistic)
print(p_value)

2.9360367510416165
0.007443073828957785


In [30]:
# 대응 표본 t-검정

import numpy as np
before = np.array([9.76, 11.1, 10.7, 10.72, 11.8, 6.15])
after = np.array([10.52, 14.83, 13.03, 16.46, 10.84, 12.45])

from scipy.stats import ttest_rel

# 단측 검정
t_statistic, p_value = ttest_rel(after, before, alternative='greater') # 즉 대립가설은 after가 더 클것이다.
print('t-statistic:', t_statistic)
print('p_value', p_value)

t-statistic: 2.5811614301011883
p_value 0.02468128345546598


#### f-검정

In [None]:
import numpy as np
from scipy.stats import stats, f

data_1 = np.array([17.6, 9.7, 16.5, 12.0, 21.5, 23.3, 23.6, 26.4, 20.0, 25.2, 25.8, 21.2, 14.5, 27.3, 23.8])
data_2 = np.array([7.6, 4.2, 10.0, 11.5, 7.3, 5.8, 14.5, 10.6, 8.2, 9.4, 16.5, 9.7, 8.3, 13.6, 8.2])

data_1_std = data_1.std(ddof=1)
data_2_std = data_2.std(ddof=1)

ratio = data_1_std**2 / data_2_std**2

# 양측 검정
p_value = 2 * (1 - f.cdf(ratio, 14, 14))
print(p_value)

0.07111637215506228


In [40]:
print(ratio)

2.7223514017700063


#### 카이제곱 검정
- 주어진 데이터가 기대되는 분포나 독립성, 동질성을 갖는지 검증하는데 사용

In [49]:
import numpy as np

sample_data = [10.67, 9.92, 9.62, 9.53, 9.14, 9.74, 8.45, 12.65, 11.47, 8.62]

n = len(sample_data)

sample_variance = np.var(sample_data, ddof=1)
t = (n-1) * sample_variance / 1.3
print(t)

11.626530769230774


In [None]:
from scipy.stats import chi2
print('p_value:', 1 - chi2.cdf(t, df = n-1)) 

p_value: 0.23519165145589116


2) 독립성 검정
- 두 카테고리 변수 간의 상관성이 있는지 여부를 분석하는 방법
- 	두 범주형 변수 간 연관(독립성 여부) 확인

In [None]:
from scipy.stats import chi2

# 기각역 계산 ( 귀무가설을 ㅣㄱ각하는 기준이 되는 통계량의 값 범위)

critical_value = chi2.ppf(0.95, df = 1) # 즉 유의수준 상위 5% 해당하는 값부터 기각역이 시작
print(critical_value)

3.841458820694124


In [52]:
p_value = chi2.sf(15.55, df=1)
print(p_value)

8.035164786841964e-05


In [None]:
# 독립성 검정 다른 방법

import numpy as np
from scipy.stats import chi2_contingency

table = np.array([[14,4], [0, 10]])

chi2, p, df, expected = chi2_contingency(table, correction = False) # correction = False 카이제곱 검정 통계량 값 까지 받아오기 위해서
print("X-squared:", chi2.round(3), 'df:', df, 'p-value:', p.round(3))

X-squared: 15.556 df: 1 p-value: 0.0


3) 동질성 검정
- 두 개 이상의 모집단에서 추출된 표본들의 카테고리 분포 또는 비율이 동일한지 검정하는 방법
- 서로 다른 집단들의 분포가 동일한지(동질한지) 확인

In [55]:
import numpy as np
from scipy.stats import chi2_contingency

# 데이터 설정
table = np.array([[50, 30, 20], # 도시 X
                [45,35,20]]) # 도시 y

chi2, p, df, expected = chi2_contingency(table, correction=False)

print(chi2.round(3), p.round(3))


0.648 0.723


In [56]:
# 기대빈도 값

print(expected)

[[47.5 32.5 20. ]
 [47.5 32.5 20. ]]


4) 적합도 검정
- 관찰된 데이터 특정 이론적 분포를 따르는 지를 검정하는 방법
- 귀무: 데이터의 모집단의 특정 분포를 따른다
- 대립: 데이터의 모집단이 특정 분포를 따르지 않는다.

`

In [59]:
from scipy.stats import chisquare
import numpy as np

observed = np.array([13, 23, 24, 20, 27, 18, 15])
expected = np.repeat(20, 7)

statistic, p_value = chisquare(observed, f_exp = expected)
print('test statistic', statistic.round(3))
print('p-value', p_value.round(3))

test statistic 7.6
p-value 0.269


| 구분          | 적합도 검정          | 독립성 검정           | 동질성 검정           |
| ----------- | --------------- | ---------------- | ---------------- |
| **목적**      | 기대 분포와 관측 분포 비교 | 두 변수의 연관성 판단     | 집단 간 분포 비교       |
| **변수 수**    | 1개              | 2개               | 1개 (여러 집단)       |
| **데이터 수집**  | 하나의 변수, 기대값 존재  | 하나의 집단에서 두 변수 측정 | 여러 집단에서 동일 변수 측정 |
| **귀무가설**    | 관측 = 기대 분포      | 변수 간 독립          | 집단 간 분포 동일       |
| **분석 표 형태** | 단일 분포           | 교차표              | 교차표              |


## 분산 분석 (ANOVA)

- 분산에 대한 검정이 아닌 ANOVA는 주로 3개 이상의 집단에서 평균의 차이를 검정하기 위해 사용되는 통계적 방법
- 일원 분산 분석: 한 가지 관심 변수에 따라 그룹을 나누고 그룹 가느이 평균 차이를 검정
- 이원 분산 분석: 두 가지 관심 변수를 기준으로 그룹을 나누어 평균의 차이를 검정

#### 일원 분산 분석:
- 하나의 요인에 따라 여러 집단 간의 평균 차이를 검정하기 위한 통계 기법

In [61]:
import pandas as pd
import numpy as np

scents = ['Lavender', 'Rosemary', 'Peppermint']
minutes_lavender = [10, 12, 11, 9, 8, 12, 11, 10, 10, 11]
minutes_rosemary = [14, 15, 13, 16, 14, 15, 14, 13, 14, 16]
minutes_peppermint = [18, 17, 18, 16, 17, 19, 18, 17, 18, 19]

anova_data = pd.DataFrame({
    'Scent': np.repeat(scents, 10),
    'Minutes': minutes_lavender + minutes_rosemary + minutes_peppermint
})

anova_data.head()

Unnamed: 0,Scent,Minutes
0,Lavender,10
1,Lavender,12
2,Lavender,11
3,Lavender,9
4,Lavender,8


In [62]:
anova_data.groupby(['Scent']).describe()

Unnamed: 0_level_0,Minutes,Minutes,Minutes,Minutes,Minutes,Minutes,Minutes,Minutes
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Scent,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Lavender,10.0,10.4,1.264911,8.0,10.0,10.5,11.0,12.0
Peppermint,10.0,17.7,0.948683,16.0,17.0,18.0,18.0,19.0
Rosemary,10.0,14.4,1.074968,13.0,14.0,14.0,15.0,16.0


In [64]:
# ANOVA 실행하기

from scipy.stats import f_oneway

# 각 그룹의 데이터를 추출
lavender = anova_data[anova_data['Scent'] == 'Lavender']['Minutes']
rosemary = anova_data[anova_data['Scent'] == 'Rosemary']['Minutes']
peppermint = anova_data[anova_data['Scent'] == 'Peppermint']['Minutes']

# 일원 분산분석 수행 (one-way ANOVA)
f_statistic, p_value = f_oneway(lavender, rosemary, peppermint)
print(f_statistic)
print(p_value)

109.66869300911841
1.0908156984152117e-13


#### 가정 체크와 사후 검정

- 가정 체크

In [68]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 모델 적합
model = ols('Minutes ~ C(Scent)', data = anova_data).fit()

# ANOVA 수행
anova_result = sm.stats.anova_lm(model, typ = 2)
print(anova_result)

              sum_sq    df           F        PR(>F)
C(Scent)  267.266667   2.0  109.668693  1.090816e-13
Residual   32.900000  27.0         NaN           NaN
