[빅데이터분석기사 실기] 제3유형: 통계적 가설검정

# 제3유형 예상 문제

1. 모평균 검정: 검정통계량, p-value값, 귀무가설 판단(채택/기각)

- 모집단 1개: 단일 표본

- 모집단 2개: 대응 표본(쌍체), 독립 표본

- 모집단 3개: ANOVA(분산분석) - F검정(일원분산분석)



2. 카이제곱검정: 기댓값, 검정통계량, p-value값, 귀무가설 판단(채택/기각)

- 적합성 검정

- 독립성 검정



3. 상관분석: 상관계수, 검정통계량, p-value값, 귀무가설 판단(채택/기각)

- 피어슨 상관계수



4. 회귀분석: Rsq, odds, ratio, 회귀계수, p-value값

- 다중선형회귀

- 로지스틱회귀

# **가설 검정 순서**

① 가설설정(귀무가설/대립가설)

② 유의수준(α) 설정: 일반적으로 5%, 0.05

③ 귀무가설 하에 검정통계량 계산

④ 검정통계량으로 p-value 계산

⑤ 귀무가설(H₀) 기각 여부 결정(채택/
기각)


- **p-value < α : 귀무가설을 기각**

- **p-value > α : 귀무가설을 채택**

# 가설 검정 코드 흐름

In [3]:
from scipy import stats

# 1) 가설 설정
# 귀무가설: A그룹과 B그룹이 차이가 없다
# 대립가설: A그룹과 B그룹이 차이가 있다
A = [23, 25, 28, 30, 32]
B = [19, 21, 24, 26, 29]

# 2) 유의수준(α) 설정
alpha = 0.05

# 3) 귀무가설 하에 검정통계량 계산
# 4) 검정통계량으로 p-value 계산
t_statistic, p_value = stats.ttest_ind(A, B)
print(f'검정통계량: {t_statistic}')
print(f'p-value: {p_value}')

# 5) 귀무가설(H₀) 기각 여부 결정
if p_value < alpha:
  print('귀무가설 기각')
else:
  print('귀무가설 채택')

검정통계량: 1.5778641172210597
p-value: 0.15324889402868613
귀무가설 채택


In [1]:
from scipy import stats

# 1. 모평균 검정

### 1) 모집단 1개: 단일표본 t-test

- 귀무가설: 모평균 = X

- 대립가설: 모평균 ≠ X


In [None]:
t_statistic, p_value = stats.ttest_1samp(data, X, alternative='two-sided')

- 귀무가설: 모평균 ≤ X

- 대립가설: 모평균 > X

In [None]:
t_statistic, p_value = stats.ttest_1samp(data, X, alternative='less')

- 귀무가설: 모평균 ≥ X

- 대립가설: 모평균 < X

In [None]:
t_statistic, p_value = stats.ttest_1samp(data, X, alternative='greater')

### 2-1) 모집단 2개: 대응표본 t-test

- 귀무가설: before과 after가 차이가 없다.

- 대립가설: before과 after가 차이가 있다.

In [None]:
t_statistic, p_value = stats.ttest_rel(before, after)

### 2-2) 모집단 2개: 독립표본 t-test

두 그룹의 데이터가 정규분포를 따를 때

- 귀무가설: A그룹과 B그룹이 차이가 없다.

- 대립가설: A그룹과 B그룹이 차이가 있다.

In [None]:
t_statistic, p_value = stats.ttest_ind(A, B)

두 그룹의 데이터가 정규분포를 따르지 않을 때

- 귀무가설: A그룹과 B그룹이 차이가 없다.

- 대립가설: A그룹과 B그룹이 차이가 있다.

In [None]:
u_statistic, p_value = stats.meanwhitneyu(A, B)

### *정규성 검정

데이터가 정규분포를 따르는지 확인

- 귀무가설: 데이터가 정규분포를 따른다.

- 대립가설: 데이터가 정규분포를 따르지 않는다.

In [None]:
statistic, p_value = stats.shapiro(data)

### 3) 모집단 3개 이상: ANOVA(분산분석) - F검정(일원분산분석)

- 귀무가설: A, B, C 그룹 간의 평균 차이가 없다.

- 대립가설: A, B, C 그룹 간의 평균 차이가 있다.

In [None]:
t_statistic, p_value = stats.f_oneway(A, B, C)

# 2. 카이제곱 검정

1) 적합성 검정

- 귀무가설: 관찰값이 기대값과 적합하다.
- 대립가설: 관찰값이 기대값과 적합하지 않다.

In [None]:
observed = [observed_values]
expected = [expected_values]
chi2_statistic, p_value = stats.chisquare(observed, expected)

### 2) 독립성 검정

두 변수가 독립인지 검정

- 귀무가설: 두 변수는 연관성이 없다(독립이다).

- 대립가설: 두 변수는 연관성이 있다(독립이 아니다).

In [None]:
contingency_table = [[observed_values_row1], [observed_values_row2]]
chi2_statistic, p_value, dof, expected = stats.chi2_contingency(contingency_table)

### 3) 동질성 검정

두 집단의 분포가 동일한지 검정

- 귀무가설: 두 집단이 동일한 분포를 가진다.
- 대립가설: 두 집단이 동일한 분포를 가지지 않는다.

In [None]:
contingency_table = [[observed_values_group1], [observed_values_group2]]
chi2_statistic, p_value, dof, expected = stats.chi2_contingency(contingency_table)

# 4. 상관분석

### 1) 피어슨 상관계수

- 귀무가설: 두 변수 사이에 상관관계가 없다.

- 대립가설: 두 변수 사이에 상관관계가 있다.

In [None]:
correlation_coefficient, p_value = stats.pearsonr(variable1, variable2)