<a href="https://colab.research.google.com/github/noeyhey/HUFS_StatisticalModeling/blob/main/StatisticalModeling_0312_assign.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **통계모델링 2주차**
### 250312
### 통계검정

#### 독립 표본 t-test

두 개의 독립된 그룹의 점수 비교 (ex: 남학생 vs 여학생 성적)

In [None]:
import numpy as np
from scipy.stats import ttest_ind

np.random.seed(42)
group1 = np.random.normal(loc=75, scale=10, size=30)
group2 = np.random.normal(loc=80, scale=10, size=30)

# 독립 표본 t-검정 수행
stat, p = ttest_ind(group1, group2)
print(f"t-통계량: {stat:.3f}")
print(f"p-value: {p:.3f}")

t-통계량: -2.398
p-value: 0.020


결과 해석

In [None]:
if p > 0.05:
    print("두 그룹 간 평균 차이가 없음 (p > 0.05, 귀무가설 유지)")
else:
    print("두 그룹 간 평균 차이가 있음 (p < 0.05, 귀무가설 기각)")

두 그룹 간 평균 차이가 있음 (p < 0.05, 귀무가설 기각)


#### 대응 표본 t-test

같은 그룹의 전후 점수 비교 (ex: 다이어트 전후 체중)

In [None]:
import numpy as np
from scipy.stats import ttest_rel

np.random.seed(42)
before = np.random.normal(loc=75, scale=5, size=30)
after = before - np.random.normal(loc=2, scale=1, size=30)

# 대응 표본 t-검정 수행
stat, p = ttest_rel(before, after)
print(f"t-통계량: {stat:.3f}")
print(f"p-value: {p:.3f}")

t-통계량: 11.052
p-value: 0.000


결과 해석

In [None]:
if p > 0.05:
    print("실험 전후 평균 차이가 없음 (p > 0.05, 귀무가설 유지)")
else:
    print("실험 전후 평균 차이가 있음 (p < 0.05, 귀무가설 기각)")

실험 전후 평균 차이가 있음 (p < 0.05, 귀무가설 기각)


#### 분산 분석 f-test

세 개의 브랜드(A, B, C)의 고객 만족도 비교 (1~10점)

In [None]:
import numpy as np
from scipy.stats import f_oneway

np.random.seed(42)
# 세 개 그룹의 데이터 (30명씩)
brand_A = np.random.normal(loc=7, scale=1.5, size=30)
brand_B = np.random.normal(loc=6, scale=1.5, size=30)
brand_C = np.random.normal(loc=5, scale=1.5, size=30)

# One-Way ANOVA
stat, p = f_oneway(brand_A, brand_B, brand_C)

# 결과 출력
print(f"F-통계량: {stat:.3f}")
print(f"p-value: {p:.3f}")

F-통계량: 10.854
p-value: 0.000


결과 해석

In [None]:
if p > 0.05:
    print("세 그룹 간 평균 차이가 없음 (p > 0.05, 귀무가설 유지)")
else:
    print("세 그룹 간 평균 차이가 있음 (p < 0.05, 귀무가설 기각)")

세 그룹 간 평균 차이가 있음 (p < 0.05, 귀무가설 기각)


#### 카이제곱검정

성별(남/여)과 구매 여부(구매/비구매) 간의 관계 분석

2x2 교차표 (contingency table) /
행: 성별(남/여) /
열: 구매 여부(구매/비구매)

In [None]:
import numpy as np
import scipy.stats as stats

data = np.array([[50, 30], # 남 (구매, 비구매)
                 [20, 40]]) # 여 (구매, 비구매)

# 카이제곱 검정 실행
chi2, p, dof, expected = stats.chi2_contingency(data)

# 결과 출력
print(f"카이제곱 통계량: {chi2:.3f}")
print(f"p-value: {p:.3f}")
print(f"자유도 (degrees of freedom): {dof}")
print(f"기대값 (expected frequencies):\n{expected}")

카이제곱 통계량: 10.529
p-value: 0.001
자유도 (degrees of freedom): 1
기대값 (expected frequencies):
[[40. 40.]
 [30. 30.]]


결과 해석

In [None]:
if p > 0.05:
    print("성별과 구매 여부는 독립적임 (p > 0.05, 귀무가설 유지)")
else:
    print("성별과 구매 여부는 관련이 있음 (p < 0.05, 귀무가설 기각)")

성별과 구매 여부는 관련이 있음 (p < 0.05, 귀무가설 기각)


#### 정규성 검정

In [None]:
import numpy as np
from scipy import stats

# 예제 데이터 (정규 분포 데이터)
data = np.random.normal(loc=50, scale=10, size=100)

# 샤피로-윌크 검정
stat, p = stats.shapiro(data)
print(f"샤피로-윌크 검정 결과: W={stat:.3f}, p-value={p:.3f}")

# 정규성 판별
if p > 0.05:
    print("데이터가 정규성을 만족함 (p > 0.05)")
else:
    print("데이터가 정규성을 따르지 않음 (p < 0.05)")

샤피로-윌크 검정 결과: W=0.981, p-value=0.150
데이터가 정규성을 만족함 (p > 0.05)


#### 등분산 검정

In [None]:
import numpy as np
from scipy import stats

# 두 그룹의 데이터 생성
group1 = np.random.normal(50, 10, 100)
group2 = np.random.normal(55, 15, 100)

# Levene’s Test
stat, p = stats.levene(group1, group2)
print(f"Levene’s 등분산 검정 결과: W={stat:.3f}, p-value={p:.3f}")

# 등분산 판별
if p > 0.05:
    print("두 그룹의 분산이 동일함 (p > 0.05)")
else:
    print("두 그룹의 분산이 다름 (p < 0.05)")

Levene’s 등분산 검정 결과: W=1.931, p-value=0.166
두 그룹의 분산이 동일함 (p > 0.05)


## **2주차 과제**

### A, B, C 세 개의 브랜드에 대한 고객 만족도를 분석하여, 브랜드 간 평균 만족도 차이가 유의미한지 검정

#### 데이터 생성

#### 정규성 검정

#### 등분산 검정

#### 적절한 검정법 선택

#### 정규성 만족하면 ANOVA 수행, 아니라면 Kruskal-Wallis Test 수행

#### 결과 해석