| 검정 종류              | 직접 출제 비중 | 출제 방식                       |
| ------------------ | -------- | --------------------------- |
| **단일표본 t‑검정**      | 매우 드묾    | **명시적 출제 거의 없음**            |
| **독립/대응표본 t**      | 자주 나옴    | 예: 두 집단 전후 비교 등             |
| **카이제곱 독립성**       | 매우 자주 나옴 | 범주형 변수 간 연관성 판단             |
| **신뢰구간 계산**        | 종종 나옴    | `stats.t.interval()` 형태로 출제 |
| **statsmodels 회귀** | 자주 나옴    | 계수 유의성, p-value 등 분석        |


# 단일 표본 t 검정 (단측) 
## 문제: 다음은 22명의 학생들이 국어시험에서 받은 점수이다. 학생들의 평균이 75보다 크다고 할 수 있는가?
- 귀무가설(H0): 모평균은 mu와 같다. (μ = mu), 학생들의 평균은 75이다
- 대립가설(H1): 모평균은 mu보다 크다. (μ > mu), 학생들의 평균은 75보다 크다

가정:
- 모집단은 정규분포를 따른다.
- 표본의 크기가 충분히 크다.

**검정통계량, p-value, 검정결과를 출력하시오**


In [3]:
from scipy.stats import ttest_1samp

# 단일 표본 t 검정
# "75보다 크다" → 단측 검정 (우측)
# 방법: scipy.stats.ttest_1samp() 사용 후, 단측 p-value로 변환 필요

In [5]:
# 데이터
scores = [75, 80, 68, 72, 77, 82, 81, 79, 70, 74, 76, 78, 81, 73, 81, 78, 75, 72, 74, 79, 78, 79]

In [7]:
# 모평균 가설검정
mu=75 # 검정할 모평균
alpha=0.05 # 유의수준

In [9]:
# t-test 를 사용하여 가설 검정
t_stat,p_val=ttest_1samp(scores,mu,alternative='greater')

In [11]:
print('t_stat : ',t_stat)
print('p-value : ',p_val)

t_stat :  1.765879233231226
p-value :  0.04597614747709146


In [13]:
if p_val < alpha:
    print("귀무가설을 기각합니다. 모평균은 75보다 큽니다.")
else:
    print("귀무가설을 채택합니다. 모평균은 75보다 크지 않습니다.")

귀무가설을 기각합니다. 모평균은 75보다 큽니다.


In [31]:
# 검정통계량 
# t 통계량은 **“표본평균과 모평균이 얼마나 떨어져 있는지를 표준오차 단위로 나타낸 값”**입니다.

In [17]:
# help(ttest_1samp)

In [23]:
# import scipy.stats
# dir(scipy.stats)

- 기본 형태
t_stat, p_val = ttest_1samp(data, popmean, alternative='two-sided')

data: 샘플 데이터 (리스트 또는 배열)

popmean: 비교할 모평균 (예: 75)

alternative: 대립가설의 방향 설정

    'two-sided' (기본값): μ ≠ popmean

    'greater': μ > popmean

    'less': μ < popmean

| 유형       | 비교 대상              | 사용 조건 (주요 예시)            |
| -------- | ------------------ | ------------------------ |
| **단일표본** | 표본 평균 vs **모평균**   | “이 표본 평균이 μ = 75 보다 크다?” |
| **독립표본** | **두 개의 독립된 집단** 평균 | “복용군 vs 비복용군의 평균 체온 차이?” |
| **대응표본** | **같은 집단의 전/후** 평균  | “치료 전후 체중 변화가 유의한가?”     |


# 독립표본 t 검정


## 문제 : 어떤 특정 약물을 복용한 사람들의 평균 체온이 복용하지 않은 사람들의 평균 체온과 유의미하게 다른지 검정해보려고 합니다.

가정:

    약물을 복용한 그룹과 복용하지 않은 그룹의 체온 데이터가 각각 주어져 있다고 가정합니다.
    각 그룹의 체온은 정규분포를 따른다고 가정합니다.

검정통계량, p-value, 검정결과를 출력하시오¶


In [34]:
from scipy import stats

# 가설 설정
# H0 : 약물을 복용한 그룹과 복용하지 않은 그룹의 평균 체온은 유의미한 차이가 없다.
# H1 : 약물을 복용한 그룹과 복용하지 않은 그룹의 평균 체온은 유의미한 차이가 있다. 

In [36]:
# 데이터 수집
group1 = [36.8, 36.7, 37.1, 36.9, 37.2, 36.8, 36.9, 37.1, 36.7, 37.1]
group2 = [36.5, 36.6, 36.3, 36.6, 36.9, 36.7, 36.7, 36.8, 36.5, 36.7]

In [54]:
# 가설검정
t_stat,p_val=stats.ttest_ind(group1,group2)  # 실전에서는 등분산 가정을 안하고 equal_var=false 로 두고 welch t-test 를 씀

print("검정통계량:", t_stat)
print("p-value:", p_val)

검정통계량: 3.7964208654863336
p-value: 0.001321891476703691


p-val < 0.05 이므로 귀무가설 기각, 대립가설 채택. 유의미한차이가 있다. 

In [45]:
scipy.stats.levene(group1,group2)

LeveneResult(statistic=0.19889502762431177, pvalue=0.6609323607193374)

pvalue=0.6609323607193374)
귀무가설 채택, 등분산은 같다

| 상황            | 사용 함수                             | 설명                              |
| ------------- | --------------------------------- | ------------------------------- |
| **등분산 가정됨**   | `ttest_ind(..., equal_var=True)`  | **고전적 독립표본 t-검정**               |
| **등분산 가정 안됨** | `ttest_ind(..., equal_var=False)` | **Welch’s t-검정**, **현실에서 더 안전** |


In [48]:
# help(stats.ttest_ind)

# 대응 표본 t 검정

## 문제 : 주어진 데이터는 고혈압 환자 치료 전후의 혈압이다. 해당 치료가 효과가 있는지 대응(쌍체)표본 t-검정을 진행하시오

- 귀무가설(H0): $\mu$ >= 0
- 대립가설(H1): $\mu$ < 0
- $\mu$ = (치료 후 혈압 - 치료 전 혈압)의 평균
- 유의수준: 0.05

1. $\mu$의 표본평균은?(소수 둘째자리까지 반올림)
2. 검정통계량 값은?(소수 넷째자리까지 반올림)
3. p-값은?(소수 넷째자리까지 반올림)
4. 가설검정의 결과는? (유의수준 5%)

In [59]:
import pandas as pd
df=pd.read_csv('data/high_blood_pressure.csv')

In [64]:
# dir(scipy.stats)

In [66]:
from scipy.stats import ttest_rel

In [70]:
# help(ttest_rel)  # a, b : array_like  alternative : {'two-sided', 'less', 'greater'}, optional

In [72]:
df.head()

Unnamed: 0,Id,sex,age,bp_pre,bp_post
0,p001,Male,33,149,129
1,p002,Male,39,168,168
2,p003,Male,70,176,155
3,p004,Female,41,169,178
4,p005,Male,48,160,126


In [77]:
bp_post=df['bp_post']
bp_pre=df['bp_pre']

In [84]:
mu= round((bp_post - bp_pre).mean(),2)
mu

-6.12

In [88]:
t_stats, p_val= stats.ttest_rel(bp_post,bp_pre,alternative = 'less')

# 검정통계량 값은?(소수 넷째자리까지 반올림) #p-값은?(소수 넷째자리까지 반올림)
print(round(t_stats,4)), print(round(p_val,4))



-3.0002
0.0016


(None, None)

유의도 0.05보다 작으므로 귀무가설기각, 유의미하게 혈압 강하 효과가 있다.

# 일원분산분석 (ANOVA)

## 문제 : 세 가지 다른 교육 방법(A, B, C)을 사용하여 수험생들의 시험 성적을 개선시키는 효과를 평가하고자 한다. 

30명의 학생들을 무작위로 세 그룹으로 배정하여 교육을 실시하였고, 시험을 보고 성적을 측정하였습니다. 다음은 각 그룹의 학생들의 성적 데이터입니다.

    귀무가설(H0): 세 그룹(A, B, C) 간의 평균 성적 차이가 없다.
    대립가설(H1 또는 Ha): 세 그룹(A, B, C) 간의 평균 성적 차이가 있다.



**일원분산분석(One-Way ANOVA)**는 말 그대로 **“3개 이상의 집단 평균을 비교하는 확장된 t-검정”**

In [115]:
# 각 그룹의 데이터
groupA = [85, 92, 78, 88, 83, 90, 76, 84, 92, 87]
groupB = [79, 69, 84, 78, 79, 83, 79, 81, 86, 88]
groupC = [75, 68, 74, 65, 77, 72, 70, 73, 78, 75]

-다음 주어진 데이터로 일원배치법을 수행하여 그룹 간의 평균 성적 차이가 있는지 검정하세요

    - f값 (소수 둘째자리)
    - p값 (소수 여섯째자리)
    - 검정결과 출력


In [107]:
# dir(scipy.stats)

In [109]:
from scipy.stats import f_oneway

In [113]:
# help(f_oneway)

In [117]:
stats,p_val= f_oneway(groupA,groupB,groupC)

In [121]:
round(stats,2)

16.88

In [123]:
round(p_val,6)

1.8e-05

In [125]:
import pandas as pd

groupA = [85, 92, 78, 88, 83, 90, 76, 84, 92, 87]
groupB = [79, 69, 84, 78, 79, 83, 79, 81, 86, 88]
groupC = [75, 68, 74, 65, 77, 72, 70, 73, 78, 75]

data = {'GroupA': groupA, 'GroupB': groupB, 'GroupC': groupC}

In [127]:
df_wide = pd.DataFrame(data)

In [129]:
df_wide

Unnamed: 0,GroupA,GroupB,GroupC
0,85,79,75
1,92,69,68
2,78,84,74
3,88,78,65
4,83,79,77
5,90,83,72
6,76,79,70
7,84,81,73
8,92,86,78
9,87,88,75


In [131]:
df_long = df_wide.melt(value_vars=['GroupA', 'GroupB', 'GroupC'], var_name='Group', value_name='Score')

In [133]:
df_long

Unnamed: 0,Group,Score
0,GroupA,85
1,GroupA,92
2,GroupA,78
3,GroupA,88
4,GroupA,83
5,GroupA,90
6,GroupA,76
7,GroupA,84
8,GroupA,92
9,GroupA,87


In [137]:
# help(df.melt)

In [139]:
df_pivot = df_long.reset_index().pivot(index='index', columns='Group', values='Score')

In [141]:
df_pivot

Group,GroupA,GroupB,GroupC
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,85.0,,
1,92.0,,
2,78.0,,
3,88.0,,
4,83.0,,
5,90.0,,
6,76.0,,
7,84.0,,
8,92.0,,
9,87.0,,


# 정규성 검정 (Shapiro-Wilk)

## 문제 : 12명의 수험생이 빅데이터 분석기사 시험에서 받은 점수이다. Shapiro-Wilk 검정을 사용하여 데이터가 정규 분포를 따르는지 검증하시오

    귀무 가설(H0): 데이터는 정규 분포를 따른다.
    대립 가설(H1): 데이터는 정규 분포를 따르지 않는다.

Shapiro-Wilk 검정 통계량, p-value, 검증결과를 출력하시오


In [152]:
# dir(scipy.stats)
from scipy.stats import shapiro
# help(shapiro)


In [154]:
data = [75, 83, 81, 92, 68, 77, 78, 80, 85, 95, 79, 89]

In [156]:
statistic, p_val = shapiro(data)
statistic, p_val

(0.9768091723993144, 0.9676506711851194)

In [158]:
# 귀무가설 기각 실패. 정규 분포를 따른다. 

# 회귀모형 (상관계수)

## 문제 : iris 데이터에서 Sepal Length와 Sepal Width의 상관계수 계산하고 소수 둘째자리까지 출력하시오

In [162]:


import pandas as pd
from sklearn.datasets import load_iris

# iris 데이터셋 로드
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)

In [164]:
cor=df.corr()

In [166]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [168]:
cor.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
sepal length (cm),1.0,-0.11757,0.871754,0.817941
sepal width (cm),-0.11757,1.0,-0.42844,-0.366126
petal length (cm),0.871754,-0.42844,1.0,0.962865
petal width (cm),0.817941,-0.366126,0.962865,1.0


In [170]:
round(cor.iloc[0,1],2)

-0.12

# 로지스틱 회귀

## 문제 : 타이타닉 데이터에서 
Pclass, Gender, sibsp, parch를 독립변수로 사용하여 로지스틱 회귀모형을 실시하였을 때, parch변수의 계수값은? 단, Pclass는 범주형 변수이다

(반올림하여 소수 셋째 자리까지 계산)


In [174]:
df= pd.read_csv('data/Titanic.csv')

In [176]:
from statsmodels.formula.api import logit

In [182]:
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [184]:
formula="Survived ~ C(Pclass) +Gender +SibSp +Parch"

In [188]:
# help(logit)

# from_formula(formula, data, subset=None, drop_cols=None, *args, **kwargs) class method of statsmodels.discrete.discrete_model.Logit
#     Create a Model from a formula and dataframe.

#     Parameters
#     ----------
#     formula : str or generic Formula object
#         The formula specifying the model.
#     data : array_like
#         The data for the model. See Notes.

In [190]:
model= logit(formula, data=df).fit()
model.params

Optimization terminated successfully.
         Current function value: 0.459565
         Iterations 6


Intercept         2.491729
C(Pclass)[T.2]   -0.848152
C(Pclass)[T.3]   -1.866905
Gender[T.male]   -2.760281
SibSp            -0.232553
Parch            -0.049847
dtype: float64

In [204]:
import numpy as np
parameter=model.params
parch=parameter['Parch']
print(np.exp(parch))

0.9513747279566538


In [210]:
# Parch가 1 증가할 때, 생존할 **오즈(odds)**는 약 0.95배로 감소합니다.
# 즉, Parch가 많을수록 생존 확률이 약간 낮아지는 경향이 있음 (다른 변수들이 동일할 때)
# 생존확률 p = odds / (1+odds)

✔ 로지스틱 회귀 해석 핵심

    **계수(β)**는 log-odds에 대한 영향력

    exp⁡(β)exp(β) → 오즈비(Odds Ratio) 해석 가능

    예: parch 계수가 0.2면, parch가 1 증가할 때 생존할 log-odds가 0.2 증가

Pclass는 범주형이므로 → C(Pclass) 처리

Gender는 문자열이므로 → df['Gender'].map({'male':0, 'female':1}) 등 변환

logit()으로 적합

params['parch']의 값을 소수 셋째 자리까지 반올림

| 항목     | 설명                                                    |
| ------ | ----------------------------------------------------- |
| 종속변수   | `Survived` (0/1 이진값)                                  |
| 독립변수   | `Pclass` (범주형), `Gender` (이진으로 인코딩), `sibsp`, `parch` |
| 회귀모형   | **로지스틱 회귀** (`Logit` 함수 사용)                           |
| 회귀계수   | **로그 오즈비** (log-odds)                                 |
| 영향력 해석 | $\exp(\beta)$ → **오즈비(Odds Ratio)** 로 해석 가능           |


| 요소       | 설명                              |
| -------- | ------------------------------- |
| `~`      | **왼쪽은 종속변수(Y), 오른쪽은 독립변수(X들)**  |
| `+`      | **설명변수 간 단순 추가(선형결합)**          |
| `C(변수명)` | **범주형(categorical) 변수임을 명시**    |
| 숫자형 변수   | 그냥 이름만 쓰면 됨 (예: `Age`, `Parch`) |
| 자동 더미화   | `C()`를 쓰면 **자동으로 원-핫 인코딩 처리됨**  |


statsmodels.formula.api는 통계모델을 R 스타일의 formula 문자열로 표현할 수 있게 해주는 매우 실용적인 인터페이스입니다.

| 함수명         | 설명                                 | 예시                              |
| ----------- | ---------------------------------- | ------------------------------- |
| `ols()`     | **선형 회귀(Ordinary Least Squares)**  | `"Y ~ X1 + X2"`                 |
| `logit()`   | **로지스틱 회귀 (이항 분류)**                | `"Y ~ X1 + C(X2)"`              |
| `glm()`     | **일반화 선형모형 (Poisson, Binomial 등)** | `"Y ~ X1"` + `family=Poisson()` |
| `mnlogit()` | **다항 로지스틱 회귀 (3개 이상 클래스)**         | `"Y ~ X1 + X2"`                 |
| `mixedlm()` | **혼합효과모형 (랜덤효과 포함)**               | `"Y ~ X1"`                      |
| `rlm()`     | **강건 회귀 (이상치에 강한)**                | `"Y ~ X1"`                      |
| `gee()`     | **일반화 추정 방정식 (반복측정)**              | `"Y ~ X1"`                      |


- ols() — 선형 회귀

```python
from statsmodels.formula.api import ols
model = ols("score ~ age + hours+ C(Sex)", data=df).fit()
```
- logit() — 로지스틱 회귀
```python
from statsmodels.formula.api import logit
model = logit("Survived ~ C(Sex) + Age", data=df).fit()
```