| 검정 유형        | 사용 조건             | 함수                 | 설명            |
| ------------ | ----------------- | ------------------ | ------------- |
| 카이제곱         | 범주형 X, Y          | `chi2_contingency` | 독립성 여부        |
| 독립 t검정       | 연속형 Y, 범주형(2집단) X | `ttest_ind`        | 두 집단 평균 비교    |
| 대응 t검정       | 연속형 Y, 전후 비교      | `ttest_rel`        | 같은 집단 내 비교    |
| 분산분석 (ANOVA) | 연속형 Y, 3집단 이상 X   | `f_oneway`         | 세 집단 이상 평균 비교 |
| 로지스틱 회귀      | 종속변수: 0/1         | `Logit`            | 변수의 생존 영향 분석  |
| 상관분석         | 연속형 X, Y          | `pearsonr`         | 상관관계 정도 측정    |


주어진 데이터는 고혈압 환자 치료 전후의 혈압이다. 해당 치료가 효과가 있는지 대응(쌍체)표본 t-검정을 진행하시오

- 귀무가설(H0):  μ >= 0
- 대립가설(H1):  μ < 0
- μ = (치료 후 혈압 - 치료 전 혈압)의 평균
- 유의수준: 0.05

1. μ 의 표본평균은?(소수 둘째자리까지 반올림)
2. 검정통계량 값은?(소수 넷째자리까지 반올림)
3. p-값은?(소수 넷째자리까지 반올림)
4. 가설검정의 결과는? (유의수준 5%)

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

df = pd.read_csv("../data/high_blood_pressure.csv")

print(df.head())

df["target"] = df["bp_post"] - df["bp_pre"]

m_hat = df["target"].mean()
print(round(m_hat,2))

# 독립표본 t-검정 수행
t_stat, p_value = stats.ttest_rel(df["bp_post"], df["bp_pre"], alternative="less")

print("t-statistic:", round(t_stat,4))
print("p-value:", round(p_value,4))

     Id     sex  age  bp_pre  bp_post
0  p001    Male   33     149      129
1  p002    Male   39     168      168
2  p003    Male   70     176      155
3  p004  Female   41     169      178
4  p005    Male   48     160      126
-6.12
t-statistic: -3.0002
p-value: 0.0016


24년 3유형 강의

https://www.youtube.com/watch?v=-mYXKWBmwZM&list=PLWtr7MRpQi5Dt41ZE0mT_wFIWUsTT1E7O&index=12

Gender와 Survived 변수 간의 독립성 검정을 실시하였을 때, 카이제곱 통계량은? (반올림, 셋째자리)

Gender, SibSp, Parch, Fare를 독립변수로 사용하여 로지스틱 회귀모형을 실시하였을 때, Parch변수의 계수값은? (반올림 셋째자리)

위 2번 문제에서 추정된 로지스틱 회귀모형에서 SipSp 변수가 한 단위 증가할 때 생존할 오즈비 값은? (반올림 셋째자리)

In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv("../data/Titanic_train.csv")

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


In [3]:
from scipy.stats import chi2_contingency
from statsmodels.api import Logit

table = pd.crosstab(df['Sex'], df['Survived'])

# 2. 카이제곱 독립성 검정
chi2, p, dof, expected = chi2_contingency(table)
print(round(chi2, 3))

formula = "Survived ~ Pclass + Sex + SibSp + Parch"
result = Logit.from_formula(formula, df).fit()
# print(result.summary())

odds_ratio = np.exp(result.params['SibSp'])
print(round(odds_ratio, 3))

260.717
Optimization terminated successfully.
         Current function value: 0.459658
         Iterations 6
0.791


### 어떤 특정 약물을 복용한 사람들의 평균 체온이 복용하지 않은 사람들의 평균 체온과 유의미하게 다른지 검정해보려고 합니다.

가정:

- 약물을 복용한 그룹과 복용하지 않은 그룹의 체온 데이터가 각각 주어져 있다고 가정합니다.
- 각 그룹의 체온은 정규분포를 따른다고 가정합니다.

검정통계량, p-value, 검정결과를 출력하시오

In [4]:
from scipy import stats

group1 = [36.8, 36.7, 37.1, 36.9, 37.2, 36.8, 36.9, 37.1, 36.7, 37.1]
group2 = [36.5, 36.6, 36.3, 36.6, 36.9, 36.7, 36.7, 36.8, 36.5, 36.7]

t, p = stats.ttest_ind(group1, group2)
print(t, p)

3.7964208654863336 0.0013218914767036912


### 문제: 다음은 22명의 학생들이 국어시험에서 받은 점수이다. 학생들의 평균이 75보다 크다고 할 수 있는가?

- 귀무가설(H0): 모평균은 mu와 같다. (μ = mu), 학생들의 평균은 75이다
- 대립가설(H1): 모평균은 mu보다 크다. (μ > mu), 학생들의 평균은 75보다 크다

가정:

- 모집단은 정규분포를 따른다.
- 표본의 크기가 충분히 크다.

검정통계량, p-value, 검정결과를 출력하시오

In [5]:
scores = [75, 80, 68, 72, 77, 82, 81, 79, 70, 74, 76, 78, 81, 73, 81, 78, 75, 72, 74, 79, 78, 79]

mu = 75  # 검정할 모평균

t, p = stats.ttest_1samp(scores, mu, alternative="greater")

print(t, p)

1.765879233231226 0.04597614747709146
