## t-검정

### 1. 정규성 검정하기

#### 1) 샤피로 윌크 검정

In [2]:
from scipy import stats
import FinanceDataReader as fdr #금융데이터 라이브러리

df = fdr.DataReader("005930","2019-01-01","2023-12-31")
sm = df["Change"]

stats.shapiro(sm)

ShapiroResult(statistic=0.9723096489906311, pvalue=1.2739533921865814e-14)

#### 2) 콜모고로프 스미르토프 검정(K-S 검정)

In [7]:
from scipy.stats import norm
from scipy.stats import kstest
import FinanceDataReader as fdr #금융데이터 라이브러리

df = fdr.DataReader("005930","2010-01-01","2023-12-31")
sm = df["Change"]

kstest(sm,'norm')

KstestResult(statistic=0.4776485019150022, pvalue=0.0, statistic_location=-0.046606704824202816, statistic_sign=-1)

## 2. 일 표본 t-검정

- 단일 모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교 하고자 할 때 사용 모집단의 구성요소들이 정규분포를 이룬다는 가정하에서 검정하게 된다.
- 귀무가설 (Null Hypothesis, H₀): 삼성전자의 일 평균수익률은 0.02%이다.
- 대립가설 (Alternative Hypothesis, H₁): 삼성전자의 일 평균수익률은 0.02%이 아니다.

In [9]:
from scipy.stats import ttest_1samp
import FinanceDataReader as fdr

df = fdr.DataReader("005930","2023-01-01","2023-12-31")
sm = df["Change"]*100

# 일표본 t-검정 수행 (일일 기대값 수익률 0.02%(5/250) 와 비교)
ttest_1samp(sm, 0.02)

TtestResult(statistic=1.5563945247345723, pvalue=0.1209103840649917, df=244)

## 3. 대응 표본 t-검정
- 단일 모집단에 대해 두 번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하는 방법
- 모집단의 관측 값이 정규성을 만족해야 하며 일반적으로 표본의 크기가 충분히 클 때 중심극한 정리에 따라 정규성을 만족한다고 본다.
- 귀무가설 (Null Hypothesis, H₀): 삼성전자의 2023년 일일 수익률의 평균과 2022년의 일일 수익률의 평균에는 차이가 없다.
- 대립가설 (Alternative Hypothesis, H₁): 삼성전자의 2023년 일일 수익률의 평균과 2022년의 일일 수익률의 평균에는 차이가 있다.

In [10]:
from scipy.stats import ttest_rel
import FinanceDataReader as fdr

# 삼성전자 주가데이터 불러오기
df_2023 = fdr.DataReader("005930","2023-01-01","2023-12-31")
df_2022 = fdr.DataReader("005930","2022-01-01","2022-12-31")

# 2023과 2022년의 삼성전자 수익률
# 예시를 위한 데이터 개수 245개로 일치
sm_2023 = df_2023["Change"][:245]
sm_2022 = df_2022["Change"][:245]

# 대응표본 t-검정 수행
print(ttest_rel(sm_2023, sm_2022))

# 결과
# TtestResult(statistic=2.1751138543428463, pvalue=0.03058226127710367, df=244)

TtestResult(statistic=2.1751138543428463, pvalue=0.03058226127710367, df=244)


## 4. 독립 표본 t-검정
- 두 개의 독립된 모집단의 평균을 비교하고자 할 때 사용하는 검정 방법
- 두 모집단은 정규성과 등 분산성을 만족하여야 하며 서로 독립적이어야 한다.
- 귀무가설 (Null Hypothesis, H₀): 삼성전자의 2023년의 일 평균수익률과 SK하이닉스의 2023년 일 평균수익률에는 차이가 없다.
- 대립가설 (Alternative Hypothesis, H₁): 삼성전자의 2023년의 일 평균수익률과 SK하이닉스의 2023년 일 평균수익률에는 차이가 있다

In [11]:
from scipy.stats import ttest_ind, levene
import FinanceDataReader as fdr

# 삼성전자와 sk하이닉스 주가데이터 불러오기
df_sm = fdr.DataReader("005930","2023-01-01","2023-12-31")
df_sk = fdr.DataReader("000660","2023-01-01","2023-12-31")

# 삼성전자와 하이닉스의 수익률
sm = df_sm["Change"]
sk = df_sk["Change"]

# 대응표본 t-검정 수행
print(ttest_ind(sm, sk, equal_var=False))

TtestResult(statistic=-0.8002502991735784, pvalue=0.42404100676353373, df=399.83090072713117)
