## Chapter 6. t검정_통계적 가설검정 

### t검정

In [1]:
# 필요한 패키지, 모듈 불러오기
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 시각화 모듈 불러오기
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

In [2]:
%precision 3

'%.3f'

In [3]:
# # 소수점 3자리 설정
pd.options.display.float_format = '{:.3f}'.format
# %matplotlib inline

In [8]:
import numpy as np
import pandas as pd

# 데이터 생성
mean = 1.62
std_dev = 0.2
sample_size = 100

data = np.random.normal(mean, std_dev, sample_size)

# 데이터프레임 생성
df = pd.DataFrame(data, columns=['Value'])

# 데이터프레임 출력
print("데이터프레임:")
print(df)


데이터프레임:
    Value
0   1.634
1   1.602
2   1.680
3   1.634
4   1.585
..    ...
95  1.603
96  1.721
97  1.860
98  1.806
99  1.875

[100 rows x 1 columns]


In [11]:
import numpy as np
from scipy import stats

# 데이터 생성
mean = 1.62
std_dev = 0.1
sample_size = 100

data = np.random.normal(mean, std_dev, sample_size)

# 표본 t-검정
null_mean = 1.62
t_statistic, p_value = stats.ttest_1samp(data, null_mean)

print("평균이 1.6과의 t-검정 결과:")
print(f"t-statistic: {t_statistic}")
print(f"p-value: {p_value}")


평균이 1.6과의 t-검정 결과:
t-statistic: 0.0987523775090453
p-value: 0.9215345588842019


In [31]:
data

array([1.476, 1.709, 1.642, 1.59 , 1.497, 1.502, 1.529, 1.659, 1.692,
       1.61 , 1.525, 1.64 , 1.715, 1.618, 1.473, 1.7  , 1.574, 1.61 ,
       1.622, 1.68 , 1.691, 1.633, 1.654, 1.627, 1.763, 1.513, 1.69 ,
       1.734, 1.476, 1.602, 1.611, 1.5  , 1.551, 1.658, 1.648, 1.635,
       1.667, 1.659, 1.781, 1.558, 1.614, 1.858, 1.571, 1.588, 1.498,
       1.433, 1.669, 1.472, 1.668, 1.635, 1.449, 1.346, 1.534, 1.396,
       1.862, 1.581, 1.455, 1.621, 1.597, 1.634, 1.69 , 1.673, 1.572,
       1.493, 1.653, 1.716, 1.688, 1.57 , 1.732, 1.578, 1.568, 1.644,
       1.586, 1.482, 1.679, 1.488, 1.55 , 1.763, 1.511, 1.717, 1.644,
       1.824, 1.507, 1.637, 1.649, 1.869, 1.748, 1.842, 1.596, 1.754,
       1.534, 1.878, 1.64 , 1.594, 1.75 , 1.581, 1.615, 1.568, 1.538,
       1.784])

In [32]:
np.mean(data)

1.6210533317547153

In [12]:
# 데이터 불러오기
junk_food = pd.read_csv("3-8-1-junk-food-weight.csv")
junk_food.head()

Unnamed: 0,weight
0,58.53
1,52.353
2,74.446
3,52.983
4,55.877


In [13]:
junk_food.shape

(20, 1)

In [14]:
# 데이터 불러오기 #시리즈 형태로 불러오기 [""]
junk_food = pd.read_csv("3-8-1-junk-food-weight.csv")["weight"]
junk_food.head()

0   58.530
1   52.353
2   74.446
3   52.983
4   55.877
Name: weight, dtype: float64

### t검정 구현

In [15]:
# 표본평균 계산
mu = np.mean(junk_food)
mu

55.38496619666667

In [16]:
# np.set_printoptions(precision=3, suppress=False) # 소수점 3자리까지 표현 # 지수표현식(과학적표기법) 없애기
# numpy는 변수나 상수는 set_printoptions(precision=n)이 적용되지 않는다. 사용을 한다면 리스트로 변경을 해줘야 한다.

In [17]:
# 자유도
df = len(junk_food) - 1
df

19

In [18]:
# 표준오차 구하기

# 표준편차
sigma = np.std(junk_food, ddof = 1)
# 표준오차
se = sigma / np.sqrt(len(junk_food))

se

1.9579276805755885

In [19]:
# t값
t_value = (mu - 50) / se
t_value

2.7503396831713434

### t검정 : p값 계산

In [20]:
# p값
alpha = stats.t.cdf(t_value, df = df)
(1 - alpha) * 2

0.012725590012524268

In [21]:
# t검정
T_RESULT = stats.ttest_1samp(junk_food, 50)
np.array(T_RESULT)

array([2.75 , 0.013])

### 위에서 계산한 p 값을 실제 샘플링을 여러번 반복하면서 증명

In [22]:
# 샘플사이즈와 표준편차
size = len(junk_food)
sigma = np.std(junk_food, ddof = 1)

In [23]:
# 반복을 위한 빈 공간 어레이 지정
t_value_array = np.zeros(50000)

In [25]:
# 모평균이 50이고 표준편차가 20개 표본일때와 같게 정규분포를 만들어줍니다.
np.random.seed(1)
norm_dist = stats.norm(loc = 50, scale = sigma)

# 정규분포에서 샘플링을 20개씩 해서 5만번 반복해서 평균, 표준편차, 표준오차를 계산하주고 이것으로 t값을 5만번 반복합니다.
for i in range(0, 50000):
    sample = norm_dist.rvs(size = size)
    sample_mean = np.mean(sample)
    sample_std = np.std(sample, ddof = 1)
    sample_se = sample_std / np.sqrt(size)
    t_value_array[i] = (sample_mean - 50) / sample_se

In [26]:
# 5만번 중에 모집단의 t값보다 더 큰 t값을 갖는 경우의 수 비율을 구합니다. 100번 중에 1.324회 정도?
(sum(t_value_array > t_value) / 50000) * 2

0.01324