#### 표본의 평균 검정

In [40]:
import numpy as np
import scipy.stats as ss

In [41]:
data = np.array([20, 25, 28, 30, 26, 27, 29, 32, 31, 20])

population_mean = 28
population_variance = 4

alpha = 0.05

alternative = "two.sided"

sample_mean = np.mean(data)

n = len(data)

test_statistic = (sample_mean - population_mean) / (np.sqrt(population_variance) / np.sqrt(n))

critical_value = ss.norm.ppf(1 - alpha / 2)

p_value = 2 * (1 - ss.norm.cdf(abs(test_statistic)))

print(f"표본평균: {sample_mean}")
print(f"검정통계량: {test_statistic}")
print(f"임계값: {critical_value}")
print(f"p-값: {p_value}")

if abs(test_statistic) > critical_value:
    print("귀무가설을 기각합니다. 표본평균이 모집단 평균과 다릅니다.")


표본평균: 26.8
검정통계량: -1.8973665961010264
임계값: 1.959963984540054
p-값: 0.05777957112359733


In [42]:
import numpy as np
import scipy.stats as ss

In [43]:
data = np.array([18, 20, 20, 20, 26, 27, 29, 32, 28, 18])

alpha = 0.05

alternative = 'two-sided'

t_statistic, p_value = ss.ttest_1samp(data, popmean=28, alternative=alternative)

confidence_interval = ss.t.interval(1-alpha, len(data)-1, loc=np.mean(data), scale=ss.sem(data))

print(f"t-통계랑: {t_statistic}")
print(f"p-값: {p_value}")
print(f"95% 신뢰구간: {confidence_interval}")

if p_value < alpha:
    print("귀무가설을 기각합니다. 표본평균이 모집단 평균과 다릅니다.")
else:
    print("귀무가설을 기각하지 못합니다. 표본평균이 모집단 평균과 차이가 없을 가능성이 있습니다.")

t-통계랑: -2.5849213105659867
p-값: 0.0294578538228953
95% 신뢰구간: (20.124429666330197, 27.475570333669804)
귀무가설을 기각합니다. 표본평균이 모집단 평균과 다릅니다.


#### 두 독립표본의 평균차이 검정

In [44]:
import scipy.stats as ss
import numpy as np

In [45]:
sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

t_statistic, p_value = ss.ttest_ind(sample1, sample2)

mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

alpha = 0.05
print(f"t-검정통계랑: {t_statistic}")
print(f"Sample 1 평균: {mean_sample1}")
print(f"Sample 2 평균: {mean_sample2}")
print(f"p-값 (two-tailed): {p_value}")

if p_value < alpha:
    print("두 그룹의 평균은 유의미하게 다릅니다.")
else:
    print("두 그룹의 평균은 유의미하게 다르지 않습니다.")

t-검정통계랑: 1.5778641172210597
Sample 1 평균: 27.6
Sample 2 평균: 23.8
p-값 (two-tailed): 0.15324889402868613
두 그룹의 평균은 유의미하게 다르지 않습니다.


In [46]:
import scipy.stats as ss
import numpy as np

In [47]:
sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

u_statistic, p_value = ss.mannwhitneyu(sample1, sample2)

mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

alpha = 0.05
print(f"Mann-Whitney U 통계량: {u_statistic}")
print(f"Sample 1 평균: {mean_sample1}")
print(f"Sample 2 평균: {mean_sample2}")
print(f"p-값 (two-tailed): {p_value}")

if p_value < alpha:
    print("두 그룹의 평균은 유의미하게 다릅니다.")
else:
    print("두 그룹의 평균은 유의미하게 다르지 않습니다.")

Mann-Whitney U 통계량: 19.0
Sample 1 평균: 27.6
Sample 2 평균: 23.8
p-값 (two-tailed): 0.2222222222222222
두 그룹의 평균은 유의미하게 다르지 않습니다.


In [48]:
import scipy.stats as ss

In [49]:
data = [2.4, 2.7, 3.1, 3.2, 3.5, 3.7, 3.9, 4.1, 4.2]

statistic, p_value = ss.shapiro(data)

alpha = 0.05
print("Shapiro-Wilk 테스트 통계량", statistic)
print("p-값", p_value)
if p_value > alpha:
    print("귀무가설을 기각하지 못하며, 데이터는 정규분포를 따를 가능성이 높습니다.")
else:
    print("귀무가설을 기각하며, 데이터는 정규분포를 따르지 않을 가능성이 있습니다.")

Shapiro-Wilk 테스트 통계량 0.9553363445648533
p-값 0.7484769348718879
귀무가설을 기각하지 못하며, 데이터는 정규분포를 따를 가능성이 높습니다.


#### 대응표본의 평균 차이 검정 (t-검정)

In [50]:
import scipy.stats as ss

In [51]:
data_before = [72, 75, 68, 71, 73]
data_after = [76, 79, 74, 78, 80]

t_statistic, p_value = ss.ttest_rel(data_before, data_after)

print("대응표본 t-검정 결과:")
print("t-통계량", t_statistic)
print("p-값", p_value)

대응표본 t-검정 결과:
t-통계량 -8.25674954467424
p-값 0.0011738040715128372


#### 단일표본 모분산 검정

In [52]:
import numpy as np
import scipy.stats as ss

In [54]:
data = np.array([14.2, 15.1, 14.8, 15.4, 14.9, 15.2, 14.6, 15.0])

population_variance = 1.0

sample_variance = np.var(data)
n = len(data)
chi2_stat = (n-1) * sample_variance / population_variance

degrees_of_freedom = n-1

p_value = 1 - ss.chi2.cdf(chi2_stat, degrees_of_freedom)

print("Chi_Square Statistic:", chi2_stat)
print("p-value", p_value)

alpha=0.5
if p_value < alpha:
    print("귀무가설을 기각합니다. 모분산은 1.0과 다릅니다.")
else:
    print("귀무가설을 기각하지 못합니다. 모분산은 1.0과 같을 가능성이 있습니다.")

Chi_Square Statistic: 0.8575000000000008
p-value 0.9968119115718612
귀무가설을 기각하지 못합니다. 모분산은 1.0과 같을 가능성이 있습니다.


#### 두 모분산 비에 대한 가설 검정

In [56]:
import numpy as np
import scipy.stats as ss

In [76]:
sample1 = np.random.normal(loc=5, scale=2, size=30)
sample2 = np.random.normal(loc=5, scale=3, size=30)

variance_sample1 = np.var(sample1, ddof=1)
variance_sample2 = np.var(sample2, ddof=1)

if variance_sample1 > variance_sample2:
    f_statistic = variance_sample1 / variance_sample2
else:
    f_statistic = variance_sample2 / variance_sample1

df1 = len(sample1) - 1
df2 = len(sample2) - 1
p_value = 1 - ss.f.cdf(f_statistic, df1, df2)

print("표본 1의 분산:", variance_sample1)
print("표본 2의 분산:", variance_sample2)
print("F-통계량:", f_statistic)

alpha = 0.05
if p_value < alpha:
    print(f"p-value: {p_value:.4f} < {alpha}, 귀무가설을 기각합니다. 두 표본의 모분산은 다릅니다.")
else:
    print(f"p-value: {p_value:.4f} >= {alpha}, 귀무가설을 기각하지 않습니다. 두 표본의 모분산은 같을 수 있습니다.")

표본 1의 분산: 2.3944745857762086
표본 2의 분산: 8.84627156168798
F-통계량: 3.694452058183075
p-value: 0.0004 < 0.05, 귀무가설을 기각합니다. 두 표본의 모분산은 다릅니다.


#### 독립성 검정

In [78]:
import numpy as np
import scipy.stats as ss

In [81]:
data_matrix = np.array([[50, 75, 125, 175], [90, 30, 45, 10]])

chi2, p, df, expected = ss.chi2_contingency(data_matrix)

print("Chi-square statistic:", chi2)
print("p-value:", p)
print("Degrrees of freedom:", df)
print("Expected frequency table:")
print(expected)

Chi-square statistic: 134.7511341579557
p-value: 5.117490956087995e-29
Degrrees of freedom: 3
Expected frequency table:
[[ 99.16666667  74.375      120.41666667 131.04166667]
 [ 40.83333333  30.625       49.58333333  53.95833333]]


In [82]:
import numpy as np
import pandas as pd
import scipy.stats as ss

In [85]:
titanic_data = pd.read_csv("https://raw.githubusercontent.com/YoungjinBD/dataset/main/titanic.csv")

cross_table = pd.crosstab(titanic_data['Sex'], titanic_data['Survived'])

chi2, p, df, expected = ss.chi2_contingency(cross_table)

print("Chi-square statistic:", chi2)
print("p-value:", p)
print("Degrrees of freedom:", df)
print("Expected frequency table:")
print(expected)

Chi-square statistic: 260.71702016732104
p-value: 1.197357062775565e-58
Degrrees of freedom: 1
Expected frequency table:
[[193.47474747 120.52525253]
 [355.52525253 221.47474747]]
