---------------------------------------------------------------------------------------------<br>
문제1 : 모분산($\sigma ^{ 2 }$)이 알려진 단일표본(One-Sample)의 모평균( $\mu$ ) 추론
- 문제로부터 알수있는 내용 <br>
  n = 16 <br>
  $\bar { X }  = 50.65$ <br>
  $\sigma ^{ 2 } = { 0.9 }^{ 2 } $
  
  
- 검정가설 및 유의수준 설정<br>
  $ H_0:\mu=50, H_1:\mu\neq50$<br>
  (Significant Level) $\alpha =0.05$<br>

In [12]:
#모분산이 알려져있으므로, z-test를 수행,
#검정통계량 z 와 유의확률(P-value) 산출

import numpy as np
from scipy.stats import norm

x_bar = 50.65
mu_zero = 50
population_std = 0.9
NumOfExperiment= 16
alpha = 0.05

# 검정통계량
test_stat_z = (x_bar - mu_zero) / (population_std / np.sqrt(NumOfExperiment))

# P-value
P_Value = (1- norm.cdf(test_stat_z)) * 2 # 양측검정

# 기각역
reject_lowerBound = norm.ppf(q = alpha/2, loc = 0, scale = 1)
reject_upperBound = norm.ppf(q = 1-(alpha/2), loc = 0, scale = 1)

print("검정통계량 Z: {}".format(round(test_stat_z,3)))
print("P-Value     : {}".format(round(P_Value,3)))
print("기각역      : 검정통계량 Z 의 절대값 > {}".format(round(reject_upperBound, 3)))
print('=' * 50)

print("판단 - 기각역")
if np.abs(test_stat_z) > reject_upperBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

검정통계량 Z: 2.889
P-Value     : 0.004
기각역      : 검정통계량 Z 의 절대값 > 1.96
판단 - 기각역
  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.
판단 - 유의확률
  : 유의확률 값이 유의수준(0.05)보다 작으므로 귀무가설을 기각할 수 있다.


---------------------------------------------------------------------------------------------<br>
문제2 : 모분산($\sigma ^{ 2 }$)이 알려져 있지 않은 단일표본(One-Sample)의 모평균( $\mu$ ) 추론
- 문제로부터 알수있는 내용 <br>
  n = 9 <br>
  $\bar { X }  = 1.303$ <br>
  S = 0.669 <br>
  
  
- 검정가설 및 유의수준 설정<br>
  $ H_0:\mu=1.32, H_1:\mu<1.32$<br>
  (Significant Level) $\alpha =0.05$<br>

In [106]:
import numpy as np
import scipy.stats as st

x_bar = 1.303
mu_zero = 1.32
sample_std = 0.669
NumOfExperiment= 9
alpha = 0.05

# 신뢰구간
CI_lowerBound = x_bar - ( st.t.ppf(1-(alpha/2), NumOfExperiment-1) * sample_std / np.sqrt(NumOfExperiment) )
CI_upperBound = x_bar + ( st.t.ppf(1-(alpha
                                      /2), NumOfExperiment-1) * sample_std / np.sqrt(NumOfExperiment) )

print("모평균의 {}% 신뢰구간 : ( {} , {} )".format(alpha, round(CI_lowerBound,3), round(CI_upperBound,3)))

# 검정통계량
test_stat_T = (x_bar - mu_zero) / (sample_std / np.sqrt(NumOfExperiment))
print("검정통계량 T: {}".format(round(test_stat_T,3)))

# P-value
P_Value = (1- st.t.cdf(test_stat_T, NumOfExperiment-1)) # 단측검정
print("P-Value     : {}".format(round(P_Value,3)))

# 기각역
reject_lowerBound = st.t.ppf(alpha, NumOfExperiment-1)

print("기각역      : 검정통계량 T < {}".format(round(reject_lowerBound, 3)))
print('=' * 50)

print("판단 - 기각역")
if test_stat_T < reject_lowerBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

모평균의 0.05% 신뢰구간 : ( 0.789 , 1.817 )
검정통계량 T: -0.076
P-Value     : 0.529
기각역      : 검정통계량 T < -1.86
판단 - 기각역
  : 귀무가설을 기각할 충분한 근거가 없다.
판단 - 유의확률
  : 귀무가설을 기각할 충분한 근거가 없다.


---------------------------------------------------------------------------------------------<br>
문제3 : 대응비교에 의한 모평균의 비교 
  
- 검정가설 및 유의수준 설정<br>
  ${ H }_{ 0 }:{ \mu  }_{ 1 }-{ \mu  }_{ 2 }=2,\quad { H }_{ 1 }:{ \mu  }_{ 1 }-{ \mu  }_{ 2 }> 2$<br>
  (Significant Level) $\alpha =0.05$<br>
  검정통계량 $T=\frac{\bar{D}-\delta }{S_D /\sqrt{n}}\sim t(n-1)$ under $H_0$

In [107]:
import numpy as np
import scipy.stats as st

# 대응비교(Paired Comparison) Data
w_bef = np.array([74,75,75,76,76,78,78,79,81,82])
w_aft = np.array([70,71,73,73,75,76,76,77,78,80])

# 대응 데이터 차이 산출
w_diff = w_bef - w_aft

# 차이값의 모평균의 관한 추론으로 변환하여 t검정 실행
NumOfExperiment = len(w_diff)
D_bar = np.mean(w_diff)
D_std = np.std(w_diff) * np.sqrt(len(w_diff)/(len(w_diff)-1))

delta = 2 #모평균의 차이

# 검정통계량
test_stat_T = (D_bar - delta) / (D_std / np.sqrt(NumOfExperiment))
print("검정통계량 T: {}".format(round(test_stat_T,3)))

# P-value
P_Value = 1 - st.t.cdf(test_stat_T, NumOfExperiment-1)
print("P-Value     : {}".format(round(P_Value,3)))

# 기각역
reject_upperBound = st.t.ppf(q=(1-alpha), df=NumOfExperiment-1)
print("기각역      : 검정통계량 T > {}".format(round(reject_upperBound, 3)))
print('=' * 50)

print("판단 - 기각역")
if test_stat_T > reject_upperBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

검정통계량 T: 1.627
P-Value     : 0.069
기각역      : 검정통계량 T > 1.833
판단 - 기각역
  : 귀무가설을 기각할 충분한 근거가 없다.
판단 - 유의확률
  : 귀무가설을 기각할 충분한 근거가 없다.


In [112]:
#ttest함수 사용 (쌍을 이루는 데이터의 차이 데이터를 일표본으로 한 t검정)
result1 = st.ttest_1samp(w_diff,2)

print('검정통계량 T  : {}'.format(round(result1[0],3)))
print('P value       : {}'.format(round(result1[1]/2,3))) #단측검정

검정통계량 T  : 1.627
P value       : 0.069


In [113]:
#ttest함수 사용 (쌍을 이루는 데이터를 각각 이용한 모평균차이에 대한 검정)
result2 = st.ttest_rel(w_bef, w_aft+2) #모평균의 차이가 2인지 검정

print('검정통계량 T  : {}'.format(round(result2[0],3)))
print('P value       : {}'.format(round(result2[1]/2,3)))  #단측검정

검정통계량 T  : 1.627
P value       : 0.069


---------------------------------------------------------------------------------------------<br>
문제4 : 독립 이표본의 모평균의 비교 (모분산이 알려진 경우) 
  
- 검정가설 및 유의수준 설정<br>
  ${ H }_{ 0 }:{ \mu  }_{ 1 }-{ \mu  }_{ 2 }=0,\quad { H }_{ 1 }:{ \mu  }_{ 1 }-{ \mu  }_{ 2 }< 0$<br>
   ※ A반 평균성적 : ${ \mu  }_{ 1 }$, B반 평균성적 : ${ \mu  }_{ 2 }$<br>
  (Significant Level) $\alpha =0.05$<br>
  검정통계량 $Z=\frac{(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)$ under $H_0$, 관측값=$z_0$

In [143]:
import numpy as np
from scipy.stats import norm

# 문제로부터
X1_bar, X2_bar = 260, 280
var1_known, var2_known = 625, 625
n1, n2 = 9, 9

alpha = 0.05 # 문제에는 기술되어있지 않음 (임의로 지정)

# 모분산이 알려진 이표본의 평균에 대한 추론이므로 Z test를 수행

# 검정통계량 Z
test_stat_Z = ((X1_bar - X2_bar) - 0) / np.sqrt(var1_known/n1 + var2_known/n2)

print("검정통계량 Z: {}".format(round(test_stat_Z,3)))

# P value
P_value = norm.cdf(test_stat_Z)
print("P-Value     : {}".format(round(P_value,3)))

# 기각역
reject_lowerBound = norm.ppf(q = alpha, loc = 0, scale = 1)

print("기각역      : 검정통계량 Z  < {}".format(round(reject_lowerBound, 3)))
print('=' * 50)

print("판단 - 기각역")
if test_stat_Z < reject_lowerBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

검정통계량 Z: -1.697
P-Value     : 0.045
기각역      : 검정통계량 Z  < -1.645
판단 - 기각역
  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.
판단 - 유의확률
  : 유의확률 값이 유의수준(0.05)보다 작으므로 귀무가설을 기각할 수 있다.


---------------------------------------------------------------------------------------------<br>
문제5 : 모분산에 관한 추론 
  
- 검정가설 및 유의수준 설정<br>
  가설 $H_0 : \sigma^2=1^2$, $H_1 : \sigma^2>1^2$<br> 
  검정통계량 $\chi^2=\frac{(n-1)S^2}{{\sigma}^2}\sim \chi^2(n-1)$ under $H_0$, 관측값=$\chi_0^2$ <br>
  (Significant Level) $\alpha =0.025$<br>
  정규모집단을 가정한 표본분산의 추론은 $\chi^2$ 분포를 따르므로, $\chi^2$ 검정 수행

In [144]:
from scipy.stats import chi2

#문제로부터
sample_num = 20
sample_std = 1.35
std_UnderHo = 1
alpha = 0.025

# 카이제곱 검정

# 검정통계량
test_stat_chi2 = (sample_num-1) * (sample_std**2) / (std_UnderHo**2)

print("검정통계량 chi2: {}".format(round(test_stat_chi2,3)))

# P-value
P_Value = 1 - st.chi2.cdf(test_stat_chi2, df=sample_num-1)

print("P Value        : {}".format(round(P_Value,3)))  

# 기각역
reject_upperBound = st.chi2.ppf(q=(1-alpha), df=sample_num-1)

print("기각역         : 검정통계량 chi2 > {}".format(round(reject_upperBound, 3)))

print('=' * 50)

print("판단 - 기각역")
if test_stat_chi2 > reject_upperBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

검정통계량 chi2: 34.628
P Value        : 0.015
기각역         : 검정통계량 chi2 > 32.852
판단 - 기각역
  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.
판단 - 유의확률
  : 유의확률 값이 유의수준(0.025)보다 작으므로 귀무가설을 기각할 수 있다.


---------------------------------------------------------------------------------------------<br>
문제6 : 두 모집단의 분산의 비에 관한 추론 
  
- 검정가설 및 유의수준 설정<br>
  가설 $H_0 : \sigma_1^2=\sigma_2^2$, $H_1 : \sigma_1^2< \sigma_2^2$<br>
  (Significant Level) $\alpha =0.05$<br>
  검정통계량 $F=\frac{S_1^2}{S_2^2}\sim F({ n }_{ 1 }-1,{ n }_{ 2 }-1)$ under $H_0$

In [160]:
# F test 
import numpy as np
from scipy.stats import f

# 문제로부터
numA, numB = 16, 16
stdA, stdB = np.sqrt(0.0025), np.sqrt(0.0145)
alpha = 0.05

# 검정통계량 F
test_stat_F = (stdA**2) / (stdB**2)
print("검정통계량 F   : {}".format(round(test_stat_F,3)))

# P value
P_Value = st.f.cdf(test_stat_F, dfn=numA-1, dfd=numB-1)
print("P Value        : {}".format(round(P_Value,3)))  

# 기각역
reject_lowerBound = st.f.ppf(q=alpha, dfn=numA-1, dfd=numB-1)
print("기각역         : 검정통계량 F < {}".format(round(reject_lowerBound, 3)))

print('=' * 50)

print("판단 - 기각역")
if test_stat_F < reject_lowerBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

검정통계량 F   : 0.172
P Value        : 0.001
기각역         : 검정통계량 F < 0.416
판단 - 기각역
  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.
판단 - 유의확률
  : 유의확률 값이 유의수준(0.05)보다 작으므로 귀무가설을 기각할 수 있다.


---------------------------------------------------------------------------------------------<br>
문제7(a) : 두 모집단의 분산비에 관한 추론 
  
- 검정가설 및 유의수준 설정<br>
  가설 $H_0 : \sigma_1^2=\sigma_2^2$, $H_1 : \sigma_1^2\neq \sigma_2^2$<br>
  (Significant Level) $\alpha =0.05$<br>
  검정통계량 $F=\frac{S_1^2}{S_2^2}\sim F({ n }_{ 1 }-1,{ n }_{ 2 }-1)$ under $H_0$
  
문제7(b) : 이 표본에 의한 모평균의 비교(모분산을 모르지만, 등분산임을 알고있을 때)<br>

- 검정가설 및 유의수준 설정<br>
  가설 ${ H }_{ 0 }:{ \mu  }_{ 1 }={ \mu  }_{ 2 },\quad { H }_{ 1 }:{ \mu  }_{ 1 }\neq { \mu  }_{ 2 }$ <br>
  (Significant Level) $\alpha =0.05$<br>


In [64]:
# F test 
import numpy as np
import scipy.stats as st
from scipy.stats import f
from scipy.stats import t

# 문제로부터
numA, numB = 15, 15
XbarA, XbarB = 403.2667, 660.4
stdA, stdB = np.sqrt(97589.352), np.sqrt(98362.686)
alpha = 0.05

print('=' * 40)
print('문제 (a)')
print('=' * 40)
# 검정통계량 F
test_stat_F = (stdA**2) / (stdB**2)
print("검정통계량 F   : {}".format(round(test_stat_F,3)))

# P-Value
P_Value_a = min(st.f.cdf(test_stat_F, 14, 14)*2, (1 - st.f.cdf(test_stat_F, 14, 14))*2)
print("P Value     : {}".format(round(P_Value_a,3)))  

# 기각역
reject_lowerBound = st.f.ppf(alpha/2, numA-1, numB-1)
reject_upperBound = st.f.ppf(1-(alpha/2), numA-1, numB-1)

print("기각역        : 검정통계량 F < {} 또는 F > {}".format(round(reject_lowerBound, 3), round(reject_upperBound, 3)))

print("판단 - 기각역")
if test_stat_F < reject_lowerBound or test_stat_F > reject_upperBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value_a < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")
    
    
# 상기 검정에서 귀무가설(두 모집단이 등분산이다)를 기각하지 못하므로, 등분산이라고 가정할 수 있다.
# 등분산인 두 독립 이표본의 모평균의 비교 검증은 t test로 실행하며

print('=' * 40)
print('문제 (b)')
print('=' * 40)



# 검정통계량 T
pooled_Sample_Var = ((numA-1)*(stdA**2)+(numB-1)*(stdB**2))/(numA+numB-2)
test_stat_T = ((XbarA-XbarB)-0)/ (np.sqrt(pooled_Sample_Var)*np.sqrt(numA**-1+numB**-1))

print("검정통계량 T   : {}".format(round(test_stat_T,3)))

# P-Value
P_Value_b = st.t.cdf(test_stat_T, df=numA+numB-2)
print("P Value     : {}".format(round(P_Value_b,3)))  

# 기각역
alpha = 0.05
reject_lowerBound = st.t.ppf(alpha/2, df=numA+numB-2)
reject_upperBound = st.t.ppf(1-(alpha/2), df=numA+numB-2)

print("기각역        : 검정통계량 F < {} 또는 F > {}".format(round(reject_lowerBound, 3), round(reject_upperBound, 3)))

print("판단 - 기각역")
if test_stat_T < reject_lowerBound or test_stat_T > reject_upperBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value_b < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

문제 (a)
검정통계량 F   : 0.992
P Value     : 0.988
기각역        : 검정통계량 F < 0.336 또는 F > 2.979
판단 - 기각역
  : 귀무가설을 기각할 충분한 근거가 없다.
판단 - 유의확률
  : 귀무가설을 기각할 충분한 근거가 없다.
문제 (b)
검정통계량 T   : -2.25
P Value     : 0.016
기각역        : 검정통계량 F < -2.048 또는 F > 2.048
판단 - 기각역
  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.
판단 - 유의확률
  : 유의확률 값이 유의수준(0.05)보다 작으므로 귀무가설을 기각할 수 있다.


---------------------------------------------------------------------------------------------<br>
표본상관계수의 검정 
  
- 검정가설 및 유의수준 설정<br>
  가설 $H_0 : \rho=0$,  $H_1 : \rho\neq0$<br>
  (Significant Level) $\alpha =0.05$<br>
  검정통계량 $T=\sqrt { n-2 } \frac { r }{ \sqrt { 1-{ r }^{ 2 } }  } $ under $H_0$

In [2]:
# 표본상관계수의 계산

import numpy as np
import scipy.stats as st
from scipy.stats import t

X = np.array([-2,-1,4,1,-1,0,2,-3])
Y = np.array([7,3,-5,-3,0,-1,-4,3])

num = len(X)

X_bar, Y_bar = np.mean(X), np.mean(Y)

print('X_bar = {}'.format(X_bar))
print('Y_bar = {}'.format(Y_bar))

SS_xx = sum((X-X_bar)**2)
SS_yy = sum((Y-Y_bar)**2)
SS_xy = sum((X-X_bar)*(Y-Y_bar))

Corr = SS_xy / np.sqrt(SS_xx*SS_yy)

print('Sxx = {}'.format(round(SS_xx,3)))
print('Syy = {}'.format(round(SS_yy,3)))
print('Sxy = {}'.format(round(SS_xy,3)))
print('Corr = {}'.format(round(Corr,3)))

# 검정통계량
test_stat_T = np.sqrt(num-2)*(Corr/np.sqrt(1-Corr**2))

print("검정통계량 T   : {}".format(round(test_stat_T,3)))

# P-Value
P_Value = st.t.cdf(test_stat_T, num-2)
print("P Value     : {}".format(round(P_Value,3)))  

# 기각역
alpha = 0.05
reject_lowerBound = st.t.ppf(alpha/2, df=num-2)
reject_upperBound = st.t.ppf(1-(alpha/2), df=num-2)

print("기각역        : 검정통계량 T < {} 또는 T > {}".format(round(reject_lowerBound, 3), round(reject_upperBound, 3)))

print("판단 - 기각역")
if test_stat_T < reject_lowerBound or test_stat_T > reject_upperBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

X_bar = 0.0
Y_bar = 0.0
Sxx = 36.0
Syy = 118.0
Sxy = -57.0
Corr = -0.875
검정통계량 T   : -4.417
P Value     : 0.002
기각역        : 검정통계량 T < -2.447 또는 T > 2.447
판단 - 기각역
  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.
판단 - 유의확률
  : 유의확률 값이 유의수준(0.05)보다 작으므로 귀무가설을 기각할 수 있다.


In [3]:
import numpy as np
import pandas as pd
from scipy import stats as st
import seaborn as sb
import matplotlib.pyplot as plt
from statsmodels.graphics.gofplots import ProbPlot


from statsmodels.stats.anova import anova_lm
from statsmodels.formula.api import ols


X_df = pd.DataFrame(X, columns=["X"])
Y_df = pd.DataFrame(Y, columns=["Y"])
d = pd.concat([X_df, Y_df], axis=1)

corr = d.corr(method='pearson')

my_model=ols(formula='Y~X', data=d).fit()

print(my_model.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.765
Model:                            OLS   Adj. R-squared:                  0.726
Method:                 Least Squares   F-statistic:                     19.51
Date:                Mon, 15 Jul 2019   Prob (F-statistic):            0.00448
Time:                        08:44:43   Log-Likelihood:                -16.327
No. Observations:                   8   AIC:                             36.65
Df Residuals:                       6   BIC:                             36.81
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept           0      0.760          0      1.0

  "anyway, n=%i" % int(n))


In [94]:
#표본 상관계수 계산 및 검정 문제 

import numpy as np
import scipy.stats as st
from scipy.stats import t

X = np.array([42,38,51,53,40,37,41,29,52,39,45,34,47,35,44,48,47,30,29,34])
Y = np.array([30,25,34,35,31,29,33,23,36,30,32,29,34,30,28,29,33,24,30,30])

num = len(X)

X_bar, Y_bar = np.mean(X), np.mean(Y)

print('X_bar = {}'.format(X_bar))
print('Y_bar = {}'.format(Y_bar))


SS_xx = sum((X-X_bar)**2)
SS_yy = sum((Y-Y_bar)**2)
SS_xy = sum((X-X_bar)*(Y-Y_bar))

Corr = SS_xy / np.sqrt(SS_xx*SS_yy)

print('Sxx = {}'.format(round(SS_xx,3)))
print('Syy = {}'.format(round(SS_yy,3)))
print('Sxy = {}'.format(round(SS_xy,3)))
print('Corr = {}'.format(round(Corr,3)))

# 검정통계량
test_stat_T = np.sqrt(num-2)*(Corr/np.sqrt(1-Corr**2))

print("검정통계량 T   : {}".format(round(test_stat_T,3)))

# P-Value
P_Value = 1- st.t.cdf(test_stat_T, num-2)
print("P Value     : {}".format(round(P_Value,10)))  

# 기각역
alpha = 0.05
reject_lowerBound = st.t.ppf(alpha/2, df=num-2)
reject_upperBound = st.t.ppf(1-(alpha/2), df=num-2)

print("기각역        : 검정통계량 T < {} 또는 T > {}".format(round(reject_lowerBound, 3), round(reject_upperBound, 3)))

print("판단 - 기각역")
if test_stat_T < reject_lowerBound or test_stat_T > reject_upperBound:
    print("  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.")
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

print("판단 - 유의확률")
if P_Value < alpha:
    print("  : 유의확률 값이 유의수준({})보다 작으므로 귀무가설을 기각할 수 있다.".format(alpha))
else:
    print("  : 귀무가설을 기각할 충분한 근거가 없다.")

X_bar = 40.75
Y_bar = 30.25
Sxx = 1083.75
Syy = 231.75
Sxy = 379.25
Corr = 0.757
검정통계량 T   : 4.911
P Value     : 5.62553e-05
기각역        : 검정통계량 T < -2.101 또는 T > 2.101
판단 - 기각역
  : 검정통계량이 기각역에 속하므로 귀무가설을 기각할 수 있다.
판단 - 유의확률
  : 유의확률 값이 유의수준(0.05)보다 작으므로 귀무가설을 기각할 수 있다.


In [109]:
import numpy as np
import pandas as pd
from scipy import stats as st
import seaborn as sb
import matplotlib.pyplot as plt
from statsmodels.graphics.gofplots import ProbPlot


from statsmodels.stats.anova import anova_lm
from statsmodels.formula.api import ols


X_df = pd.DataFrame(X, columns=["Korean"])
Y_df = pd.DataFrame(Y, columns=["English"])
d = pd.concat([X_df, Y_df], axis=1)

corr = d.corr(method='pearson')

my_model=ols(formula='English~Korean', data=d).fit()

print(my_model.summary())

                            OLS Regression Results                            
Dep. Variable:                English   R-squared:                       0.573
Model:                            OLS   Adj. R-squared:                  0.549
Method:                 Least Squares   F-statistic:                     24.12
Date:                Sun, 14 Jul 2019   Prob (F-statistic):           0.000113
Time:                        00:33:14   Log-Likelihood:                -44.376
No. Observations:                  20   AIC:                             92.75
Df Residuals:                      18   BIC:                             94.74
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     15.9899      2.950      5.419      0.0