## 정규성 검정

In [53]:
import pandas as pd
from scipy import stats

#p.105 [실습] 정규성 검정
ds_camshaft = pd.read_csv("1BD/2sample_t_test.csv", engine = "python") #csv 파일 호출
ds_camshaft.head() #파일 정상 출력 확인

data1 = ds_camshaft['Mat_A']
data2 = ds_camshaft['Mat_B']
print(stats.shapiro(data1))
print(stats.shapiro(data2))
#두 가지 경우 전부 p값이 0.05이상이 나왔다.
#두 가지 경우 모두 정규분포를 따른다는 것을 알 수 있다.

ShapiroResult(statistic=nan, pvalue=1.0)
ShapiroResult(statistic=nan, pvalue=1.0)


## 모평균 구간 추정

In [49]:
import pandas as pd
from scipy import stats
import numpy as np

#p.108 [실습] 모평균 구간추정_모표준편차를 아는 경우
df = pd.DataFrame({"sample":[18, 18, 20, 21, 20, 23, 19, 18, 17, 21, 22, 20, 20, 21, 20, 19, 19, 18, 17, 19]})
#데이터를 직접 df에 넣는다.
df.head()
#입력한 데이터의 헤드부분을 출력하여 정상 출력되는지 확인한다.
lower,upper = stats.norm.interval(0.95,loc=np.mean(df),scale=3.8/np.sqrt(20))
#95%의 신뢰수준, 평균값, 3.8의 모표준편차/루트n을 인자로 넣는다.
print("신뢰구간: ({0},{1})".format(lower.round(2),upper.round(2)))
#신뢰수준 95%에서 모평균이 존재할 수 있는 범위가 17.83에서 21.17 사이이다.

신뢰구간: ([17.83],[21.17])


  return mean(axis=axis, dtype=dtype, out=out, **kwargs)


## 추론 통계

In [48]:
import pandas as pd
from scipy import stats
import numpy as np

#p.111 [실습] 모평균 추정_모표준편차를 모르는 경우
df = pd.DataFrame({"sample":[73, 71, 74, 69, 70, 73, 70, 68, 75, 72, 70, 72, 73, 70, 70, 72, 71, 70, 75, 72]})
#데이터를 직접 df에 넣는다.
lower,upper = stats.t.interval(0.95,len(df)-1,loc=np.mean(df),scale=scipy.stats.sem(df))
#95%의 신뢰수준, n-1, 평균, 모표준편차/루트n을 인자로 넣는다.
print("신뢰구간:({0},{1})".format(lower.round(2),upper.round(2)))
#신뢰수준 95%에서 모평균이 존재할 수 있는 범위가 70.6에서 72.4 사이이다.

신뢰구간:([70.6],[72.4])


  return mean(axis=axis, dtype=dtype, out=out, **kwargs)


In [7]:
import pandas as pd
from scipy import stats

df = ([74.5, 81.2, 73.8, 82.0, 76.3, 75.7, 80.2, 72.6, 77.9, 82.8])
t_res = stats.ttest_1samp(df, 76.7)

t, p = t_res.statistic.round(3), t_res.statistic.round(3)

print("1-Sample t-test")
print("t 통계량: {}".format(t))
print("p 통계량: {}".format(p))

1-Sample t-test
t 통계량: 0.864
p 통계량: 0.864


### 두 집단 간 평균 같은지 비교

In [11]:
import pandas as pd
from scipy import stats

df = pd.DataFrame({"A":[1.883, 1.715, 1.799, 1.768, 1.711, 1.832, 1.427, 1.344], 
"B":[1.435, 1.572, 1.486, 1.511, 1.457, 1.548, 1.404, 1.883]})

statistic, p = stats.shapiro(df["A"])
print("statistic={}, p-value={}".format(statistic, p))
statistic, p = stats.shapiro(df["B"])
print("statistic={}, p-value={}".format(statistic, p))

stats.bartlett(df["A"], df["B"])

statistic=0.8425754904747009, p-value=0.08004532009363174
statistic=0.7734813094139099, p-value=0.014793775975704193


BartlettResult(statistic=0.4241143652313345, pvalue=0.5148911629500695)

### 짝을 이루는 집단의 평균 차이 있는지 검정

In [47]:
 import pandas as pd
from scipy import stats

#p.151 [실습] Paired t-test
df1 = pd.DataFrame({'before':[720,589,780,648,720,589,780,648,780,648]}) #before 데이터 생성
df2 = pd.DataFrame({'after':[710,580,787,712,750,600,782,670,790,680]})  #after 데이터 생성

t_result = stats.ttest_rel(df1,df2) #Paired t-test 수행
t,p = t_result.statistic.round(3), t_result.pvalue.round(4) #결과 값 저장

print("Paired t-test") #출력
print("t:{}".format(t))
print("p:{}".format(p))

#귀무가설: 성적이 학원을 가기전과 차이가 없다.
#대립가설: 성적이 학원을 가기전과 차이가 있다.
#p값이 0.05이므로 p<=0.05는 성립한다. 
#따라서, 성적이 학원을 가기전과 차이가 있다고 볼 수 있다.
#즉, 대립가설을 채택했다.

Paired t-test
t:[-2.266]
p:[0.0497]


### 동전

In [39]:
import pandas as pd
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

#p. 157 [실습] 1 Proportion test
count = 40 #앞면이 40번 나옴
n_obs = 100 #100번 던짐
value = 0.5 #앞면이 나올 확률

stat, pval = proportions_ztest(count, n_obs, value)

print("2 Proprotion test") #출력
print('z: {0:0.3f}'.format(stat))
print("p:{0:0.3f}".format(pval))

#귀무가설: 동전을 던졌을 때 앞면이 나올 것이다.
#대립가설: 동전을 던졌을 때 앞면이 나오지 않을 것이다.
#p값이 0.0041이므로 p<=0.05는 성립한다. 
#따라서, 동전을 던졌을 때 앞면이 나오지 않을 것이다.
#즉, 대립가설을 채택했다.

2 Proprotion test
z: -2.041
p:0.041


### 불량품

In [40]:
import pandas as pd
import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

#p.160 [실습] 2 Proportion test
count = np.array([14,5]) #공장 A와 B의 불량품 갯수를 저장
nobs = np.array([1200,1200]) #공장 A와 B의 생산 갯수를 저장
#즉, 공장A는 1200개중 불량품이 14개, 공장B는 1200개중 불량품이 5개라는 뜻이다.

stat, pval = proportions_ztest(count, nobs) #Proportion test 실행

print("2 Proprotion test") #출력
print('z: {0:0.3f}'.format(stat))
print("p:{0:0.3f}".format(pval))

#귀무가설: 두 공정의 불량률에 차이가 없다.
#대립가설: 두 공정의 불량률에 차이가 있다.
#p값이 0.038이므로 p<0.05는 성립한다.
#즉, 두 공정의 불량률에 차이가 있다고 볼 수 있다.
#즉, 대립가설을 채택했다.

2 Proprotion test
z: 2.073
p:0.038


## 카이제곱 검정

In [42]:
import pandas as pd
import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

#p168 [실습] 카이제곱 검정
df = pd.DataFrame({'A':[18,1,8,7,10,9,10],'B':[8,2,14,5,5,9,4],'C':[4,1,3,4,9,5,4],'D':[4,1,2,3,2,7,3],'E':[3,1,3,1,1,1,1],'F':[3,25,8,10,2,1,7]})
#데이터 입력
chi,pval,dof,expected = stats.chi2_contingency(df.T) #chi-squre test실행

print("chi-squre test") #결과 출력
print('chisq: {0:0.3f}'.format(chi))
print('p: {0:0.3f}'.format(pval))
print('degree pf freedom: {}'.format(dof))

#귀무가설: 각 제품에 대한 이미지에 대해 차이가 없다.
#대립가설: 각 제품에 대한 이미지에 대해 차이가 있다.
#p값이 0이므로 p<0.05는 성립한다.
#즉, 각 제품에 대한 이미지에 대해 차이가 있다고 볼 수 있다.
#즉, 대립가설을 채택했다.

chi-squre test
chisq: 98.274
p: 0.000
degree pf freedom: 30


## ANOVA

In [46]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#p.176 [실습] One way ANOVA
ds_anova = pd.read_csv("1BD/ANOVA.csv", engine = "python") #데이터를 불러옴
df = ds_anova[['time','gangjong']]
df.boxplot(by = 'gangjong') #그래프 그리기(x축은 강종, y축은 시간을 갖음)

a = df['time'][df.gangjong=='a'] # a강종의 시간을 변수 a에 저장
b = df['time'][df.gangjong=='b'] # b강종의 시간을 변수 a에 저장
c = df['time'][df.gangjong=='c'] # c강종의 시간을 변수 a에 저장
d = df['time'][df.gangjong=='d'] # d강종의 시간을 변수 a에 저장

f_result = stats.f_oneway(a, b, c, d) #ANOVA 실행
f, p = f_result.statistic.round(3), f_result.pvalue.round(3) #결과값 저장
print("One-way") #출력
print("F통계량:{}".format(f))
print("p-value:{}".format(p))

#귀무가설: 강종별 2차정련 시간에 차이가 없다.
#대립가설: 강종별 2차정련 시간에 차이가 있다.
#p값이 0.019이므로 p<0.05는 성립한다.
#즉, 강종별 2차정련 시간에는 차이가 있다고 볼 수 있다.
#즉, 대립가설을 채택했다.

One-way
F통계량:4.172
p-value:0.019


### 쿠키

In [57]:
import numpy as np #행렬 연산 패키지
from scipy import stats #과학 계산 패키지
import scipy.stats #통계 분석 패키지
import pandas as pd #데이터 패키지
import statsmodels.api as sm #통계 분석 패키지
import matplotlib.pyplot as plt #데이터 시각화 패키지
import seaborn as sns #데이터 시각화 패키지
from statsmodels.stats.proportion import proportions_ztest
import matplotlib
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
import statsmodels.formula.api as smf

#주피터 노트북 내 그래프를 바로 그리기 위한 설정
%matplotlib inline

In [38]:
df1 = [37.6, 38.6,37.2,36.4,38.6,39,37.2,36.1,35.9,37.1,36.9,37.5,36.3,38.1,39,36.9,36.8,37.6,33,33.5] #강도 값 입력
df2 = [14,15,14,16,17,14,17,16,15,16,14,16,18,13,15,17,14,16,20,21] #온도 값 입력

corr, pval = stats.pearsonr(df1, df2) #Correlation Analysis 실행 및 변수 저장
 
print("Correlation Analysis") #결과 출력
print('corr:{0:0.3f}'.format(corr))
print('p-value : {0:0.3f}'.format(pval))

# 대립가설: 초코칩의 강도와 재료 반죽온도간에 매우 강한 상관성이 있다.
# p<0.05이므로, 초코칩의 강도와 재료 반죽온도간에는 매우 강한 상관성이 있다고 볼 수 있다.
# 즉, 대립가설을 채택한다.

Correlation Analysis
corr:-0.723
p-value : 0.000
