- 모집단 1개(집단의 평균 vs 특정값)
- 검정방법
- 1)정규성을 만족할 시 단일표본 t검정(1sample t-test)
- 2)정규성을 만족하지 않을 시 윌콕슨 부호순위 검정

- 가설검정 순서
- 1. 가설검정
- 2. 유의수준 확인
- 3. 정규성 검정
- 4. 검정실시(통계량, p-value확인)
- 5. 귀무가설 기각여부 결정(채택/기각)

In [1]:
# 데이터 불러오기
import pandas as pd
import numpy as np

In [2]:
df=pd.read_csv('mtcars.csv')
df.head(3)

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


In [3]:
# 예제문제
# 1. mtcars 데이터셋의 mpg열 데이터의 평균이 20과 같다고 할 수 있는지 검정하시오.(유의수준 5%)

In [5]:
import scipy.stats as stats
from scipy.stats import shapiro

In [6]:
# 1. 가설검정
# H0 : MPG 열의 평균이 20과 같다.
# H1 : MPG 열의 평균이 20과 같지 않다.

In [7]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [8]:
# 3.정규성 검정
# H0(귀무가설):정규분포를 따른다.
# H1(대립가설):정규분포를 따르지 않는다

In [9]:
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic,4), round(pvalue,4))

result = stats.shapiro(df['mpg'])
print(result)

0.9476 0.1229
ShapiroResult(statistic=0.9475648403167725, pvalue=0.1228824257850647)


In [10]:
# p_value값이 0.1229보다 크므로, 귀무가설을 채택, 정규분포를 따른다.

In [11]:
# 4.1 (정규성만족 0) t_검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=20, alternative='two-sided')
print(round(statistic,4), round(pvalue,4))

# alternative (대립가설 H1) 옵션 : 'two-sided', 'greater', 'less'

0.0851 0.9328


In [12]:
# 4.2 (정규성 만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-20, alternative='two-sided')
print(round(statistic,4), round(pvalue,4))

249.0 0.7891


In [13]:
# 5. 귀무가섷 기각여부 결정(채택/기각)
# p-value 값이 0.05봐 크기때문에 귀무가설을 채택 0.9328
# 즉, mpg 열의 평균이 20과 같다고 할 수 있다.

# 답 : 채택

In [14]:
# 실제로 평균을 구해보면
df['mpg'].mean()

20.090624999999996

In [15]:
# 2. mtcars 데이터셋의 mpg열 데이터의 평균이 17보다 크다고 할 수 있는지 검정하시오.(유의수준 5%)

In [16]:
# 1. 가설검정
# H0 : MPG 열의 평균이 17보다 작거나 같다.(mpg mean <= 17)
# H1 : MPG 열의 평균이 17보다 크다.(mpg mean > 17)

In [17]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [18]:
# 3.정규성 검정
# H0(귀무가설):정규분포를 따른다.
# H1(대립가설):정규분포를 따르지 않는다

statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic,4), round(pvalue,4))

0.9476 0.1229


In [20]:
# 4.1 (정규성만족 0) t_검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=17, alternative='greater')
print(round(statistic,4), round(pvalue,4))

# alternative (대립가설 H1) 옵션 : 'two-sided', 'greater', 'less'

2.9008 0.0034


In [21]:
# 4.2 (정규성 만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='greater')
print(round(statistic,4), round(pvalue,4))

395.5 0.0066


In [22]:
# 5. 귀무가섷 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기때문에 귀무가설을 기각 0.0034
# 즉, mpg 열의 평균이 17보다 크다고 할 수 있다.

# 답 : 기각

In [23]:
# 3 mtcars 데이터셋의 mpg열 데이터의 평균이 17보다 작다고 할 수 있는지 검정하시오.(유의수준 5%)

# 1. 가설검정
# H0 : MPG 열의 평균이 17보다 크거나 같다.(mpg mean >= 17)
# H1 : MPG 열의 평균이 17보다 작다.(mpg mean < 17)

# 2. 유의수준 확인 : 유의수준 5%로 확인

# 3.정규성 검정
# H0(귀무가설):정규분포를 따른다.
# H1(대립가설):정규분포를 따르지 않는다

statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic,4), round(pvalue,4))

0.9476 0.1229


In [24]:
# 4.1 (정규성만족 0) t_검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=17, alternative='less')
print(round(statistic,4), round(pvalue,4))

# alternative (대립가설 H1) 옵션 : 'two-sided', 'greater', 'less'

2.9008 0.9966


In [25]:
# 4.2 (정규성 만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='less')
print(round(statistic,4), round(pvalue,4))

395.5 0.9938


In [26]:
# 5. 귀무가섷 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기때문에 귀무가설을 채택 0.9936
# 즉, mpg 열의 평균이 17보다 크거나 같다고 할 수 있다.

# 답 : 채택

- 모집단 2개
- 검정방법
- 1.대응표본(쌍체):동일한 객체의 전 vs 후 평균비교
- 정규성을 만족할 시 대응표본(쌍체)t검정(paired t-test) : 동일한 객체의 전 vs 후 평균비교
- 정규성을 만족하지 않을 시 윌콕슨 부호순위 검정(wilcoxon)

- 2.독립표본:A집단의평균 vs B집단의 평균
- 정규성을 만족할 시 독립표본 t검정(2sample t_test)
- 정규성을 만족하지 않을 시 윌콕슨 순위합 검정(ranksums)

- 가설검정 순서

- 1) 대응표본(쌍체)t검정(paired t_test)
- 1. 가설검정
- 2. 유의수준 확인
- 3. 정규성 검정 -> (주의) 차이값에 대한 정규성
- 4. 검정실시(통계량, p-value확인)
- 5. 귀무가설 기각여부 결정(채택/기각)

- 2) 독립표본 t검정(2-sample t_test)
- 1. 가설검정
- 2. 유의수준 확인
- 3. 정규성 검정 -> (주의) 두 집단 모두 정규성을 따를 경우
- 4. 등분산검정 
- 5. 검정실시(통계량, p-value확인) -> (주의) 등분산여부 확인
- 6. 귀무가설 기각여부 결정(채택/기각)

In [27]:
# 예제문제
# case1 대응표본(쌍체)t검정(paired t_test)
# 문제1-1 다음은 혈압약을 먹은 전, 후의 혈압 데이터이다.
# 혈압약을 먹기전, 후의 차이가 있는지 쌍체 t검정을 실시하시오.
# (유의수준 5%)
# before:혈압약을 먹기전 혈압,after:혈압약을 먹은 후의 혈압
# H0(귀무가설):after-before=0
# H0(대립가설):after-before는0이 아니다

In [28]:
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import shapiro

In [29]:
# 데이터 만들기
df = pd.DataFrame({
    'before':[120,135,122,124,135,122,145,160,155,142,144,135,167],
    'after':[110,132,123,119,123,115,140,162,142,138,135,142,160]
})

print(df.head(3))

   before  after
0     120    110
1     135    132
2     122    123


In [30]:
# 1. 가설설정
# H0 : 약을 먹기전과 먹은 후의 혈압평균은 같다(효과가 없다)
# H1 : 약을 먹기전과 먹은 후의 혈압평균은 같지 않다(효과가 있다)

In [31]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [33]:
# 3. 정규성 검정 (차이값에 대한 정규성 검정)
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statistic, 4), round(pvalue,4))

0.9589 0.7363


In [34]:
# pvalue값이 0.05보다 크므로 정규분포를 따른다는 귀무가설을 채택

In [35]:
# 4.1 정규성이 있는 경우 대응표본 쌍체 t검정(paired t-test)
statistic, pvalue = stats.ttest_rel(df['after'],df['before'],alternative='two-sided')
print(round(statistic,4), round(pvalue,4))

-3.1382 0.0086


In [36]:
# pvalue값이 0.05보다 작으므로 귀무가설을 기각하므로, 효과가 있다

In [38]:
# 4.1 정규성이 없는 경우 wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['after']-df['before'],alternative='two-sided')
print(round(statistic,4), round(pvalue,4))

11.0 0.0134


In [39]:
# pvalue값이 0.05보다 작으므로 귀무가설을 기각하므로, 효과가 있다

In [40]:
# 5. 귀무가섷 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기때문에 귀무가설을 기각 0.0086
# 즉, 약을 먹기전과 먹은 후의 혈압 평균은 같지 않다(효과가 있다)

# 답 : 기각

In [41]:
# 문제1-2 다음은 혈압약을 먹은 전, 후의 혈압 데이터이다.
# 혈압약을 먹은후 혈압이 감소했는지 확인하기 위해 쌍체 t검정을 실시하시오.
# (유의수준 5%)
# before:혈압약을 먹기전 혈압,after:혈압약을 먹은 후의 혈압
# H0(귀무가설):after-before>=0
# H0(대립가설):after-before<0

In [42]:
# 데이터 만들기
df = pd.DataFrame({
    'before':[120,135,122,124,135,122,145,160,155,142,144,135,167],
    'after':[110,132,123,119,123,115,140,162,142,138,135,142,160]
})

print(df.head(3))

   before  after
0     120    110
1     135    132
2     122    123


In [43]:
# 1. 가설설정
# H0 : 약을 먹은 후 혈압이 같거나 증가했다 after - before >= 0
# H1 : 약을 먹은 후 형압이 감소했다        after - before < 0

In [44]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [45]:
# 3. 정규성 검정 (차이값에 대한 정규성 검정)
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statistic, 4), round(pvalue,4))

0.9589 0.7363


In [46]:
# pvalue값이 0.05보다 크므로 정규분포를 따른다는 귀무가설을 채택

In [47]:
# 4.1 정규성이 있는 경우 대응표본 쌍체 t검정(paired t-test)
statistic, pvalue = stats.ttest_rel(df['after'],df['before'],alternative='less')
print(round(statistic,4), round(pvalue,4))

-3.1382 0.0043


In [48]:
# pvalue가 0.05보다 작으므로 귀무가설을 기각하므로, 약을 먹은 후 혈압이 감소했다

In [49]:
# 4.2 정규성이 없는 경우 wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['after']-df['before'],alternative='less')
print(round(statistic,4), round(pvalue,4))

11.0 0.0067


In [50]:
# pvalue가 0.05보다 작으므로 귀무가설을 기각하므로, 약을 먹은 후 혈압이 감소했다

In [51]:
# 5. 귀무가섷 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기때문에 귀무가설을 기각 0.0043
# 즉, 약을 먹은 후 혈압이 감소했다고 할 수 있다

# 답 : 기각

In [52]:
# case2) 독립표본 t검정(2sample t-test)
# 문제2-1
# 다음은 A그룹과 B그룹의 인원의 혈압데이터이다.
# 두 그룹의 혈압평균이 다르다고 할 수 있는지 독립표본 t검정을 실시하시오. (유의수준5%)
# A:A그룹 인원의 혈압, B:B그룹의 인원의 혈압
# H0(귀무가설):A=B
# H1(대립가설):A와B가 같지 않다.

In [53]:
# 데이터 만들기
df = pd.DataFrame({
    'A':[120,135,122,124,135,122,145,160,155,142,144,135,167],
    'B':[110,132,123,119,123,115,140,162,142,138,135,142,160]
})

print(df.head(3))

     A    B
0  120  110
1  135  132
2  122  123


In [54]:
# 1. 가설설정
# H0 : A그룹과 B그룹의 혈압 평균은 같다.
# H1 : A그룹과 B그룹의 혈압 평균은 같지 않다.

# 2. 유의수준 확인 : 유의수준 5%로 확인

# 3. 정규성 검정
# H0(귀무가설) : 정규분포를 따른다
# H1(대립가설) : 정규분포를 따르지 않는다.

statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticA,4), round(pvalueA,4))
print(round(statisticB,4), round(pvalueB,4))

0.9314 0.3559
0.9498 0.5956


In [55]:
# A그룹과 B그룹 모두 귀무가설을 채택하므로 정규분포를 따른다

In [57]:
# 4. 등분산성 검정
# H0(귀무가설) : 등분산 한다
# H1(대립가설) : 등분산 하지 않는다

statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic,4), round(pvalue,4))

0.0279 0.8673


In [58]:
# 귀무가설을 채택하므로 등분산을 따른다

In [60]:
# 5.1 (정규성만족, 등분산성 만족하거나 아니거나) t검정
statistic, pvalue = stats.ttest_ind(df['A'], df['B'],
                                   equal_var=True,
                                   alternative='two-sided')
# 만약 등분산 하지 않으면 False

print(round(statistic, 4), round(pvalue, 4))

0.8192 0.4207


In [61]:
# 5.2 (정규성만족 안하는 경우) 윌콕슨의 순위합 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'],
                                   alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))

0.8462 0.3975


In [62]:
# 6. 귀무가설 기각여부 결정(채택/기각)
# p-value가 0.05보다 크기 때문에 귀무가설을 채택
# A그룹과 B그룹의 혈압 평균은 같다.

# 채택

In [63]:
# (참고) 평균데이터 확인
print(round(df['A'].mean(),4))
print(round(df['B'].mean(),4))

138.9231
133.9231


In [64]:
# 문제2-2
# 다음은 A그룹과 B그룹의 인원의 혈압데이터이다.
# A그룹의 혈압평균이 B그룹보다 크다고 할 수 있는지 독립표본 t검정을 실시하시오. (유의수준5%)
# A:A그룹 인원의 혈압, B:B그룹의 인원의 혈압
# H0(귀무가설):A-B<=0
# H1(대립가설):A-B>0

In [65]:
# 데이터 만들기
df = pd.DataFrame({
    'A':[120,135,122,124,135,122,145,160,155,142,144,135,167],
    'B':[110,132,123,119,123,115,140,162,142,138,135,142,160]
})

print(df.head(3))

     A    B
0  120  110
1  135  132
2  122  123


In [66]:
# 1. 가설설정
# H0 : A그룹의 혈압평균이 B그룹보다 작거나 같다.
# H1 : A그룹의 혈압평균이 B그룹보다 크다.

# 2. 유의수준 확인 : 유의수준 5%로 확인

# 3. 정규성 검정
# H0(귀무가설) : 정규분포를 따른다
# H1(대립가설) : 정규분포를 따르지 않는다.

statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticA,4), round(pvalueA,4))
print(round(statisticB,4), round(pvalueB,4))

0.9314 0.3559
0.9498 0.5956


In [67]:
# p-value가 0.05보다 크므로 귀무가설을 채택 정규분포를 따른다

In [68]:
# 4. 등분산성 검정
# H0(귀무가설) : 등분산 한다
# H1(대립가설) : 등분산 하지 않는다

statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic,4), round(pvalue,4))

0.0279 0.8673


In [69]:
# p-value가 0.05보다 크므로 귀무가설을 채택, 등분산한다

In [70]:
# 5.1 (정규성만족, 등분산성 만족하거나 아니거나) t검정
statistic, pvalue = stats.ttest_ind(df['A'], df['B'],
                                   equal_var=True,
                                   alternative='greater')
# 만약 등분산 하지 않으면 False

print(round(statistic, 4), round(pvalue, 4))

0.8192 0.2104


In [71]:
# 5.2 (정규성만족 안하는 경우) 윌콕슨의 순위합 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'],
                                   alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

0.8462 0.1987


In [72]:
# 6. 귀무가설 기각여부 결정(채택/기각)
# p-value가 0.05보다 크기 때문에 귀무가설을 채택
# A그룹의 혈압평균이 B그룹보다 작거나 같다.

# 채택

- 모집단 3개 이상
- 검정방법
- 1. 분산분석
- 정규성을 만족하는 경우 ANOVA분석
- 정규성을 만족하지 않는 경우 크루스칼 왈리스 검정

- 1. 가설검정
- 2. 유의수준 확인
- 3. 정규성 검정 -> (주의) 집단 모두 정규성을 따를경우
- 4. 등분산검정 
- 5. 검정실시(통계량, p-value확인) -> (주의) 등분산여부 확인
- 6. 귀무가설 기각여부 결정(채택/기각)

In [73]:
# 예제문제
# 문제 1-1
# 다음은 A,B,C 그룹 인원 성적 데이터이다.
# 세 그룹의 성적 평균이 같다고 할 수 있는지  ANOVA 분석을 실시하시오. 유의수준5%
# A,B,C : 각 그룹 인원의 성적
# 귀무가설 : A=B=C(각 평균)
# 대립가설 : NOT H0(적어도 하나는 같지 않다.)

In [74]:
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import shapiro

In [75]:
# 데이터 만들기
df = pd.DataFrame({
    'A':[120,135,122,124,135,122,145,160,155,142,144,135,167],
    'B':[110,132,123,119,123,115,140,162,142,138,135,142,160],
    'C':[130,120,115,122,133,144,122,120,110,134,125,122,122]
})

print(df.head(3))

     A    B    C
0  120  110  130
1  135  132  120
2  122  123  115


In [76]:
# 1. 가설검정
# 귀무가설 : 세 그룹 성적의 평균값이 같다.
# 대립가설 : 세 그룹의 성적 평균값이 적어도 하나는 같지 않다.

In [77]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [78]:
# 3. 정규성 검정
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))

# statistic, pvalue = stats.shapiro(df['A'])
# print(round(statistic,4), round(pvalue, 4))

ShapiroResult(statistic=0.9314376711845398, pvalue=0.35585272312164307)
ShapiroResult(statistic=0.9498201012611389, pvalue=0.5955665707588196)
ShapiroResult(statistic=0.9396706223487854, pvalue=0.45265132188796997)


In [80]:
# pvalue가 0.05보다 크므로 귀무가설 기각 정규분포를 따른다

In [81]:
# 4. 등분산성 검정
# 귀무가설 : 등분산 한다
# 대립가설 : 등분산 하지 않다
print(stats.bartlett(df['A'],df['B'],df['C']))

BartlettResult(statistic=4.222248448848066, pvalue=0.12110174433684852)


In [82]:
# 귀무가설을 채택하므로 등분산한다

In [83]:
# 5.1 정규성만족 등분산성만족 분산분석
import scipy.stats as stats
statistic, pvalue = stats.f_oneway(df['A'], df['B'], df['C'])

print(round(statistic,4),  round(pvalue,4))

3.6971 0.0346


In [84]:
# 5.3 정규성, 등분산성 모두 불만족 크루스칼 왈리스 검정
import scipy.stats as stats
statistic, pvalue = stats.kruskal(df['A'], df['B'], df['C'])

print(round(statistic,4),  round(pvalue,4))

6.897 0.0318


In [85]:
# 6. 귀무가설 기각여부 결정(채택/기각)
# p-value값이 0.05보다 작기 때문에 귀무가설을 기각
# 적어도 하나는 다르다

# 기각

In [86]:
# 문제1-2 데이터 형태가 다를 경우
df2 = pd.DataFrame({
    '항목':['A','A','A','A','A','A','A','A','A','A','A','A','A',
         'B','B','B','B','B','B','B','B','B','B','B','B','B',
         'C','C','C','C','C','C','C','C','C','C','C','C','C'],
    'value':[120,135,122,124,135,122,145,160,155,142,144,135,167,
            110,132,123,119,123,115,140,162,142,138,135,142,160,
            130,120,115,122,133,144,122,120,110,134,125,122,122]
})
print(df2.head(3))

  항목  value
0  A    120
1  A    135
2  A    122


In [87]:
# 각각 필터링해서 변수명에 저장하고 분석 진행
a=df2[df2['항목']=='A']['value']
b=df2[df2['항목']=='B']['value']
c=df2[df2['항목']=='C']['value']

In [88]:
# 분산분석(F_oneway)
import scipy.stats as stats
statistic, pvalue = stats.f_oneway(a,b,c)
print(round(statistic,4), round(pvalue,4))

3.6971 0.0346


- 카이제곱검정
- 분석 case
- case1 적합도 검정 - 각 범주에 속하 확률이 같은지
- case2 독립성 검정 - 두 개의 버주형 변수가 서로 독립인지?

- 1. 가설설정
- 2. 유의수준 확인
- 3. 검정실시(통계량, p-value, 기대값)
- 4. 귀무가설 기각여부 결정(채택/기각)

In [1]:
# case1 적합도 검정 - 각 범주에 속할 확률이 같은지?
# 문제 1-1
# 랜덤박스에 상품 A,B,C,D가 들어 있다.
# 다음은 랜덤박스에서 100번 상품을 꺼냈을때의 상품데이터라고 할 때
# 상품이 동일한 비율로 들어있다고 할 수 있는지 검정해보시오.

In [2]:
import pandas as pd
import numpy as np

In [3]:
# 데이터 생성
row1 = [30,20,15,35]
df = pd.DataFrame([row1], columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,30,20,15,35


In [4]:
# 1. 가설설정
# 귀무가설 : 랜덤박스에 상품 A,B,C,D가 동일한 비율로 들어있다.
# 대립가설 : 랜덤박스에 상품 A,B,C,D가 동일한 비율로 들어있지 않다

# 2 .유의수준 확인 : 유의수준 5%

In [6]:
# 3. 검정실시(통계량, p-value)
from scipy.stats import chisquare
# chisquare(f_obs=f_obs, f_exp=f_exp)  #관측값, 기대값

# 관측값과 기대값 구하기
f_obs = [30,20,15,35]
# f_obs = df.iloc[0]
f_exp = [25,25,25,25]

statistic, pvalue = chisquare(f_obs=f_obs,f_exp=f_exp)
print(statistic)
print(pvalue)

10.0
0.01856613546304325


In [7]:
# pvalue가 0.018으로 0.05보다 작으므로, 귀무가설을 기각하고, 
# 랜덤박스에 상품 A,B,C,D가 동일한 비율로 들어있지 않다.

# 답 : 기각

In [8]:
# 문제 1-2
# 랜덤박스에 상품 A,B,C가 들어있다.
# 다음은 랜덤박스에 150번 상품을 꺼냈을 때의 상품데이터라고 할 때
# 상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있는지 검정해보시오.

In [9]:
import pandas as pd
import numpy as np

In [10]:
# 데이터 생성
row1 = [50,25,75]
df = pd.DataFrame([row1], columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,50,25,75


In [11]:
# 1. 가설설정
# 귀무가설 : 랜덤박스에 상품 A,B,C가 30%, 15%, 55%의 비율로 들어있다.
# 대립가설 : 랜덤박스에 상품 A,B,C가 30%, 15%, 55%ㅇ의 비율로 드러있지 않다.

In [12]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [13]:
# 3. 검정실시(통계량, p-value)
from scipy.stats import chisquare
# chisquare(f_obs=f_obs, f_exp=f_exp) # 관측값, 기대값

# 관측값과 기대값 구하기
f_obs = [50, 25, 75]
# f_obs = df.iloc[0]
a = 150*0.3
b = 150*0.15
c = 150*0.55
f_exp = [a,b,c]

statistic, pvalue = chisquare(f_obs=f_obs, f_exp=f_exp)
print(statistic)
print(pvalue)

1.5151515151515151
0.46880153914023537


In [14]:
# p-vlaue가 0.4688으로 0.05보다 크므로 귀무가설을 채택하므로,
# 랜덤박스에 상품 A,B,C가 30%, 15%, 55%의 비율로 들어 있다.

# 답 : 채택

In [15]:
# case2. 독립성검정 - 두 개의 범주형 변수가 서로 독립인지?

In [16]:
import pandas as pd
import numpy as np

In [17]:
# 데이터 생성
row1, row2 = [200,190,250], [220,250,300]
df = pd.DataFrame([row1,row2], columns=['딸기','초코','바닐라'], index=['10대','20대'])
df

Unnamed: 0,딸기,초코,바닐라
10대,200,190,250
20대,220,250,300


In [18]:
# 1. 가설설정
# 귀무가설 : 연령대와 먹는 아이스크림의 종류는 서로 관련이 없다.(두 변수는 서로 독립이다.)
# 대립가설 : 연령대와 먹는 아이스크리의 종류는 서로 관련이 있다.(두 변수는 서로 독립이 아니다.)

In [19]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [20]:
# 3. 검정실시(통계량, p-value, 기대값 확인)
from scipy.stats import chi2_contingency

# 데이터 프레임 형태에서 인덱싱하여 풀이

statistic, pvalue, dof, expected = chi2_contingency(df)
# 공식문서상에
# statistic(통계량), pvalue(유의확률), dof(자유도), expected_freq(기대값)

# 아래와 같이 입력해도 동일한 결과값
# statistic, pvlaue, dof, expected = chi2_contingency([row1, row2])
# statistic, pvlaue, dof, expected = chi2_contingency([df.iloc[0],df.iloc[1]])

print(statistic)
print(pvalue)
print(dof)   # 자유도 =(행-1)*(열-1)
print(np.round(expected,2)) # 반올림하고 싶다면 np.round()

# (참고) print(chi2_contingency([row1,row2]))

1.708360126075226
0.4256320394874311
2
[[190.64 199.72 249.65]
 [229.36 240.28 300.35]]


In [22]:
# pvalue가 0.42로 귀무가설을 채택하므로,
# 연령대와 먹는 아이스크림의 종류는 서로 관련이 없다.

# 답 : 채택

In [23]:
# (추가) 만약 데이터의 형태가 다를 경우?
# tip : pd.crosstab() 사용방법
# (case1) 만약 데이터가 아래와 같이 주어진다면?

df = pd.DataFrame({
    '아이스크림':['딸기','초코','바닐라','딸기','초코','바닐라'],
    '연령':['10대','10대','10대','20대','20대','20대'],
    '인원':[200,190,250,220,250,300]
})

df

Unnamed: 0,아이스크림,연령,인원
0,딸기,10대,200
1,초코,10대,190
2,바닐라,10대,250
3,딸기,20대,220
4,초코,20대,250
5,바닐라,20대,300


In [24]:
# pd.crosstab(index = , columns = , values = , aggfunc=sum)
table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc=sum)
table

# 주의 : index, columns에 순서를 꼭 확인하기
print(table)

아이스크림   딸기  바닐라   초코
연령                  
10대    200  250  190
20대    220  300  250


In [25]:
# 3. 검정실시(통계량,p-value,기대값 확인)
from scipy.stats import chi2_contingency

# 위와 같이 교차표 만들어서 입력
statistic, pvalue, dof, expected = chi2_contingency(table)
# 공식문서상에 : statistic(통계량), pvalue, dof(자유도), expected_freq(기대값)

print(statistic)
print(pvalue)
print(dof)       # 자유도 = (행-1)*(열-1)
print(np.round(expected,2)) # array 형태 : 반올림하고 싶다면 np.round()

1.708360126075226
0.4256320394874311
2
[[190.64 249.65 199.72]
 [229.36 300.35 240.28]]


In [26]:
# 유의확률이 0.4256이므로, 귀무가설을 채택하므로,
# 연령대와 먹는 아이스크림의 종류는 서로 관련이 없다.

# 답 : 채택

In [27]:
# (Case2) 만약 데이터가 아래와 같이 주어진다면?
# 이해를 위한 참고용입니다. 빈도수 카운팅

df = pd.DataFrame({
    '아이스크림':['딸기','초코','바닐라','딸기','초코','바닐라'],
    '연령':['10대','10대','10대','20대','20대','20대']
})

df

Unnamed: 0,아이스크림,연령
0,딸기,10대
1,초코,10대
2,바닐라,10대
3,딸기,20대
4,초코,20대
5,바닐라,20대


In [28]:
# pd.crosstab(index, columns)
pd.crosstab(df['연령'],df['아이스크림'])

아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,1,1,1
20대,1,1,1


In [29]:
# 문제 2-2
# 타이타닉 데이터에서 성별(sex)과 생존여부(survived) 변수간 독립성 검정을 실시하시오.

import seaborn as sns
df = sns.load_dataset('titanic')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [30]:
# pd.croesstab(index, columns)
table = pd.crosstab(df['sex'], df['survived'])
print(table)

survived    0    1
sex               
female     81  233
male      468  109


In [31]:
# 1. 가설설정
# 귀무가설 : 성별과 생존여부는 서로 관련이 없다(두변수는 서로 독립이다)
# 대립가설 : 성별과 생존여부는 서로관련이 있다(두변수는 서로 독립이 아니다)

In [32]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [33]:
# 3. 검정실시(통계량, p-value, 기대값 확인)
from scipy.stats import chi2_contingency

# 위와 같이 교차표 만들어서 입력
statistic, pvalue, dof, expected = chi2_contingency(table)
# 공식문서상에 statistic(통계량), pvalue, dof(자유도), expected_freq(기대값)

print(statistic)
print(pvalue)
print(dof)     # 자유도 = (행-1)*(열-1)
print(np.round(expected,2))

260.71702016732104
1.1973570627755645e-58
1
[[193.47 120.53]
 [355.53 221.47]]


In [34]:
# 유의확률이 0.05보다 작으므로 귀무가설을 기각하고,
# 성별과 생존여부는 서로 관련이 있다.

# 답 : 기각

In [35]:
# 데이터를 변경해보면서 이해해봅시다

# 임의 데이터 생성
sex, survived = [160, 160], [250, 220]
table = pd.DataFrame([sex, survived], columns=['0','1'], index=['female','male'])
print(table)

          0    1
female  160  160
male    250  220


In [36]:
# 3. 검정실시(통계량, p-value, 기대값 확인)
from scipy.stats import chi2_contingency

# 위와 같이 교차표 만들어서 입력
statistic, pvalue, dof, expected = chi2_contingency(table)
# 공식문서상에 statistic(통계량), pvalue, dof(자유도), expected_freq(기대값)

print(statistic)
print(pvalue)
print(dof)
print(np.round(expected,2))

0.6541895872879862
0.41861876333789727
1
[[166.08 153.92]
 [243.92 226.08]]


In [37]:
# 유의확률이 0.4186이므로, 귀무가설을 채택하므로,
# 성별과 생존여부는 서로 관련이 없다.

# 답 : 채택

- 다중회귀분석 및 상관분석
- 다중회귀분석

In [1]:
import numpy as np
import pandas as pd

In [4]:
# 당뇨병 환자의 질병 진행정도 데이터셋

# 데이터 불러오기
from sklearn.datasets import load_diabetes

# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']

- 1.sklearn 라이브러리 활용

In [5]:
from sklearn.linear_model import LinearRegression

In [6]:
# 독립변수와 종속변수 설정
x = x[['age','sex','bmi']]
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
   target
0   151.0
1    75.0
2   141.0
3   206.0
4   135.0


- 회귀식 : y=b0+b1x1+b2x2+b3x3 (x1=age,x2=sex,x3=bmi)

In [7]:
# 모델링
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x,y)

LinearRegression()

In [8]:
# 회귀분석 관련 지표 출력

# 1. Rsq(결정계수) : model.score(x,y)
model.score(x,y)
print(round(model.score(x,y), 2))

0.35


In [9]:
# 2. 회귀계수 출력 : model.coef_
print(np.round(model.coef_,2))         # 전체 회귀계수
print(np.round(model.coef_[0,0],2))    # x1의 회귀계수
print(np.round(model.coef_[0,1],2))    # x2의 회귀계수
print(np.round(model.coef_[0,2],2))    # x3의 회귀계수

[[138.9  -36.14 926.91]]
138.9
-36.14
926.91


In [10]:
# 3. 회귀계수(절편) : model.intercept_
print(np.round(model.intercept_,2))

[152.13]


- 회귀식 : y=b0+b1x1+b2x2+b3x3 (x1=age,x2=sex,x3=bmi)
- y=152.13=138.9*age-36.14*sex+926.91*bmi

2. statsmodels 라이브러리 사용

In [11]:
# 데이터 불러오기
from sklearn.datasets import load_diabetes

# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']

In [12]:
# statsmodel.formula 활용
import statsmodels.api as sm

# 독립변수와 종속변수 설정
x = x[['age','sex','bmi']]
y = y['target']
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [15]:
# 모델링
import statsmodels.api as sm

x = sm.add_constant(x)              # 주의 : 상수항 추가해줘야 함
model = sm.OLS(y,x).fit()

# y_pred = model.predict(x)
summary = model.summary()
print(summary)

                            OLS Regression Results                            
Dep. Variable:                 target   R-squared:                       0.351
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     78.94
Date:                Fri, 19 Jan 2024   Prob (F-statistic):           7.77e-41
Time:                        16:30:43   Log-Likelihood:                -2451.6
No. Observations:                 442   AIC:                             4911.
Df Residuals:                     438   BIC:                             4928.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.964     51.321      0.0

In [16]:
# 1. Rsq(결정계수)
# r2 = 0.351

# 2. 회귀계수
# age = 138.9039
# sex = -36.1353
# bmi = 926.9120

# 3. 회귀계수(절편)
# const = 152.1335

# 4. 회귀식 p-value
# p-value = 7.77e-41

- (결과 비교해보기) 두 라이브러리 모두 같은 결과값을 출력
- 회귀식 : y=b0+b1x1+b2x2+b3x3 (x1=age,x2=sex,x3=bmi)
- sklearn : y=152.13=138.9*age-36.14*sex+926.91*bmi
- statsmodel : y=152.13=138.9*age-36.14*sex+926.91*bmi

- 상관분석

In [17]:
# 데이터 불러오기
from sklearn.datasets import load_diabetes

# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']

In [18]:
# 상관분석을 할 2가지 변수 설정
x = x['bmi']
y = y['target']

print(x.head())
print(y.head())

0    0.061696
1   -0.051474
2    0.044451
3   -0.011595
4   -0.036385
Name: bmi, dtype: float64
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [20]:
# 라이브러리 불러오기
from scipy.stats import pearsonr

# 상관계수에 대한 검정실시
r, pvalue = pearsonr(x,y)

# 가설검정
# 귀무가설 : 두변수간 선형관계가 존재하지 않는다(로우가 0이다)
# 대립가설 : 두변수간 선형관계가 존재한다(로우가 0이 아니다)

# 1. 상관계수
print(round(r,2))

# 2. p-value
print(round(pvalue,2))

# 3. 검정통계량
# 통계량은 별도로 구해야 함
# (r * root(n-2) / root(1-r2))
# r = 상관계수, n = 데이터의 개수

n = len(x)    # 데이터수
r2 = r**2    # 상관계수의 제곱
statistic = r*((n-2)**0.5)/((1-r2)**0.5)
print(round(statistic,2))

# 4. 귀무가설 기각여부 결정(채택/기각)
# p-value가 0.05보다 작으므로 귀무가설을 기각
# 즉, 두 변수간 선형관계가 존재한다고 할 수 있다.
# 상관계수가 0이 아니다

# 답 : 기각

0.59
0.0
15.19


- 제3유형_로지스틱회귀분석
- 타이타닉 데이터 불러오기(생존자 예측 데이터)

In [13]:
# 데이터 불러오기
import pandas as pd
import numpy as np

import seaborn as sns
df = sns.load_dataset('titanic')

In [14]:
print(df.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  


In [15]:
# 분석 데이터 설정
df = df[['survived','sex','sibsp','fare']]

print(df.head())

   survived     sex  sibsp     fare
0         0    male      1   7.2500
1         1  female      1  71.2833
2         1  female      0   7.9250
3         1  female      1  53.1000
4         0    male      0   8.0500


- 회귀식:p(1일 확률)=1/(1+exp(-f(x)))
- f(x)=b0+b1x1+b2x2+b3x3
- ln(p/1-p)=b0+b1x1+b2x2+b3x3
- (p=생존할확률, x1=sex,x2=sibsp,x3=fare)

In [16]:
# 데이터 전처리
# 변수처리
# 문자형 타입의 데이터일 경우 숫자로 변경해준다

# 성별을 map 함수를 활용해서 각각 1과 0에 할당한다(여성을 1, 남성을 0)
# 실제 시허의 지시조건에 따를 것
df['sex']=df['sex'].map({'female':1,'male':0})
print(df.head())

   survived  sex  sibsp     fare
0         0    0      1   7.2500
1         1    1      1  71.2833
2         1    1      0   7.9250
3         1    1      1  53.1000
4         0    0      0   8.0500


In [17]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  891 non-null    int64  
 1   sex       891 non-null    int64  
 2   sibsp     891 non-null    int64  
 3   fare      891 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 28.0 KB
None


- 1.sklearn 라이브러리 활용

In [18]:
# 독립변수와 종속변수 설정
x = df.drop(['survived'], axis=1)
y = df['survived']

- (주의) LogisticRegression() 객체안에 반드시 penalty=None으로 입력해야 함

In [21]:
# 모델링
from sklearn.linear_model import LogisticRegression

# 반드시 penalty=None으로 입력해야 할 것입 default='l2'
model = LogisticRegression(penalty = 'none')
model.fit(x,y)

LogisticRegression(penalty='none')

In [22]:
# 로지스틱회귀분석 관련지표출력

# 1. 회귀계수 출력 : model.coef_
print(np.round(model.coef_,4))
print(np.round(model.coef_[0,0],4))
print(np.round(model.coef_[0,1],4))
print(np.round(model.coef_[0,2],4))

# 2. 회귀계수(절편) : model.intercept_
print(np.round(model.intercept_,4))

[[ 2.5668 -0.4017  0.0138]]
2.5668
-0.4017
0.0138
[-1.6964]


- 회귀식:p(1일 확률)=1/(1+exp(-f(x)))
- f(x)=b0+b1x1+b2x2+b3x3
- ln(p/1-p)=b0+b1x1+b2x2+b3x3
- (p=생존할확률, x1=sex,x2=sibsp,x3=fare)

- 결과:ln(p/1-p)=-1.6964+2.5668sex-0.4017sibsp+0.0138fare

In [25]:
# 3-1.로지스틱 회귀모형에서 sibsp변수가 한단위 증가할 때 생존할 오즈가 몇배 증가하는지
# 반올림하여 소수점 첫째 자리까지 구하시오.

# exp(b2)
result = np.exp(model.coef_[0,1])
print(round(result,3))

# 해석 : sibsp변수가 한단위 증가할 때마다 생존할 오즈가 0.669배 증가한다.
#        생존할 오즈가 33% 감소한다.(생존할 확률이 감소한다.)

0.669


In [26]:
# 3-2.로지스틱 회귀모형에서 여성일 경우, 남성에 비해 생존할 오즈가 몇배 증가하는지
# 반올림하여 소수점 첫째 자리까지 구하시오.

# exp(b2)
result = np.exp(model.coef_[0,0])
print(round(result,3))

# 해석 : 여성일 경우 남성에 비해 생존할 오즈가 0.669배 증가한다.
#        생존할 오즈가 13배 증가한다.(생존할 확률이 증가한다.)

13.024


- 2. statsmodels 라이브러리 사용

- (주의) 실제오즈가 몇배 증가했는지 계산하는 문제가 나온다면
- sklearn 라이브러리를 사용하여 회귀계수를 직접구해서 계산할 것
- (소수점이 결과에 영향을 줄 수 있음)

In [27]:
# 모델링
import statsmodels.api as sm

x = sm.add_constant(x)             # 주의 : 상수항 추가해줘야 함
model2 = sm.Logit(y,x).fit()       # 주의할 것 : y,x 순으로 입력해야 함
summary = model2.summary()
print(summary)

Optimization terminated successfully.
         Current function value: 0.483846
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               survived   No. Observations:                  891
Model:                          Logit   Df Residuals:                      887
Method:                           MLE   Df Model:                            3
Date:                Sat, 20 Jan 2024   Pseudo R-squ.:                  0.2734
Time:                        15:02:24   Log-Likelihood:                -431.11
converged:                       True   LL-Null:                       -593.33
Covariance Type:            nonrobust   LLR p-value:                 5.094e-70
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.6964      0.129    -13.134      0.000      -1.950      -1.443
sex            2.5668      0.

- 회귀식:p(1일 확률)=1/(1+exp(-f(x)))
- f(x)=b0+b1x1+b2x2+b3x3
- ln(p/1-p)=b0+b1x1+b2x2+b3x3
- (p=생존할확률, x1=sex,x2=sibsp,x3=fare)

- 1.sklearn:ln(p/1-p)=-1.6964+2.5668sex-0.4017sibsp+0.0138fare
- 2.statsmodel:ln(p/1-p)=-1.6964+2.5668sex-0.4017sibsp+0.0138fare