## 모집단 1개(집단의 평균 vs 특정값)

In [1]:
# 검정방법
# 1) (정규성O) 단일표본 t검정(1sample t-test)
# 2) (정규성X) 윌콕슨 부호순위 검정

In [2]:
# 가설검정 순서(중요!!)
# 1. 가설설정
# 2. 유의수준 확인
# 3. 정규성 검정
# 4. 검정실시(통계량, p-value 확인)
# 5. 귀무가설 기각여부 결정(채택/기각)

In [3]:
import pandas as pd
import numpy as np
df = pd.read_csv('mtcars.csv')
df.head(3)

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


In [5]:
# 1. mtcars 데이터셋의 mpg열 데이터의 평균이 20과 같다고 할 수 있는지 검정하시오. 유의수준 5%
import scipy.stats as stats
from scipy.stats import shapiro
# 1. 가설설정
# H0 : mpg열의 평균이 20과 같다.
# H1 : mpg열의 평균이 20과 같지 않다.
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 정규성 검정
# H0 : 정규분포를 따른다.
# H1 : 정규분포를 따르지 않는다.
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))
result = stats.shapiro(df['mpg'])
print(result)

0.9476 0.1229
ShapiroResult(statistic=0.9475647265971182, pvalue=0.12288135948636081)


In [6]:
# p-value 값이 유의수준(0.05)보다 크다. 귀무가설(H0) 채택
# 만약 정규분포를 따르지 않는다면 비모수 검정방법을 써야함(윌콕슨의 부호순위 검정)

In [7]:
# 4.1 (정규성만족 O) t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=20, alternative='two-sided')
# H1 : 왼쪽값과 오른쪽값이 같지 않다.
print(round(statistic, 4), round(pvalue, 4))

0.0851 0.9328


In [8]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-20, alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))

249.0 0.7891


In [9]:
# 5. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기 때문에 귀무가설을 채택한다
# 즉, mpg열의 평균이 20과 같다고 할 수 있다.
# 답 : 채택
df['mpg'].mean()

20.090625000000003

In [10]:
# 2. mtcars 데이터셋의 mpg열 데이터의 평균이 17보다 크다고 할 수 있는지 검정하시오.(유의수준 5%)
# 1. 가설설정
# H0 : mpg열의 평균이 17보다 작거나 같다 (mpg mean <= 17)
# H1 : mpg열의 평균이 17보다 크다 (mpg mean > 17)
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 정규성 검정
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

0.9476 0.1229


In [11]:
# 4.1 (정규성만족 O) t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=17, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

2.9008 0.0034


In [12]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

395.5 0.0066


In [13]:
# 5. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다. 대립가설 채택
# 즉, mpg 열의 평균이 17보다 크다고 할 수 있다.
# 답 : 기각

In [14]:
# 3. mtcars 데이터셋의 mpg열 데이터의 평균이 17보다 작다고 할 수 있는지 검정하시오.(유의수준 5%)
# 1. 가설설정
# H0 : mpg열 데이터의 평균이 17보다 크거나 같다. mpg mean >= 17
# H1 : mpg열 데이터의 평균이 17보다 작다 mpg mean < 17
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 정규성 검정
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

0.9476 0.1229


In [15]:
# 4.1 (정규성만족 O) t-검정 실시
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=17, alternative='less')
print(round(statistic, 4), round(pvalue, 4))

2.9008 0.9966


In [16]:
# 4.2 (정규성만족 X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='less')
print(round(statistic, 4), round(pvalue, 4))

395.5 0.9938


In [17]:
# 5. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크므로 귀무가설 채택
# 즉, mpg열 데이터의 평균이 17보다 크거나 같다고 할 수 있다.
# 답 : 채택

## 모집단 2개

In [1]:
# 1. 대응표본(쌍체) : 동일한 객체의 전 vs 후 평균비교
# (정규성O) 대응표본(쌍체)t검정(paired t-test) : 동일한 객체의 전 vs 후 평균비교
# (정규성X) 윌콕슨 부호순위 검정(wilcoxon)
# 2. 독립표본 : A집단의 평균 vs B집단의 평균
# (정규성O) 독립표본t검정(2sample t-test)
# (정규성X) 윌콕슨의 순위합 검정(ranksums)

In [2]:
# 가설검정 순서(중요)
# 1. 대응표본(쌍체) t검정(paired t-test)
# 1. 가설설정
# 2. 유의수준 확인
# 3. 정규성 검정 (주의) 차이값에 대한 정규성
# 4. 검정실시(통계량, p-value 확인)
# 5. 귀무가설 기각여부 결정(채택/기각)

In [3]:
# 2. 독립표본 t검정(2sample t-test)
# 1. 가설설정
# 2. 유의수준 확인
# 3. 정규성 검정 (주의) 두 집단 모두 정규성을 따를 경우!
# 4. 등분산 검정
# 5. 검정실시(통계량, p-value 확인) (주의) 등분산 여부 확인
# 6. 귀무가설 기각여부 결정(채택/기각)

In [4]:
# Case 1) 대응표본(쌍체)t검정(paired t-test)
# 다음은 혈압약을 먹은 전,후의 혈압 데이터이다.
# 혈압약을 먹기 전,후의 차이가 있는지 쌍체 t검정을 실시하시오 (유의수준 5%)
# before : 혈압약을 먹기 전 혈압, after : 혈압약을 먹은 후의 혈압
# H0(귀무가설) : after - before = 0
# H1(대립가설) : after - before != 0 

In [5]:
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import shapiro

In [6]:
 #	데이터	만들기
df	=	pd.DataFrame(	{
	'before':	[120,	135,	122,	124,	135,	122,	145,	160,	155,	142,	144,	135,	167],
	'after'	:	[110,	132,	123,	119,	123,	115,	140,	162,	142,	138,	135,	142,	160]	})
 print(df.head(3))

   before  after
0     120    110
1     135    132
2     122    123


In [7]:
# 1. 가설설정
# H0 : 약을 먹기전과 먹은 후의 혈압 평균은 같다(효과가 없다)
# H1 : 약을 먹기전과 먹은 후의 혈압 평균은 같지 않다(효과가 있다)
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 정규성 검정 (차이값에 대해 정규성 확인)
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statistic, 4), round(pvalue, 4))

0.9589 0.7363


In [8]:
# p-value 값이 유의수준(0.05)보다 크다.  귀무가설(H0) 채택(정규성검정의 H0 : 정규분포를 따른다)

In [9]:
# 4.1 (정규성O) 대응표본(쌍체) t검정(paired t-test)
statistic, pvalue = stats.ttest_rel(df['after'], df['before'], alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))

-3.1382 0.0086


In [10]:
# 4.2 (정규성X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['after']-df['before'], alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))

11.0 0.0134


In [11]:
# 5. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다.
# 즉, 약을 먹기 전과 먹은 후의 혈압 평균은 같지 않다(효과가 있다)
# 답 : 기각

In [12]:
# 혈압약을 먹은 후 혈압이 감소했는지 확인하기 위해 쌍체 t검정을 실시하시오 (유의수준 5%)
# H0 : after - before >= 0
# H1 : after - before < 0

In [13]:
# 1. 가설설정
# H0 : 혈압약을 먹은 후 혈압이 같거나 증가했다. (after - before >= 0)
# H1 : 혈압약을 먹은 후 혈압이 감소했다. (after - before < 0)
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 정규성 검정
# H0 : 차이값 정규분포를 따른다
# H1 : 차이값 정규분포를 따르지 않는다.
statistic, pvalue = stats.shapiro(df['after']-df['before'])
print(round(statistic, 4), round(pvalue, 4))

0.9589 0.7363


In [14]:
# 4.1 (정규성O) 대응표본 t검정
statistic, pvalue = stats.ttest_rel(df['after'], df['before'], alternative='less')
print(round(statistic, 4), round(pvalue, 4))

-3.1382 0.0043


In [15]:
# 4.2 (정규성X) wilcoxon 부호순위 검정
statistic, pvalue = stats.wilcoxon(df['after']-df['before'], alternative='less')
print(round(statistic, 4), round(pvalue, 4))

11.0 0.0067


In [16]:
# 5. 귀무가설 기각여부 결정(채택/기각)
# p-value가 0.05보다 작으므로 귀무가설 기각
# 즉, 혈압약을 먹은 후 혈압 평균이 감소했다.
# 답 : 기각

In [17]:
# Case 2) 독립표본t검정(2sample t-test)
# 다음은 A그룹과 B그룹 인원의 혈압 데이터이다.
# 두 그룹의 혈압평균이 다르다고 할 수 있는지 독립표본 t검정을 실시하시오. (유의수준 5%)
# A : A그룹 인원의 혈압, B : B그룹 인원의 혈압
# H0(귀무가설) : A = B
# H1(대립가설) : A != B

In [18]:
#	데이터	만들기
df = pd.DataFrame({
				'A': [120,	135,	122,	124,	135,	122,	145,	160,	155,	142,	144,	135,	167],
				'B'	: [110,	132,	123,	119,	123,	115,	140,	162,	142,	138,	135,	142,	160]})
print(df.head(3))

     A    B
0  120  110
1  135  132
2  122  123


In [19]:
# 1. 가설설정
# H0 : A그룹과 B그룹의 혈압 평균은 같다. (A=B)
# H1 : A그룹과 B그룹의 혈압 평균은 같지 않다. (A!=B)
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 정규성 검정
# H0(귀무가설) : 정규분포를 따른다.
# H1(대립가설) : 정규분포를 따르지 않는다.
statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticA, 4), round(pvalueA, 4))
print(round(statisticB, 4), round(pvalueB, 4))

0.9314 0.3558
0.9498 0.5956


In [20]:
# p-value 값이 유의수준(0.05)보다 크다. 귀무가설(H0) 채택
# 만약 하나라도 정규분포를 따르지 않는다면 비모수 검정방법을 써야 함 (윌콕슨의 순위합 검정 ranksums)

In [21]:
# 4. 등분산성 검정
# H0(귀무가설) : 등분산 한다.
# H1(대립가설) : 등분산 하지 않는다.
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic, 4), round(pvalue, 4))

0.0279 0.8673


In [22]:
# p-value 값이 유의수준(0.05)보다 크다. 귀무가설(H0) 채택 => 등분산성을 따른다고 할 수 있다.

In [23]:
# 5.1 (정규성O, 등분산성 O/X) t검정
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=True, alternative='two-sided')
# 만약 등분산 하지 않으면 False로 설정
print(round(statistic, 4), round(pvalue, 4))

0.8192 0.4207


In [24]:
# 5.2 (정규성X) 윌콕슨의 순위합 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))

0.8462 0.3975


In [25]:
# 6. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기 때문에 귀무가설 채택한다
# 즉, A그룹과 B그룹의 혈압 평균은 같다고 할 수 있다.
# 답 : 채택

In [26]:
print(round(df['A'].mean(), 4))
print(round(df['B'].mean(), 4))

138.9231
133.9231


In [27]:
# A그룹의 혈압 평균이 B그룹보다 크다고 할 수 있는지 독립표본 t검정을 실시하시오. (유의수준 5%)
# H0 : A - B <= 0 (A<=B) 
# H1 : A - B > 0 (A>B)

In [35]:
# 1. 가설설정
# H0 : A그룹의 혈압 평균이 B그룹보다 작거나 같다.
# H1 : A그룹의 혈압 평균이 B그룹보다 크다
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 정규성 검정
import scipy.stats as stats
from scipy.stats import shapiro
statisticA, pvalueA = stats.shapiro(df['A'])
statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticA, 4), round(pvalueA, 4))
print(round(statisticB, 4), round(pvalueB, 4))

0.9314 0.3558
0.9498 0.5956


In [29]:
# 두 집단 모두 정규성 만족

In [30]:
# 4. 등분산성 검정
# H0 : 등분산한다.
# H1 : 등분산하지 않는다.
statistic, pvalue = stats.bartlett(df['A'], df['B'])
print(round(statistic, 4), round(pvalue, 4))

0.0279 0.8673


In [31]:
# 등분산 한다.

In [32]:
# 5.1 (정규성O, 등분산O) 독립표본 t검정
statistic, pvalue = stats.ttest_ind(df['A'], df['B'], equal_var=True, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

0.8192 0.2104


In [36]:
# 5.2 (정규성X) 윌콕슨 순위합 검정
statistic, pvalue = stats.ranksums(df['A'], df['B'], alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

0.8462 0.1987


In [34]:
# 6. 귀무가설 기각여부 결정(채택/기각)
# p-value 가 0.05보다 크므로 귀무가설 채택
# 즉, A가 B보다 크다고 할 수 없다. 작거나 같다
# 답 : 채택

## 모집단 3개 이상

In [37]:
# 검정방법
# 1. 분산분석(ANOVA) : A집단 vs B집단 vs C집단 vs ...
# (정규성O) ANOVA분석
# (정규성X) 크루스칼-왈리스 검정(kruskal-wallis test)

In [38]:
# 가설검정 순서(중요)
# 1. 가설설정
# 2. 유의수준 확인
# 3. 정규성 검정 (주의) 집단 모두 정규성을 따를 경우!
# 4. 등분산 검정
# 5. 검정실시(통계량, p-value확인) (주의) 등분산여부 확인
# 6. 귀무가설 기각여부 결정(채택/기각)

In [39]:
# 다음은 A, B, C 그룹 인원 성적 데이터이다.
# 세 그룹의 성적 평균이 같다고 할 수 있는지 ANOVA 분석을 실시하시오. (유의수준 5%)
# A, B, C : 각 그룹 인원의 성적
# H0(귀무가설) : A(평균) = B(평균) = C(평균)
# H1(대립가설) : Not H0 (적어도 하나는 같지 않다)

In [40]:
import pandas as pd
import numpy as np
import scipy.stats as stats
from scipy.stats import shapiro

In [41]:
 #	데이터	만들기
df = pd.DataFrame(	{
	'A': [120,	135,	122,	124,	135,	122,	145,	160,	155,	142,	144,	135,	167],
	'B'	: [110,	132,	123,	119,	123,	115,	140,	162,	142,	138,	135,	142,	160],
	'C'	: [130,	120,	115,	122,	133,	144,	122,	120,	110,	134,	125,	122,	122]})
 print(df.head(3))

     A    B    C
0  120  110  130
1  135  132  120
2  122  123  115


In [43]:
# 1. 가설설정
# H0 : 세 그룹 성적의 평균값이 같다. (A(평균) = B(평균) = C(평균))
# H1 : 세 그룹의 성적 평균값이 적어도 하나는 같지 않다. (not H0)
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 정규성 검정
print(stats.shapiro(df['A']))
print(stats.shapiro(df['B']))
print(stats.shapiro(df['C']))

ShapiroResult(statistic=0.9314373738322363, pvalue=0.35584957364120257)
ShapiroResult(statistic=0.9498199298581277, pvalue=0.5955637454032426)
ShapiroResult(statistic=0.9396706636806645, pvalue=0.4526517552551474)


In [45]:
# 세 집단 모두 p-value 값이 유의수준(0.05) 보다 크다. 귀무가설(H0)채택 => 정규분포를 따른다고 할 수 있다.
# 만약 하나라도 정규분포를 따르지 않는다면 비모수 검정방법을 써야 함 (크루스칼-왈리스 검정)

In [47]:
# 4. 등분산성 검정
# H0(귀무가설) : 등분산 한다.
# H1(대립가설) : 등분산 하지 않는다.
print(stats.bartlett(df['A'], df['B'], df['C']))

BartlettResult(statistic=4.222248448848066, pvalue=0.12110174433684852)


In [48]:
# p-value 값이 유의수준(0.05)보다 크다. 귀무가설(H0)채택 => 등분산 한다고 할 수 있다.

In [49]:
# 5.1 (정규성O, 등분산성 O) 분산분석(F_oneway)
statistic, pvalue = stats.f_oneway(df['A'], df['B'], df['C'])
print(round(statistic, 4), round(pvalue, 4))

3.6971 0.0346


In [50]:
# 5.2 (정규성O, 등분산성X) Welch-ANOVA 분석
# import pingouin as pg # pingouin 패키지 미지원
# pg.welch_anova(dv='그룹변수명', between='성적데이터', data=데이터)
# pg.welch_anova(df['A'], df['B'], df['C']) 형태로 분석 불가

In [51]:
# 5.3 (정규성X) 크루스칼 왈리스 검정
statistic, pvalue = stats.kruskal(df['A'], df['B'], df['C'])
print(round(statistic, 4), round(pvalue, 4))

6.897 0.0318


In [52]:
# 6. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다. (대립가설채택)
# 즉, A, B, C 그룹의 성적 평균이 같다고 할 수 없다.
# 답 : 기각

In [53]:
# 데이터 형태가 다를 경우
#	데이터	만들기
df2	= pd.DataFrame(	{
 '항목': ['A','A','A','A','A','A','A','A','A','A','A','A','A',
         'B','B','B','B','B','B','B','B','B','B','B','B','B',
         'C','C','C','C','C','C','C','C','C','C','C','C','C',],
 'value': [120,	135,	122,	124,	135,	122,	145,	160,	155,	142,	144,	135,	167,
 110,	132,	123,	119,	123,	115,	140,	162,	142,	138,	135,	142,	160,
 130,	120,	115,	122,	133,	144,	122,	120,	110,	134,	125,	122,	122]
 })
print(df2.head(3))

  항목  value
0  A    120
1  A    135
2  A    122


In [54]:
a = df2[df2['항목']=='A']['value']
b = df2[df2['항목']=='B']['value']
c = df2[df2['항목']=='C']['value']
print(a, b, c)

0     120
1     135
2     122
3     124
4     135
5     122
6     145
7     160
8     155
9     142
10    144
11    135
12    167
Name: value, dtype: int64 13    110
14    132
15    123
16    119
17    123
18    115
19    140
20    162
21    142
22    138
23    135
24    142
25    160
Name: value, dtype: int64 26    130
27    120
28    115
29    122
30    133
31    144
32    122
33    120
34    110
35    134
36    125
37    122
38    122
Name: value, dtype: int64


In [56]:
print(stats.shapiro(a))
print(stats.shapiro(b))
print(stats.shapiro(c))

ShapiroResult(statistic=0.9314373738322363, pvalue=0.35584957364120257)
ShapiroResult(statistic=0.9498199298581277, pvalue=0.5955637454032426)
ShapiroResult(statistic=0.9396706636806645, pvalue=0.4526517552551474)


In [57]:
statistic, pvalue = stats.bartlett(a,b,c)
print(round(statistic, 4), round(pvalue, 4))

4.2222 0.1211


In [59]:
statistic, pvalue = stats.f_oneway(a,b,c)
print(round(statistic, 4), round(pvalue, 4))

3.6971 0.0346


In [60]:
statistic, pvalue = stats.kruskal(a,b,c)
print(round(statistic, 4), round(pvalue, 4))

6.897 0.0318


## 카이제곱 검정

In [61]:
# Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
# Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?

In [62]:
# 가설검정 순서(중요!!)
# 1. 가설설정
# 2. 유의수준 확인
# 3. 검정실시(통계량, p-value확인, 기대빈도 확인)
# 4. 귀무가설 기각여부 결정(채택/기각)

In [64]:
# Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
# 랜덤 박스에 상품 A, B, C, D가 들어있다.
# 다음은 랜덤박스에서 100번 상품을 꺼냈을 때의 상품 데이터라고 할 때 
# 상품이 동일한 비율로 들어있다고 할 수 있는지 검정해보시오.

In [65]:
import pandas as pd
import numpy as np
#	데이터	생성
row1 = [30,	20,	15,	35]
df = pd.DataFrame([row1], columns=['A','B','C',	'D'])
df

Unnamed: 0,A,B,C,D
0,30,20,15,35


In [66]:
# 1. 가설설정
# H0 : 랜덤박스에 상품 A, B, C, D가 동일한 비율로 들어있다.
# H1 : 랜덤박스에 상품 A, B, C, D가 동일한 비율로 들어있지 않다.

In [67]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [69]:
# 3. 검정실시(통계량, p-value)
from scipy.stats import chisquare
# chisquare(f_obs=f_obs, f_exp=f_exp) # 관측빈도, 기대빈도
# 관측빈도와 기대빈도 구하기
f_obs = [30, 20, 15, 35]
# f_obs = df.iloc[0]
f_exp = [25, 25, 25, 25]

statistic, pvalue = chisquare(f_obs=f_obs, f_exp=f_exp)
print(round(statistic, 4), round(pvalue, 4))
# 자유도는 n-1 = 3

10.0 0.0186


In [70]:
# 4. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다
# 즉, 랜덤박스에 상품 A, B, C, D가 동일한 비율로 들어있지 않다고 할 수 있다.
# 답 : 기각

In [71]:
# 랜덤박스에 상품 A, B, C가 들어있다.
# 다음은 랜덤박스에서 150번 상품을 꺼냈을 때의 상품 데이터라고 할 때
# 상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있는지 검정해보시오.

In [72]:
 #	데이터	생성
row1 = [50,25,75]
df = pd.DataFrame([row1], columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,50,25,75


In [73]:
# 1. 가설설정
# H0 : 상품별로 A 30%, B 15%, C 55% 비율로 들어있다.
# H1 : 상품별로 A 30%, B 15%, C 55% 비율로 들어있지 않다.
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 검정실시
from scipy.stats import chisquare
statistic, pvalue = chisquare(f_obs=df.iloc[0], f_exp=[150*0.3, 150*0.15, 150*0.55])
print(round(statistic, 4), round(pvalue, 4)) # 자유도는 2

1.5152 0.4688


In [76]:
# 4. 귀무가설 기각여부 결정(채택/기각)
# p-value 가 0.05보다 크므로 귀무가설 채택
# 즉, 상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있다.
# 답 : 채택

In [77]:
# Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?
# 연령대에 따라 먹는 아이스크림의 차이가 있는지 독립성 검정을 실시하시오.

In [78]:
 #	데이터	생성
row1, row2 = [200,	190, 250], [220, 250, 300]
df = pd.DataFrame([row1,	row2],	columns=['딸기','초코','바닐라'],	index=['10대',	'20대'])
df

Unnamed: 0,딸기,초코,바닐라
10대,200,190,250
20대,220,250,300


In [79]:
# 1. 가설설정
# H0 : 연령대와 먹는 아이스크림의 종류는 서로 관련이 없다(두 변수는 서로 독립이다)
# H1 : 연령대와 먹는 아이스크림의 종류는 서로 관련이 있다(두 변수는 서로 독립이 아니다)

In [80]:
# 2. 유의수준 확인 : 유의수준 5%로 확인

In [81]:
# 3. 검정실시(통계량, p-value, 기대빈도 확인)
from scipy.stats import chi2_contingency
statistic, pvalue, dof, expected = chi2_contingency(df)
# statistic(통계량), pvalue, dof(자유도), expected_freq(기대빈도)

# 아래와 같이 입력해도 동일한 결과값
# statistic, pvalue, dof, expected = chi2_contingency([row1, row2])
# statistic, pvalue, dof, expected = chi2_contingency([df.iloc[0], df.iloc[1]])

print(statistic)
print(pvalue)
print(dof)
print(np.round(expected,2))
print('--------------------')
print(chi2_contingency(df))

1.708360126075226
0.4256320394874311
2
[[190.64 199.72 249.65]
 [229.36 240.28 300.35]]
--------------------
Chi2ContingencyResult(statistic=1.708360126075226, pvalue=0.4256320394874311, dof=2, expected_freq=array([[190.63829787, 199.71631206, 249.64539007],
       [229.36170213, 240.28368794, 300.35460993]]))


In [82]:
print(expected)

[[190.63829787 199.71631206 249.64539007]
 [229.36170213 240.28368794 300.35460993]]


In [83]:
# 4. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기 때문에 귀무가설 채택
# 즉, 연령대와 먹는 아이스크림의 종류는 서로 관련이 없다고 할 수 있다.
# 답 : 채택

In [84]:
# 만약 데이터 형태가 다를 경우?
#	★	tip	:	pd.crosstab()	사용방법
#	(Case1)	만약	데이터가	아래와	같이	주어진다면?
df	=	pd.DataFrame({
 '아이스크림'	:	['딸기','초코','바닐라','딸기','초코','바닐라'],
 '연령'	:	['10대','10대','10대','20대','20대','20대'],
 '인원'	:	[200,190,250,220,250,300]
 })
df

Unnamed: 0,아이스크림,연령,인원
0,딸기,10대,200
1,초코,10대,190
2,바닐라,10대,250
3,딸기,20대,220
4,초코,20대,250
5,바닐라,20대,300


In [86]:
# pd.crosstab(index= , columns= , values= , aggfunc=sum)
table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc='sum')
table
# 주의 : index, columns 순서를 꼭 확인하기

아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,200,250,190
20대,220,300,250


In [88]:
# 3. 검정실시
from scipy.stats import chi2_contingency
statistic, pvalue, dof, expected = chi2_contingency(table)
print(statistic, pvalue, dof, expected)

1.708360126075226 0.4256320394874311 2 [[190.63829787 249.64539007 199.71631206]
 [229.36170213 300.35460993 240.28368794]]


In [89]:
# (Case 2) 만약 데이터가 아래와 같이 주어진다면?
# (이해를 위한 참고용, 빈도수 카운팅)
df	=	pd.DataFrame({
 '아이스크림'	:	['딸기','초코','바닐라','딸기','초코','바닐라'],
 '연령'	:	['10대','10대','10대','20대','20대','20대'],})
df

Unnamed: 0,아이스크림,연령
0,딸기,10대
1,초코,10대
2,바닐라,10대
3,딸기,20대
4,초코,20대
5,바닐라,20대


In [90]:
pd.crosstab(index=df['연령'], columns=df['아이스크림'])

아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,1,1,1
20대,1,1,1


In [91]:
# 타이타닉 데이터에서 성별(sex)과 생존여부(survived) 변수간 독립성 검정을 실시하시오.

In [92]:
import seaborn as sns
df = sns.load_dataset('titanic')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [93]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [94]:
table = pd.crosstab(index=df['sex'], columns=df['survived'])
print(table)

survived    0    1
sex               
female     81  233
male      468  109


In [95]:
# 1. 가설설정
# H0 : 성별과 생존여부는 영향을 주지 않는다. (독립이다)
# H1 : 성별과 생존여부는 서로 영향을 준다. (독립이 아니다)
# 2. 유의수준 확인 : 유의수준 5%로 확인
# 3. 검정실시
print(chi2_contingency(table))

Chi2ContingencyResult(statistic=260.71702016732104, pvalue=1.1973570627755645e-58, dof=1, expected_freq=array([[193.47474747, 120.52525253],
       [355.52525253, 221.47474747]]))


In [96]:
# 4. 귀무가설 기각여부 결정 (채택/기각)
# p-value 가 0.05보다 작으므로 귀무가설 기각 , 대립가설 채택
# 즉, 성별과 생존여부는 서로 영향을 준다
# 답 : 기각

In [97]:
# 임의 데이터 생성
sex, survived = [160,160], [250,220]
table = pd.DataFrame([sex,survived], columns=['0','1'], index=['female','male'])
print(table)

          0    1
female  160  160
male    250  220


In [98]:
# 3. 검정실시
statistic, pvalue, dof, expected = chi2_contingency(table)
print(statistic)
print(pvalue)
print(dof)
print(np.round(expected, 2))

0.6541895872879862
0.41861876333789727
1
[[166.08 153.92]
 [243.92 226.08]]


In [99]:
# 4. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 크기 때문에 귀무가설을 채택한다.
# 즉, 성별과 생존여부는 서로 관련이 없다고 할 수 있다.
# 답 : 채택

## 다중회귀분석 및 상관분석

In [100]:
# 다중회귀분석
###############		실기환경	복사	영역		###############
 #	데이터	불러오기
import	pandas	as	pd
import	numpy	as	np
#	실기	시험	데이터셋으로	셋팅하기	(수정금지)
from	sklearn.datasets	import	load_diabetes
 #	diabetes	데이터셋	로드
diabetes	=	load_diabetes()
x	=	pd.DataFrame(diabetes.data,	columns=diabetes.feature_names)
y	=	pd.DataFrame(diabetes.target)
y.columns	=	['target']
 ###############		실기환경	복사	영역		###############

In [101]:
# 1. sklearn 라이브러리 활용
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [102]:
# 독립변수와 종속변수 설정
x = x[['age','sex','bmi']]
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
   target
0   151.0
1    75.0
2   141.0
3   206.0
4   135.0


In [103]:
# 회귀식 : y = b0 + b1x1 + b2x2 +b3x3
# (x1 = age, x2 = sex, x3 = bmi)

In [104]:
# 모델링
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x, y)

In [106]:
# 회귀분석 관련지표 출력
# 1. Rsq(결정계수) : model.score(x, y)
model.score(x, y)
print(round(model.score(x, y), 2))

0.35


In [112]:
# 2. 회귀계수 출력 : model.coef_
print(np.round(model.coef_, 2)) # 전체 회귀계수
print(np.round(model.coef_[0, 0], 2)) # x1의 회귀계수
print(np.round(model.coef_[0, 1], 2)) # x2의 회귀계수
print(np.round(model.coef_[0, 2], 2)) # x3의 회귀계수

[[138.9  -36.14 926.91]]
138.9
-36.14
926.91


In [113]:
# 3. 회귀계수(절편) : model.intercept_
print(np.round(model.intercept_, 2))

[152.13]


In [114]:
# 회귀식 y = 152.13 + 138.9age -36.14sex + 926.91bmi

In [115]:
# 2. statsmodels 라이브러리 사용
###############		실기환경	복사	영역		###############
 #	데이터	불러오기
import	pandas	as	pd
import	numpy	as	np
#	실기	시험	데이터셋으로	셋팅하기	(수정금지)
from	sklearn.datasets	import	load_diabetes
 #	diabetes	데이터셋	로드
diabetes	=	load_diabetes()
x	=	pd.DataFrame(diabetes.data,	columns=diabetes.feature_names)
y	=	pd.DataFrame(diabetes.target)
y.columns	=	['target']
 ###############		실기환경	복사	영역		###############

In [116]:
# statsmodel.fomula 활용
import statsmodels.api as sm
# 독립변수와 종속변수 설정
x = x[['age','sex','bmi']]
y = y['target']
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [117]:
# 모델링
import statsmodels.api as sm

x = sm.add_constant(x) # 상수항 추가해줘야 함
model = sm.OLS(y, x).fit() # 주의할 것 : y, x 순으로 입력해야 함
summary = model.summary()
print(summary)

                            OLS Regression Results                            
Dep. Variable:                 target   R-squared:                       0.351
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     78.94
Date:                Tue, 18 Jun 2024   Prob (F-statistic):           7.77e-41
Time:                        22:37:38   Log-Likelihood:                -2451.6
No. Observations:                 442   AIC:                             4911.
Df Residuals:                     438   BIC:                             4928.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.964     51.321      0.0

In [118]:
# 1. Rsq(결정계수)
# r2 = 0.351

# 2. 회귀계수
# age = 138.9039
# sex = -36.1353
# bmi = 926.9120

# 3. 회귀계수(절편)
# const = 152.1335

# 4. 회귀식 p-value
# pvalue = 7.77e-41

In [119]:
# 두 라이브러리 모두 같은 결과값을 출력
# sklearn y = 152.13 + 138.9age -36.14sex + 926.91bmi
# statsmodel y = 152.13 + 138.9age -36.14sex + 926.91bmi

## 상관분석

In [120]:
###############		실기환경	복사	영역		###############
 #	데이터	불러오기
import	pandas	as	pd
import	numpy	as	np
#	실기	시험	데이터셋으로	셋팅하기	(수정금지)
from	sklearn.datasets	import	load_diabetes
 #	diabetes	데이터셋	로드
diabetes	=	load_diabetes()
x	=	pd.DataFrame(diabetes.data,	columns=diabetes.feature_names)
y	=	pd.DataFrame(diabetes.target)
y.columns	=	['target']
 ###############		실기환경	복사	영역		###############

In [121]:
# 상관분석을 할 2가지 변수 설정
x = x['bmi']
y = y['target']
print(x.head())
print(y.head())

0    0.061696
1   -0.051474
2    0.044451
3   -0.011595
4   -0.036385
Name: bmi, dtype: float64
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [123]:
# 라이브러리 불러오기
from scipy.stats import pearsonr

# 상관계수에 대한 검정실시
r, pvalue = pearsonr(x, y)

# 가설설정
# H0 : 두 변수간 선형관계가 존재하지 않는다.
# H1 : 두 변수간 선형관계가 존재한다.
# p = 0
# p != 0

# 1. 상관계수
print(round(r, 2))

# 2. p-value
print(round(pvalue, 3))

# 3. 검정통계량
# 통계량은 별도로 구해야 함 (T = r*root(n-2)/root(1-r^2))
# r = 상관계수
# n = 데이터의 개수
n = len(x)
r2 = r**2
statistic = r*np.sqrt((n-2)/(1-r2))

print(round(statistic, 2))

0.59
0.0
15.19


In [124]:
# 4. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다. (대립가설채택)
# 즉, 두 변수간 선형관계가 존재한다고 할 수 있다.(상관계수가 0이 아니다)
# 답 : 기각

## 로지스틱 회귀분석

In [None]:
# 타이타닉 데이터 불러오기 (생존자 예측 데이터)


In [125]:
###############		복사	영역		###############
 #	데이터	불러오기
import	pandas	as	pd
import	numpy	as	np
 #	Seaborn의	내장	타이타닉	데이터셋을	불러옵니다.
import	seaborn	as	sns
df	=	sns.load_dataset('titanic')
 ###############		복사	영역		###############

In [126]:
print(df.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  


In [127]:
# 분석 데이터 설정
df = df[['survived', 'sex', 'sibsp', 'fare']] # sex:성별, sibsp:탑승한 부모 및 자녀 수, fare:요금
print(df.head())

   survived     sex  sibsp     fare
0         0    male      1   7.2500
1         1  female      1  71.2833
2         1  female      0   7.9250
3         1  female      1  53.1000
4         0    male      0   8.0500


In [128]:
# 회귀식 : P(1일 확률) = 1 / (1 + exp^(-f(x)))
# f(x) = b0 + b1x1 + b2x2 + b3x3
# ln(P/1-P) = b0 + b1x1 + b2x2 + b3x3
# (P=생존할확률, x1=sex, x2=sibsp, x3=fare)

In [129]:
# 데이터 전처리
# 변수처리
# 문자형 타입의 데이터의 경우 숫자로 변경해준다
# *** 실제 시험에서 지시사항을 따를 것 ***

# 성별을 map 함수를 활용해서 각각 1과 0에 할당한다. (여성을 1, 남성을 0)
# (실제 시험의 지시 조건에 따를 것)
df['sex'] = df['sex'].map({'female':1,
                           'male':0})
print(df.head())

   survived  sex  sibsp     fare
0         0    0      1   7.2500
1         1    1      1  71.2833
2         1    1      0   7.9250
3         1    1      1  53.1000
4         0    0      0   8.0500


In [130]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  891 non-null    int64  
 1   sex       891 non-null    int64  
 2   sibsp     891 non-null    int64  
 3   fare      891 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 28.0 KB
None


In [131]:
# 1. sklearn 라이브러리 활용
# 독립변수와 종속변수 설정
x = df.drop(['survived'], axis=1)
y = df['survived']

In [132]:
# (주의) LogisticRegression() 객체 안에 반드시 penalty=None으로 입력해야 함

In [133]:
# 모델링
from sklearn.linear_model import LogisticRegression # 회귀는 LinearRegression

# 반드시 penalty=None으로 입력할 것, default='l2'
model = LogisticRegression(penalty=None)
model.fit(x, y)

In [135]:
# 로지스틱회귀분석 관련 지표 출력

# 1. 회귀계수 출력 : model.coef_
print(np.round(model.coef_, 4)) # 전체 회귀계수
print(np.round(model.coef_[0, 0], 4)) # x1의 회귀계수
print(np.round(model.coef_[0, 1], 4)) # x2의 회귀계수
print(np.round(model.coef_[0, 2], 4)) # x3의 회귀계수

# 2. 회귀계수(절편) : model.intercept_
print(np.round(model.intercept_, 4))

[[ 2.5668 -0.4017  0.0138]]
2.5668
-0.4017
0.0138
[-1.6964]


In [136]:
# 회귀식 : P(1일 확률) = 1 / (1 + exp^(-f(x)))
# f(x) = b0 + b1x1 + b2x2 + b3x3
# (P=생존할확률)
# 결과 ln(P/1-P) = -1.6964 + 2.5668sex - 0.4017sibsp + 0.0138fare

In [137]:
# 3-1. 로지스틱 회귀모형에서 sibsp 변수가 한단위 증가할 때 생존할 오즈가 몇 배 증가하는지
# 반올림하여 소수점 셋째 자리까지 구하시오.

# exp^(b2)를 구하면 된다.
result = np.exp(model.coef_[0, 1]) # 인덱싱 주의
print(round(result, 3))

0.669


In [138]:
# 해석 : sibsp 변수가 한 단위 증가할 때 생존할 오즈가 0.669배 증가한다.
# 생존할 오즈가 33% 감소한다. (생존할 확률이 감소한다.)

In [139]:
# 3-2. 로지스틱 회귀모형에서 여성일 경우 남성에 비해 오즈가 몇 배 증가하는지
# 반올림하여 소수점 셋째 자리까지 구하시오.

# exp^(b1)를 구하면 된다.
result2 = np.exp(model.coef_[0, 0])
print(round(result2, 3))

13.024


In [140]:
# 해석 : 여성일 경우 남성에 비해 생존할 오즈가 13.024배 증가한다.
# 생존할 오즈가 13배 증가한다. (생존할 확률이 증가한다.)

In [141]:
# 2. statsmodels 라이브러리 사용
# (주의) 실제 오즈가 몇 배 증가했는지 계산하는 문제가 나온다면
# sklearn 라이브러리를 사용하여 회귀계수를 '직접' 구해서 계산할 것(소수점이 결과값에 영향을 줄 수 있음!)

In [142]:
# 모델링
import statsmodels.api as sm

x = sm.add_constant(x)
model2 = sm.Logit(y, x).fit() # 주의할 것 : y, x 순으로 입력해야 함
summary = model2.summary()
print(summary)

Optimization terminated successfully.
         Current function value: 0.483846
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               survived   No. Observations:                  891
Model:                          Logit   Df Residuals:                      887
Method:                           MLE   Df Model:                            3
Date:                Tue, 18 Jun 2024   Pseudo R-squ.:                  0.2734
Time:                        23:29:03   Log-Likelihood:                -431.11
converged:                       True   LL-Null:                       -593.33
Covariance Type:            nonrobust   LLR p-value:                 5.094e-70
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.6964      0.129    -13.134      0.000      -1.950      -1.443
sex            2.5668      0.

In [None]:
# 두 라이브러리 모두 같은 결과값을 출력
# 회귀식 : P(1일 확률) = 1 / (1 + exp^(-f(x)))
# f(x) = b0 + b1x1 + b2x2 + b3x3
# ln(P/1-P) = b0 + b1x1 + b2x2 = b3x3
# sklearn -1.6964 + 2.5668sex - 0.4017sibsp + 0.0138fare
# statsmodels -1.6964 + 2.5668sex - 0.4017sibsp + 0.0138fare 

## 7회 실기시험 유형파악 - 3유형

In [143]:
# 1. 로지스틱 회귀분석(15점, 각 소문제당 5점)
# 주요키워드 : odds ratio, residual deviance, 오분류율, 모델링, 성능평가
# 1-1 종속변수(Y)를 A변수로 분석했을 때, odds ratio는?
# (데이터셋은 총 300개 이며, 문제에서 지정한 210개로 모델링함)

# 1-2 종속변수(Y)를 n개의 변수로 분석했을 때, residual deviance를 구하시오.
# (데이터셋은 총 300개 이며, 문제에서 지정한 210개로 모델링함)

# 1-3 문제1에서 구한 모델에 나머지 90개 데이터를 적용하여 오분류율을 구하시오.

In [144]:
# 2. 다중선형회귀분석(15점, 각 소문제당 5점)
# 주요키워드 : 상관계수, Rsq, p-value, 모델링, 성능평가
# 2-1 특정변수와 가장 큰 상관관계를 갖는 변수의 상관계수를 구하시오.
# 2-2 다중선형회귀 모델링 후 결정계수(Rsq) 구하기
# 2-3 문제 2-2에서 구한 회귀모델에서 p-value가 가장 큰 변수의 p-value값을 구하시오.

In [145]:
# 1. 로지스틱 회귀분석

In [146]:
# ### 예제문제 3유형-1번
# - survived	를	종속변수(Y),	sex,sibsp,fare	변수를	독립변수(X)로	
# 분석했을	때	아래	질문에	답하시오.
# - (단,	총	891개의	데이터에서	초기	500개	데이터로	학습,	
# 391개	데이터로	평가	하시오)	
# - (단,	모든	답은	반올림하여	소수점	둘째자리까지	구하시오)
# - 1.	초기	500개	데이터로	분석시	sibsp	변수의	odds	ratio는?
# - 2.	초기	500개	데이터로	분석시	residual	deviance는?
# - 3.	나머지	391개	데이터	적용시	오분류율은?

In [19]:
# 데이터 생성
import pandas as pd
import numpy as np
import seaborn as sns
df = sns.load_dataset('titanic')

df = df[['survived','sex','sibsp','fare']]
# sex:성별, sibsp:탑승한 부모 및 자녀 수, fare:요금
df['sex'] = df['sex'].map({'female':1, 'male':0})
df

Unnamed: 0,survived,sex,sibsp,fare
0,0,0,1,7.2500
1,1,1,1,71.2833
2,1,1,0,7.9250
3,1,1,1,53.1000
4,0,0,0,8.0500
...,...,...,...,...
886,0,0,0,13.0000
887,1,1,0,30.0000
888,0,1,1,23.4500
889,1,0,0,30.0000


In [148]:
# 1. sklearn 라이브러리 활용

In [20]:
# 데이터셋 구성(초기 500개 데이터로 학습, 391개로 평가)
#print(df.shape)
#print(df.info())

# train / test 데이터셋 구성
train = df.iloc[0:500]
test = df.iloc[500:]
#print(train.info())
#print(test.info())

x_train = train[['sex', 'sibsp', 'fare']]
y_train = train['survived']
x_test = test[['sex', 'sibsp', 'fare']]
y_test = test['survived']

In [4]:
# 모델링
from sklearn.linear_model import LogisticRegression
model_sk = LogisticRegression(penalty=None)
# 반드시 penalty=None으로 입력할 것. default='l2'
model_sk.fit(x_train, y_train)

In [158]:
# 실기체험환경에선 penalty = 'none'

In [5]:
# 로지스틱회귀분석 관련 지표 출력
print(np.round(model_sk.coef_, 4))
print(np.round(model_sk.coef_[0,0], 4))
print(np.round(model_sk.coef_[0,1], 4))
print(np.round(model_sk.coef_[0,2], 4))

[[ 2.7284 -0.3799  0.0094]]
2.7284
-0.3799
0.0094


In [6]:
print(np.round(model_sk.intercept_, 4))

[-1.6815]


In [7]:
# 결과 : ln(P/1-P) = -1.6815 + 2.7284sex - 0.3799sibsp + 0.0094fare

In [9]:
# 1. odds ratio 구하기
# 로지스틱 회귀모형에서 sibsp 변수가 한단위 증가할 때 생존할 오즈가 몇 배 증가?

# exp^(b2)를 구하면 된다
result = np.exp(model_sk.coef_[0,1])
print(round(result, 2))

0.68


In [10]:
# 해석 : sibsp 변수가 한 단위 증가할 때 생존할 오즈가 0.68배 증가한다.
# 생존할 오즈가 32% 감소한다.
# 답 : odds ratio는 0.68

In [13]:
# 2. residual deviance(잔차 이탈도) 구하기
# residual deviance = cross entropy(log loss) * 2
# (주의: log_loss() 옵션에 normalize=False 설정할 것!)
from sklearn.metrics import log_loss
# 얻게되는 모델의 이탈도 값 구하기
y_pred_proba = model_sk.predict_proba(x_train) # 주의 : 확률값을 구해야 함
logloss = log_loss(y_train, y_pred_proba, normalize=False)
# normalize = true : if true, return the mean loss per sample
# otherwise, return the sum of the per-sample losses
print(logloss)

238.5369401214462


In [14]:
print(round(logloss*2, 2))

477.07


In [None]:
# residual deviance : 477.07

In [15]:
from sklearn.metrics import log_loss
y_pred_proba = model_sk.predict_proba(x_train)
logloss = log_loss(y_train, y_pred_proba, normalize=False)
print(logloss)

238.5369401214462


In [16]:
print(round(logloss*2 , 2))

477.07


In [17]:
# 3. 성능평가(정확도와 오분류율)
y_pred = model_sk.predict(x_test)
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, y_pred)
print(acc)
# 오분류율 = 1 - 정확도
print(round(1-acc, 2))

0.782608695652174
0.22


In [18]:
# 2. statsmodels 라이브러리 사용

In [21]:
import statsmodels.api as sm

x_train = sm.add_constant(x_train) # 주의 : 상수항 추가해줘야 함
model_logit = sm.Logit(y_train, x_train).fit()
summary = model_logit.summary()
print(summary)

Optimization terminated successfully.
         Current function value: 0.477074
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               survived   No. Observations:                  500
Model:                          Logit   Df Residuals:                      496
Method:                           MLE   Df Model:                            3
Date:                Wed, 19 Jun 2024   Pseudo R-squ.:                  0.2847
Time:                        00:12:40   Log-Likelihood:                -238.54
converged:                       True   LL-Null:                       -333.46
Covariance Type:            nonrobust   LLR p-value:                 6.573e-41
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.6815      0.174     -9.690      0.000      -2.022      -1.341
sex            2.7284      0.

In [22]:
# 결과 ln(P/1-P) = -1.6815 + 2.7284sex - 0.3799sibsp + 0.0094fare

In [23]:
result = np.exp(-0.3799)
print(round(result, 2))

0.68


In [24]:
# sibsp 변수의 odds ratio : 0.68

In [25]:
print(model_logit.summary2())

                         Results: Logit
Model:              Logit            Method:           MLE       
Dependent Variable: survived         Pseudo R-squared: 0.285     
Date:               2024-06-19 00:15 AIC:              485.0739  
No. Observations:   500              BIC:              501.9323  
Df Model:           3                Log-Likelihood:   -238.54   
Df Residuals:       496              LL-Null:          -333.46   
Converged:          1.0000           LLR p-value:      6.5725e-41
No. Iterations:     6.0000           Scale:            1.0000    
-------------------------------------------------------------------
           Coef.    Std.Err.      z      P>|z|     [0.025    0.975]
-------------------------------------------------------------------
const     -1.6815     0.1735   -9.6899   0.0000   -2.0216   -1.3414
sex        2.7284     0.2389   11.4229   0.0000    2.2603    3.1966
sibsp     -0.3799     0.1265   -3.0042   0.0027   -0.6278   -0.1321
fare       0.0094     0.

In [26]:
ce = -1 * -238.54 # cross entropy = (-)Log likelihood
rd = ce*2 # residual deviance = 2*cross entropy
print(rd) # 반올림해서 소수점 둘째 자리가 다름

477.08


In [27]:
# (주의) : 소수점 둘째 자리가 다름

In [28]:
# 모델링 (GLM 함수)
import statsmodels.api as sm
x_train = sm.add_constant(x_train)
model_glm = sm.GLM(y_train, x_train, family=sm.families.Binomial()).fit()
summary = model_glm.summary()
print(summary)

                 Generalized Linear Model Regression Results                  
Dep. Variable:               survived   No. Observations:                  500
Model:                            GLM   Df Residuals:                      496
Model Family:                Binomial   Df Model:                            3
Link Function:                  Logit   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -238.54
Date:                Wed, 19 Jun 2024   Deviance:                       477.07
Time:                        00:20:56   Pearson chi2:                     498.
No. Iterations:                     5   Pseudo R-squ. (CS):             0.3159
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.6815      0.174     -9.690      0.0

In [29]:
# residual deviance : 477.07

In [30]:
import statsmodels.api as sm
x_train = sm.add_constant(x_train)
model_glm = sm.GLM(y_train, x_train, family=sm.families.Binomial()).fit()
summary = model_glm.summary()
print(summary)

                 Generalized Linear Model Regression Results                  
Dep. Variable:               survived   No. Observations:                  500
Model:                            GLM   Df Residuals:                      496
Model Family:                Binomial   Df Model:                            3
Link Function:                  Logit   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -238.54
Date:                Wed, 19 Jun 2024   Deviance:                       477.07
Time:                        00:22:22   Pearson chi2:                     498.
No. Iterations:                     5   Pseudo R-squ. (CS):             0.3159
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.6815      0.174     -9.690      0.0

In [31]:
# 성능평가 (정확도와 오분류율) - Logit 함수
import statsmodels.api as sm

x_test = sm.add_constant(x_test)
model_logit = sm.Logit(y_train, x_train).fit()
y_pred_logit = model_logit.predict(x_test)
print(y_pred_logit)

Optimization terminated successfully.
         Current function value: 0.477074
         Iterations 6
500    0.168002
501    0.753984
502    0.753773
503    0.757183
504    0.865585
         ...   
886    0.173796
887    0.790801
888    0.708492
889    0.198027
890    0.166803
Length: 391, dtype: float64


In [32]:
y_pred_logit_class = np.where(y_pred_logit > 0.5, 1, 0)
print(y_pred_logit_class)

[0 1 1 1 1 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 1 1 0
 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 1 1 1 0 0 0 0 1 0 0 1 0 0 0 1 0 1
 0 0 1 1 1 0 1 1 0 0 0 1 0 0 0 0 0 1 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 1 1
 0 1 0 0 1 0 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 1 1 0 1 0 0 0
 0 1 0 1 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0
 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 1 0
 0 0 0 0 1 1 0 1 1 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0
 1 0 0 0 1 0 1 0 1 0 0 0 0 1 0 1 0 0 1 0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0
 1 1 0 1 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0
 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 1 1 1 1 0 1 0 0 0 1 0 0 1 1 0 0 0
 0 1 0 0 1 1 0 0 0 1 1 0 1 0 0 1 0 1 1 0 0]


In [33]:
# 모델 성능 평가
from sklearn.metrics import accuracy_score
acc_logit = accuracy_score(y_test, y_pred_logit_class)
print(acc_logit)
print(round(1-acc_logit, 2))

0.782608695652174
0.22


In [34]:
# 성능평가 (정확도와 오분류율) - GLM 함수
import statsmodels.api as sm
x_test = sm.add_constant(x_test)
model_glm = sm.GLM(y_train, x_train, family=sm.families.Binomial()).fit()
y_pred_glm = model_glm.predict(x_test)
print(y_pred_glm)

500    0.168002
501    0.753984
502    0.753773
503    0.757183
504    0.865585
         ...   
886    0.173796
887    0.790801
888    0.708492
889    0.198027
890    0.166803
Length: 391, dtype: float64


In [35]:
y_pred_glm_class = np.where(y_pred_glm>0.5, 1, 0)
print(y_pred_glm_class)

[0 1 1 1 1 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 1 1 0
 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 1 1 1 0 0 0 0 1 0 0 1 0 0 0 1 0 1
 0 0 1 1 1 0 1 1 0 0 0 1 0 0 0 0 0 1 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 1 1
 0 1 0 0 1 0 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 1 1 0 1 0 0 0
 0 1 0 1 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0
 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 1 0 0 0 0 0 1 1 0 0 1 0
 0 0 0 0 1 1 0 1 1 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0
 1 0 0 0 1 0 1 0 1 0 0 0 0 1 0 1 0 0 1 0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0
 1 1 0 1 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0
 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 1 1 1 1 1 0 1 0 0 0 1 0 0 1 1 0 0 0
 0 1 0 0 1 1 0 0 0 1 1 0 1 0 0 1 0 1 1 0 0]


In [36]:
from sklearn.metrics import accuracy_score
acc_glm = accuracy_score(y_test, y_pred_glm_class)
print(acc_glm)
print(round(1-acc_glm, 2))

0.782608695652174
0.22


In [37]:
# 2. 다중선형회귀분석(15점, 각 소문제당 5점)

In [38]:
# ### 예제문제 3유형-2번
# - 다음은 당뇨병 환자의 질병 진행정도 데이터셋이다.
# - target을 종속변수(Y), 나머지를 독립변수(X)로 분석했을 때 아래 질문에 답하시오.
# - (단, 모든 답은 반올림하여 소수점 둘째자리까지 구하시오)
# - 1. target변수와 가장 큰 상관관계를 갖는 변수의 상관계수를 구하시오.
#   2. 다중선형회귀 모델링 후 결정계수(R2 score)를 구하시오.
#   3. 문제 2에서 구한 회귀모델에서 p-value가 가장 큰 변수의 p-value 값을 구하시오.

In [39]:
###############		실기환경	복사	영역		###############
 #	데이터	불러오기
import	pandas	as	pd
import	numpy	as	np
#	실기	시험	데이터셋으로	셋팅하기	(수정금지)
from	sklearn.datasets	import	load_diabetes
 #	diabetes	데이터셋	로드
diabetes	=	load_diabetes()
x	=	pd.DataFrame(diabetes.data,	columns=diabetes.feature_names)
y	=	pd.DataFrame(diabetes.target)
y.columns	=	['target']
df = pd.concat([x,y], axis=1)
 ###############		실기환경	복사	영역		###############

In [40]:
df.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,75.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,141.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,206.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,135.0


In [41]:
# 1. target 변수와 가장 큰 상관관계를 갖는 변수의 상관계수를 구하시오.
print(df.corr())

             age       sex       bmi        bp        s1        s2        s3  \
age     1.000000  0.173737  0.185085  0.335428  0.260061  0.219243 -0.075181   
sex     0.173737  1.000000  0.088161  0.241010  0.035277  0.142637 -0.379090   
bmi     0.185085  0.088161  1.000000  0.395411  0.249777  0.261170 -0.366811   
bp      0.335428  0.241010  0.395411  1.000000  0.242464  0.185548 -0.178762   
s1      0.260061  0.035277  0.249777  0.242464  1.000000  0.896663  0.051519   
s2      0.219243  0.142637  0.261170  0.185548  0.896663  1.000000 -0.196455   
s3     -0.075181 -0.379090 -0.366811 -0.178762  0.051519 -0.196455  1.000000   
s4      0.203841  0.332115  0.413807  0.257650  0.542207  0.659817 -0.738493   
s5      0.270774  0.149916  0.446157  0.393480  0.515503  0.318357 -0.398577   
s6      0.301731  0.208133  0.388680  0.390430  0.325717  0.290600 -0.273697   
target  0.187889  0.043062  0.586450  0.441482  0.212022  0.174054 -0.394789   

              s4        s5        s6   

In [42]:
# 값을 절대값으로 변환한 후 내림차순으로 정렬하고
# target 변수와 상관계수가 가장 큰 값을 확인한다.
df_corr = df.corr()
df_abs = df_corr.abs()
print(df_abs)

             age       sex       bmi        bp        s1        s2        s3  \
age     1.000000  0.173737  0.185085  0.335428  0.260061  0.219243  0.075181   
sex     0.173737  1.000000  0.088161  0.241010  0.035277  0.142637  0.379090   
bmi     0.185085  0.088161  1.000000  0.395411  0.249777  0.261170  0.366811   
bp      0.335428  0.241010  0.395411  1.000000  0.242464  0.185548  0.178762   
s1      0.260061  0.035277  0.249777  0.242464  1.000000  0.896663  0.051519   
s2      0.219243  0.142637  0.261170  0.185548  0.896663  1.000000  0.196455   
s3      0.075181  0.379090  0.366811  0.178762  0.051519  0.196455  1.000000   
s4      0.203841  0.332115  0.413807  0.257650  0.542207  0.659817  0.738493   
s5      0.270774  0.149916  0.446157  0.393480  0.515503  0.318357  0.398577   
s6      0.301731  0.208133  0.388680  0.390430  0.325717  0.290600  0.273697   
target  0.187889  0.043062  0.586450  0.441482  0.212022  0.174054  0.394789   

              s4        s5        s6   

In [43]:
print(df_abs.sort_values('target', ascending=False))

             age       sex       bmi        bp        s1        s2        s3  \
target  0.187889  0.043062  0.586450  0.441482  0.212022  0.174054  0.394789   
bmi     0.185085  0.088161  1.000000  0.395411  0.249777  0.261170  0.366811   
s5      0.270774  0.149916  0.446157  0.393480  0.515503  0.318357  0.398577   
bp      0.335428  0.241010  0.395411  1.000000  0.242464  0.185548  0.178762   
s4      0.203841  0.332115  0.413807  0.257650  0.542207  0.659817  0.738493   
s3      0.075181  0.379090  0.366811  0.178762  0.051519  0.196455  1.000000   
s6      0.301731  0.208133  0.388680  0.390430  0.325717  0.290600  0.273697   
s1      0.260061  0.035277  0.249777  0.242464  1.000000  0.896663  0.051519   
age     1.000000  0.173737  0.185085  0.335428  0.260061  0.219243  0.075181   
s2      0.219243  0.142637  0.261170  0.185548  0.896663  1.000000  0.196455   
sex     0.173737  1.000000  0.088161  0.241010  0.035277  0.142637  0.379090   

              s4        s5        s6   

In [44]:
# 가장 상관관계가 큰 변수는 bmi 변수
# bmi 변수와 target 변수의 상관계수를 다시 구해보면
print(df.corr())

             age       sex       bmi        bp        s1        s2        s3  \
age     1.000000  0.173737  0.185085  0.335428  0.260061  0.219243 -0.075181   
sex     0.173737  1.000000  0.088161  0.241010  0.035277  0.142637 -0.379090   
bmi     0.185085  0.088161  1.000000  0.395411  0.249777  0.261170 -0.366811   
bp      0.335428  0.241010  0.395411  1.000000  0.242464  0.185548 -0.178762   
s1      0.260061  0.035277  0.249777  0.242464  1.000000  0.896663  0.051519   
s2      0.219243  0.142637  0.261170  0.185548  0.896663  1.000000 -0.196455   
s3     -0.075181 -0.379090 -0.366811 -0.178762  0.051519 -0.196455  1.000000   
s4      0.203841  0.332115  0.413807  0.257650  0.542207  0.659817 -0.738493   
s5      0.270774  0.149916  0.446157  0.393480  0.515503  0.318357 -0.398577   
s6      0.301731  0.208133  0.388680  0.390430  0.325717  0.290600 -0.273697   
target  0.187889  0.043062  0.586450  0.441482  0.212022  0.174054 -0.394789   

              s4        s5        s6   

In [45]:
# 정답 : target 변수와 가장 큰 상관관계를 갖는 변수의 상관계수 : 0.59

In [46]:
# 다중회귀분석 모델링
# 독립변수와 종속변수 설정
x = df.drop(['target'], axis=1)
y = df['target']
print(x.head())
print(y.head())

        age       sex       bmi        bp        s1        s2        s3  \
0  0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1 -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2  0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3 -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4  0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142   

         s4        s5        s6  
0 -0.002592  0.019907 -0.017646  
1 -0.039493 -0.068332 -0.092204  
2 -0.002592  0.002861 -0.025930  
3  0.034309  0.022688 -0.009362  
4 -0.002592 -0.031988 -0.046641  
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [47]:
# 모델링
import statsmodels.api as sm

x = sm.add_constant(x)
model = sm.OLS(y,x).fit()
summary = model.summary()
print(summary)

                            OLS Regression Results                            
Dep. Variable:                 target   R-squared:                       0.518
Model:                            OLS   Adj. R-squared:                  0.507
Method:                 Least Squares   F-statistic:                     46.27
Date:                Wed, 19 Jun 2024   Prob (F-statistic):           3.83e-62
Time:                        00:49:24   Log-Likelihood:                -2386.0
No. Observations:                 442   AIC:                             4794.
Df Residuals:                     431   BIC:                             4839.
Df Model:                          10                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.576     59.061      0.0

In [49]:
# 정답 : 결정계수 R2 score = 0.52
# 정답 : 회귀모델에서 p-value가 가장 큰 변수의 p-value 값은 : age 0.87