# 제 3유형 - 모집단 3개 이상

## 검정방법

### 분산분석 (ANOVA) : A 집단 VS B 집단 VS C 집단 VS ...
#### - (정규성 O) ANOVA 분석
#### - (정규성 X) 크루스칼-왈리스 검정(Kruskal-wallis test)

### 가설 검정 순서 (중요 !!)

#### 1. 가설 설정
#### 2. 유의수준 확인
#### 3. 정규성 검정  ** (주의) 집단 모두 정규성을 따를 경우
#### 4. 등분산 검정  (등분산 / 이분산 주어질 가능성 높음)
#### 5. 검정실시 (통계량, pvalue 확인)  ** (주의) 등분산여부 확인
#### 6. 귀무가설 기각여부 결정 (채택 / 기각)

### 예제 문제

다음은 A, B, C 그룹 인원 성적 데이터이다.
세 그룹의 성적 평균이 같다고 할 수 있는지 ANOVA 분석을 실시하시오.

(유의수준 5%)
- 등분산 검정
- A, B, C : 각 그룹 인원의 성적
- H0(귀무가설) : A(평균) = B(평균) = C(평균)
- H1(대립가설) : Not H0 (적어도 하나는 같지 않다)

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats

df = pd.DataFrame( {
    'A': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167],
    'B' : [110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160],
    'C' : [130, 120, 115, 122, 133, 144, 122, 120, 110, 134, 125, 122, 122]})
print(df.head(3))

     A    B    C
0  120  110  130
1  135  132  120
2  122  123  115


In [None]:
# 1. 가설설정
# H0: A, B, C 그룹의 성적의 평균이 같아
# H1: 적어도 하나는 같지 않다.

In [None]:
# 2. 유의수준 확인 : 5%

In [2]:
# 3. 정규성 검정 - 아노바 분석을 하라고 이미 나와있으니 정규성 검정은 끝난거.
statisticA, pvalueA = stats.shapiro(df['A'])
print(round(statisticA, 4), round(pvalueA, 4))

statisticB, pvalueB = stats.shapiro(df['B'])
print(round(statisticB, 4), round(pvalueB, 4))

statisticC, pvalueC = stats.shapiro(df['C'])
print(round(statisticC, 4), round(pvalueC, 4))

# pvalue 값이 모두 0.05 유의수준을 넘기 때문에 정규분포임을 알 수 있음
# 만약 하나라도 정규분포를 따르지 않는다면 비모수 검정방법을 써야함 (크루스칼-왈리스 검정)

0.9314 0.3559
0.9498 0.5956
0.9397 0.4526


In [3]:
# 4. 등분산 검정 - 이미 등분산 검증 되어있음
statistic, pvalue = stats.bartlett(df['A'], df['B'], df['C'])
print(round(statistic, 4), round(pvalue, 4))

4.2222 0.1211


In [4]:
# 5.1 정규성 검증, 등분산 검증 O - 분산분석 (F_oneway)
# 주의 : 데이터가 각각 들어가야 함(밑에 예제와 비교해볼 것)
statistic, pvalue = stats.f_oneway(df['A'], df['B'], df['C'])
print(round(statistic, 4), round(pvalue, 4))

# 귀무가설 기각

3.6971 0.0346


In [None]:
# 5.2 정규성 O, 등분산성 X - Welch-ANOVA 분석 - 패키지 미지원

In [5]:
# 5.3 정규성 X - 크루스칼 왈리스 검정
import scipy.stats as stats
statistic, pvalue = stats.kruskal(df['A'], df['B'], df['C'])
print(round(statistic, 4), round(pvalue, 4))

6.897 0.0318


In [None]:
# 6. 귀무가설 기각 여부 결정 (채택 / 기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다. = 대립가설 채택
# 즉, A, B, C 그룹의 성적 평균이 같다고 할 수 없다.

# 답 : 기각

### 문제 1-2 데이터 형태가 다를 경우

In [13]:
# 데이터 만들기
df2 = pd.DataFrame( {
    '항목': ['A','A','A','A','A','A','A','A','A','A','A','A','A',
           'B','B','B','B','B','B','B','B','B','B','B','B','B',
           'C','C','C','C','C','C','C','C','C','C','C','C','C',],
    'value': [120, 135, 122, 124, 135, 122, 145, 160, 155, 142, 144, 135, 167,
             110, 132, 123, 119, 123, 115, 140, 162, 142, 138, 135, 142, 160,
             130, 120, 115, 122, 133, 144, 122, 120, 110, 134, 125, 122, 122]
})
print(df2.head(3))

  항목  value
0  A    120
1  A    135
2  A    122


In [15]:
# 각각 필터링해서 변수명에 저장하고 분석 진행
a = df2[df2['항목']=='A']['value']
b = df2[df2['항목']=='B']['value']
c = df2[df2['항목']=='C']['value']
print(a)

0     120
1     135
2     122
3     124
4     135
5     122
6     145
7     160
8     155
9     142
10    144
11    135
12    167
Name: value, dtype: int64


In [16]:
# 분산 분석(F_oneway)
import scipy.stats as stats
statistic, pvalue = stats.f_oneway(a, b, c)
print(round(statistic, 4), round(pvalue, 4))

3.6971 0.0346


## 제 3유형 - 카이제곱 검정

### 분석 Case
#### Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?
#### Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?

### 가설 검정 순서 ** (중요 !!)
#### 1. 가설 설정
#### 2. 유의수준 확인
#### 3. 검정 실시 (통계량, pvalue, 기대값 확인)
#### 4. 귀무가설 채택여부 결졍 (채택 / 기각)

## 예제문제
### Case 1. 적합도 검정 - 각 범주에 속할 확률이 같은지?


### 문제 1-1
랜덤 박스에 상품 A, B, C, D가 들어있다.
다음은 랜덤 박스에서 100번 상품을 꺼냈을 때의 상품 데이터라고 할 때 상품이 동일한 비율로 들어있다고 할 수 있는지 검정해보시오.

In [18]:
import pandas as pd
import numpy as np

# 데이터 생성
row1 = [30, 20, 15, 35]
df = pd.DataFrame([row1], columns=['A','B','C', 'D'])
df

Unnamed: 0,A,B,C,D
0,30,20,15,35


In [None]:
# 1. 가설 설정 - 적합성 검정의 H0과 H1은 동일
# H0: 상품이 동일한 비율로 들어있다.
# H1: 상품이 동일한 비율로 들어있지 않다.

In [None]:
# 2. 유의수준 확인 : 5%

In [19]:
# 3. 검정 실시 (통계량, pvalue)
# chisquare(f_obs=f_obs, f_exp=f_exp) # 관측값, 기댓값
f_obs = [30, 20, 15, 35]
f_exp = [25, 25, 25, 25]
statistic, pvalue = stats.chisquare(f_obs=f_obs, f_exp=f_exp)
print(statistic, pvalue)

10.0 0.01856613546304325


In [None]:
# 4. 귀무가설 기각 여부 결정 (채택/기각)
# pvalue 값이 0.05 미만이므로 귀무가설 기각
# 즉, 같은 비율로 들어있지 않다.

# 정답: 기각

### 문제 1-2
랜덤 박스에 상품 A, B, C, D가 들어있다.
다음은 랜덤 박스에서 150번째 상품을 꺼냈을 때의 상품 데이터라고 할 때 상품별로 A 30%, B 15%, C 55% 비율로 들어있다고 할 수 있는지 검정해보시오.

In [20]:
# 데이터 생성
row1 = [50,25,75]
df = pd.DataFrame([row1], columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,50,25,75


In [None]:
# 1. 가설 설정
# H0 : A 30%, B 15%, C 55% 비율로 들어있다.
# H1 : A 30%, B 15%, C 55% 비율로 들어있자 않다.

In [None]:
# 2. 유의수준 확인 : 0.05%

In [28]:
# 3. 검증
import scipy.stats as stats
from scipy.stats import chisquare
# chisquare(f_obs=f_obs, f_exp=f_exp)

# 비율아 같아야 함
f_obs = [50, 25, 75]
# 150 * 0.3 , 150 * 0.15, 150 * 0.55 도 동일
f_exp = [30 * 1.5, 15 * 1.5, 55 * 1.5]

statistic, pvalue = stats.chisquare(f_obs=f_obs, f_exp=f_exp)
print(statistic, pvalue)

1.5151515151515151 0.46880153914023537


In [None]:
# 4. 귀무가설 기각 여부 확인 (채택/기각)
# 정답: 채택

## 예제문제
### Case 2. 독립성 검정 - 두 개의 범주형 변수가 서로 독립인지?


### 문제 2-1
연령대에 따라 먹는 아이스크림의 차이가 있는지 독립성 검정을 실시하시오.

In [30]:
import pandas as pd
import numpy as np

In [36]:
# 데이터 생성
row1, row2 = [200, 190, 250], [220, 250, 300]
df = pd.DataFrame([row1, row2], columns=['딸기','초코','바닐라'], index=['10대', '20대'])
df

Unnamed: 0,딸기,초코,바닐라
10대,200,190,250
20대,220,250,300


In [None]:
# 1. 가설설정
# H0: 연령대와 먹는 아이스크림의 종류는 서로 관련이 없다. (두 변수는 서로 독립이다.)
# H1: 연령대와 먹는 아이스크림의 종류는 서로 관련이 있다. (두 변수는 서로 독립이 아니다.)

In [None]:
# 2. 유의수준 확인 - 5%

In [46]:
# 3. 가설 검정 (통계량, pvalue, 기댓값 확인)
import scipy.stats as stats

# 데이터 프레임 형태에서 인덱싱하여 풀이  # 카이제곱 언더바 컨틴전시
statistic, pvalue, dof, expected = stats.chi2_contingency(df)
# 공식 문서 상에 statistic(통계량), pvalue, dof(자유도), expected_freq(기대값)

# statistic, pvalue, dof, expected = stats.chi2_contingency([row1, row2])
# statistic, pvalue, dof, expected = stats.chi2_contingency([df.iloc[0], df.iloc[1]])

print(statistic, pvalue)
print(dof)
print(np.round(expected, 2))  # 그냥 round 히면 안되고, np.round() 써주기

1.708360126075226 0.4256320394874311
2
[[190.64 199.72 249.65]
 [229.36 240.28 300.35]]


In [None]:
# 귀무가설 기각 여부 결정 (채택 / 기각)
# p-value 값이 0.05보다 크기 때문에 귀무가설 채택

### (추가) 만약 데이터 형태가 다를경우?

In [47]:
# ** tip: pd.crosstab() 사용법
# (Case 1) 만약 데이터가 아래와 같이 주어진다면?
df = pd.DataFrame({
'아이스크림' : ['딸기','초코','바닐라','딸기','초코','바닐라'], '연령' : ['10대','10대','10대','20대','20대','20대'],
'인원' : [200,190,250,220,250,300]
})
df

Unnamed: 0,아이스크림,연령,인원
0,딸기,10대,200
1,초코,10대,190
2,바닐라,10대,250
3,딸기,20대,220
4,초코,20대,250
5,바닐라,20대,300


In [57]:
# 위처럼 데이터 나올경우 그냥 df 새로 만들어도 되고,
# row1 = ['딸기', '초코']

# pd.crosstab(index=, columns=, values=, aggfunc=sum)
# 주의 : index, columns
table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc=sum)
table

  table = pd.crosstab(index=df['연령'], columns=df['아이스크림'], values=df['인원'], aggfunc=sum)


아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,200,250,190
20대,220,300,250


In [58]:
# 검정 통계 실시
import scipy.stats as stats
statistic, pvalue, dof, expected = stats.chi2_contingency(table)
print(statistic)
print(pvalue)
print(dof)
print(np.round(expected, 2))

1.708360126075226
0.4256320394874311
2
[[190.64 249.65 199.72]
 [229.36 300.35 240.28]]


In [60]:
# (Case2) 만약 데이터가 아래와 같이 주어진다면? # (이해를 위한 참고용입니다, 빈도수 카운팅)
#  이렇게 나오는 경우가 많음, 값이 정확히 주어지지 않았을 경우, crosstab 함수 써서 (index, columns) 이 두개 값만 입력해주면 됨
df = pd.DataFrame({
'아이스크림' : ['딸기','초코','바닐라','딸기','초코','바닐라'],
'연령' : ['10대','10대','10대','20대','20대','20대'],
    })
df

Unnamed: 0,아이스크림,연령
0,딸기,10대
1,초코,10대
2,바닐라,10대
3,딸기,20대
4,초코,20대
5,바닐라,20대


In [61]:
table = pd.crosstab(df['연령'], df['아이스크림'])
table

아이스크림,딸기,바닐라,초코
연령,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10대,1,1,1
20대,1,1,1


### 문제 2-2
#### - 타이타닉 데이터에서 성별(sex)과 생존여부(survived) 변수간 독립성 검정을 실시하시오.

In [None]:
# 1. 가설 설정
# H0 : 두 변수는 독립적이다.
# H1 : 두 변수는 독립적이지 않댜.

# 행 : 연령, 열 : 생존여부, 숫자 : 빈도

In [65]:
import seaborn as sns
df = sns.load_dataset('titanic')
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [66]:
table = pd.crosstab(index=df['sex'], columns=df['survived'])
table

survived,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


In [72]:
statistic, pvalue, dof, expected = stats.chi2_contingency(table)
print(round(statistic, 4), round(pvalue, 10))  # 거의 0에 가깝다.
print(dof)
print(np.round(expected,2))

260.717 0.0
1
[[193.47 120.53]
 [355.53 221.47]]


In [None]:
# 4. 귀무가설 기각 여부 결정 (채택 / 기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다.
# 즉, 성별과 생존 여부는 서로 관련이 있다고 할 수 있다.

# 답: 기각

#### 데이터를 변경해보면서 이해하기

In [73]:
# 임의 데이터 생성
sex, survived = [160, 160], [250, 220]
table = pd.DataFrame([sex, survived], columns=['0', '1'], index= ['female', 'male'])
print(table)

          0    1
female  160  160
male    250  220


In [74]:
# 검정 실시
import scipy.stats as stats
statistic, pvalue, dof, expected = stats.chi2_contingency(table)

print(round(statistic, 4), round(pvalue, 10))  # 거의 0에 가깝다.
print(dof)
print(np.round(expected,2))

# pvalue 값이 유의수준보다 크기 때문에 귀무가설 채택

0.6542 0.4186187633
1
[[166.08 153.92]
 [243.92 226.08]]


## 제 3유형 - 다중회귀분석 및 상관분석

### * 다중회귀분석

In [76]:
import pandas as pd
import numpy as np

### 당뇨병 환자의 질병 진행 정도 데이터셋

In [77]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############
print(x)
print(y)

          age       sex       bmi        bp        s1        s2        s3  \
0    0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1   -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2    0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3   -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4    0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142   
..        ...       ...       ...       ...       ...       ...       ...   
437  0.041708  0.050680  0.019662  0.059744 -0.005697 -0.002566 -0.028674   
438 -0.005515  0.050680 -0.015906 -0.067642  0.049341  0.079165 -0.028674   
439  0.041708  0.050680 -0.015906  0.017293 -0.037344 -0.013840 -0.024993   
440 -0.045472 -0.044642  0.039062  0.001215  0.016318  0.015283 -0.028674   
441 -0.045472 -0.044642 -0.073030 -0.081413  0.083740  0.027809  0.173816   

           s4        s5        s6  
0   -0.002592  0.019907 -0.017646  
1  

### 1. sklearn 라이브러리 활용

In [79]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression  # 다중회귀분석

In [81]:
# 독립변수와 종속변수 설정
x = x[['age', 'sex', 'bmi']]   # or loc 함수
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
   target
0   151.0
1    75.0
2   141.0
3   206.0
4   135.0


#### ** 회귀식 : y = b0 + (b1 * x1) + (b1 * x2) + (b3 * x3)
#### (x1 = age, x2 = sex, x3 = bmi)

In [82]:
# 모델링
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x, y)

In [83]:
# 회귀분석 관련 지표 출력

# 1. Rsq(결정계수) : model.score(x, y) - rsquare 모델 성능 (0 ~ 1 까지의 값)
model.score(x, y)
print(round(model.score(x, y), 2))

0.35


In [84]:
# 2. 회귀 계수 출력 : model.coef_ (독립변수 각각에 대한 회귀계수 출력)
print(np.round(model.coef_, 2))  # 전체 회귀계수, array 형태로 나오기 때문에 np.round 써줘야 함
print(np.round(model.coef_[0,0], 2))  # x1의 회귀계수, 0번 행의 0번 열
print(np.round(model.coef_[0,1], 2))  # x2 회귀계수, 0번 행의 1번 열
print(np.round(model.coef_[0,2], 2))  # x3 회귀계수, 0번 행의 2번 열

[[138.9  -36.14 926.91]]
138.9
-36.14
926.91


In [1]:
# 3. 회귀계수(절편) : model.intercept_ : b0 출력
print(np.round(model.intercept_, 2))

NameError: name 'np' is not defined

#### - 회귀식 : y = b0 + b1x1 + b2x2 + b3x3 (x1=age, x2=sex, x3=bmi)

#### - 결과 : y = 152.13 + 138.9age - 36.14sex + 926.91bmi

### 2. statsmodels 라이브러리 사용

####  - sklearn 보다 statsmodels 라이브러리가 더 많은 결과값을 줌, 할 수 있다면 statsmodels 라이브러리 사용하기

In [86]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

In [88]:
# statsmodel.formula 활용
import statsmodels.api as sm
# 독립변수와 종속변수 설정
x = x[['age', 'sex', 'bmi']]
y = y['target']

print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [89]:
# 모델링
import statsmodels.api as sm

x = sm.add_constant(x)   # 주의 : 상수항 추가해줘야 함 = 이걸 추가해주지 않으면 b0가 없는 상태로 회귀식을 추정하게 됨
model = sm.OLS(y, x).fit()  # 왼쪽이 y인거 주의 !!
# y_pred = model.predict(x)
summary = model.summary()  # 학습이 된 걸 summary에 담아서 print - rsquare값 구해줌, pvalue가 거의 0에 가까움을 알 수 있음
print(summary)

                            OLS Regression Results                            
Dep. Variable:                 target   R-squared:                       0.351
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     78.94
Date:                Mon, 27 Nov 2023   Prob (F-statistic):           7.77e-41
Time:                        18:24:48   Log-Likelihood:                -2451.6
No. Observations:                 442   AIC:                             4911.
Df Residuals:                     438   BIC:                             4928.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.964     51.321      0.0

In [None]:
# 1. Rsq(결정계수) # r2 = 0.351
# 2. 회귀계수
# age = 138.9039 # sex = -36.1353 # bmi = 926.9120
# 3. 회귀계수(절편) # const = 152.1335
# 4. 회귀식 p-value # pvalue = 7.77e-41

### (결과 비교해보기) 두 라이브러리 모두 같은 결과값을 출력
#### 회귀식 : y = b0 + b1x1 + b2x2 + b3x3  (x1=age, x2=sex, x3=bmi)

#### 1. sklearn : y = 152.13 + 138.9age - 36.14sex + 926.91bmi
#### 2. statsmodel : y = 152.13 + 138.9age - 36.14sex + 926.91bmi

### * 상관분석

In [91]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

In [92]:
# 상관분석을 할 2가지 변수 설정 (x, y)
x = x['bmi']
y = y['target']

print(x.head())
print(y.head())

0    0.061696
1   -0.051474
2    0.044451
3   -0.011595
4   -0.036385
Name: bmi, dtype: float64
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [95]:
# 라이브러리 불러옥
from scipy.stats import pearsonr

# 상관계수에 대한 검정 실시
r, pvalue = pearsonr(x, y)

# 가설 설정
# H0 : 두 변수간 선형 관계가 존재하지 않는다.
# H1 : 두 변수간 선형 관계가 존재한다.

# 1. 상관계수
print(round(r, 2))

# 2. pvalue
print(round(pvalue, 2))

# 3. 검정 통계량 - 자유도가 n-1인 t 분포를 따름
# - 통계량은 별도로 구해야 함(T = r * root(n-2) / root(1-r2)
# r = 상관계수 , n = 데이터의 개수
n = len(x)  # 데이터 수
r2 = r**2  # 상관계수의 제곱
statistic = (r * (n-2)**0.5 ) / (1-r2)**0.5
print(round(statistic, 2))

# 통계량이 크면 pvalue는 작아진다.
# pvalue 값이 0.05보다 작기 때문에 귀무가설을 기각한다. (대립가설 채택)
# 즉, 두 변수간 선형관계가 존재한다고 할 수 있다. (상관계수가 0이 아니다)
# 답: 기각

0.59
0.0
15.19


## 제 3유형 - 로지스틱 회귀분석

#### y값이 1일 확률을 예측하고 싶은것! = 로지스틱 회귀분석의 목표

### - 타이타닉 데이터 불러오기 (생존자 예측 데이터)

In [96]:
import pandas as pd
import numpy as np

import seaborn as sns
df = sns.load_dataset('titanic')

In [97]:
print(df.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  


In [98]:
# 분석 데이터 설정 - 종속변수(survived) / 독립변수(나머지) 설정
df = df[['survived', 'sex', 'sibsp', 'fare']]  # 대괄호 두번 써서 특정 열들만 가지고 올 수 있음

print(df.head())

   survived     sex  sibsp     fare
0         0    male      1   7.2500
1         1  female      1  71.2833
2         1  female      0   7.9250
3         1  female      1  53.1000
4         0    male      0   8.0500


### 🥵 회귀식 : P (1일 확률) = 1 / ( 1 + exp * (-f(x)) )

#### f(x) = b0 + b1x1 + b2x2 + b3x3
#### In( P / 1-P ) = b0 + b1x1 + b2x2 + b3x3

##### - ( P / 1-P ) = odd (성공확률 / 실패확률)
##### - odd에 자연로그 씌운 것 In( P / 1-P) = 로짓

#### P = 생존한 확률, x1 = sex, x2 = sibsp, x3 = fare

In [99]:
# 데이터 전처리
# 변수 처리
# 문자형 타입의 데이터의 경우 숫자로 변경해준다.
# ** 실제 시험에서 지시사항을 따를 것

# 성별을 map 함수로 활용해서 각각 1과 0에 할당한다 (여성 1, 남성 0)
# - 현재 male, female로 되어있으며 머신러닝의 경우 문자 데이터 처리 못하므로 숫자로 바꿔줘야 함
# 지시 사항에서 어떻게 바꿀지 주어짐  = np.where도 사용 가능
df['sex'] = df['sex'].map({'female': 1, 'male': 0})
print(df.head())

   survived  sex  sibsp     fare
0         0    0      1   7.2500
1         1    1      1  71.2833
2         1    1      0   7.9250
3         1    1      1  53.1000
4         0    0      0   8.0500


In [100]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   survived  891 non-null    int64  
 1   sex       891 non-null    int64  
 2   sibsp     891 non-null    int64  
 3   fare      891 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 28.0 KB
None


### 1. sklearn 라이브러리 사용

In [101]:
# 독립변수와 종속변수 설정
x = df.drop(['survived'], axis=1)
y = df['survived']

##### ** (주의) LogisticRegression() 객체안에 반드시 penalty=None으로 입력해야 함

In [102]:
# 모델링
from sklearn.linear_model import LogisticRegression  # 회귀는 LinearRegression
model1 = LogisticRegression(penalty=None)
model1.fit(x, y)

In [103]:
# 로지스틱 회귀 분석 관련 지표 출력

# 1. 회귀계수 출력 : model.coef_
print(np.round(model1.coef_, 4))  # 전체 회귀계수
print(np.round(model1.coef_[0,0], 4))  # x1 회귀계수
print(np.round(model1.coef_[0,1], 4))  # x2 회귀계수
print(np.round(model1.coef_[0,2], 4))  # x3 회귀계수

# 2. 회귀계수(절편) : model.intercept_
print(np.round(model1.intercept_, 4))  # b0

[[ 2.5668 -0.4017  0.0138]]
2.5668
-0.4017
0.0138
[-1.6964]


### 🥵 회귀식 : P (1일 확률) = 1 / ( 1 + exp * (-f(x)) )

#### f(x) = b0 + b1x1 + b2x2 + b3x3
#### In( P / 1-P ) = b0 + b1x1 + b2x2 + b3x3

##### - ( P / 1-P ) = odd (성공확률 / 실패확률)
##### - odd에 자연로그 씌운 것 In( P / 1-P) = 로짓

#### P = 생존한 확률, x1 = sex, x2 = sibsp, x3 = fare

#### 결과 : In(P/1-P) = -1.6964 + 2.5668sex - 0.4017sibsp + 0.0138fare

##### 3-1. 로지스틱 회귀 모형에서 sibsp 변수가 한 단위 증가할 때 생존할 오즈가 몇 배 중가하는지 반올림하여 소수점 셋째 자리까지 구하시오.

In [105]:
#### 오즈의 변화량
# exp(b2)를 구하면 됨
result = np.exp(model1.coef_[0][1])  # 인덱싱 주의하기
print(round(result, 3))

# 해석 : sibsp 변수가 한 단위 증가할 때 생존할 오즈가 0.669배 증가한다.
# 생존할 오즈가 33% 감소한다 (생존할 확률이 감소한다) - 회귀계수가 음수이기 때문에 감소함.

0.669


##### 3-2. 로지스틱 회귀 모형에서 여성일 경우, 남성에 비해 오즈가 몇 배 증가하는지 반올림하여 소수점 셋째 자리까지 구하시오.

In [106]:
# exp(b1)을 구하면 됨
# 기준이 달라지면 (여성 - 남성) 결과값 달라지므로 제대로 확인하기.
result2 = np.exp(model1.coef_[0][0])   # 인덱싱 주의
print(round(result2, 3))

# 해석 : 여성일 경우 남성에 비해 생존할 오즈가 13.024배 증가한다.
# 생존할 오즈가 13배 증가한다. (생존할 확률이 증가한다)

13.024


### 2. statsmodels 라이브러리 사용

##### (주의) 실제 오즈가 몇 배 증가했는지 계산하는 문제가 나온다면, sklearn 라이브러리를 사용하여 회귀계수를 직접 구해서 계산할 것 (소수점이 결과값에 영향을 줄 수 있음)

In [107]:
# 모델링
import statsmodels.api as sm

x = sm.add_constant(x)   # (주의) 상수항 추가해줘야 함
model2 = sm.Logit(y, x).fit()  # 주의할 것 : y, x 순으로 입력해야 함
summary = model2.summary()
print(summary)

Optimization terminated successfully.
         Current function value: 0.483846
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               survived   No. Observations:                  891
Model:                          Logit   Df Residuals:                      887
Method:                           MLE   Df Model:                            3
Date:                Mon, 27 Nov 2023   Pseudo R-squ.:                  0.2734
Time:                        21:37:41   Log-Likelihood:                -431.11
converged:                       True   LL-Null:                       -593.33
Covariance Type:            nonrobust   LLR p-value:                 5.094e-70
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.6964      0.129    -13.134      0.000      -1.950      -1.443
sex            2.5668      0.

#### (결과 비교해보기)

#### sklearn.linear_model
##### - In(P/1-P) = -1.6964 + 2.5668sex - 0.4017sibsp + 0.0138fare

#### statsmodel.api
##### - In(P/1-P) = -1.6964 + 2.5668sex - 0.4017sibsp + 0.0138fare