## Part 03 통계분석 - 2장 통계 모형
### 1절: 선형회귀모형

#### **상관분석**
- 파이썬에서 선형회귀분석을 하는 패키지는 세 개가 있음
  - 1. staatsmodels의 서브패키지인 api 내의 ```OLS``` 함수를 사용하는 방법
  - 2. Scipy의 서브패키지인 stats 내의 ```linregress``` 함수를 이용하는 방법
  - 3. 사이킷런의 linear_model에서 ```LinearRegression``` 클래스를 이용하는 방법

#### 1. SciPy를 활용한 단순 선형 회귀분석
- ```scipy.stats.linregression(x, y)```
  - **x, y**: 1차원 데이터(리스트, 배열, 시리즈 등)

#### Q.
diabetes 데이터에서 'bmi' 컬럼을 독립변수로 설정하고, 'target' 변수를 종속변수로 설정하여 선형 회귀분석 실시

In [6]:
# 패키지 불러오기
import pandas as pd
from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)
data

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.050680,0.044451,-0.005670,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.025930
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641
...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018114,0.044485
439,0.041708,0.050680,-0.015906,0.017293,-0.037344,-0.013840,-0.024993,-0.011080,-0.046883,0.015491
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044529,-0.025930


In [7]:
# target 컬럼 호출
target = diabetes.target
target

array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
        69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
        68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
        87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
       259.,  53., 190., 142.,  75., 142., 155., 225.,  59., 104., 182.,
       128.,  52.,  37., 170., 170.,  61., 144.,  52., 128.,  71., 163.,
       150.,  97., 160., 178.,  48., 270., 202., 111.,  85.,  42., 170.,
       200., 252., 113., 143.,  51.,  52., 210.,  65., 141.,  55., 134.,
        42., 111.,  98., 164.,  48.,  96.,  90., 162., 150., 279.,  92.,
        83., 128., 102., 302., 198.,  95.,  53., 134., 144., 232.,  81.,
       104.,  59., 246., 297., 258., 229., 275., 281., 179., 200., 200.,
       173., 180.,  84., 121., 161.,  99., 109., 115., 268., 274., 158.,
       107.,  83., 103., 272.,  85., 280., 336., 281., 118., 317., 235.,
        60., 174., 259., 178., 128.,  96., 126., 28

In [8]:
# 단순 선형회귀모델 생성
from scipy.stats import linregress

In [9]:
model = linregress(x = data['bmi'], y = target)
model

LinregressResult(slope=949.4352603840385, intercept=152.13348416289617, rvalue=0.5864501344746884, pvalue=3.466006445167547e-42, stderr=62.51512200285268, intercept_stderr=2.973541118790736)

전체 결과에서
- **slope**: 독립변수에 대한 추정된 회귀계수
- **intercept**: 상수항
- **rvalue**: 모형의 설명력
- **pvalue**: 기울기에 대한 통계적 유의성
- **stderr & intercept_stderr**: 회귀계수들에 대한 표준오차

In [15]:
# 개별출력 가능
model.slope    # beta 1

949.4352603840385

In [12]:
model.intercept    # beta 0

152.13348416289617

- 위 회귀분석 결과 ```slope```와 ```intercept```를 기준으로 target과 bmi 사이에는 **[target = 152.13 + 949.44 * bmi]** 라는 회귀식 도출 가능

In [13]:
# beta 1에 대한 통계적 유의성 (p-value)
model.pvalue

3.466006445167547e-42

In [14]:
# 결정계수 (모형의 설명력)
model.rvalue

0.5864501344746884

- 독립변수의 회귀계수에 대한 p-value가 매우 작기 때문에 통계적으로 유의하다고 판단할 수 있음
- 이 검정에 사용되는 귀무가설은 **'회귀계수는 0이다.'** 이며 대립가설은 **'회귀계수는 0이 아니다.'** 이다
- 해당 회귀모형이 현 데이터의 약 58.65%를 설명할 수 있다는 것 의미 (rvalue; 결정계수 결과)
- 상수항에 대한 통계적 유의성이나 모형의 통계적 유의성 결과를 별도로 제공하지 않아 따로 산출해야하지만 **단순 선형회귀 분석에서 모델의 통계적 유의성의 결과는 독립변수의 회귀계수에 대한 유의성과 같고** 상수항의 유의성은 보통 고려되지 않음

<br>
<br>
<hr>
<br>

#### 2. Statsmodels를 활용한 다중 선형 회귀분석

**2-1. 회귀 모형 적합**
- statsmodels를 활용해 다중 선형회귀 분석을 수행하는 방법은 회귀 모형객체를 생성한 후, 해당 객체의 메소드 ```fit()```를 이용해 적합하는 방식
- 이 과정에서 **formula를 활용하는 방법**과 **X, y를 각각 입력하는 방법**으로 구분됨 (여기서는 후자만)
- ```statsmodels.api```의 ```OLS``` 클래스를 통해 OLS 모형객체를 생성한 후, 해다 객체의 메소드 ```fit()```를 이용해 적합하고, 메소드 ```summary()```를 이용하면 회귀분석의 결과를 요약해서 볼 수 있음
- 불러오기: ```import statsmodels.api as sm```
- ```statsmodels.api.OLS(endog, exog, ...)```
  - **endog** : 1차원 데이터 (반응변수, 종속변수)
  - **exog** : n*k 배열 (n: 관측치의 수, k: 회귀계수의 수), 절편 미포함

#### Q. 
제공된 tips 데이터를 불러와 총액(total_bill)과 사람 수(size)를 독립변수로 하고, 팁(tip)을 종속변수로 하는 다중선형 회귀분석 수행하기

In [16]:
# 필요한 데이터 가져오기
tips = pd.read_csv('data/예제/tips.csv')
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [17]:
import statsmodels.api as sm

In [18]:
# 독립변수(total_bill, size)와 종속변수 지정
X = tips[ ['total_bill', 'size'] ]          # 독립변수 IV
y = tips['tip']                             # 종속변수 DV

In [21]:
# 상수항 추가
X = sm.add_constant(X)

In [24]:
# 다중선형 회귀분석 수행
# OLS 객체 생성 후 적합
model = sm.OLS(y, X).fit()

In [26]:
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.468
Model:                            OLS   Adj. R-squared:                  0.463
Method:                 Least Squares   F-statistic:                     105.9
Date:                Sat, 08 Jun 2024   Prob (F-statistic):           9.67e-34
Time:                        01:12:20   Log-Likelihood:                -347.99
No. Observations:                 244   AIC:                             702.0
Df Residuals:                     241   BIC:                             712.5
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.6689      0.194      3.455      0.0

- ```summary()```의 결과를 통해 독립변수(total_bill, size)들이 종속변수(tip)에 미치는 영향과 각 변수의 통계적 유의성을 확인할 수 있음
- const(절편), total_bill, size의 ```p-value```가 모두 0.05보다 작기 때문에 tip의 크기에 영향을 미치는 것을 확인할 수 있음 (```P>|t|```로 확인 가능)
- ```F-Statistic```이 105.9로 크고 ```Prob(F-statistic)``` 값이 0에 가깝기 때문에 모델이 전반적으로 매우 유의미함 

**2-2. 반응 변수의 기댓값 추정**
- 적합된 결과에 메소드 ```predict()```를 사용하면 반응변수의 기댓값에 대한 점추정 값을 계산할 수 있게됨
- 이때 적합에 사용했던 독립변수들의 배열을 입력값으로 지정

#### Q.
위에서 적합한 회귀모형을 활용하여, 5번째 관측치에 대한 tip의 기댓값 추정하기

In [31]:
# 5번째 관측치 데이터 값 확인 (여기서 X는 const/total_bill/size를 가지고 있는 변수)
X.iloc[4]

const          1.00
total_bill    24.59
size           4.00
Name: 4, dtype: float64

In [32]:
# 5번째 관측치에 대한 tip의 기댓값을 추정
model.predict(X.iloc[4])

None    3.719157
dtype: float64

- 5번째 관측치에 대한 tip의 기댓값을 추정한 결과: 3.719로 추정됨

**2-3. 반응 변수의 기댓값 예측**
- 예측 방법은 적합된 결과에 메소드 ```predict()```를 사용하는 것은 동일하나 적합에 사용햇던 독립변수가 아닌 **새로운 독립변수의 배열을 입력값을 지정하는 것**이 차이점
- 추가) ```get_prediction()```에 새로운 데이터를 입력하게 되면, 구간까지도 계산이 가능하며, 계산된 값에 ```summary_frame()```을 활용하면 이 결과를 데이터프레임의 형태로 볼 수 있게 됨

#### Q.
위에서 적합한 회귀모형을 활용하여, total_bill이 24.59이고 size가 4인 경우의 tips의 기댓값 예측하기

In [33]:
# 새로운 독립변수의 배열을 입력값으로 지정
new_data = pd.DataFrame( {'const': [1], 'total_bill': [24.59], 'size': [4]} )
new_data

Unnamed: 0,const,total_bill,size
0,1,24.59,4


In [36]:
# 예측 기댓값 결과 얻기
result = model.get_prediction(new_data)

In [38]:
# 요약 프레임으로 결과 보기
result.summary_frame()

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,3.719157,0.12093,3.480943,3.957371,1.708534,5.729779


- ```predict()``` 함수 결과를 통해 time과 smoker, size에 기반한 tip값은 3.29로 예측되는 total_bill이 24.59이고, size가 4인 경우의 tips의 기댓값은 3.719로 예측되었으며, 95%에서 예측구간 [3.480, 3.957]을 가지는 것을 확인할 수 있음

<br>
<br>
<hr>
<br>

### 2절: 로지스틱 회귀모형
#### 1. Statsmodels를 활용한 로지스틱 회귀분석

- statsmodels를 활용해 로지스틱 회귀분석 수행하는 방법은 **Logit 클래스**와 **GLM 클래스**를 활용하는 방법이 있음
- GLM 클래스는 로지스틱 모형보다 더 다양한 경우를 다루는 일반화선형모형을 만드는 것이기 때문에 이를 활용할 경우 주의해야 할 점:
   - ```family``` 옵션에 분포와 연결 함수를 지정할 수 있는데, 이 옵션을 알맞게 지정해야 한다는 점
- 두 가지 망법은 GLM 클래스를 사용한 방법이 더 많은 통계 결과를 지원하므로 여기선 GLM 클래스 사용법만 다루기로..~
- ```statsmodels.api```의 ```GLM``` 클래스를 통해 ```glm``` 모형객체를 생성한 후, 해당 객체의 메소드 ```fit()```를 이용해 적합하고, 메소드 ```summary()```를 이용하면 회귀분석의 결과를 요약해서 볼 수 있음
- 불러오기: ```import statsmodels.api as sm```
- ```statsmodels.api.GLM(endog, exog, family, ...)```
  - **endog** : 1차원 데이터 (반응변수, 종속변수)
  - **exog** : n*k 배열 (n: 관측치의 수, k: 회귀계수의 수), 절편 미포함
  - **family** : 분포와 연결함수 설정 (여기서는 로지스틱 회귀모형이므로 sm.families.Binomial()을 입력)

#### Q.
제공된 survived 데이터를 불러와 객실등급(pclass)을 독립변수로 하고, 생존여부(survived)를 종속변수로 하는 로지스틱 회귀분석 수행하기 (객실등급은 A등급인 경우 1, B등급인 경우 0으로 인코딩 되어있음)

In [39]:
# 필요한 데이터 불러오기
survived = pd.read_csv('data/예제/survived.csv')
survived

Unnamed: 0,survived,pclass,sex,age
0,0,0,1,22.0
1,1,1,0,38.0
2,1,0,0,26.0
3,1,1,0,35.0
4,0,0,1,35.0
...,...,...,...,...
536,0,0,1,25.0
537,0,0,0,39.0
538,1,1,0,19.0
539,1,1,1,26.0


In [43]:
# 독립변수와 종속변수 지정
X = survived['pclass']
y = survived['survived']

In [44]:
# 상수항 추가
X = sm.add_constant(X)

In [45]:
# 로지스틱 회귀분석
import statsmodels.api as sm

In [47]:
# GLM 객체 생성 후 적합
model = sm.GLM(y, X, family = sm.families.Binomial()).fit()
print(model.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:               survived   No. Observations:                  541
Model:                            GLM   Df Residuals:                      539
Model Family:                Binomial   Df Model:                            1
Link Function:                  Logit   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -315.13
Date:                Sat, 08 Jun 2024   Deviance:                       630.26
Time:                        03:21:17   Pearson chi2:                     541.
No. Iterations:                     4   Pseudo R-squ. (CS):             0.1527
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.1558      0.124     -9.293      0.0

In [53]:
np.exp(1.8009)

6.055094597973338

- ```summary()``` 함수의 결과를 통해 독립변수(pclass)가 종속변수(survived)에 미치는 영향과 각 변수의 통계적 유의성을 확인할 수 있음
- const(절편), pclass의 p-value(여기서는 P>|z|)가 모두 0에 가깝기 때문에 통계적으로 유의미하며
- 객실등급이 A등급인 경우의 생존의 **오즈**가 B등급인 경우에 비해 exp(1.8009)=6.055배 높은 것이 확인되었음

In [49]:
import numpy as np

In [50]:
# A 등급의 추정 생존확률
Prob_A = np.exp(-1.1558 + 0 * 1.8009) / (1 + np.exp(-1.1558 + 0 * 1.8009))

# B 등급의 추정 생존확률
Prob_B = np.exp(-1.1558 + 1 * 1.8009) / (1 + np.exp(-1.1558 + 1 * 1.8009))

print("A등급 추정 생존 확률: ", Prob_A)
print("B등급 추정 생존 확률: ", Prob_B)

A등급 추정 생존 확률:  0.2394312844887346
B등급 추정 생존 확률:  0.6559054109099537


- 등급별 추정 생존 확률은 각 **0.239, 0.656**로 B등급의 생존 확률이 더 높음

In [54]:
## 모형 적합도 검정
# 적합 모형의 이탈도
dev = model.deviance
dev

630.2646521014273

In [55]:
# 영모형의 이탈도
dev0 = model.null_deviance
dev0

719.8918959915944

In [56]:
# 카이제곱 통계량과 자유도
stat = dev0 - dev
df = 2 - 1           # 자유도 = 적합모형의 회귀계수 수 - 영모형의 회귀계수 수
print(stat, df)

89.62724389016716 1


In [58]:
from scipy.stats import chi2
pval = 1 - chi2.cdf(stat, df)   # 유의확률
pval                            # -> 0.0 모형이 잘 적합하고 있음

0.0

- 영모형(절편만 있는 모형)의 이탈도(```.null_deviance```로 출력)는 719.89이고
- 적합모형의 이탈도(결과의 Deviance 또는 ```.deviance```로 출력)는 630.26인 것 확인 가능
- 이 차이를 계산하면 89.62가 됨

- 이는 자유도가 1(= 적합모형의 회귀계수의 수 - 영모형의 회귀계수의 수 = 2-1)인 카이제곱 분포 하의 모형적합성 검정을 위한 검정 통계량이 됨
- 이에 대한 유의확률은 0.000으로 계산되므로 **모형이 데이터를 잘 적합하고 있음**을 알 수 있음