# 제 3유형 - 다중회귀분석 및 상관분석

## ✅ 다중회귀 분석

In [1]:
import pandas as pd
import numpy as np

#### 당뇨병 환자의 질병 진행정도 데이터셋

In [10]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) 
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

In [11]:
# 데이터 설명
print(diabetes.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

### 1. sklearn 라이브러리 활용

In [12]:
# sklearn 라이브러리 활용
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [13]:
print(x.head())
print(y.head())

        age       sex       bmi        bp        s1        s2        s3  \
0  0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1 -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2  0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3 -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4  0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142   

         s4        s5        s6  
0 -0.002592  0.019907 -0.017646  
1 -0.039493 -0.068332 -0.092204  
2 -0.002592  0.002861 -0.025930  
3  0.034309  0.022688 -0.009362  
4 -0.002592 -0.031988 -0.046641  
   target
0   151.0
1    75.0
2   141.0
3   206.0
4   135.0


In [14]:
# 독립변수와 종속변수 설정
x = x[['age', 'sex', 'bmi']]
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
   target
0   151.0
1    75.0
2   141.0
3   206.0
4   135.0


- 회귀식 : y = b0 + b1x1 + b2x2 + b3x3          
변수가 입력된 순서대로 인식 (x1=age, x2=sex, x3=bmi)         

In [16]:
# 모델링
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x, y)

# 회귀분석과 관련된 지표들이 출제될 가능성이 큼!

In [19]:
# 회귀분석 관련 지표 출력

# 1. Rsq(결정계수) : model.score(x, y). 특정 독립변수와 종속변수가 지정되었을 때의 R-square 값.
model.score(x, y)
print(round(model.score(x, y), 2))

0.35


R-square : 0 ~ 1 사이의 값을 가짐. 전체적으로 봤을 때 크다고 무조건 좋은건 아니고, 최소의 변수로 최대의 효과(성능)를 낼 수 있는 Rsq를 찾아야 함

In [28]:
# 2. 회귀 계수 (b1, b2, b3) 출력 : model.coef_. array 형태로 Return하기 때문에 반올림을 하려면 np.round를 사용한다.
print(model.coef_)
print(np.round(model.coef_, 2))             # 전체 회귀 계수
print(np.round(model.coef_[0, 0], 2))       # x1의 회귀 계수
print(np.round(model.coef_[0, 1], 2))       # x2의 회귀 계수
print(np.round(model.coef_[0, 2], 2))       # x3의 회귀 계수

[[138.9039107  -36.13526678 926.91201212]]
[[138.9  -36.14 926.91]]
138.9
-36.14
926.91


In [24]:
# 3. 회귀계수(절편, b0) : model.intercept_. array 형태로 Return하기 때문에 반올림을 하려면 np.round를 사용한다.
print(np.round(model.intercept_, 2))

[152.13]


- 회귀식 : y = b0 + b1x1 + b2x2 + b3x3          
(x1=age, x2=sex, x3=bmi)            
#### 결과 : y = 152.13 + 138.9age - 36.14sex + 926.91bmi            
변수들 끼리 독립적인 관계일 때, 예를들어 age가 1 커지면 y는 138.9만큼 커진다

### 2. statsmodels 라이브러리 활용

In [30]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) 
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

In [32]:
# statsmodel.formula 활용
import statsmodels.api as sm

# 독립변수와 종속변수 설정
x = x[['age', 'sex', 'bmi']]
y = y['target']
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [33]:
# 모델링
import statsmodels.api as sm

x = sm.add_constant(x)              # 주의! 상수항(b0)을 직접 추가해줘야함
model = sm.OLS(y, x).fit()
# y_pred = model.predict(x)
summary = model.summary()
print(summary)

                            OLS Regression Results                            
Dep. Variable:                 target   R-squared:                       0.351
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     78.94
Date:                Thu, 20 Jun 2024   Prob (F-statistic):           7.77e-41
Time:                        13:25:25   Log-Likelihood:                -2451.6
No. Observations:                 442   AIC:                             4911.
Df Residuals:                     438   BIC:                             4928.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.964     51.321      0.0

1. Rsq(결정계수) : r2 = 0.351      
2. 회귀 계수        
- age = 138.9039
- sex = -36.1353
- bmi = 926.9120
3. 회귀계수(절편)
- const = 152.1335
4. 회귀식 p-value = 7.77e-41        

statsmodels가 더 많은 정보를 주긴 함. (두 회귀식에 대한 P-value 등)

#### (결과 비교해보기) 두 라이브러리 모두 같은 결과값을 출력
- 회귀식 : y = b0 + b1x1 + b2x2 + b3x3
(x1=age, x2=sex, x3=bmi)            
##### 1. sklearn : y = 152.13 + 138.9age - 36.14sex + 926.91bmi
##### 2. statsmodels : y = 152.13 + 138.9age - 36.14sex + 926.91bmi

## ✅ 상관 분석

In [34]:
############### 실기환경 복사 영역 ############### # 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) 
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

In [35]:
# 상관 분석을 할 2가지 변수 설정
x = x['bmi']
y = y['target']
print(x.head())
print(y.head())

0    0.061696
1   -0.051474
2    0.044451
3   -0.011595
4   -0.036385
Name: bmi, dtype: float64
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


#### 라이브러리 불러오기

In [37]:
from scipy.stats import pearsonr

#### 상관계수에 대한 검정 실시

In [41]:
print(pearsonr(x, y))
r, pvalue = pearsonr(x, y)

PearsonRResult(statistic=0.5864501344746884, pvalue=3.466006445167765e-42)


#### 가설 설정
H0 : 두 변수간 선형관계가 존재하지 않는다. (ρ = 0)          
H1 : 두 변수간 선형관계가 존재한다. (ρ ≠ 0)

In [42]:
# 1. 상관계수
print(round(r, 2))

0.59


두 변수간에 양의 상관관계가 있다.

In [43]:
# 2. p-value
print(round(pvalue, 2))

0.0


In [44]:
# 3. 검정통계량 : 별도로 구해야 함
# T = r * root(n-2) / root(1-r2)            # r : 상관계수, n : 데이터의 개수
n = len(x)
r2 = r ** 2             # 상관계수의 제곱
statistic = r * ((n-2)**0.5) / ((1-r2)**0.5)

print(round(statistic, 2))

15.19


#### 4. 귀무가설 기각여부 결정
p-value=0.0으로 유의수준 0.05보다 작으므로 귀무가설을 기각한다.     
즉, 두 변수간 선형관계가 존재한다고 할 수 있다. (상관계수가 0이 아니다.)