## Part 04 머신러닝 - 1장 지도 학습 모형

### 3절: 선형 모델
<br>

#### **1) 사이킷런을 활용한 다중 선형 회귀분석**

#### **1-1) 다중 선형 회귀모형**

- 사이킷런을 활용한 방법의 경우, ```sklearn.linear_model.LinearRegression()```을 통해 선형회귀(LinearRegression) 객체를 생성한 후, 해당 객체의 메소드 ```fit()```을 이용해 회귀모형을 적합함
- ```선형회귀객체.fit(X, y, ...)```  
   - **X**: 학습 데이터
   - **y**: 목푯값

#### Q.
diabetes 데이터에서 'bmi', 'bp', 's1', 's2', 's3' 컬럼을 독립변수로 설정하고, 'target' 변수를 종속변수로 설정하여 선형 회귀분석 실시하기

In [1]:
# 필요한 패키지 호출
from sklearn.linear_model import LinearRegression
import pandas as pd
import numpy as np

In [2]:
# 데이터 가져오기
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target

In [5]:
df = pd.DataFrame(data, columns=diabetes.feature_names)

In [6]:
columns = ['bmi', 'bp', 's1', 's2', 's3']
X = df[columns]
y = target

In [7]:
# 선형회귀 객체 생성
model = LinearRegression()

In [8]:
# 선형회귀 적합
model.fit(X = X, y = y)

In [9]:
# 독립변수들에 대한 추정 회귀계수들
model.coef_

array([ 608.94692667,  301.1268683 ,  990.86452444, -938.97359917,
       -597.46181621])

In [10]:
# 절편항에 대한 추정 회귀계수
model.intercept_

152.13348416289614

- ```model.coef_```, ```model.intercept_```를 통해 회귀계수를 확인한 결과, 추정된 회귀식: 
$$target = 152.13 + (608.94 * bmi) + (301.13 * bp) + (990.87 * s1) + (-938.97 * s2) + (-597.46 * s3)$$

In [11]:
# 결정계수
model.score(X = X, y = y)

0.4772123190202695

- 결정계수는 **0.477**이므로 회귀모형이 전체 데이터의 약 47.72%를 설명할 수 있음
- 결정계수 값이 조금 낮게 나타났기 때문에 해당 회귀추정식이 데이터를 적절하게 설명하고 있다고는 할 수 없음
- 사이킷런의 회귀분석 방법은 모형의 통계적 유의성이나 회귀계수의 유의성을 바로 제공하지 않음
- 따라서 유의성 확인을 위해서는 그 결과를 바로 제공하는 ```statsmodels```패키지를 사용하는 것이 편리함

<br>
<br>
<br>

#### **1-2) 릿지 (Ridge)**

- 릿지 회귀모형은 사이킷런 패키지를 활용해 클래스 ```sklearn.linear_model.Ridge()```을 통해 릿지회귀객체를 생성한 후, 해당 객체의 메소드 ```fit()```을 이용해 회귀모형을 적합함 (릿지 회귀는 능형 회귀라고도 함)
- ```sklearn.linear_model.Ridge(alpha = 1.0, ...)```  
   - **alpha**: 규제 강도를 제어하는 L2 항에 곱하는 상수로, alpha는 0에서 무한대 값을 가지며 0일 경우 규제항이 없는 일반적인 선형회귀모형임 (default = 1.0)

<br>

- ```릿지회귀객체.fit(X, y, ...)```
   - **X**: 학습 데이터
   - **y**: 목푯값

#### Q.
diabetes 데이터에서 'bmi', 'bp', 's1', 's2', 's3' 컬럼을 독립변수로 설정하고, 'target' 변수를 종속변수로 설정하여 릿지 회귀분석 실시하기

In [12]:
# 필요한 패키지 가져오기
from sklearn.linear_model import Ridge

In [13]:
# 데이터 가져오기
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target

In [14]:
df = pd.DataFrame(data, columns=diabetes.feature_names)

In [15]:
columns = ['bmi', 'bp', 's1', 's2', 's3']
X = df[columns]
y = target

In [16]:
# 릿지회귀객체 생성
model = Ridge(alpha = 0.1)

In [17]:
# 릿지회귀 적합
model.fit(X = X, y = y)

In [18]:
# 독립변수에 대한 추정 회귀계수들 확인
model.coef_

array([ 595.99425538,  339.08790294,  397.33725338, -338.99514707,
       -406.34548455])

In [19]:
model.intercept_

152.1334841628961

- ```model.coef_```, ```model.intercept_```를 통해 회귀계수를 확인한 결과, 추정된 회귀식: 
$$target = 152.13 + (595.99 * bmi) + (339.09 * bp) + (397.34 * s1) + (-339.00 * s2) + (-406.35 * s3)$$

<br>
<br>
<br>

#### **1-3) 라쏘 (Lasso)**

- 라쏘 회귀모형은 사이킷런 패키지를 활용해 클래스 ```sklearn.linear_model.Lasso()```을 통해 라쏘회귀객체를 생성한 후, 해당 객체의 메소드 ```fit()```을 이용해 회귀모형을 적합함
- ```sklearn.linear_model.Lasso(alpha = 1.0, fit_intercept = True, ...)```  
   - **alpha**: 규제 강도를 제어하는 L1 항에 곱하는 상수로, alpha는 0에서 무한대 값을 가지며 0일 경우 규제항이 없는 일반적인 선형회귀모형임 (default = 1.0)
   - **fit_intercept**: 모델에 절편항을 적합 시킬 지에 대한 여부 (default = True)

<br>

- ```라쏘회귀객체.fit(X, y, ...)```
   - **X**: 학습 데이터
   - **y**: 목푯값

#### Q.
diabetes 데이터에서 'bmi', 'bp', 's1', 's2', 's3' 컬럼을 독립변수로 설정하고, 'target' 변수를 종속변수로 설정하여 라쏘 회귀분석 실시하기

In [20]:
# 필요한 패키지 가져오기
from sklearn.linear_model import Lasso

In [21]:
# 데이터 가져오기
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target

In [22]:
df = pd.DataFrame(data, columns=diabetes.feature_names)

In [23]:
columns = ['bmi', 'bp', 's1', 's2', 's3']
X = df[columns]
y = target

In [24]:
# 라쏘 회귀객체 생성
model = Lasso(alpha = 0.5)

In [25]:
# 라쏘회귀 적합
model.fit(X = X, y = y)

In [26]:
# 독립변수에 대한 추정 회귀계수들 확인
model.coef_

array([ 574.04562479,  237.22854049,    0.        ,    0.        ,
       -165.17168117])

In [27]:
model.intercept_

152.13348416289608

- ```model.coef_```, ```model.intercept_```를 통해 회귀계수를 확인한 결과, 추정된 회귀식: 
$$target = 152.13 + (574.04 * bmi) + (237.23 * bp) + (0 * s1) + (0 * s2) + (-165.17 * s3)$$
- 이 회귀식을 통해 라쏘 회귀모형은 **중요한 변수를 선택하는 역할**을 수행할 수 있음을 확인 가능함

<br><br><br>

#### Q.
diabetes 데이터를 0 ~ 309번 행을 train, 310 ~ 441번 행을 test로 각각 데이터프레임을 추출한 후, train과 test에서 'bmi', 'bp', 's1', 's2', 's3' 컬럼을 독립변수로 설정하여 각각 X_train과 X_test로 저장하고, train에서 'target' 컬럼을 종속변수로 설정하여 y_train으로 저장하기. 다음으로 X_train과 y_train으로 라쏘 회귀모형을 적합한 후 X_test를 통해 새로운 'target' 변수 예측하기 (라쏘의 L1 규제의 상수항은 0.5로 설정)

In [28]:
# 필요한 패키지 가져오기
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.linear_model import Lasso

In [29]:
# 데이터 가져오기
diabetes = load_diabetes()
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)
target = pd.Series(diabetes.target, name = 'target')
df = pd.concat( [data, target], axis = 1)
df

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.050680,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,75.0
2,0.085299,0.050680,0.044451,-0.005670,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.025930,141.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,206.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,135.0
...,...,...,...,...,...,...,...,...,...,...,...
437,0.041708,0.050680,0.019662,0.059744,-0.005697,-0.002566,-0.028674,-0.002592,0.031193,0.007207,178.0
438,-0.005515,0.050680,-0.015906,-0.067642,0.049341,0.079165,-0.028674,0.034309,-0.018114,0.044485,104.0
439,0.041708,0.050680,-0.015906,0.017293,-0.037344,-0.013840,-0.024993,-0.011080,-0.046883,0.015491,132.0
440,-0.045472,-0.044642,0.039062,0.001215,0.016318,0.015283,-0.028674,0.026560,0.044529,-0.025930,220.0


In [30]:
# 데이터 분할
col = ['bmi', 'bp', 's1', 's2', 's3']
X_train = df[col].loc[:310]
X_test = df[col].loc[310:]
y_train = df['target'].loc[:310]

In [31]:
# 라쏘 회귀객체 생성
model = Lasso(alpha = 0.5)

# X_train과 y_train으로 라쏘 회귀모형 적합
model.fit(X = X_train, y = y_train)

In [32]:
# X_test를 통해 새로운 'target' 변수 예측
target = model.predict(X_test)
target = pd.Series(target, name = 'target')
target

0      198.788357
1      166.214176
2      133.539177
3      194.702189
4      172.636544
          ...    
127    178.910743
128    131.853902
129    148.589829
130    178.546705
131     65.611052
Name: target, Length: 132, dtype: float64

In [33]:
model.coef_

array([ 594.71569107,  203.35216045,    0.        ,    0.        ,
       -145.53721619])

In [34]:
model.intercept_

150.89552261373652

- ```model.coef_```, ```model_intercept_```를 통해 train 데이터셋만으로 회귀계수를 적합한 결과, 추정된 회귀식:
$$target = 150.90 + (594.72 * bmi) + (203.35 * bp) + (0 * s1) + (0 * s2) + (-145.54 * s3)$$
- target을 추정하는 데 중요한 변수는 ```bmi```, ```bp```, ```s3```로 나타남을 알 수 있음
- 이 결과는 라쏘 객체 생성 시 alpha값에 따라 달라지며 alpha값이 0에 가까울수록 가장 많은 변수를 가지는 회귀모형이 되며, 무한대에 가까울수록 절편항만을 포함하는 가장 간단한 회귀모형이 됨
- 따라서 적절한 alpha값을 그리드 서치(Grid Search) 방법이나 k-fold 교차검증(k-fold CV) 통계량을 통해 찾아야 함

In [35]:
# 그냥 해보는 평가지표로 예측값 확인하기
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

In [36]:
y_true = df['target'].loc[310:]
y_pred = target  # 위에서 예측한 값

In [37]:
# 평가지표 계산
mse = mean_squared_error(y_true, y_pred)
mae = mean_absolute_error(y_true, y_pred)
mape = mean_absolute_percentage_error(y_true, y_pred)

In [38]:
print(f"Mean Squared Error (MSE): {round(mse, 2)}")
print(f"Mean Absolute Error (MAE): {round(mae, 2)}")
print(f"Mean Absolute Percentage Error (MAPE): {round(mape, 2)}")

Mean Squared Error (MSE): 3283.79
Mean Absolute Error (MAE): 47.93
Mean Absolute Percentage Error (MAPE): 0.42


In [39]:
# MAE: 평균적으로 47.93 단위만큼 예측이 실제와 차이난다는 뜻
# MAPE: 예측값이 실제값에서 평균적으로 42% 벗어났다는 것을 의미함

<br><br><br>
<hr>

#### **2) 사이킷런을 활용한 로지스틱 회귀분석**

<br>

- 로지스틱 회귀모형은 서브패키지 ```linear_model``` 내 클래스 ```LogisticRegression()```을 통해 모형객체를 생성할 수 있음
- **참고)** 선형 회귀모델과 달리 로지스틱 회귀모형은 클래스 ```LogisticRegression()```과 릿지와 라쏘를 함께 지원함
- ```sklearn.linear_model.LogisticRegression(penalty = 'l2', C = 1.0, multi_class = 'auto', max_iter = 100, ...)```  
   - **penalty**: 규제항 추가와 관련된 옵션
      - 'none': 규제항 추가하지 않음
      - 'l2': L2 규제항 추가 (default)
      - 'l1': L1 규제항 추가
   - **C**: 규제항에 곱하는 상수의 역수로 규제강도를 제어함. C는 적을수록 가장 규제가 가장 강함 (default = 1.0)
   - **multi_class**: 다지분류를 위한 옵션(default = auto(target의 레이블에 따라 자동으로 선택))
      - 'ovr': 이진분류
      - 'multinomail': 다지분류
   - **max_iter**: 수렴할 때까지 걸리는 최대 반복 획수(default = 100)

#### Q.
사이킷런 패키지 내 breast_cancer 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 ```LogisticRegression()```을 통해 이진분류 모형객체를 생성하고 학습한 후 평가 데이터로 목푯값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8대 2로하고, target의 비율을 반영하고 평가지표는 AUC 사용하기)

In [40]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [41]:
# breast cancer 데이터 가져오기
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
data = breast_cancer.data
target = breast_cancer.target

In [42]:
# 데이터분할
X_train, X_test, y_train, y_test = train_test_split(data, 
                                                    target,
                                                    test_size = 0.2,         # 8:2 비율
                                                    random_state = 2205,
                                                    stratify = target)       # target의 비율 반영

In [43]:
# 모형객체 생성
lr_bin = LogisticRegression(C = 0.5,           # 규제 강도
                            max_iter = 2000)   # 수렴까지 걸리는 최대 반복 횟수
lr_bin

In [44]:
# 모델 학습 & 적합
model_lr_bin = lr_bin.fit(X_train, y_train)

In [45]:
# ROC
from sklearn.metrics import roc_curve, auc

In [46]:
y_score = model_lr_bin.predict_proba(X_test)[:, 1]
y_score

array([9.99925131e-01, 1.10456678e-02, 9.99987418e-01, 9.98630111e-01,
       9.99874680e-01, 9.98674613e-01, 1.58396422e-05, 9.99962441e-01,
       9.85188682e-01, 9.99994102e-01, 2.05776144e-04, 9.99804201e-01,
       3.27780513e-06, 6.05581672e-12, 3.26446244e-03, 9.56527456e-01,
       9.51512101e-01, 9.94962683e-01, 9.92078578e-01, 9.98486248e-01,
       2.17386463e-06, 9.99998270e-01, 9.63276864e-01, 9.97095388e-01,
       9.50976935e-01, 1.38632669e-02, 4.78891275e-04, 9.99982004e-01,
       9.03208838e-14, 9.16107327e-01, 7.87279453e-01, 9.62384235e-01,
       9.77201462e-01, 9.99610278e-01, 9.96193838e-01, 7.85161454e-07,
       2.29120273e-02, 9.98552612e-01, 6.63496397e-01, 9.69663603e-01,
       9.03219928e-01, 4.40925463e-03, 5.63958852e-08, 1.17978511e-02,
       3.87791735e-10, 3.22913969e-07, 7.43367065e-01, 8.85829789e-11,
       9.99659159e-01, 9.99975461e-01, 7.45649983e-08, 9.97664045e-01,
       9.59113068e-01, 9.65426081e-01, 6.35987996e-04, 1.57128398e-03,
      

In [47]:
fpr, tpr, thresholds = roc_curve(y_test, y_score)
print(fpr)
print(tpr)
print(thresholds)

[0.         0.         0.         0.02380952 0.02380952 1.        ]
[0.         0.01388889 0.93055556 0.93055556 1.         1.        ]
[           inf 9.99998482e-01 8.89728782e-01 8.36662993e-01
 4.93587324e-01 6.33290969e-33]


In [48]:
# AUC
AUC = auc(fpr, tpr)   # roc_curve()에서 반환된 fpr > x축, tpr > y축
AUC

0.9983465608465608

- AUC를 계산하기 위해 ROC_curve를 먼저 생성
- 이때 함수 ```roc_curve()```의 인자 ```y_score```는 모형에서 예측된 결과가 확률의 형태를 입력받아야하므로 모형객체의 메소드 ```predict_proba()```를 이용
- ```predict_proba(X_test)```의 결과는 2차원 배열 형태를 반환하며, 첫 번째 열은 0이 될 확률, 두 번째 열은 1이 될 확률을 반환함
- 따라서 두 번째 열을 선택하기 위해 [:, 1]을 통하여 인덱싱
- 마지막으로 ```roc_curve()```에서 반환되는 결과 중 FPR과 TRP을 각각 x, y축으로 함수 ```auc()```의 인자로 사용함 >> 그 결과 AUC 값은 0.9983으로 매우 높게 나타남
- 이 결과는 무조건 높다고 해서 좋은 모형은 아니며, 분석 분야에 따라 다양한 지표들을 활용하여 분석 모형을 선택할 수 있다는 것 참고# metrics.classification_report(y_true, y_pred) 함수 테스트해보기
from sklearn.metrics import classification_report

In [49]:
# metrics.classification_report(y_true, y_pred) 함수 테스트해보기
from sklearn.metrics import classification_report

In [50]:
# 예측값 데이터 만들기
y_pred = model_lr_bin.predict(X_test)

In [51]:
report = classification_report(y_test, y_pred)
print(report)

              precision    recall  f1-score   support

           0       0.98      0.98      0.98        42
           1       0.99      0.99      0.99        72

    accuracy                           0.98       114
   macro avg       0.98      0.98      0.98       114
weighted avg       0.98      0.98      0.98       114



<br><br>

#### Q.
사이킷런 패키지 내 iris 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 ```LogisticRegression()```을 통해 다지분류 모형객체를 생성하고 학습한 후 평가 데이터로 목푯값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, target의 비율을 반영하고 평가지표는 macro f1-score 사용하기)

In [52]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [53]:
# iris 데이터셋 가져오기
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data
target = iris.target

In [54]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.2,
                                                    random_state = 2205,
                                                    stratify = target)

In [55]:
# 모형객체 생성
lr_multi = LogisticRegression(C = 0.05,                 # 규제 강도
                              max_iter = 200)           # 수렴까지 걸리는 최대 반복 횟수

In [56]:
# 모델학습
model_lr_multi = lr_multi.fit(X_train, y_train)

In [57]:
# macro f1-score
from sklearn.metrics import f1_score
y_pred = model_lr_multi.predict(X_test)

In [58]:
macro_f1 = f1_score(y_test, y_pred, average = 'macro')
macro_f1

0.9665831244778613

- macro f1-score를 계산하기 위한 함수인 ```f1_score()```의 ```y_pred```의 인자에 입력될 예측값을 구하기 위해 모형객체의 메소드 ```predict```를 이용
- 파이썬에서 macro f1-score를 계산하는 방법은 ```average = 'macro'```의 옵션을 추가함으로써 수행이 가능함
- macro f1-score를 계산한 결과 0.96666으로 매우 높게 나타났음
- 이 결과는 무조건 높다고 해서 좋은 모형은 아니며, 분석 분야에 따라 다양한 지표들을 활용하여 분석 모형을 선택할 수 있다는 것 참고

In [59]:
# metrics.classification_report(y_true, y_pred) 함수 테스트해보기
from sklearn.metrics import classification_report

In [60]:
report = classification_report(y_test, y_pred)
print(report)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.90      0.95        10
           2       0.91      1.00      0.95        10

    accuracy                           0.97        30
   macro avg       0.97      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30

