# 로지스틱 회귀실습

#####  

일반적인 선형 회귀 분석은 예측 문제를 풀기에는 적합하지만 분류 문제를 풀기에는 적합하지 않다. 선형 회귀 분석의 타깃 데이터의 값의 범위에는 제한이 없기 때문이다. 

0과 1로 분류해야하는 문제에서 결괏 값은 오직 0과 1 사이의 값으로 나와야 할 것이다. 이런 문제점을 해결하기 위해 사용하는 방법이 로지스틱 회귀 분석이다.

 선형 회귀 분석 모형: $ z = \mathbf w^T \mathbf x + b $

이 z 값에는 제한이 없으므로 분류 문제를 푸는 것이 어렵다. 결괏값이 제한된 범위의 값을 가지도록 변형시키는데, 그 결과 이 형태가 된다.

$ \log \left( \frac{\pi (\mathbf x)} {1 - \pi (\mathbf x)} \right) = \mathbf w^T \mathbf x + b  $

${\pi (\mathbf x)}$ 는 피처 데이터 x 가 주어질 때 y가 1일 확률을 의미한다. 

가중치 (w)의 부호에 따라 모형의 형태가 달라진다.

---

#####  8.5.2 유방암을 예측하는 모형을 만들어보기.


# Dataset import
## 데이터 불러오기

In [1]:
import pandas as pd
import numpy as np

from sklearn import datasets
raw_cancer = datasets.load_breast_cancer()

In [2]:
# 데이터 셋 내 피처 살펴보기
raw_cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [3]:
raw_cancer.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

보다시피 타깃 데이터는 1과 0으로 더미 변수 형태로 되어있다.

# 피처, 타깃 데이터 지정

In [4]:
X = raw_cancer.data
y = raw_cancer.target

## 트레이닝, 테스트 데이터 분할

In [6]:
from sklearn.model_selection import train_test_split
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state = 1)

## 데이터 표준화

In [7]:
from sklearn.preprocessing import StandardScaler

# X 트레이닝 데이터 기준으로 Xtn Xte 를 표준화한다.
std_scale = StandardScaler()
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn)
X_te_std = std_scale.transform(X_te)

# 로지스틱 회귀 분류모델


## 모델링
### 데이터 학습 (penalty = 'none')

In [9]:
from sklearn.linear_model import LogisticRegression       # 선형회귀 안에 로지스틱 리그레션이 들어있다.
clf_lg = LogisticRegression(penalty = 'none')             # 선형회귀와 마찬가지로 제약식을 적용할 수 있다. penalty = 'none'은 적용하지 않는것.
clf_lg.fit(X_tn_std, y_tn)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression(penalty='none')

아 오류 `ConvergenceWarning: lbfgs failed to converge (status=1): STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.` 

왜그러세요 그러지마세요ㅠ아니 그러지말아주세요

### 로지스틱 회귀 분석 추정 계수

적합시킨 로지스틱 회귀 모형의 추정 계수를 확인해본다.


In [12]:
# 추정계수 확인

print(clf_lg.coef_)

[[ 591.00640307  178.07226669  268.08733748 -330.93384262 -265.89267754
   403.87590255 -440.20567456 -163.13405253  160.24943851   31.05972374
  -440.51054671  114.9741787   389.61869589 -916.53513808  -24.85205124
   281.38892257  327.14492105 -603.09768047  -26.69362497  300.55349611
   222.6810874  -421.96122568 -499.54041443 -930.53290536  331.03484773
  -173.78537726 -262.47341882   41.24337521 -183.3975225  -395.41997878]]


In [13]:
# 상수항 확인

print(clf_lg.intercept_)

[-248.00998108]


### 데이터 예측

In [15]:
lg_pred = clf_lg.predict(X_te_std)
print(lg_pred)

[1 0 1 0 0 0 0 0 1 1 1 0 0 1 1 1 1 1 1 0 1 1 0 1 0 1 1 0 0 0 0 1 0 0 1 1 0
 1 0 1 1 1 1 1 1 0 1 1 1 0 0 0 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0
 1 0 0 1 1 0 1 0 1 0 1 1 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1 0 0 0
 0 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0 0 1]


### 클래스 확률로 예측

위에서는 클래스로 예측했지만, 메소드를 이용하여 해당 클래스에 속할 확률을 출력할 수 있다.

In [21]:
pred_probability = clf_lg.predict_proba(X_te_std)
print(pred_probability)

[[0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 4.29084288e-110]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 7.03261202e-081]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 0.

## 평가

### 정밀도 형가

precision을 확인해본다.

In [22]:
from sklearn.metrics import precision_score

precision = precision_score(y_te, lg_pred)
print(precision)

0.9770114942528736


약 98%정도의 정확도를 보이고 있다.

### confusion matrix 확인

In [23]:
from sklearn.metrics import confusion_matrix

conf_mat = confusion_matrix(y_te, lg_pred)
print(conf_mat)

[[53  2]
 [ 3 85]]


### 분류 리포트 확인

In [24]:
from sklearn.metrics import classification_report

class_report = classification_report(y_te, lg_pred)
print(class_report)

              precision    recall  f1-score   support

           0       0.95      0.96      0.95        55
           1       0.98      0.97      0.97        88

    accuracy                           0.97       143
   macro avg       0.96      0.96      0.96       143
weighted avg       0.97      0.97      0.97       143



충분히 좋은 결과가 나온 편이라고 생각한다. 하지만 사실 양성(클래스1)인데 음성으로 잘못 분류하는 경우가 3 경우가 있었던 것으로 보인다.

수치적으로는 재현율이나 전반적으로 우수하지만, 이런 부분은 문제가 있을 수 있다.

분류를 전체적으로 잘 했는가 자체보다는, 의료 데이터에서는 중요한 부분이 제대로 분류가 되었는지가 가장 중요한 것 같다.

릿지나 라쏘, 엘라스틱 넷 등 다른 제약식으로 이용하여 분류를 해보도록 한다.

# 실험1: 라쏘 제약식(L2) 사용
---

## 모델링
### 데이터 학습 (penalty = ' l2')

In [25]:
from sklearn.linear_model import LogisticRegression       # 선형회귀 안에 로지스틱 리그레션이 들어있다.
clf_lg_l2 = LogisticRegression(penalty = 'l2')            # 선형회귀와 마찬가지로 제약식을 적용할 수 있다. penalty = 'l2'은 L2 제약식 이용.
clf_lg_l2.fit(X_tn_std, y_tn)

LogisticRegression()

### L2 제약식 로지스틱 회귀 분석 추정 계수

적합시킨 로지스틱 회귀 모형의 추정 계수를 확인해본다.


In [26]:
# 추정계수 확인

print(clf_lg_l2.coef_)

[[-0.48143978 -0.41014209 -0.46725987 -0.51392775 -0.09769918  0.3020924
  -0.72884664 -0.7890253  -0.01424461  0.39299676 -1.08415325 -0.04728618
  -0.5669909  -0.74499028 -0.22229903  0.90896096 -0.05386185 -0.49962018
   0.17826258  0.71184481 -1.05809159 -0.95888641 -0.91097127 -0.97646535
  -0.41365059 -0.01729729 -0.82465772 -0.93295021 -0.76852329 -0.61983664]]


In [27]:
# 상수항 확인

print(clf_lg_l2.intercept_)

[0.36341572]


### 데이터 예측

In [28]:
lg_l2_pred = clf_lg_l2.predict(X_te_std)
print(lg_l2_pred)

[1 0 1 0 0 0 0 0 1 1 1 0 0 1 1 1 1 1 1 0 1 1 0 1 0 1 1 0 0 0 0 1 0 0 1 1 0
 1 0 1 1 1 1 1 1 0 1 1 1 0 0 0 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0
 1 0 0 1 1 0 1 0 1 0 1 1 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0
 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0 0 1]


### 클래스 확률로 예측

위에서는 클래스로 예측했지만, 메소드를 이용하여 해당 클래스에 속할 확률을 출력할 수 있다.

In [29]:
pred_probability_l2 = clf_lg_l2.predict_proba(X_te_std)
print(pred_probability_l2)

[[1.49488533e-01 8.50511467e-01]
 [9.89656817e-01 1.03431830e-02]
 [9.87187552e-03 9.90128124e-01]
 [9.94890005e-01 5.10999525e-03]
 [8.94370796e-01 1.05629204e-01]
 [9.94653457e-01 5.34654285e-03]
 [9.99934190e-01 6.58097367e-05]
 [8.39850104e-01 1.60149896e-01]
 [6.71620121e-03 9.93283799e-01]
 [2.48219387e-02 9.75178061e-01]
 [1.16133334e-03 9.98838667e-01]
 [9.97966542e-01 2.03345776e-03]
 [9.81618379e-01 1.83816207e-02]
 [1.87756245e-03 9.98122438e-01]
 [3.41727616e-01 6.58272384e-01]
 [3.22621426e-02 9.67737857e-01]
 [5.94546271e-04 9.99405454e-01]
 [8.11730977e-03 9.91882690e-01]
 [6.99424444e-04 9.99300576e-01]
 [9.99931832e-01 6.81684178e-05]
 [2.52926669e-03 9.97470733e-01]
 [4.58182448e-03 9.95418176e-01]
 [9.99946728e-01 5.32715029e-05]
 [1.28963362e-02 9.87103664e-01]
 [9.92283615e-01 7.71638528e-03]
 [3.06703381e-02 9.69329662e-01]
 [2.40952072e-02 9.75904793e-01]
 [9.99991486e-01 8.51390903e-06]
 [1.00000000e+00 2.62520146e-13]
 [9.85741614e-01 1.42583858e-02]
 [9.999999

## 평가

### 정밀도 형가

precision을 확인해본다.

In [30]:
from sklearn.metrics import precision_score

precision = precision_score(y_te, lg_l2_pred)
print(precision)

0.9775280898876404


약 98%정도의 정확도를 보이고 있다. 0.9770114942528736 에서 아주 약간 상승했다.

### confusion matrix 확인

In [31]:
from sklearn.metrics import confusion_matrix

conf_mat = confusion_matrix(y_te, lg_l2_pred)
print(conf_mat)

[[53  2]
 [ 1 87]]


실제로 클래스 0의 분류 오류는 변하지 않았지만 클래스 1 에서 오답이었던 3중 2개를 맞추면서 1개로 줄어들었다.

### 분류 리포트 확인

In [32]:
from sklearn.metrics import classification_report

class_report = classification_report(y_te, lg_l2_pred)
print(class_report)

              precision    recall  f1-score   support

           0       0.98      0.96      0.97        55
           1       0.98      0.99      0.98        88

    accuracy                           0.98       143
   macro avg       0.98      0.98      0.98       143
weighted avg       0.98      0.98      0.98       143



제약식을 변화시키는 것만으로 특정 클래스의 재현율을 이렇게 끌어올릴 수 있다는 것에서 감탄을 아니할 수 없었다...

교재에서 L2제약식을 사용한 코드만 있었던 이유가 있었는지도 모른다는 생각이다.

# Commentary
---
당연하게도 L1제약식도 해보고싶어졌다. 그러나 문제가 있었다.

In [33]:
from sklearn.linear_model import LogisticRegression       # 선형회귀 안에 로지스틱 리그레션이 들어있다.
clf_lg_l1 = LogisticRegression(penalty = 'l1')            # 선형회귀와 마찬가지로 제약식을 적용할 수 있다. 
clf_lg_l1.fit(X_tn_std, y_tn)

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

` ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty. `

제약식은 없거나 L2만 이용할 수 있었다.

그런 이유가 있는 것인가?

```
penalty : {'l1', 'l2', 'elasticnet', 'none'}, default='l2'
    Specify the norm of the penalty:

    - `'none'`: no penalty is added;
    - `'l2'`: add a L2 penalty term and it is the default choice;
    - `'l1'`: add a L1 penalty term;
    - `'elasticnet'`: both L1 and L2 penalty terms are added.

    .. warning::
       Some penalties may not work with some solvers. See the parameter
       `solver` below, to know the compatibility between the penalty and
       solver.

    .. versionadded:: 0.19
       l1 penalty with SAGA solver (allowing 'multinomial' + L1)
```

 코드 설명을 좀 읽어보기로 했는데, 쓰는 것 자체가 잘못된 것은 아니다. 분명 책에서도 된다고 읽었으나 valueerror가 뜬 것을 보아하니... 
 
 데이터가 수식적으로 맞지 않는 경우인지도 모르겠다.
 
 이해하고 싶었지만 지금 당장 이해할 수 있는 머리가 아니라는게 안타깝다. Solver가 L2와 none만 지원한다고 하니, 엘라스틱 넷은 해보나 마나인 것이었다.

In [34]:
from sklearn.linear_model import LogisticRegression       # 선형회귀 안에 로지스틱 리그레션이 들어있다.
clf_lg_ela = LogisticRegression(penalty = 'elasticnet')            # 선형회귀와 마찬가지로 제약식을 적용할 수 있다. 
clf_lg_ela.fit(X_tn_std, y_tn)

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got elasticnet penalty.

수식적으로 쉽게 이해할 수 있었으면 좋겠으나 선형회귀에 제약식을 만들어 다른 식으로 답을 찾도록 할 수 있다는 것만 알고 있는 상태인 것이 안타깝다.

이해할 수 있는 날이 오기를 빌면서 로지스틱 회귀 분석 전체 코드만 정리를 하고 마쳐야 겠다.

## 전체 코드

In [None]:
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import precision_score, confusion_matrix, classification_report

# Data Load
raw_cancer = datasets.load_breast_cancer()

# feature, target data select
X = raw_cancer.data
y = raw_cancer.target

# training data, test data division
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state = 1)

# Data standardization for X
std_scale = StandardScaler()
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn)
X_te_std = std_scale.transform(X_te)

# Logistic Regression Analyzing (L2)
clf_lg_l2 = LogisticRegression(penalty = 'l2') # penalty default is 'l2'
clf_lg_l2.fit(X_tn_std, y_tn)

# w, b(추정계수, 상수항) 출력
print(clf_lg_l2.coef_)
print(clf_lg_l2.intercept_)

# predict y
lg_l2_pred = clf_lg_l2.predict(X_te_std)
print(lg_l2_pred)

# prediction probability 
pred_probability_l2 = clf_lg_l2.predict_proba(X_te_std)
print(pred_probability_l2)

# precision 
precision = precision_score(y_te, lg_l2_pred)
print(precision)

# confusion matrix
conf_mat = confusion_matrix(y_te, lg_l2_pred)
print(conf_mat)

# classification report
class_report = classification_report(y_te, lg_l2_pred)
print(class_report)