# 로지스틱 회귀실습

#####  

일반적인 선형 회귀 분석은 예측 문제를 풀기에는 적합하지만 분류 문제를 풀기에는 적합하지 않다. 선형 회귀 분석의 타깃 데이터의 값의 범위에는 제한이 없기 때문이다. 

0과 1로 분류해야하는 문제에서 결괏 값은 오직 0과 1 사이의 값으로 나와야 할 것이다. 이런 문제점을 해결하기 위해 사용하는 방법이 로지스틱 회귀 분석이다.

 선형 회귀 분석 모형: $ z = \mathbf w^T \mathbf x + b $

이 z 값에는 제한이 없으므로 분류 문제를 푸는 것이 어렵다. 결괏값이 제한된 범위의 값을 가지도록 변형시키는데, 그 결과 이 형태가 된다.

$ \log \left( \frac{\pi (\mathbf x)} {1 - \pi (\mathbf x)} \right) = \mathbf w^T \mathbf x + b  $

${\pi (\mathbf x)}$ 는 피처 데이터 x 가 주어질 때 y가 1일 확률을 의미한다. 

가중치 (w)의 부호에 따라 모형의 형태가 달라진다.

---

#####  8.5.2 유방암을 예측하는 모형을 만들어보기.


# Dataset import
## 데이터 불러오기

In [1]:
import pandas as pd
import numpy as np

from sklearn import datasets
raw_cancer = datasets.load_breast_cancer()

In [2]:
# 데이터 셋 내 피처 살펴보기
raw_cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [3]:
raw_cancer.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

보다시피 타깃 데이터는 1과 0으로 더미 변수 형태로 되어있다.

# 피처, 타깃 데이터 지정

In [4]:
X = raw_cancer.data
y = raw_cancer.target

## 트레이닝, 테스트 데이터 분할

In [6]:
from sklearn.model_selection import train_test_split
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state = 1)

## 데이터 표준화

In [7]:
from sklearn.preprocessing import StandardScaler

# X 트레이닝 데이터 기준으로 Xtn Xte 를 표준화한다.
std_scale = StandardScaler()
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn)
X_te_std = std_scale.transform(X_te)

# 로지스틱 회귀 분류모델


## 모델링
### 데이터 학습 (penalty = 'none')

In [9]:
from sklearn.linear_model import LogisticRegression       # 선형회귀 안에 로지스틱 리그레션이 들어있다.
clf_lg = LogisticRegression(penalty = 'none')          # 선형회귀와 마찬가지로 제약식을 적용할 수 있다. penalty = 'none'은 적용하지 않는것.
clf_lg.fit(X_tn_std, y_tn)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression(penalty='none')

### 로지스틱 회귀 분석 추정 계수

적합시킨 로지스틱 회귀 모형의 추정 계수를 확인해본다.


In [12]:
# 추정계수 확인

print(clf_lg.coef_)

[[ 591.00640307  178.07226669  268.08733748 -330.93384262 -265.89267754
   403.87590255 -440.20567456 -163.13405253  160.24943851   31.05972374
  -440.51054671  114.9741787   389.61869589 -916.53513808  -24.85205124
   281.38892257  327.14492105 -603.09768047  -26.69362497  300.55349611
   222.6810874  -421.96122568 -499.54041443 -930.53290536  331.03484773
  -173.78537726 -262.47341882   41.24337521 -183.3975225  -395.41997878]]


In [13]:
# 상수항 확인

print(clf_lg.intercept_)

[-248.00998108]


### 데이터 예측

In [15]:
lg_pred = clf_lg.predict(X_te_std)
print(lg_pred)

[1 0 1 0 0 0 0 0 1 1 1 0 0 1 1 1 1 1 1 0 1 1 0 1 0 1 1 0 0 0 0 1 0 0 1 1 0
 1 0 1 1 1 1 1 1 0 1 1 1 0 0 0 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0
 1 0 0 1 1 0 1 0 1 0 1 1 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1 0 0 0
 0 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0 0 1]


### 클래스 확률로 예측

위에서는 클래스로 예측했지만, 메소드를 이용하여 해당 클래스에 속할 확률을 출력할 수 있다.

In [21]:
pred_probability = clf_lg.predict_proba(X_te_std)
print(pred_probability)

[[0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 4.29084288e-110]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 7.03261202e-081]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [0.00000000e+000 1.00000000e+000]
 [1.00000000e+000 0.00000000e+000]
 [1.00000000e+000 0.

## 평가

### 정밀도 형가

precision을 확인해본다.

In [22]:
from sklearn.metrics import precision_score

precision = precision_score(y_te, lg_pred)
print(precision)

0.9770114942528736


약 98%정도의 정확도를 보이고 있다.

### confusion matrix 확인

In [23]:
from sklearn.metrics import confusion_matrix

conf_mat = confusion_matrix(y_te, lg_pred)
print(conf_mat)

[[53  2]
 [ 3 85]]


### 분류 리포트 확인

In [24]:
from sklearn.metrics import classification_report

class_report = classification_report(y_te, lg_pred)
print(class_report)

              precision    recall  f1-score   support

           0       0.95      0.96      0.95        55
           1       0.98      0.97      0.97        88

    accuracy                           0.97       143
   macro avg       0.96      0.96      0.96       143
weighted avg       0.97      0.97      0.97       143

