### 로지스틱 회귀 분석

선형 회귀는 예측 문제를 풀기에는 적합하지만 분류 문제를 풀기에는 적합하지 않음
**이유 : 결과 값이 제한되는 상황에서 회귀 모형의 결과값에 제한이 없음**


### 시그모이드 함수 사용

$$
log(\frac{y}{1-y}) = W^Tx + b
$$

**분자(y) : 사건이 발생할 확률**
**분모(1-y) : 사건이 발생하지 않을 확률**

**아웃풋이 0과 1 사이의 값만 가지게 됨**

In [2]:
# 데이터 불러오기(유방암 예측 모형)

from sklearn import datasets
raw_cancer = datasets.load_breast_cancer()

In [3]:
# 피처, 타깃 데이터 지정
X = raw_cancer.data
y = raw_cancer.target

In [4]:
# 트레이닝/테스트 데이터 분할
from sklearn.model_selection import train_test_split
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state=0)

In [5]:
# 데이터 표준화
from sklearn.preprocessing import StandardScaler
std_scale = StandardScaler()
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn)
X_te_std = std_scale.transform(X_te)

In [6]:
# 데이터 학습
from sklearn.linear_model import LogisticRegression

# penaly : 제약식 종류 선택(l1, l2, elasticnet)
clf_logi_l2 = LogisticRegression(penalty='l2')
clf_logi_l2.fit(X_tn_std, y_tn)

In [7]:
# 로지스틱 회귀 분석 추정 계수

# 추정 계수
print(clf_logi_l2.coef_)

# 상수항
print(clf_logi_l2.intercept_)

[[-0.31167303 -0.58082201 -0.32131835 -0.38161278 -0.11923966  0.43130513
  -0.70867977 -0.85378868 -0.46682033  0.11842553 -1.384584    0.08915178
  -0.95504656 -0.93809826  0.18173417  0.99841869  0.1098606  -0.34148205
   0.20112256  0.80467192 -0.91482867 -0.91731629 -0.81023153 -0.85401188
  -0.45736929  0.11351219 -0.8359122  -0.98702282 -0.59104801 -0.62212143]]
[0.02651424]


In [8]:
# 데이터 예측
pred_logistic = clf_logi_l2.predict(X_te_std)
print(pred_logistic)

[0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 0 0 1 1 0 1 0
 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 1 0 0 0 1 1 0 1 1 1 1 1 1 1 0 1 0 1 1 1 1
 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 0 0 0 1 1 1 0]


In [9]:
# 클래스 확률로 예측(해당 클래스에 속할 확률)
pred_proba = clf_logi_l2.predict_proba(X_te_std)
print(pred_proba)

[[9.98648594e-01 1.35140551e-03]
 [3.97049107e-02 9.60295089e-01]
 [1.30747928e-03 9.98692521e-01]
 [1.24088419e-02 9.87591158e-01]
 [2.44097465e-04 9.99755903e-01]
 [4.46535523e-03 9.95534645e-01]
 [1.12358878e-04 9.99887641e-01]
 [1.81602522e-03 9.98183975e-01]
 [9.80602662e-05 9.99901940e-01]
 [1.75676970e-06 9.99998243e-01]
 [1.76291974e-01 8.23708026e-01]
 [8.23691695e-02 9.17630831e-01]
 [9.57480760e-06 9.99990425e-01]
 [5.39393822e-01 4.60606178e-01]
 [3.96253590e-01 6.03746410e-01]
 [9.95790578e-01 4.20942173e-03]
 [2.68696668e-03 9.97313033e-01]
 [9.99997155e-01 2.84455892e-06]
 [9.99927992e-01 7.20077508e-05]
 [9.99999997e-01 2.75677120e-09]
 [9.98740987e-01 1.25901343e-03]
 [9.81471041e-01 1.85289592e-02]
 [1.78265263e-02 9.82173474e-01]
 [9.60636544e-04 9.99039363e-01]
 [9.99479648e-01 5.20352184e-04]
 [6.70769756e-04 9.99329230e-01]
 [5.50588184e-05 9.99944941e-01]
 [9.69723158e-01 3.02768419e-02]
 [1.62066591e-03 9.98379334e-01]
 [9.99997820e-01 2.18016492e-06]
 [6.062245

In [10]:
# 정밀도 평가
from sklearn.metrics import precision_score
precision = precision_score(y_te, pred_logistic)
print(precision)

0.9666666666666667


In [11]:
# confusion matrix 확인
from sklearn.metrics import confusion_matrix
conf_matrix = confusion_matrix(y_te, pred_logistic)
print(conf_matrix)

[[50  3]
 [ 3 87]]


In [12]:
# 분류 리포트 확인
from sklearn.metrics import classification_report
class_report = classification_report(y_te, pred_logistic)
print(class_report)

              precision    recall  f1-score   support

           0       0.94      0.94      0.94        53
           1       0.97      0.97      0.97        90

    accuracy                           0.96       143
   macro avg       0.96      0.96      0.96       143
weighted avg       0.96      0.96      0.96       143
