# Logistic regression
<br>
시그모이드 함수를 사용하여 1과 0으로 분류하는 선형회귀 방식의 분류기

In [11]:
import pandas as pd
import numpy as np
%matplotlib inline

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score

import warnings
warnings.filterwarnings(action='ignore')

In [6]:
cancer = load_breast_cancer()

In [8]:
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)

X_train, X_test, y_train, y_test = train_test_split(data_scaled, cancer.target,
                                                   test_size=0.3, random_state=0)

In [9]:
lr_clf = LogisticRegression()
lr_clf.fit(X_train, y_train)
lr_preds = lr_clf.predict(X_test)

print(np.round(accuracy_score(y_test, lr_preds), 3))
print(np.round(roc_auc_score(y_test, lr_preds), 3))

0.982
0.979


LogisticRegression의 주요 파라미터로는 penalty와 C가 있다. <br>
penalty 같은 경우는 regulation을 사용하는데 L1,L2를 사용한다. defalut값은 L2이다. <br>
C는 규제강도를 조절하는 alpha값의 역수이다. $C = \frac{1}{alpha}$ <br>
그래서 C값이 클 수록 규제 강도가 크다.

In [13]:
params = {'penalty' : ['l2', 'l1'],
         'C': [0.01, 0.1, 1, 1, 5, 10]}
grid_clf = GridSearchCV(lr_clf, param_grid=params, scoring='accuracy', cv=3)
grid_clf.fit(data_scaled, cancer.target)
print(grid_clf.best_params_, np.round(grid_clf.best_score_, 3))

{'C': 0.1, 'penalty': 'l2'} 0.979
