# 16장. 로지스틱 회귀

이 노트북을 주피터 노트북 뷰어(nbviewer.jupyter.org)로 보거나 구글 코랩(colab.research.google.com)에서 실행할 수 있습니다.

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://nbviewer.org/github/rickiepark/machine-learning-with-python-cookbook/blob/master/16.ipynb"><img src="https://jupyter.org/assets/share.png" width="60" />주피터 노트북 뷰어로 보기</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/machine-learning-with-python-cookbook/blob/master/16.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩(Colab)에서 실행하기</a>
  </td>
</table>

## 16.1 이진 분류기 훈련하기

In [1]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

# 데이터를 로드하고 두 개의 클래스만 선택합니다.
iris = datasets.load_iris()
features = iris.data[:100,:]
target = iris.target[:100]

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# 로지스틱 회귀 모델을 만듭니다.
logistic_regression = LogisticRegression(random_state=0)

# 모델을 훈련합니다.
model = logistic_regression.fit(features_standardized, target)

In [2]:
# 새로운 샘플을 만듭니다.
new_observation = [[.5, .5, .5, .5]]

# 클래스를 예측합니다.
model.predict(new_observation)

array([1])

In [3]:
# 예측 확률을 확인합니다.
model.predict_proba(new_observation)

array([[0.17738424, 0.82261576]])

## 16.2 다중 클래스 분류기 훈련하기

In [4]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

# 데이터를 로드합니다.
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# OVR 로지스틱 회귀 모델을 만듭니다.
logistic_regression = LogisticRegression(random_state=0, multi_class="ovr")

# 모델을 훈련합니다.
model = logistic_regression.fit(features_standardized, target)

## 16.3 규제로 분산 줄이기

In [5]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LogisticRegressionCV
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

# 데이터를 로드합니다.
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# 로지스틱 회귀 모델을 만듭니다.
logistic_regression = LogisticRegressionCV(
    penalty='l2', Cs=10, random_state=0, n_jobs=-1)

# 모델을 훈련합니다.
model = logistic_regression.fit(features_standardized, target)

### 붙임

In [6]:
logistic_regression.C_

array([21.5443469, 21.5443469, 21.5443469])

## 16.4 대용량 데이터에서 분류기 훈련하기

In [7]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

# 데이터를 로드합니다.
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# 로지스틱 회귀 모델을 만듭니다.
logistic_regression = LogisticRegression(random_state=0, solver="sag")

# 모델을 훈련합니다.
model = logistic_regression.fit(features_standardized, target)

In [8]:
# 에러 발생
LogisticRegression(random_state=0, solver='liblinear', penalty='none').fit(
    features_standardized, target)

ValueError: penalty='none' is not supported for the liblinear solver

In [9]:
# 에러 발생
LogisticRegression(random_state=0, solver='sag', penalty='l1').fit(
    features_standardized, target)

ValueError: Solver sag supports only 'l2' or 'none' penalties, got l1 penalty.

## 16.5 불균형한 클래스 다루기

In [10]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

# 데이터를 로드합니다.
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 처음 40개 샘플을 제거하여 불균형한 클래스를 만듭니다.
features = features[40:,:]
target = target[40:]

# 타깃 벡터에서 0이 아닌 클래스는 모두 1로 만듭니다.
target = np.where((target == 0), 0, 1)

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# 로지스틱 회귀 모델을 만듭니다.
logistic_regression = LogisticRegression(random_state=0, class_weight="balanced")

# 모델을 훈련합니다.
model = logistic_regression.fit(features_standardized, target)

### 붙임

In [12]:
from sklearn.utils.class_weight import compute_class_weight

# 클래스 레이블이 0, 1인 데이터의 클래스 가중치를 계산합니다.
compute_class_weight('balanced', classes=[0, 1], y=target)

array([5.5 , 0.55])

In [13]:
# 10:1의 클래스 가중치를 부여한 로지스틱 회귀 모델을 만듭니다.
logistic_regression = LogisticRegression(random_state=0, class_weight={0:10, 1:1})

# 모델을 훈련합니다.
model = logistic_regression.fit(features_standardized, target)