# 16.0 소개

---

# 16.1 이진 분류기 훈련하기

In [1]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [3]:
# 데이터를 로드하고 두 개의 클래스만 선택합니다
iris = datasets.load_iris()
features = iris.data[:100,:]
target   = iris.target[:100]

In [8]:
# 특성을 표준화합니다
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [9]:
# 로지스틱 회귀 모델을 만듭니다
logistic_regression = LogisticRegression(random_state=0)

In [11]:
# 모델을 훈련합니다
model = logistic_regression.fit(features_standardized, target)

- 훈련이 끝나고 새로운 샘플의 클래스 예측

In [15]:
# 새로운 샘플을 만듭니다
new_observation = [[.5,.5,.5,.5]]

In [16]:
# 클래스를 예측합니다
model.predict(new_observation)

array([1])

In [17]:
# 예측 확률을 확인합니다
model.predict_proba(new_observation)

array([[0.17738424, 0.82261576]])

---

# 16.2 다중 클래스 분류기 훈련하기

In [18]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [19]:
# 데이터를 로드합니다
iris = datasets.load_iris()
features = iris.data
target   = iris.target

In [20]:
# 특성을 표준화합니다
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [None]:
# OVR 로지스틱 회귀 모델을 만듭니다.
logistic_regression = LogisticRegression(ran)

In [21]:
# 모델을 훈련합니다
model = logistic_regression.fit(features_standardized, target)

---

# 16.3 규제로 분산 줄이기

In [22]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import LogisticRegressionCV
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [23]:
# 데이터를 로드합니다
iris = datasets.load_iris()
features = iris.data
target   = iris.target

In [24]:
# 특성을 표준화합니다
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [29]:
# 로지스틱 회귀 모델을 만듭니다
logistic_regression = LogisticRegressionCV(penalty='l2', Cs=10, random_state=0, n_jobs=-1)

In [30]:
# 모델을 훈련합니다
model = logistic_regression.fit(features_standardized, target)

In [31]:
# 각 클래스의 최적 C 값
logistic_regression.C_

array([21.5443469, 21.5443469, 21.5443469])

---

# 16.4 대용량 데이터에서 분류기 훈련하기

In [32]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [33]:
# 데이터를 로드합니다
iris = datasets.load_iris()
features = iris.data
target   = iris.target

In [34]:
# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [35]:
# 로지스틱 회귀 모델을 만듭니다
logistic_regression = LogisticRegression(random_state=0, solver='sag')

In [36]:
# 모델을 훈련합니다
model = logistic_regression.fit(features_standardized, target)

---

# 16.5 불균형한 클래스 다루기

In [37]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [38]:
# 데이터를 로드합니다
iris = datasets.load_iris()
features = iris.data
target   = iris.target

In [39]:
# 처음 48개 샘플을 제거하여 불균형한 클래스를 만듭니다.
features = features[40:,:]
target = target[40:]

In [41]:
# 타겟 벡터에서 0이 아닌 클래스는 모두 1로 만듭니다
target = np.where((target==0), 0, 1)

In [42]:
# 특성을 표준화합니다
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [45]:
# 로지스틱 회귀 모델을 만듭니다
logistic_regression = LogisticRegression(random_state=0, class_weight='balanced')

In [46]:
# 모델을 훈련합니다
model = logistic_regression.fit(features_standardized, target)

- 클래스 가중치 구하기

In [49]:
from sklearn.utils.class_weight import compute_class_weight

# 클래스 레이블이 0, 1인 데이터의 클래스 가중치를 계산합니다.
compute_class_weight(class_weight='balanced', classes=[0,1], y=target)

array([5.5 , 0.55])

- 딕셔너리 전달

In [51]:
# 10:1의 클래스 가중치를 부여한 로지스틱 회귀 모델을 만듭니다
logistic_regression = LogisticRegression(random_state=0, class_weight={0:10, 1:1})

In [52]:
# 모델을 훈련합니다
model = logistic_regression.fit(features_standardized, target)