## 이진 분류기 훈련하기

In [1]:
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [2]:
# 데이터를 로드하고 두 개의 클래스만 선택

iris=datasets.load_iris()
X=iris.data[:100,:]
y=iris.target[:100]

In [5]:
# 특성 표준화

standardizer=StandardScaler()
X_std=standardizer.fit_transform(X)

In [6]:
# 로지스틱 회귀모델 생성

logit=LogisticRegression(random_state=0)

In [7]:
# 모델 훈련

model=logit.fit(X,y)

이름이 '회귀'이지만 로지스틱 회귀는 사실 널리 사용되는 이진 분류기이다.

로지스틱 회귀에서 선형 모델은 로지스틱 함수에 포함된다.

로지스틱 함수는 함수의 출력을 0과 1사이로 제한하는 효과가 있다. 0.5보다 크면 1, 0.5 보다 작으면 0으로 예측한다.

사이킷런에서 LogisticRegression 클래스를 사용해 로지스틱 회귀 모델을 훈련할 수 있다.

훈련이 끝나면 이 모델을 사용해 새로운 샘플의 클래스를 예측할 수 있다.

In [8]:
# 새로운 샘플 생성

new_observation=[[.5, .5, .5, .5]]

In [9]:
# 클래스 예측

model.predict(new_observation)

array([0])

In [10]:
# 에측 확률도 볼 수 있다.

model.predict_proba(new_observation)

array([[0.99456551, 0.00543449]])

- 0 클래스에 속할 확률 : 99.46 %
- 1 클래스에 속할 확률 : 0.54 %

## 다중 클래스 분류기 훈련하기
### OVR 또는 다중 분류 기법으로 사이킷런의 LogisticRegression 을 사용해 로지스틱 회귀를 훈련한다

In [11]:
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [12]:
# 데이터로드

iris=datasets.load_iris()
X=iris.data
y=iris.target

In [13]:
# 특성 표준화

standardizer=StandardScaler()
X_std=standardizer.fit_transform(X)

In [14]:
# OVR 로지스틱 회귀 모델을 만든다.

logit_ovr=LogisticRegression(random_state=0, multi_class='ovr')

In [15]:
# 모델 훈련

model=logit_ovr.fit(X_std, y)

로지스틱 회귀 자체는 이진 분류기이다. 하지만 두 가지 방식으로 로지스틱 회귀를 확장하여 처리할 수 있다.

1. OVR 로지스틱 회귀는 클래스마다 모델을 만든다. 개별 모델은 샘플이 해당 클레스에 속하는지 측정한다. (즉 이진분류 모델이 된다)
2. 로지스틱 함수를 소프트맥스 함수로 바꿈으로써 다항 로지스틱 회귀를 구현할 수 있다.

MLR (다중 로지스틱 회귀)의 장점은 predict_proba 메소드를 사용해 예측한 확률을 더 신뢰할 수 있다는 것이다.

***
LogisticRegression 을 사용할 때 두 가지 기법 중 하나를 사용할 수 있다.

기본값은 OVR 을 의미하는 ovr 이다. 매개변수값을 multinomial로 지정해 MLR로 바꿀 수 있다.

## 규제로 분산 줄이기
### 규제 강도를 조절하는 하이퍼 파라미터 C를 사용한다.

In [16]:
from sklearn.linear_model import LogisticRegressionCV
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [17]:
# 데이터로드

iris=datasets.load_iris()
X=iris.data
y=iris.target

In [18]:
# 특성 표준화

scaler=StandardScaler()
X_std=scaler.fit_transform(X)

In [19]:
# 로지스틱 회귀모델 생성

logit_regression=LogisticRegressionCV(penalty='l2',#릿지
                                     Cs=10, # 탐색할 C의 범위(실수 리스트를 매개변수로 입력,
                                    #정수를 입력하면 -10000~10000 사이에서 로그 스케일로 정수만큼의 후보 값의 리스트 생성 np.logspace)
                                     random_state=0,
                                     n_jobs=-1)

In [20]:
# 모델 훈련

model=logit_regression.fit(X_std,y)

규제는 복잡한 모델에 패널티를 가해 분산을 줄이는 방법이다.

구체적으로 최소화하려는 손실 함수에 패널티 항을 추가한다. 전형적으로 L1, L2 패널티를 사용한다.

***
로지스틱 회귀를 사용할 때 분산을 낮추려면 C를 하이퍼파라미터로 생각하고 최선의 모델을 만드는 C의 값을 찾야아한다.

사이킷런의 LogisticRegressionCV 을 사용하면 효율적으로 C 값을 튜닝할 수 있다.

In [21]:
# LogisticRegressionCV 가 찾은 각 클래스별 최적의 C값은 C_ 속성에 저장되어 있다.

logit_regression.C_

array([21.5443469, 21.5443469, 21.5443469])

LogisticRegression 과 LogisticRegressionCV 클래스에서 solver='saga' 일 때

penalty='elasticnet' 로 지정하고 l1_ratio 를 조정하여 엘라스틱 넷의 L1 페널티의 양을 제어할 수 있다.
***
l1_ratio=1 은 penalty='l1' 과 같고, l1_ratio=0 은 penalty='l2' 와 같다.

## 대용량 데이터에서 분류기 훈련하기

In [22]:
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [23]:
# 데이터로드

iris=datasets.load_iris()
X=iris.data
y=iris.target

In [24]:
# 특성 표준화

scaler=StandardScaler()
X_std=scaler.fit_transform(X)

In [25]:
# 로지스틱 회귀모델 생성

logit=LogisticRegression(random_state=0, solver='sag') # SAG= Stochastic Average Gradient

In [26]:
# 모델 훈련

model=logit.fit(X_std, y)

사이킷런의 LogisticRegression 클래스는 solver 매개변수에서 여러가지 로지스틱 회귀 훈련 기법을 지원한다.

대부분 사이킷런은 최선의 방법을 자동으로 선택하거나 해당 방법으로 처리할 수 없을 때 경고를 발생시킨다.

***
#### 데이터셋이 매우 클 때는 확률적 평균 경사 하강법이 다른 방법보다 훨씬 빠르게 모델을 훈련하 ㄹ수 있다.

이 방법은 특성의 스케일에 매우 민감하기 때문에 특성의 표준화가 매우 중요하다.

In [27]:
# 에러 발생 코드

LogisticRegression(random_state=0, solver='liblinear', penalty='none').fit(X_std,y)

ValueError: penalty='none' is not supported for the liblinear solver

solver='liblinear' 와 penalty='none' 은 양립할 수 없다.

In [28]:
# 에러 발생 코드 2

LogisticRegression(random_state=0, solver='sag', penalty='l1').fit(X_std,y)

ValueError: Solver sag supports only 'l2' or 'none' penalties, got l1 penalty.

solver='sag' 는 penalty='l1'을 지원하지 않고, penalty=['l2','none'] 을 지원한다.

## 불균형한 클래스 다루기

In [29]:
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

In [30]:
# 데이터 로드

iris=datasets.load_iris()
X=iris.data
y=iris.target

In [32]:
# 처음 40 개 샘플을 제거하여 불균형한 클래스생성

X=X[40:,:]
y=y[40:]

In [34]:
# 타깃 벡터에서 0이 아닌 클래스는 모두 1로 만든다.

y=np.where((y==0),0,1)

In [35]:
# 특성 표준화

scaler=StandardScaler()
X_std=scaler.fit_transform(X)

In [36]:
# 로지스틱 회귀 모델 생성

logit_regression=LogisticRegression(random_state=0, class_weight='balanced')

In [37]:
# 모델 훈련

model=logit_regression.fit(X_std, y)

사이킷런에 있는 다른 학습 알고리즘들처럼  LogisticRegression 은 자체적으로 불균형한 클래스르 다룰 수 있다.

불균형한 클래스를 전처리 과정중에서 처리하지 못했다면 **class_weight** 매개변수로 클래스에 가중치를 부여하여
균형잡힌 클래스를 만들 수 있다. 'balanced' 로 지정하면 자동으로 클래스 빈도의 **역수로 가중치를 부여**한다.

In [38]:
'''
class_weight="balanced" 로 설정했을 때 로지스틱 모델이 계산한 클래스 가중치는

compute_class_weight 함수를 사용하여 구할 수 있다.
'''

from sklearn.utils.class_weight import compute_class_weight

In [39]:
# 클래스 레이블이 0, 1인 데이터의 클래스 가중치 계산

compute_class_weight('balanced',[0,1],y)

array([5.5 , 0.55])

In [41]:
# 역수로 가중치가 부여됐음을 확인할 수 있다
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

class_weight 매개변수에 {클래스_레이블 : 가중치} 형식의 딕셔너리를 전달할 수도 있다.

In [42]:
# 10:1 의 클래스 가중치를 부여한 로지스틱 회귀 모델 생성

logistic_regression=LogisticRegression(random_state=0, class_weight={0:10, 1:1})

In [44]:
# 모델 훈련

moel=logistic_regression.fit(X_std,y)

In [48]:
# 새로운 샘플 생성

new_observation=[[.5,.5,.5,.5]]

In [49]:
# 예측값 확인

model.predict_proba(new_observation)

array([[0.00160721, 0.99839279]])

In [50]:
model.predict(new_observation)

array([1])