# 로지스틱 회귀분석 실습

python의 scikit-learn 패키지를 이용해 정규화 회귀분석을 직접 실행해보자.

### 데이터 불러오기 및 분할하기

로지스틱 회귀분석 실습을 위해 기존의 예측용 데이터셋이 아닌 분류용 데이터셋을 사용해 보자. 이번에 사용할 cancer dataset은 유방암 분류에 대한 데이터이다. 독립 변수는 30개이며, 종속 변수는 양성과 악성의 두 가지 범주를 가지고 있다. 자세한 사항은 [이곳](https://scikit-learn.org/stable/datasets/index.html#breast-cancer-wisconsin-diagnostic-dataset)에서 확인할 수 있다.

In [None]:
from sklearn import datasets
import numpy as np
data = datasets.load_breast_cancer()

x = data['data']
y = data['target']

print(x.shape, y.shape)

In [None]:
from sklearn.model_selection import train_test_split

# 데이터 나누기 - 6:2:2 비율
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.25, random_state=1)

print(x_train.shape, x_val.shape, x_test.shape)

### 모델 학습 및 평가하기

[LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html?highlight=logisticregression#sklearn.linear_model.LogisticRegression) 에 대한 자세한 설명은 링크를 참조하자. 설명을 읽어보면 선형 회귀분석과 마찬가지로 각종 regularization을 제공함을 알 수 있다.

In [None]:
from sklearn.linear_model import LogisticRegression
logistic = LogisticRegression()
logistic.fit(x_train, y_train)

분류 문제의 경우 confusion matrix와 정확도를 이용해 성능을 확인해 볼 수 있다.
아래와 같이 training, validation, test의 성능을 구해 보자.

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix

pred_train = logistic.predict(x_train)
print(f'training accuracy: {accuracy_score(y_train, pred_train)}')
print(confusion_matrix(y_train, pred_train))

In [None]:
pred_val = logistic.predict(x_val)
print(f'validation accuracy: {accuracy_score(y_val, pred_val)}')
print(confusion_matrix(y_val, pred_val))

In [None]:
pred_test = logistic.predict(x_test)
print(f'test accuracy: {accuracy_score(y_test, pred_test)}')
print(confusion_matrix(y_test, pred_test))

앞서 등장한 경고 문구에 대해 알아보자. 

> ConvergenceWarning: lbfgs failed to converge (status=1): STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.


수업 시간에 배웠듯이, 로지스틱 회귀분석의 경우는 선형 회귀분석과 다르게 미분으로 간단히 최적의 매개변수를 구할 수 없다. 따라서 적절한 최적화 방법을 적용해야 하는데, 위 경고문은 이 최적화 과정이 계산 횟수의 제한으로 인해 완료되지 못하고 도중에 멈추었다는 뜻이다. 횟수의 제한을 풀어 최적화를 완료해 보자.




In [None]:
# TODO: 경고 문구 없이 로지스틱 회귀분석 학습 완료해 보기

In [None]:
# TODO: 학습한 모델의 training, validation, test 정확도 알아보기