#  🖥️ Introduction
---
    여기까지 달려오시느라 고생많으셨습니다.🚗 처음 공부해보면 머리가 조금 복잡할거에요.  
    이해가 되지 않더라도 여러번 읽다보면 어느 순간 아하! 하는 순간이 올거에요!😝  
    그럼 이번 시간엔 지금까지 학습 했던 내용을 정리해볼게요!  
---
## 🧭 Course
- Supervised Learning (Chapter 2)
    - 1차시 : Logistic Regression  
    - 2차시 : Stochastic Gradient Descen
---
## ⌛️ 각 차시별 요약
1) Logistic Regression (Classification)
    1) Definition
        - 로지스틱 회귀는 이름은 회귀이지만 분류 모델이다.
        - 통상 예측해야하는 결과 값이 두가지 중 하나일때 사용합니다. (이진 분류 문제 해결)
        - 하지만 다중 로지스틱 모델도 사용할 수 있는데 여기서 사용하는 활성화함수가 서로 다릅니다.
        - (활성화 함수란?) 단순한 선형 모델에서 벗어나 복잡한 패턴을 학습할 수 있도록 만들어줍니다. 뉴런의 입장에서 이 값은 중요하니깐, 활성화하자 or 이 값은 중요하지 않으니깐 무시하자 같은 내용을 결정하는 스위치 역할을 합니다.
    2) Sigmoid Function
        - $f(x)=\frac{1}{1+e^{-x}}$
    3) Python Libirary
        - ```python
            from sklearn.linear_model import LogisticRegression
            from sklearn.linear_model import LogisticRegressionCV
          ```
    4) Logistic Regression Parameters (basic=default)
        1. penalty='l2'
            - penalty : {'l1', 'l2', 'elasticnet', None} # 정규화 방법
        3. dual=False
            - dual : {'True', 'False'} # 이중 최적화 문제 사용 여부
        5. tol=0.0001
            - tol : {float} # 수렴 기준을 설정 - 가중치 변화가 이 값보다 작으면 종료
        7. C=1.0
            - C : {float} # 정규화 강도, 값이 클수록 정규화 효과 적어짐
        8. fit_intercept=True
            - fit_intercept : {'True', 'Fale'} # 절편을 모델에 포함할지의 여부
        9. intercept_scaling=1
            - intercept_scaling : {float} # 다중 클래스 문제에서 절편의 스케일을 조정
        10. class_weight=None
            - class_weight = {dict or 'balanced'} # 각 클래스의 가중치 설정
        11. random_state=None
            - random_state : {int} # 랜덤 시드 설정
        12. solver='lbfgs'
            - solver : {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'} # 최적화 알고리즘 설정
            - 'lbfgs'           'l2', None                     yes
            - 'liblinear'       'l1', 'l2'                     no
            - 'newton-cg'       'l2', None                     yes
            - 'newton-cholesky' 'l2', None                     no
            - 'sag'             'l2', None                     yes
            - 'saga'            'elasticnet', 'l1', 'l2', None yes
        13. max_iter=100
            - max_iter : {int} # 최적화 과정에서 허용되는 최대 반복 횟수
        14. multi_class='deprecated'
            - multi_class : {'auto', 'ovr', 'multinomial'} # 다중 클래스 문제 설정
        15. verbose=0
            - verbose : {int} # 출력되는 메시지의 양 설정
        16. warm_start=False
            - warm_start : {'True', 'False'} # 이전 학습 결과의 재사용 여부 결정
        17. n_jobs=None
            - n_jobs : {int} # 병렬 처리할 작업의 수를 설정
        18. l1_ratio=None
            - l1_ratio : {float} # l1과 l2 정규화의 비율 설정
---
    이렇게 많은 파라미터가 존재하는데, 어떤 모델이 이 데이터에 적합한지는 어떻게 찾는 걸까요?
    혹시 train_test_split을 불러왔던 곳 기억하나요?
    - GridSearchCV 라이브리러가 존재합니다.
    - 저희가 모델을 지정하고, 가능한 파라미터값들을 제공하고 난 후에 데이터값을 주면 최적의 모델 조합을 추출해주는거죠!
    - 대부분 데이터에 대한 분석이 어느정도 되고 사용해야 될 모델에 대한 갈피가 잡혔을 때 사용합니다.

In [239]:
# 후 발생하는 경고 무시
import warnings
warnings.filterwarnings('ignore')
# 대표적인 데이터셋 두개를 다뤄볼게요.
# 먼저 이진 분류가 사용되는 유방암 데이터입니다.
from sklearn.datasets import load_breast_cancer
cancer_input = load_breast_cancer().data
cancer_target = load_breast_cancer().target

# stratify를 사용해서 타깃데이터를 기반으로 공정하게 나누도록 하겠습니다.
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(cancer_input,
                                                                      cancer_target,
                                                                      stratify=cancer_target)

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
# params에 변화시키고 싶은 값들을 넣습니다
params = {
    'solver' : ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'],
    'penalty' : ['l1', 'l2', 'elasticnet', None],
    'C' : [0.001, 0.01, 0.1, 1, 10, 100, 1000]
}
lr = LogisticRegression()
# estimator은 적용할 모델이고 param_grid는 적용할 파라미터이고, scoring는 어떤 점수를 기반할 것인지, 
# cv는 교차 검증 개수를 의미하는데 5의 의미는 데이터를 5개로 나눠서 이를 바탕으로 훈련데이터, 테스트 데이터 나눠서 학습시키는 것을 의미한다.
gs = GridSearchCV(estimator=lr,
                 param_grid=params,
                 scoring='accuracy',
                 cv=5)
gs.fit(train_input, train_target)
print('가장 좋은 모델은 : {}'.format(gs.best_estimator_))
print('그럴 때 정확도는 : {}'.format(gs.best_score_))

가장 좋은 모델은 : LogisticRegression(C=1000, solver='newton-cg')
그럴 때 정확도는 : 0.9671409028727771


In [240]:
# C가 1000이고, penalty가 l1, solver가 liblinear일때 가장 좋은 성과를 내는군요!
# liblinear은 이진분류일때 사용합니다.
# 그럼 한번 적용시켜볼까요?
# 하지만, C가 1000이면 과적합이 발생할 가능성이 있으니 C는 다시 한번 해볼까요?
train_score = []
test_score = []
C = [0.01, 0.1, 1, 10, 100]
for i in C:
    lr = LogisticRegression(penalty='l1', 
                            solver='liblinear',
                            C=i)
    lr.fit(train_input, train_target)
    print('훈련 데이터에 대한 점수 : {}'.format(lr.score(train_input, train_target)))
    print('테스트 데이터 대한 점수 : {}'.format(lr.score(test_input, test_target)))
    train_score.append(lr.score(train_input, train_target))
    test_score.append(lr.score(test_input, test_target))

훈련 데이터에 대한 점수 : 0.9131455399061033
테스트 데이터 대한 점수 : 0.958041958041958
훈련 데이터에 대한 점수 : 0.9248826291079812
테스트 데이터 대한 점수 : 0.965034965034965
훈련 데이터에 대한 점수 : 0.9530516431924883
테스트 데이터 대한 점수 : 0.965034965034965
훈련 데이터에 대한 점수 : 0.9741784037558685
테스트 데이터 대한 점수 : 0.958041958041958
훈련 데이터에 대한 점수 : 0.9882629107981221
테스트 데이터 대한 점수 : 0.972027972027972


In [241]:
# C가 10일때 과적합도 아니고, 과소적합도 아니군요!
# 어떤가요? 감이 좀 잡히시나요?
lr = LogisticRegression(penalty='l1', 
                            solver='liblinear',
                            C=10)
lr.fit(train_input, train_target)
print('훈련 데이터에 대한 점수 : {}'.format(lr.score(train_input, train_target)))
print('테스트 데이터 대한 점수 : {}'.format(lr.score(test_input, test_target)))
data = np.round(lr.decision_function(test_input[:5]), 2)

훈련 데이터에 대한 점수 : 0.9765258215962441
테스트 데이터 대한 점수 : 0.958041958041958


In [242]:
# 이번에는 iris 데이터셋을 사용해볼까요?
from sklearn.datasets import load_iris
iris_input = load_iris().data
iris_target = load_iris().target

train_input, test_input, train_target, test_target = train_test_split(iris_input,
                                                                      iris_target,
                                                                      stratify=iris_target)
params = {
    'solver' : ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'],
    'penalty' : ['l1', 'l2', 'elasticnet', None],
    'C' : [0.001, 0.01, 0.1, 1, 10, 100, 1000]
}
lr = LogisticRegression()
gs = GridSearchCV(estimator=lr,
                 param_grid=params,
                 scoring='accuracy',
                 cv=5)
gs.fit(train_input, train_target)
print('가장 좋은 모델은 : {}'.format(gs.best_estimator_))
print('그럴 때 정확도는 : {}'.format(gs.best_score_))

가장 좋은 모델은 : LogisticRegression(C=0.001, penalty=None, solver='sag')
그럴 때 정확도는 : 0.9739130434782609


In [243]:
lr = LogisticRegression(penalty='l1', solver='saga', C=1)
lr.fit(train_input, train_target)
print('최적의 훈련 점수는 : {}'.format(lr.score(train_input, train_target)))
print('최적의 테스트 점수는 : {}'.format(lr.score(test_input, test_target)))

최적의 훈련 점수는 : 0.9732142857142857
최적의 테스트 점수는 : 1.0


In [244]:
# LogisticRegressionCV는 Cs 자체에서 교차검증을 하기 때문에 params에서 별도에 Cs를 지정할 필요가 없다.
# 교차검증을 사용해 자동으로 최적의 해를 골라주는 모델이다.
# 이번에는 iris 데이터셋을 사용해볼까요?
from sklearn.datasets import load_iris
iris_input = load_iris().data
iris_target = load_iris().target

train_input, test_input, train_target, test_target = train_test_split(iris_input,
                                                                      iris_target,
                                                                      stratify=iris_target)
params = {
    'solver' : ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'],
    'penalty' : ['l1', 'l2', 'elasticnet', None]
}
from sklearn.linear_model import LogisticRegressionCV
lr = LogisticRegressionCV()
gs = GridSearchCV(estimator=lr,
                 param_grid=params,
                 scoring='accuracy',
                 cv=5)
gs.fit(train_input, train_target)
print('가장 좋은 모델은 : {}'.format(gs.best_estimator_))
print('그럴 때 정확도는 : {}'.format(gs.best_score_))

가장 좋은 모델은 : LogisticRegressionCV(penalty='l1', solver='saga')
그럴 때 정확도는 : 0.9913043478260869


In [245]:
from sklearn.linear_model import LogisticRegressionCV

lrcv = LogisticRegressionCV(Cs=10, penalty='l1', solver='saga')
lrcv.fit(train_input, train_target)
print(lrcv.score(train_input, train_target))
print(lrcv.score(test_input, test_target))

0.9910714285714286
0.9473684210526315
