In [1]:
import sys
assert sys.version_info >= (3, 5)

import sklearn
assert sklearn.__version__ >= "0.20"

import numpy as np
import os

np.random.seed(42)

%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

PROJECT_ROOT_DIR = "."
CHAPTER_ID = "ch4_practice"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("그림 저장:", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

import warnings
warnings.filterwarnings(action="ignore", message="^internal gelsd")

# 1. 수백만 개의 훈련 세트를 가진 훈련 세트에서는 어떤 선형 회귀 알고리즘을 사용?

# 2. 훈련 세트에 있는 특성들이 각기 아주 다른 스케일을 가진 경우 이런 데이터에 잘 작동하지 않는 알고리즘? 그 이유는? 해결 방법은?

# 3. 경사 하강법으로 로지스틱 회귀 모델을 훈련시킬 때 지역 최솟값에 갇힐 가능성이 있는가?

# 4. 충분히 오랫동안 실행하면 모든 경사 하강법 알고리즘이 같은 모델을 만들어낼 것인가?

# 5. 배치 경사 하강법을 사용하고 에포크마다 검증 오차를 그래프로 나타냈을 때, 검증 오차가 일정하게 상승하고 있다면 어떤 일이 일어나고 있는 것이며, 어떻게 해결할 수 있을 것인가?

# 6. 검증 오차가 상승하면 미니배치 경사 하강법을 즉시 중단하는 것이 좋은 방법인가?

# 7. 어떤 경사 하강법의 알고리즘이 가장 빠르게 최적 솔루션의 주변에 도달할 것인가? 실제로 수렴하는 것은 어떤 것이며 다른 방법들도 수렴하게 만들 수 있는가?

# 8. 다항 회귀를 사용했을 때 학습 곡선을 보니 훈련 오차와 검증 오차 사이에 간격이 클 때, 무슨 일이 일어난 것이며 이 문제를 해결하는 세 가지 방법은 무엇인가?

# 9. 릿지 회귀를 사용했을 때 훈련 오차와 검증 오차가 거의 비슷하고 둘 다 높은 상황이 발생. 이 모델에는 높은 편향이 문제인가? 높은 분산이 문제인가? 규제 하이퍼 파라미터 $\alpha$를 증가시켜야할 것인가? 줄여야할 것인가

# 10. 다음 3가지가 필요한 이유는 무엇인가?
## - 평범한 선형 회귀 대신 릿지 회귀
## - 릿지 회귀 대신 라쏘 회귀
## - 라쏘 회귀 대신 엘라스틱넷

# 11. 사진을 낮과 밤, 실내와 실외로 분류하려고 할 때, 두 개의 로지스틱 회귀 분류기를 만들어야 할 것인가? 하나의 소프트맥스 회귀 분류기를 만들어야 할 것인가?

# 12. 조기 종료를 사용한 배치 경사 하강법으로 소프트맥스 회귀 구현(사이킷런을 사용하지 않고)