<a href="https://colab.research.google.com/github/LeeSeungwon89/Machine-learning_Theory/blob/master/CHAPTER8%20%EB%A7%88%EB%AC%B4%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

이 챕터는 본서를 직접 읽어보시기 바랍니다. 몇몇 내용만 간략하게 추리겠습니다.

# **8.1 머신러닝 문제 접근 방법**

## **8.1.1 의사 결정 참여**

# **8.2 프로토타입에서 제품까지**

복잡한 머신러닝 시스템을 구축하고 있다면 구글 머신러닝 팀의 연구원들이 쓴 [Machine Learning: The High Interest Credit Card of Technical Debt](http://research.google.com/pubs/pub43146.html) 논문을 참고하시기 바랍니다. 대규모 머신러닝 소프트웨어 제품을 구축하고 유지하기 위한 타협점에 대한 설명이 담겨 있습니다. 대규모 장기 프로젝트에서 기술 부채(Technical Debt, 급하게 작성된 코드로 인해 소프트웨어의 유지보수 비용이 늘어나는 현상) 이슈는 특히나 중요하고 이를 통해 배운 경험이 작고 단기적인 시스템에서의 소프트웨어 구축에도 큰 도움이 될 것입니다. 

# **8.3 제품 시스템 테스트**

본서에서는 사전에 수집한 테스트 세트를 기초로 하여 알고리즘이 만든 예측을 평가하는 방법을 다뤘습니다. 이를 **오프라인 평가(offline evaluation)**라고 부릅니다. 사용자에게 노출되는 머신러닝 시스템이라면 이는 알고리즘을 평가하는 첫 단계입니다.

다음 단계는 전체 시스템에 알고리즘이 적용된 이후에 평가하는 **온라인 테스트(online test)** 혹은 **라이브 테스트(live test)**입니다. 웹사이트에 보여지는 추천이나 검색 결과를 변경하면 사용자의 행동을 크게 바꾸거나 예상치 못한 결과를 얻을 수 있습니다. 이런 돌발 상황을 방지하기 위해 대부분 사용자 서비스가 일종의 블라인드 테스트인 **A/B 테스트**를 사용합니다. A/B 테스트에서는 사용자 중에 일부가 자신도 모르게 알고리즘 A를 사용한 웹사이트나 서비스를 이용하게 됩니다. 반면 나머지 사용자는 알고리즘 B에 노출됩니다. 두 그룹에 대해 적절한 성공 지표를 일정 기간 기록합니다. 그 후에 알고리즘 A와 알고리즘 B의 측정값을 비교해서 두 방식 중에 하나를 택합니다. A/B 테스트를 사용하면 실전에서 알고리즘을 평가할 수 있고 사용자들에게 모델이 노출됐을 떄 예상치 못한 결과를 발견할 수 있습니다. 보통 A가 새 모델이고 B는 기존 시스템입니다.   

**밴디트 알고리즘(bandit algorithms)**는 온라인 테스트를 위한 또다른 방법입니다. 이 주제를 다룬 책은 웹사이트 최적화를 위한 밴디트 알고리즘(한빛미디어, 2015)입니다.

# **8.4 나만의 추정기 만들기**

6장에서 모든 데이터의 종속적인 처리는 교차 검증 루프 안에 넣어야 한다고 설명했습니다. 자체적인 데이터 처리를 사이킷런과 함께 쓸 수 있으려면 (`Pipeline`, `GridSearchCV`, `cross_val_score`를 사용할 수 있도록)사이킷런 인터페이스와 호환되는 나만의 추정기를 만들면 됩니다. [사이킷런 문서](https://bit.ly/3c7yIYV)에서 자세한 설명을 확인할 수 있지만 여기에서는 일단 간략하게 설명하고 넘어가겠습니다.

변환기를 만드는 가장 쉬운 방법은 `BaseEstimator`와 `TransformerMixin`을 상속해서 아래와 같이 `__init__()`, `fit()`, `transform()` 메서드를 구현하는 것입니다.

In [None]:
from sklearn.base import BaseEstimator, TransformerMixin

class MyTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, first_parameter=1, second_parameter=2):
        # __init__ 메서드에 필요한 모든 매개변수를 나열합니다.
        self.first_parameter = 1  
        self.second_parameter = 2

    def fit(self, X, y=None):
        # fit 메서드는 X와 y 매개변수만 갖습니다.
        # 비지도 학습 모델이더라도 y 매개변수를 받도록 해야 합니다.

        # 모델 학습을 시작합니다.
        print('모델 학습을 시작합니다.')
        # 객체 자신인 self를 반환합니다.
        return self

    def transform(self, X):
        # transform 메서드는 X 매개변수만 받습니다.

        # X를 반환합니다.
        X_transformed = X + 1
        return X_transformed

분류와 회귀 모델을 만드는 방법도 비슷합니다. `TransformerMixin` 대신 `ClassifierMixin` 또는 `RegressorMixin`을 상속하고, `transform()` 대신 `predict()`를 구현합니다.

위의 코드에서 확인할 수 있듯이 적은 양의 코드로 나만의 추정기를 만들 수 있습니다. 사이킷런 사용자 대부분은 점차 자신만의 맞춤형 모델들을 갖춰두고 있습니다.

# **8.5 더 배울 것들**

## **8.5.1 이론**

## **8.5.2 다른 머신러닝 프레임워크와 패키지**

## **8.5.3 랭킹, 추천 시스템과 그 외 다른 알고리즘**

## **8.5.4 확률 모델링, 추론, 확률적 프로그래밍**

## **8.5.5 신경망**

## **8.5.6 대규모 데이터셋으로 확장**


본서에서는 우리가 다룰 데이터가 넘파이 배열이나 사이파이 희소 행렬로 메모리(RAM)에 저장될 수 있는 크기라고 가정했습니다. 최신 서버들이 수백 기가바이트만큼 메모리를 가지고 있더라도 다룰 수 있는 데이터 크기에는 한계점이 분명합니다. 대부분 애플리케이션에서 머신러닝 시스템을 구축하는 데 필요한 데이터는 비교적 작습니다. 그러나 일부 소수의 머신러닝 데이터셋은 수백 기가바이트 이상입니다. 이런 경우에는 메모리를 늘리거나 클라우드 서비스에서 장비를 늘리는 것이 해결책이 될 경우가 많습니다. 만약 테라바이트 정도의 데이터로 작업해야 하거나 적은 비용으로 대량 데이터를 처리해야 한다면 아래 두 전략을 쓸 수 있습니다.

**외부 메모리 학습(out-of-core)**: 메모리에 저장할 수 없는 데이터로 학습하는 것을 의미합니다. 학습이 컴퓨터 하나(프로세스 하나)에서 수행됩니다. 데이터는 하드디스크 같은 저장소나 네트워크로부터 한 번에 샘플 하나씩 또는 메모리 용량에 맞는 크기의 덩어리로 읽어 들입니다.데이터가 처리되면 데이터로부터 학습된 것이 반영되도록 모델을 갱신합니다. 그다음에는 이 데이터 덩어리는 버리고 다음 데이터 덩어리를 읽습니다. 사이킷런의 일부 모델에서 [외부 메모리 학습](https://bit.ly/3qnikDx) 기능을 구현해뒀습니다. 컴퓨터 한 대에서 모든 데이터를 처리해야 하므로 큰 데이터셋을 처리하려면 시간이 오래 소요됩니다. 아울러 모든 머신러닝 알고리즘이 이 방식을 지원하지는 않습니다.

**클러스터 병렬화(parallelization over a clust)**: 클러스터를 구성하는 여러 컴퓨터로 데이터를 분산해서 각 컴퓨터가 해당하는 데이터를 처리합니다. 일부 모델에서 처리 속도가 빨라지며 처리할 수 있는 데이터 크기는 클러스터 크기에 의해 제한됩니다. 하지만 이런 연산 방식은 비교적 복잡한 인프라를 필요로 합니다. 현재 가장 인기 있는 분산 컴퓨팅 플랫폼 중 하나는 하둡(hadoop) 위에 구축된 **스파크(Spark)**입니다. 스파크는 **MLlib** 패키지에 일부 머신러닝 기능을 포함합니다. 데이터가 이미 하둡 파일시스템에 저장되어 있거나 데이터 전처리를 위해 스파크를 쓰고 있다면 가장 손쉬운 방법입니다. 이런 인프라가 준비되어 있지 않을 경우 스파크 클러스터를 구축하고 통합하려면 많은 노력이 필요합니다. `vw` 패키지가 분산 기능을 조금 지원하므로 더 나은 대안이 될 수 있습니다. [`vw`(vowpal wabbit)](https://github.com/JohnLangford/vowpal_wabbit/wiki) 패키지는 머신러닝에서 유명한 또 다른 패키지로, 명령어 인터페이스를 제공하고 C++로 작성되었습니다. 특히 대량의 데이터셋과 스트리밍 데이터에 유용합니다. 

## **8.5.7 실력 기르기**

# **8.6 마치며**