# 4.1 기존 시스템에 머신러닝을 통합하는 과정

1. 비즈니스 문제를 머신러닝 문제로 정의한다.
2. 논문을 중심으로 유사한 문제들을 조사한다.
3. 머신러닝을 사용하지 않는 방법은 없는지 검토한다.
4. **시스템을 설계**를 고려한다.
5. 특징량, 훈련 데이터와 **로그를 설계**한다.
6. 실제 데이터 수집과 전처리를 한다.
7. 탐색적 데이터 분석과 알고리즘을 선택한다.
8. 학습을 수행하고 파라미터를 튜닝한다.
9. 시스템에 통합한다.
10. 모델 예측 성능 및 비즈니스 지표를 모니터링 한다.

---

# 4.2 시스템 설계

### 4.2.1 혼동하기 쉬운 '배치 처리'와 '배치 학습'

- **배치 처리**: 어떤 처리를 일괄로 하는 것
- **실시간 처리**: 실시간으로 전송되는 데이터를 순차적으로 처리하는 것
- **일괄 학습(배치 학습)**: 새로운 가중치를 계산하는 데 훈련 데이터를 모두 사용.
    > SUM = w_1 + w_2 + w_3 + ... + w_100  
    w_target = sum / 100
- **순차 학습(온라인 학습)**: 훈련 데이터를 하나씩 입력하면서 새로운 가중치 계산.
    > sum = 0  
    cnt = 0  
    while has_weight():  
    &nbsp;&nbsp;&nbsp;&nbsp;w_tmp = get_weight()  
    &nbsp;&nbsp;&nbsp;&nbsp;sum += w_temp  
    &nbsp;&nbsp;&nbsp;&nbsp;cnt += 1  
    w_target = sum / cnt
    
    
> 일괄 학습과 순차 학습의 차이: 학습 도중 최적화 하는 방법의 차이와 한 번에 다루는 데이터 덩어리 크기의 차이.

- 배치 처리를 적용한 학습 패턴 3가지
    1. 배치 처리로 학습과 예측, 예측 결과를 DB에 저장하고 서비스 제공
    2. 배치 처리로 학습, 실시간 처리로 예측, 예측 결과를 API를 통해 제공
    3. 배치 처리로 학습, 최종단 클라이언트에서 실시간 처리로 예측
    4. 실시간 처리로 학습, 예측, 서비스를 제공
    
### 4.2.2 배치 처리로 학습과 예측, 예측 결과를 DB에 저장하고 서비스를 제공

- 우선 일괄 학습한 다음 배치 처리로 예측을 수행하고 예측 결과를 DB에 저장
    - DB를 통해 결과를 공유하기 때문에 웹 애플리케이션과 머신러닝을 수행하는 배치 시스템을 서로 다른 언어로 구현 가능
    - 예측 처리에 다소 시간이 걸리더라도 애플리케이션에서의 응답에 영향을 미치지 않음
- 특징
    - 예측에 필요한 정보는 예측 배치 처리를 실행할 때만 필요하다.
    - 이벤트(사용자의 웹 페이지 방문 등)에 대한 예측 결과를 즉시 반환하지 않아도 된다.
- 예측 실행 빈도가 적어도 수 시간 간격이어도 큰 문제가 없는 대상 또는 결과에 적합

![패턴1](./images/system1.png)

- 학습 단계에서는 로그 또는 사용자 정보에서 특징을 추출하고 모델을 일괄 학습한다. 이렇게 학습된 모델을 직렬화 하여 저장소제 저장하고 예측 단계에서 활용한다.
![패턴1](./images/system1-1.png)

- 특징 추출기를 이용해 DB 데이터에서 특징량을 추출해 예측을 수행한다. 예측 결과는 웹 애플리케이션이 사용할 수 있는 형태로 가공해 DB에 저장한다.
- 다른 패턴보다 예측에 사용할 수 있는 시간이 여유롭지만 예측 대상 컨텐츠가 늘어날수록 처리 시간도 늘어난다.
![패턴1](./images/system1-2.png)

### 4.2.3 배치로 처리로 학습, 실시간 처리로 예측, 예측 결과를 API 경유로 제공

- 예측 처리를 별도의 API 서버에서 제공하는 패턴
- 예측 결과를 이용할 때는 API를 통해 실시간 처리 방식으로 수행
- HTTP나 RPC 요청의 응답으로 예측 결과를 전달하는 API 서버를 둔다.
![패턴2](./images/system2.png)

- 특징
    - 웹 애플리케이션과 머신러닝을 구현하는 언어를 부리할 수 있다.
    - 웹 애플리케이션에서 이벤트가 발생하면 실시간으로 예측을 수행할 수 있다.
    
- 프로토타이핑 주기가 짧아지나 시스템 규모가 커진다.
- 부하에 따라 예측 서버를 늘리거나 줄이는 등 웹 애플리케이션의 규모를 변경할 수 있는 구조가 필요하다.
- 간단한 테스트를 위해서는 구글 인공지능 예측 플랫폼, 애저 머신러닝 또는 아마존 머신러닝 같은 서비스나 BentoML, Cortex 같은 예측 결과 서빙 프레임워크를 이용해볼 수 있다.
- AWS 람다, 클라우드 런 등의 서비스를 이용하여 이벤트에 맞춰 확장할 수 있는 환경도 구축 가능하며 도커 이미지로 만든 API 서버를 컨테이너를 이용하여 확장 가능하다.
- 머신러닝 부분과 웹 애플리케이션의 결합이 느슨해져 여러 모델로 A/B 테스트를 하기 유리하다.
- 첫 번째 패턴에 비해 네트워크 지연이 크다.이를 보완하기 위해 예측 결과나 특징량 등을 캐시해두거나 많은 시간이 걸리는 예측은 HTTP나 RPC 등의 요청을 비동기 처리해야 한다.

### 4.2.4 배치 처리로 학습, 최종단 클라이언트에서의 실시간 처리로 예측

- 배치 처리로 학습한 모델을 스마트폰, 브라우저의 자바스크립트, 임베디드 장치 등 최종단 클라이언트에서 예측하는 패턴
![패턴3](./images/system3.png)

- 학습 환경과 예측 환경이 크게 달라 예측 환경의 제약이 강하다.
- 특징
    - 학습한 모델을 클라이언트에서 이용할 수 있는 크기로 최적화해서 변환한다.
    - 클라이언트에서 예측을 수행해 통신 지연으로 인한 예측 시간을 줄인다.
    
- 텐서플로 라이트<sup>TensorFlow lite</sup>를 이용하여 스마트폰 운영체제에서 학습을 완료한 모델을 사용할 수 있다.
- 다양한 IoT 기기에서도 하드웨어 가속기나 전용 칩을 활용해 빠른 추론을 수행하기도 한다.
- 머신러닝 모델을 변환해 촤종단 클라이언트 환경에 맞춰 배표해야 하므로 모델 관리나 배포에 어려움이 따른다.


### 4.2.5 실시간 처리로 학습, 에측 서비스를 제공

- 슬롯 머신 알고리즘 등 일부 알고리즘이나 실시간 추천이 필요한 경우 실시간 학습이 필요
- 모델을 비교적 짧은 간격으로 갱신해야 한다면 그 간격 동안 쌓인 데이터만을 배치 처리로 학습하되, 최적화에는 추가 학습이 가능한 미니배치 학습을 적용하는 것이 좋다.
- Oryx 프레임워크나 주바투스<sup>Jubatus</sup> 프레임워크 참고

### 4.2.6 각 패턴의 특성

| 패턴 | 일괄 학습 + DB | 일괄 학습 + API | 일괄 학습 + 최종단 클라이언트 | 실시간 학습 + 예측 서비스 | 
|-----|------------------|-------------------|--------------|------|
| 예측 시점 | 배치 | 요청 시        | 요청 시            | 요청 시           |
| 예측 결과 제공 방법 | 공유 DB 경유 | REST/gRPC API 경유 | 프로세스 내 API 경유 | MQ 경유 |
| 예측 요청 ~ 결과 지연 | ◎ | ○ | ◎ | ◎ |
| 신규 데이터 취득 ~ 예측 결과 전달 시간 | 긺 | 짧음 | 짧음 | 짧음 |
| 1건 예측할 때 소요 시간 | 긺 | 짧음 | 짧음 | 짧음 |

- 패턴을 선택할 때 절충해야 할 두 가지 요소
    - 애플리케이션과 독립된 머신러닝 라이브러리를 갖춘 언어로 개발해야 한다.
    - 데이터 취득부터 예측 결과를 반환할 때까지의 간격이 짧아야 한다.

---

# 4.3 훈련 데이터를 얻기 위한 로그 설계
# ~4.3 로그 설계~

- 지도 학습의 경우 웹 애플리케이션 로그나 사용자 클릭 로그 등을 수집하여 특징량을 추출
- 로그 설계는 특징량을 결정하기 위한 핵심
- 로그에 없는 값을 만들어내기 보다 미리 로그에 포함시키는 것이 중요

### 4.3.1 특징량과 훈련 데이터에 사용할 정보

1. 사용자 정보: 사용자가 가입할 때 제공하는 여러가지 속성 정보
2. 컨텐츠 정보: 블로그 포스팅이나 상품 정보 등. 보통 RDBMS에 저장
3. 사용자 행동 로그: 사용자의 접속 또는 발생시킨 이벤트 정보. 양이 많아 객체 저장소, 분산 RDBMS, 하둡 파일시스템 등에 저장

### 4.3.2 로그 저장 위치

- 저장 방법
    - 분산 RDBMS, 데이터웨어하우스(DWH)에 저장
    - 하둡 클러스터의 분산 파일시스템(HDSF)에 저장
    - 클라우드의 오브젝트 스토리지에 저장
    
- SQL로 질의 할 수 있도록 준비가 필요(SQL을 사용하여 데이터들을 집계해서 처리한 후 머신러닝용 데이터셋으로 사용)
- 클라우드 서비스를 이용하여 비용을 절감할 수 있음
    - 클라우드 스토리지
        - 아마존 S3
        - 구글 클라우드 스토리지
        - MS 애저 Blob 스토리지
    - 매니지드 데이터 웨어하우스/분산 DB
        - 아마존 레드시프트
        - 구글 빅쿼리
        - 트레저 데이터
        - 스노플레이크

### 4.3.3 로그 설계 시 주의점

- 앞으로 필요할지도 모르는 정보는 미리 로그에 포함시키는 것이 좋음
- 현재 수집 중인 로그에서 훈련 데이터를 만들 수 있는지 살피는 관점 필요
- 시스템 개발 및 운영 주체와 분석 주체가 분리되어 있는 경우 데이터 유실이 발생할 수 있다.
- 로그 포맷의 변경에 유의해야 한다. 로그 포맷 변경 시의 선택지는 아래와 같다.
    - 많은 양의 데이터를 사용하고자 하므로 오래된 특징량 모델을 계속 사용한다.
    - 가능한 과거 특징량을 계산하는 보조 수단을 적용하고(backfill) 새로운 특징량 모델을 이용한다.
    - 1과 2로 각각 학습한 모델을 조합한다(앙상블 학습).
- 대규모 데이터를 처리할 때는 가능한 한 데이터를 로컬 머신으로 내려받지 않는 수단을 마련해야 한다.

---

# 4.4 정리

- 일괄 학습을 통해 모델을 얻고 이 모델이 예측한 결과를 받는 4가지 패턴
    - 배치 처리로 학습과 예측, 예측 결과를 DB에 저장하고 서비스를 제공한다.
    - 배치 처리로 학습, 실시간 처리로 예측, 예측 결과를 API로 제공한다.
    - 배치 처리로 학습, 최종단 클라이언트에서의 실시간 처리로 예측한다.
    - 실시간 처리로 학습, 예측, 서비스를 제공한다.
- 로그 설계에 맞춰 특징량이나 훈련 데이터를 만드는 것이 중요하며, 이런 경우 가급적이면 재적업할 일이 적어지도록 설계해야 함