# 6.1 머신러닝 시스템만의 독특한 어려움

- 대규모 머신러닝 시스템이 가진 세 가지 독특한 문제점
    1. 데이터 과학자 vs. 소프트웨어 개발자
    2. 동일한 예측 결과를 얻기 어렵다.
    3. 지속적인 학습과 서빙이 필요하다.

### 6.1.1 데이터 과학자 vs. 소프트웨어 개발자

![전형적인 예측 모델의 개발 워크플로](./images/workflow.png)

- 데이터 과학자나 머신러닝 개발자가 탐색적 모델 개발 영역을 담당
- 개발 및 운영은 소프트웨어 개발자나 데이터 과학자가 담당
- 데이터 과학자는 빠른 반복 주기의 시행착오를 중시하는 반면 유지보수성이나 재사용성이 높은 코드를 만드는 것은 우선순위가 낮다.
- 소프트웨어 개발자는 예측 모델에서 얻은 결과를 안정적으로 서빙하고 시스템이 고장나지 않는 것이 우순순위가 높으며 플랫폼에서 동작하는 예측 모델을 사람이 확인하기 쉽도록 설계하는 것 역시 중요하다.

### 6.1.2 동일한 예측 결과를 얻는 데 따르는 어려움

- 머신러닝 시스템에서는 하나의 실험 결과를 계속해서 재현하기가 어렵다.
- CACE<sup>change anything change everything</sup> 원칙 : 조금이라도 변경하면 시스템 전체 행동이 바뀐다.
- 예측할 때 학습 시와 동일한 행동을 얻기 힘든 원인
    - 대규모 데이터에서 과거 특정 시점의 데이터를 사용자 정보 같은 마스터 데이터가 바뀌는 등의 문제가 있어 동일한 형태로 준비하기 어렵다.
    - 다른 실행 환경의 라이브러리나 버전, 하드웨어 같은 의존 관계를 재현하기 어렵다.
    - 실험 환경과 실제 환경의 파이프라인에서 사용하는 언어나 코드가 모두 다르다.
    - 학습 환경과 실제 환경의 입력 데이터 분포나 가정이 모두 다르다.
- 동일한 학습 모델을 얻기 힘든 이유
    - 하이퍼파라미터 등의 설정을 기록해두지 않음
    - 학습에 시간이 오래 걸리고 비용이 높아 경제적 이유로 재실험을 하기 어렵다(동일한 데이터 준비나 라이브러리의 의존 관계, 환경 재현이 어려움).
    
### 6.1.3 지속적인 학습과 서빙의 필요성

- 학습 완료된 모델을 계속 사용하기 위한 전제
    - 학습 시와 예측 시 입력 데이터의 분포가 크게 달라지지 않는다.
    - 학습 시와 에측 시 입력 데이터에서 사용할 수 있는 특징량이 일치하며 그 양도 충분하다.
- 장기적인 시스템 유지를 위해서는 모델을 자동으로 재학습해 제공하는 **지속적인 학습**<sup>Continuous Training</sup>(**CT**)이 중요하다.

---

# 6.2 지속적인 학습과 MLOps

### 6.2.1 기민한 출시를 위한 머신러닝 인프라

- 데이터 과학자도 운영 환경에 손쉽게 학습 완료된 모델을 배포할 수 있는 구조를 만들어야 한다.

### 6.2.2 MLOps: 머신러닝 인프라에서의 CI/CD/CT 달성

- MLOps: 개발과 운용이 자동 테스트나 코드로 인프라를 관리하는 등 자동화 부문을 뛰어넘어 협력하고 융합하는 구조

> **구글의 MLOps 정의**  
MLOps는 ML 시스템 개발(Dev)과 ML 시스템 운영(Ops)의 통합을 목표로 하는 ML 엔지니어링 문화 및 방식입니다.  
MLOps를 통해 통합, 테스트, 출시, 배포, 인프라 관리를 비롯한 ML 시스템 구성의 모든 단계에서 자동화 및 모니터링을 지원할 수 있습니다.

- MLOps는 다음을 수행하기 위한 구조다.
    - 소스 관리, 단위 테스트, 통합 테스트의 지속적 통합<sup>Continuous Integration</sup>(CI)
    - 소프트웨어 모듈 또는 패키지의 지속적인 배포<sup>Continuous Delivery</sup>(CD)
    - 모델의 지속적인 학습<sup>Continuous Training</sup>(CT)

---

# 6.3 머신러닝 인프라 구축 단계

- 모든 조직에 적용 가능한 만능의 머신러닝 인프라는 존재하지 않는다.
- 머신러닝 인프라의 단계별 요소
    - 공통 실험 환경
    - 예측 결과 서빙
    - 학습 및 예측의 공통 처리 파이프라인
    - 모델의 지속적인 학습과 배포

### 6.3.1 공통 실험 환경

- 머신러닝 프로젝트는 사람에게 의존하기 쉽기 때문에 구성원인 변경되었을 때 인수인계가 어렵다.
- 문제 해결을 위한 접근
    - 공통 실험용 도커 이미지 등을 만들고 버전 관리를 해 실험 환경을 쉽게 재현할 수 있게 한다.
    - 공통 주피터랩(JupyterLab) 또는 클라우드 서비스에서 제공하는 주피터 환경을 사용해 실험 내용을 공유하고 재실행해서 쉽게 확인 및 리뷰를 할 수 있게 한다.
    - MLFlow와 같은 실험 관리 도구를 활용해 같은 모델을 학습하는 데 필요한 정보나 실험 결과를 쉽게 공유하도록 한다.
- 공통 실험 환경을 제공하면 재현성 향상, 협업을 통한 생산성 향상뿐만 아니라 사람에 대한 의존성 감소 효과도 기대할 수 있다.

### 6.3.2 예측 결과 서빙

- 학습한 예측 모델을 실제 운영 환경에 배포하고 예측 API 서버를 통해 결과를 반환하는 구조
- 모델의 버전 관리도 중요
- 기본적인 웹 애플리케이션 모니터링 기능도 추가하는 것이 좋다.

### 6.3.3 학습 및 예측의 공통 처리 파이프라인

- 전처리 같은 공통 처리를 분리하고 워크플로 엔진(공통 작업 분할, 쉬운 의존 관리)을 활용
- 피처 스토어<sup>feature store</sup>(특징량을 미리 계산해서 모아둔 것)도 사용 가능. 캐시를 이용하여 전처리의 지연 감소
- 테스트 코드도 중요

### 6.3.4 지속적인 모델 학습과 배포

- 새로운 모델의 재학습과 배포를 자동화 하기 위해 갖춰야 할 구조
    - 특징량 엔지니어링 로직 단위 테스트
    - 학습 시의 손실 수렴 여부 테스트
    - 파이프라인의 산출물 생성 확인 테스트(모델 등)
    - 예측 시 초당 쿼리 수
    - 예측 정확도의 임곗값 초과 여부 테스트
    - 스테이징 환경으로의 풀 리퀘스트 병합 등을 트리거로 하는 모델 배포 테스트
    - 스테이징 환경에서의 파이프라인 동작 검증 테스트
- 일반적인 웹 애플리케이션과 마찬가지로 모델 및 예측 시스템 개발에도 개발 환경, 스테이징 환경, 운영 환경과 같은 여러 단계를 거친다.

---

# 6.4 지속적인 예측 결과 서빙

### 6.4.1 감시 및 모니터링

- 모델 성능 모니터링의 어려움
    - HTTP 상태 코드 404(Not Found)나 500(Internal Server Error) 같은 명확한 상태 코드가 존재하지 않는다.
    - 확률적인 동작을 전제로 해 KPI가 명확하지 않다.
    - 수정을 위한 명확한 대책이 존재하지 않는다.
- 추적해야 할 지표
    - 예측 결과 서빙 시 지표
        - 메모리/CPU 등 하드웨어 리소스 사용량
        - 예측 응답 시간 (예측 서빙 지연과 직결)
        - 예측값이 존재한느 윈도우의 평균값, 중앙값, 최댓값, 최솟값, 표준편차 등 통곗값이나 분포
        - 입력값의 통곗값, 특히 결손값 또는 NaN의 빈도
    - 학습 시 지표
- 추가적인 지표
    - 모델 학습일 기준 경과일
    - 학습 시 예측 정확도와 학습 시간

### 6.4.2 정기적인 테스트

- 일단위 자동 테스트 항목
    - 운영 환경에서 예측한 결과와 최신 정답 데이터와의 예측 정확도 검증
    - 데이터 품질 검증
- 현실적으로 예측 결과의 정답 레이블을 즉시 획득하는 것이 어려움
- 입력 데이터의 품질을 확인하는 것은 예기치 못한 사태를 방지하는 데 중요
- 검증 대상
    - 입력 데이터의 '스키마' 검증
        - 데이터가 예상한 범위에 포함되는가?
        - 범줏값은 즉시 알 수 있는가?
        - NaN/Inf 값이 생성되는가?
        - 특징량의 고차원 배열의 요소 수가 같은가?
        - 특정 입력이 누락되지 않았는가?
    - 입력 데이터의 편차나 변화<sup>drift</sup> 검증

> **예측 시스템의 장애 조사에 관한 네 가지 질문**  
> - 파이프라인에 버그가 있는가?  
> - 잘못된 모델을 배포했는가?  
> - 데이터셋에 문제가 있는가?  
> - 모델이 노후되지는 않았는가?

---

# 6.5 정리

- 조직이나 운영 목적에 따라 필요한 요소도 달라지므로 조직의 문제가 무엇이고 해결 방법은 무엇인지 생각해야 한다.