# 머신러닝 디자인 패턴

**디자인 패턴**
- 일반적으로 발생하는 문제에 대한 모범 사례와 솔루션을 추려낸 패턴 
- 전문가의 지식과 경험을 모든 실무자가 따를 수 있는 조언으로 가공

## 머신러닝 용어

**모델과 프레임워크**
- 머신러닝 모델 : 데이터에서 패턴을 학습하는 알고리즘 
- 업계의 ML 엔지니어는 보통 모델 구축을 위한 직관적인 API를 제공하는 여러 오픈소스 프레임워크 중 하나를 사용하는 편 
- 실제 프로덕션에 사용되는 대부분의 머신러닝 모델은 지도 학습에 해당 

**데이터와 특징 가공**
- 데이터는 모든 머신러닝 문제의 핵심
- 데이터셋 : 머신러닝 모델의 학습, 검증, 테스트에 사용되는 데이터 의미
- 구조화된 데이터 : 수치 데이터와 범주 데이터. 스프레드시트로 다룰 수 있는 데이터 
- 구조화되지 않은 데이터 : 자유 형식 텍스트, 이미지, 비디오, 오디오 등 
- 특징 가공 : 수치가 아닌 데이터를 모델에서 이해할 수 있는 수치 형식으로 변환하는 작업
- 데이터 변환 : 전처리 단계 
- 인스턴스 : 예측을 위해 모델로 보내는 데이터 항목. 데이터셋의 행, 분류하려는 이미지, 감정 분석 모델로 보낼 텍스트 문서 등
- 데이터 검증 : 데이터에 대한 통계 계산. 스키마 이해. 데이터셋 평가하여 데이터에 내재된 문제 식별 

**머신러닝 과정**
- 학습 : 일반적인 머신러닝 워크플로의 첫 번째 단계. 학습 데이터를 모델에 전달하여 패턴을 식별하는 방법을 학습시키는 과정
- 모델 평가 : 학습의 다음 단계. 학습 데이터셋에 속하지 않는 데이터로 모델의 성능 확인
- 서빙 : 들어오는 접근 요청을 수락하고 모델을 마이크로서비스 형태로 배포하여 예측값을 전송하는 시스템 구축 
+ 예측 : 모델에 새 데이터를 전송하고 출력을 사용하는 프로젝트
  + 온라인 예측 : 실시간으로 적은 수의 예측값을 얻고자 할 때 사용
  + 배치 예측 : 오프라인에서 대규모 데이터 집합에 대한 예측 생성
- 추론 : 이미지 및 텍스트 분류 모델 등 예측을 대체하는 용어로 사용 
- 스트리밍 : 프로덕션 파이프라인 내에서 학습 데이터 수집, 특징 가공, 학습, 모델 평가 프로세스를 소화하는 경우 새로운 데이터를 지속적으로 수집할 수 있어야 하며 학습 또는 예측을 위해 모델로 보내기 전에 이 데이터를 즉시 전처리해야 함. 머신러닝 파이프라인

**데이터와 모델 도구**
- 빅쿼리 : SQL로 대규모 데이터셋을 빠르게 분석하도록 설계된 엔터프라이즈 데이터 웨어하우스 
- 빅쿼리 ML : 빅쿼리에 저장된 데이터로 모델을 빌드하기 위한 도구. SQL을 사용하여 모델을 학습, 평가하고 모델로부터 예측을 생성할 수 있음 
- 클라우드 AI 플랫폼 : 구글 클라우드에서 커스텀 머신러닝 모델 학습 및 서빙 위한 다양한 제품 포함 
- Explainable AI : AI 플랫폼에 배포된 모델의 예측 결과를 해석하는 도구

**머신러닝 직군**
1. 데이터 과학자
  - 데이터셋 수집, 해석, 처리를 수행하는 직군
  - 데이터에 대한 통계적, 탐색적 분석 수행
  - 데이터 수집, 특징 가공, 모델 구축 등의 작업
  - 파이썬 또는 R로 작업 
  - 조직의 머신러닝 모델 가장 먼저 구축
  
2. 데이터 엔지니어
  - 조직의 데이터를 위한 인프라와 워크플로 관리
  - 데이터 수집하고, 데이터 파이프라인 구축하고, 데이터를 저장하고 전송하는 방법을 관리하는 데 도움을 줌
  
3. 머신러닝 엔지니어
  - ML 모델에 대해 데이터 엔지니어와 유사한 작업 수행
  - 데이터 과학자가 개발한 모델을 가져와서 해당 모델의 학습, 배포와 관련된 인프라와 운영 관리
  - 모델 업데이트, 모델 버전 관리, 최종 사용자에게 예측 서빙을 처리하는 프로덕션 시스템 구축 
 
4. 보통 데이터 엔지니어로서 머신러닝 프로젝트를 시작하고 데이터 수집을 위한 데이터 파이프라인 구축. 그 후 데이터 과학자 역할로 전환해 ML 모델 구축. 최종적으로 ML 엔지니어로서 모델을 프로덕션으로 옮김 

- 대규모 조직에서는 각 단계에 서로 다른 팀이 참여 

5. 연구 과학자
  - ML 분야를 발전시키기 위해 새로운 알고리즘 찾고 개발
  - 모델 아키텍처, 자연어 처리, 컴퓨터 비전, 하이퍼파라미터 튜닝, 모델 해석과 같은 하위 분야 포함
  - ML에 대한 새로운 접근 방식을 프로토타이핑하고 평가하는 데 대부분의 시간 보냄
  
6. 데이터 분석가
  - 데이터를 분석하고 통찰한 내용 뽑아낸 다음, 조직 내의 다른 팀에 공유
  - SQL, 스프레드시트에서 작업하고 비즈니스 인텔리전스 도구를 사용하여 데이터 시각화 및 결과 공유
  - 제품 팀과 긴밀히 협력 
  - 해당 데이터 사용하여 향후 예측을 만들고 통찰 결과 생성을 자동화하거나 확장하는 데에도 관심
  
7. 개발자 
  - 최종 사용자가 ML 모델에 접근할 수 있는 프로덕션 시스템 구축 담당
  - 웹 또는 앱을 통해 사용자 친화적인 형식으로 모델에 쿼리를 날리고 예측을 반환받기 위한 API 설계

## 머신러닝 문제

**데이터 품질**
- 학습에 사용되는 데이터만큼만 신뢰 가능 
- 쓰레기가 들어가면 쓰레기가 나온다

1. 정확도 
  - 학습 데이터 특징의 정확도와 해당 특징에 해당하는 실측 라벨의 정확도 모두 가리킴
  - 데이터의 출처와 데이터 수집 과정에 존재할 수 있는 오류에 대해 이해하면 특징의 정확성 보장 가능
  - 데이터 수집 후엔 오타, 중복 항목, 테이블 데이터의 단위 불일치, 누락된 특징, 기타 데이터 품질에 영향을 줄 수 있는 오류 걸러내는 것 중요
  - 라벨이 잘못 지정된 학습 데이터는 모델의 정확도 떨어뜨림
  
2. 완전성 
  - 학습 데이터에 각 라벨의 다양한 표현이 포함되어야 함 
  - 10가지 고양이 품종을 예측하는 모델을 만들 때 고양이 아님이 해당하는 데이터와 라벨이 학습 데이터셋에 포함되어야 함 
  
3. 일관성
  - 데이터 수집과 라벨 지정 작업을 여러 팀이 나눠서 수행할 때 작업 절차에 대한 표준 마련해야 함 
  - 일관성의 부족은 데이터의 특징과 라벨 양쪽에서 발생 가능 
  - 라벨링 편향 존재할 수 있다는 점 인식하고 이를 감안한 시스템 구현
  
4. 적시성
  - 데이터의 사건이 발생한 시점과 데이터베이스에 추가된 시점 사이의 지연 시간
  - 특정 데이터에 대해 가능한 한 많은 정보를 기록하고 데이터를 머신러닝 모델의 특징으로 변환할 때 정보가 반영되는 지 확인 
  - 이벤트가 발생한 시점과 데이터셋에 추가된 시점의 타임스탬프 추적 후 특징 가공 때 이러한 차이점 반영
  
**재현성**
- 동일한 학습 데이터를 동일한 모델의 코드에 입력했다고 해도 두 모델은 학습이 끝나고 나면 약간 다른 결과를 생성하고 이는 재현성 문제를 야기
- 재현성 문제를 해결하는 일반적 방법은 학습을 실행할 때마다 동일한 무작위성이 적용되도록 모델에서 사용하는 시드값을 설정하는 것
- 모델을 학습시킬 때 동일한 데이터와 동일한 랜덤 시드 사용해야 함
- 컨테이너에서 ML 워크로드 실행하고 라이브러리 버전 표준화하는 것이 좋음

**데이터 드리프트**
- 머신러닝 모델이 입력과 출력 간의 관계를 유지할 수 있는지와 모델 예측이 사용 중인 환경을 정확하게 반영하는지에 대한 문제 표현
- 학습 데이터셋을 지속적으로 업데이트하고, 모델을 재학습하고, 모델이 특정 입력 데이터 그룹에 할당하는 가중치를 수정해야 함 

**확장**
- 데이터 수집, 전처리, 학습, 서빙 모두에서 확장 문제 발생
- 데이터 파이프라인, 학습 인프로, 프로덕션 모델 위한 인프라 등 

**목표**
- 각 팀의 최적화 대상에 따라 목표는 달라지고 조직 내에서 이러한 서로 다른 요구 사항의 균형을 맞추는 데에는 어려움이 따름 

# 데이터 표현 디자인 패턴

- 모든 머신러닝 모델의 핵심 : 특정 유형의 데이터로만 작동하도록 정의된 수학적 함수
- 예를 들어 결정 트리 머신러닝 모델의 핵심은 불리언 변수에서 작동하는 수학적 함수
- 데이터 표현의 의미 : 입력 데이터를 모델에서 예상하는 형식으로 표현
- 특징 가공 : 입력 데이터를 표현하는 특징을 생성하는 과정
- 임베딩 디자인 패턴 : 심층 신경망이 스스로 학습할 수 있는 데이터 표현의 정형화된 예
- 특징 추출 : 입력 데이터를 표현하기 위해 특징을 학습하는 과정 

## 간단한 데이터 표현

**수치 입력**
- 대부분의 최신 대규모 머신러닝 모델은 수치 기반으로 작동. 입력값이 수치로 되어 있다면 변경하지 않고 모델 전달 가능

**스케일링 필요 이유**
- 상당수의 ML 프레임워크는 [-1, 1] 범위 내의 수치에서 잘 작동하도록 조정된 옵티마이저 사용 
- 학습 속도가 빨라지거나 비용 저렴함 
- 일부 머신러닝 알고리즘 및 기술은 서로 다른 특징의 상대적인 크기에 매우 민감(Ex. k-means clustering)

In [2]:
from sklearn import datasets, linear_model
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

raw = diabetes_X[:, None, 2]

max_raw = max(raw)
min_raw = min(raw)
scaled = (2*raw - max_raw - min_raw)/(max_raw - min_raw)

def train_raw():
    linear_model.LinearRegression().fit(raw, diabetes_y)

def train_scaled():
    linear_model.LinearRegression().fit(scaled, diabetes_y)

import timeit
raw_time = timeit.timeit(train_raw, number=1000)
scaled_time = timeit.timeit(train_scaled, number=1000)
print('Raw: {:.4f}s, Scaled: {:.4f}s, Improvement: {:2f}%'
      .format(raw_time, scaled_time, 100*(raw_time-scaled_time)/raw_time))

Raw: 0.2442s, Scaled: 0.2108s, Improvement: 13.698143%


**선형 스케일링**

1. 최소-최대 스케일링
  - 입력이 취할 수 있는 최솟값은 -1로 변환. 최댓값은 1로 변환 
  - 최댓값, 최솟값을 학습 데이터셋 내에서 추정하기 때문에 아웃라이어 값일 가능성 높음 

2. 클리핑(최소-최대 스케일링과 함께 사용)
  - 학습 데이터셋에서 최솟값과 최댓값을 추정하는 대신 '합리적인' 값을 사용하면 아웃라이어 문제 해결하는 데 도움이 됨 
  
3. Z 점수 정규화
  - 학습 데이터셋에 대해 추정한 평균과 표준편차를 사용하여 입력을 선형적으로 스케일링하면, 합리적인 범위가 어느 정도인지에 대한 사전 지식 없이도 아웃라이어 문제 해결 가능
  
4. 윈저라이징
  - 학습 데이터셋의 경험적 분포를 사용하여 데이터값의 10번째 및 90번째 백분위수 등에 해당하는 경계로 데이터셋 클리핑 후 최소-최대 스케일링 적용 
  
  
**비선형 변환**
- 데이터가 치우쳐 균등하게 분포되지 않았거나, 종형 곡선처럼 분포되지 않은 경우

1. 일반적인 기법 : 스케일링 전에 입력값의 로그 취함. 시그모이드 함수, 다항식 전개(제곱, 제곱근, 세제곱 등) 있음 


2. 히스토그램 평준화**
  - 버킷화하여 원하는 출력 분포에 맞는 버킷 경계 선택
  - 히스토그램의 bin은 원데이터 분포의 분위수를 기반으로 선택 

3. Box-Cox 변환 
  - 분산이 더이상 크기에 의존하지 않도록 이분산성 제어 
  - 모든 조회수 범위에서 분산을 동일하게 만듦


**수의 배열**
- 입력 배열은 전체적인 통계를 활용해서 표현. 길이, 평균, 중앙값, 최솟값, 최댓값 등
- 경험적 분포(10분위, 20분위, 백분위수) 로 입력 배열 표현
- 배열이 특정한 방식으로 정렬된 경우, 입력 배열을 마지막 3개 또는 다른 고정된 수의 항목으로 표현. 길이가 3보다 작은 배열의 경우 누락된 특징도 채워서 3 채움 