(ch:unversal_workflow_of_ml)=
# 머신러닝 작업 흐름 일반

**감사의 글**

아래 내용은 프랑소와 숄레의 
[Deep Learning with Python(2판)](https://github.com/fchollet/deep-learning-with-python-notebooks)의 
소스코드 내용을 참고해서 작성되었습니다.
자료를 공개한 저자에게 진심어린 감사를 전합니다.

**소스코드**

없음.

**주요 내용**

다양한 종류의 머신러닝 과제를 실전에서 해결해야 할 수 있다.

- 사진 검색 엔진
- ...

:::{admonition} 윤리 문제
:class: note

윤리적으로 문제 있는 문제 ...

- 얼굴로 인성 평가
- 보스턴 하우스 데이터셋
- 백인 우성 유전자 
- 등등
:::

머신러닝으로 실전 문제를 해결하는 일반적인 과정을 소개한다.

- 머신러닝 문제 정의하기
- 모델 구현
- 모델 실전 배치

## 머신러닝 문제 정의하기

### 문제 확인

- 훈련 데이터셋은 무엇? 예측값은 무엇? 필요한 데이터셋과 타깃셋을 직접 구해야 함.
    그렇지 못하면 머신러닝 모델을 훈련시킬 수 없음.
    예를 들어, 영화평을 분류하고자 한다면 영화평과 각 영화평이 결론적으로 
    좋다/싫다인지에 대한 데이터셋이 필요함.

- 어떤 머신러닝 모델 활용? 이진 분류? 다중클래스 분류? 스칼라 회귀? 벡터 회귀?
    다중클래스-다중레이블 분류? 이미지 분할? 랭킹? 군집화? 생성? 강화학습? 
    아니면 심지어 머신러닝 필요? 전통적 통계/확률 기법으로 해결 가능?
    
    - 사진 검색 엔진: 다중클래스-다중레이블 분류
    - 스팸 메일 필터: 이진 분류 또는 다중클래스 분류(스팸은 아니지만 공격적?)
    - 음악 추천 엔진: 딥러닝 보다는 Collaborative Filtering 기법 중의 하나인
        행렬 분해(matrix factorization) 기법을 활용한 추천 시스템이 보다 효율적임.
    - 신용카드 사기 검출(credit card fraud detection): 이진 분류
    - 클릭율(click-through-rate) 예측: 스칼라 회귀
    - 비정상(?) 과자 탐지: 이진 분류. 하지만 먼저 객체 탐지 모델 필요. 
        일반적으로 알려진 "이상치 탐지" 용도의 머신러닝 모델이
        이 경우엔 그렇게 적절하지 않음.
    - 고대 유적지 확인: 인공위성 사진 분석. 기존 고대 유적지와의 유사도 측정.
        이미지-유사도 랭킹 측정.

- 기존에 사용되는 해결책 존재? 무엇? 전통적 프로그래밍 기법? 담당자가 추천할 음악 등을 직접 선별?

- 문제를 다룰 때 특별히 고려해야 할 점? 
    - 스팸 탐지 시스템: 암호화된 이메일인 경우 사용자의 전화기에서 작동해야 함. 
    - 비정상 과자 탐지가 원격 서버가 아닌 공장의 임베디드 시스템에서 작동해야 할 수 있음.

위 사항들을 모두 확인했다 하더라도 준비된 데이터셋의 유효성을 확인해야 함. 즉, 적절한 훈련셋인지, 입력 데이터셋을 이용하여 적절한 예측값을 생성할 수 있는지 등등. 
예를 들어 지난 시간 동안의 증권시장의 가격 데이터를 이용하여 미래의 증권시장 동향을 예측하는 일은 별로 성공적이지 않을 것이다. 

### 데이터셋 수집

문제해결에 필요한 입력 데이터셋과 타깃 데이터셋을 수집하는 일이 가장 어렵고,
가장 많은 시간을 요하며, 가장 비용이 많이 든다.

- 사진 검색 엔진: 사진의 레이블로 사용될 목록 확인. 보통 10,000개의 사진의 범주(category) 지정. 이후에 수 천장의 사진을 직접 태킹(tagging)해야 함. 

- 채팅 앱에 사용될 스팸 탐지 과제: ...