# 머신러닝 소개

## 데이터 과학, 인공지능, 머신러닝, 딥러닝

<img src="./images/ai-ml-relation.png" style="width:500px;">

그림 출처: [교보문고: 에이지 오브 머신러닝](http://www.kyobobook.co.kr/readIT/readITColumnView.laf?thmId=00198&sntnId=14142)

* 데이터 과학: 주어진 데이터로부터 수학과 통계 지식을 활용하여 필요한 정보를 추출하는 학문 분야
* 인공지능: 사고(thinking), 학습(learning) 등 인간의 지적능력을 컴퓨터를 통해 구현하는 
    기술 또는 해당 연구 분야
* 머신러닝: 컴퓨터가 데이터로부터 스스로 정보를 추출하는 기법 또는 해당 연구 분야.
* 딥러닝: 심층 신경망 이론을 기반으로 복잡한 비선형 문제를 해결하는 머신러닝 기법 
    또는 해당 연구 분야    

역사적 관점에서 바라본 인공지능, 머신러닝, 딥러닝의 관계는 다음과 같다.

<img src="./images/ai-ml-relation2.png" style="width:600px;">

그림 출처: [NVIDIA 블로그](https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/)

## 머신러닝이란?

- 아서 새뮤얼(Artuhr Samuel), 1959

> 머신러닝은 **명시적인 프로그래밍** 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야


### 머신러닝 프로그램 예제

* 스팸 필터: 스팸(spam)과 스팸이 아닌 메일(ham)의 샘플을 이용하여 스팸 메일 구분법 학습        

### 전통적인 프로그래밍

* 전통적인 프로그래밍 접근 방법은 다음과 같다.
    * **문제 연구**: 누군가가 문제를 해결하기 위해 해결책을 찾음 
    * **규칙 작성**: 결정된 규칙을 개발자가 프로그램을 작성
    * **평가**: 만들어진 프로그램을 테스트
    * 문제가 없다면 **론칭**, 문제가 있다면 **오차를 분석**한 후 처음 과정부터 다시 실시

#### 예제: 스팸 메일 분류

* **특정 단어**가 들어가면 스팸 메일로 처리

* 프로그램이 론칭된 후 새로운 스팸단어가 생겼을 때 소프트웨어는 이 단어를 자동으로 분류할 수 없음

* 개발자가 새로운 규칙을 업데이트 시켜줘야 함

* **새로운 규칙이 생겼을 때 사용자가 매번 업데이트를** 시켜줘야하기 때문에 유지 보수가 어려움

### 머신러닝

<div align="center"><img src="https://drek4537l1klr.cloudfront.net/chollet2/v-7/Figures/ch01-a-new-programming-paradigm.png" width="500"/></div>

#### 예제: 스팸 메일 분류

* 사용자가 스팸으로 지정한 메일에 '4U', 'For U', 'Buy Drugs" 등의 표현이 자주 등장하는 경우 
    그런 표현을 자동으로 인식하고 메일을 스팸으로 분류하도록 프로그램 스스로 학습

### 머신러닝 학습 자동화

<div align="center"><img src="images/ch01/homl01-03.png" width="500"/></div>

### 머신러닝의 장점

* 전통적인 방식으로는 해결 방법이 없는 너무 복잡한 문제 해결

* 새로운 데이터에 쉽게 적응 가능한 시스템

* 데이터 마이닝(data mining): 복잡한 문제와 대량의 데이터에서 통찰 얻기

## 적용 사례

* 이미지 분류 작업: 생산 라인에서 제품 이미지를 분석해 자동으로 분류

* 시맨틱 분할 작업: 뇌를 스캔하여 종양 진단

* 텍스트 분류(자연어 처리): 자동으로 뉴스 기사 분류

* 텍스트 분류: 토론 포럼에서 부정적인 코멘트를 자동으로 구분

* 텍스트 요약: 긴 문서를 자동으로 요약

* 자연어 이해 : 챗봇(chatbot) 또는 개인 비서 만들기

* 회귀 분석: 회사의 내년도 수익을 예측하기

* 음성 인식: 음성 명령에 반응하는 앱

* 이상치 탐지: 신용 카드 부정 거래 감지

* 군집 작업: 구매 이력을 기반 고객 분류 후 다른 마케팅 전략 계획

* 데이터 시각화: 고차원의 복잡한 데이터셋을 그래프로 효율적 표현

* 추천 시스템: 과거 구매 이력 관심 상품 추천

* 강화 학습: 지능형 게임 봇(bot) 만들기

## 머신러닝 시스템 종류

### 지도 학습

* 훈련 데이터에 __레이블(label)__이라는 답 포함
    * 레이블 대신에 __타깃(target)__이란 표현도 사용됨.

* 대표적 지도 학습
    * 분류
    * 회귀

#### 분류

<div align="center"><img src="images/ch01/homl01-05.png" width="500"/></div>

* 특성을 사용한 데이터 분류

* 예제: 스팸 필터
    * 특성: 소속 정보, 특정 단어 포함 여부 등
    * 레이블(타깃): 스팸 또는 햄    

#### 회귀

<div align="center"><img src="images/ch01/homl01-06.png" width="400"/></div>

* 특성을 사용하여 타깃(target) 수치 예측

* 예제: 중고차 가격 예측
    * 특성: 주행거리, 연식, 브랜드 등
    * 타깃: 중고차 가격

#### 중요한 지도학습 알고리즘들 

* k-최근접 이웃(k-NNs)
* 선형 회귀(linear regression)
* 로지스틱 회귀(logistic regression)
* 서포트 벡터 머신(support vector machines, SVCs)
* 결정 트리(decision trees)와 랜덤 포레스트(random forests)
* 신경망(neural networks)

### 비지도 학습

* __레이블 없는 훈련 데이터__를 이용하여 시스템 스스로 학습

<div align="center"><img src="images/ch01/homl01-07.png" width="410"/></div>

* 대표적 비지도 학습
    * 군집
    * 시각화
    * 차원 축소
    * 연관 규칙 학습

#### 군집

<div align="center"><img src="images/ch01/homl01-08.png" width="400"/></div>

* 데이터를 비슷한 특징을 가진 몇 개의 그룹으로 나누는 것

* 예제: 블로그 방문자들을 그룹으로 묶기: 남성, 여성, 주말, 주중, 만화책, SF 등등

* 대표적 군집 알고리즘 
    * k-평균
    * DBSCAN
    * 계층 군집 분석

#### 시각화

* 다차원 특성을 가진 데이터셋을 2D 또는 3D로 표현하기

* 시각화를 하기 위해서는 데이터의 특성을 2가지로 줄여야함

* 데이터가 구성 패턴에 대한 정보 획득 가능

<div align="center"><img src="images/ch01/homl01-09.png" width="650"/></div>

#### 이상치 탐지(Outlier detection)

* 정상 샘플을 이용하여 훈련 후 입력 샘플의 정상여부 판단 후 이상치(outliers) 자동 제거

<div align="center"><img src="images/ch01/homl01-10.png" width="500"/></div>

* 예제: 부정거래 사용 감지, 제조 결함 잡아내기 등등

#### 연관 규칙 학습

* 데이터 특성 간의 흥미로운 관계 찾기

* 예제: 마트 판매 기록
    * 바비규 소스와 감자 구매와 스테이크 구매 사의 연관성이 밝혀지면 상품을 서로 가까이 진열해야 함.

### 준지도 학습

* 레이블이 적용된 적은 수의 샘플이 주어졌을 때 유횽함.

* 비지도 학습을 통해 군집을 분류한 후 샘플들을 활용해 지도 학습 실행

* 대부분 지도 학습과 비지도 학습 혼합 사용

#### 준지도 학습 예제

* 아래 그림 참조: 새로운 사례 `X`를 세모에 더 가깝다고 판단함.

<div align="center"><img src="images/ch01/homl01-11.png" width="400"/></div>

* 구글 포토 호스팅: 가족 사진 몇 장에만 레이블 적용. 이후 모든 사진에서 가족사진 확인 가능.

### 강화 학습

* 에이전트(학습 시스템)가 취한 행동에 대해 보상 또는 벌점을 주어 가장 큰 보상을 받는 방향으로 유도하기

<div align="center"><img src="images/ch01/homl01-12.png" width="400"/></div>

* 예제: 딥마인드(DeepMind)의 알파고(AlphaGo)

<div align="center"><img src="images/ch01/alphago01.png" width="500"/></div>

# MNIST 데이터셋

* 미국 고등학생과 인구조사국 직원들이 손으로 쓴 70,000개의 숫자 이미지로 구성된 데이터셋

* 사용된 0부터 9까지의 숫자는 각각 28x28= 784크기의 픽셀로 구성된 이미지 데이터
  * 2차원 어레이가 아닌 길이가 784인 1차원 어레이로 제공

* 레이블: 총 70,000개의 사진 샘플이 표현하는 값

<div align="center"><img src="images/ch03/homl03-01.png" width="550"/></div>

## 다중 클래스 분류

### 다중 클래스 분류기(multiclass classifier)

* 세 개 이상의 클래스로 샘플을 분류하는 예측기

* 다항 분류기(multinomial classifier)라고도 부름

* 예를 들어, 손글씨 숫자 분류의 경우 0부터 9까지 10개의 클래스로 분류해야 함

#### 다중 클래스 지원 분류기

* `SGDClassifier` 또는 `RandomForestClassifier`는 다중 클래스 분류를 직접 지원함.
* 훈련된 모델의 정확도 성능은 90% 정도임.

* 3과 5의 오차행렬 그려보기
    * 음성: 3으로 판정
    * 양성: 5로 판정

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch03/homl03-10.png" width="400"/></div>

* 이미지 분류기의 한계
    * 이미지의 위치나 회전 방향에 민감함
    * 이미지를 중앙에 위치시키고 회전되지 않도록 전처리하거나, 8은 동그라미가 두 개 있다는 등
        각 숫자의 특성을 추가하면 더 좋은 성능의 모델 구현 가능함.

## 합성곱 신경망(CNN)

- 한 번 인식된 패턴은 다른 위치에서도 인식된다. 따라서 적은 수의 샘플을 이용하여 일반화 성능이 높은 모델을 훈련시킬 수 있다.
- 분류 정확도를 99% 정도에 달한다.

<div align="center"><img src="https://drek4537l1klr.cloudfront.net/chollet2/v-7/Figures/local_patterns.jpg" width="500"/></div>

<div align="center"><img src="https://drek4537l1klr.cloudfront.net/chollet2/v-7/Figures/ch01-mnist_representations.png" width="600"/></div>

- 패턴 공간의 계층을 파악한다. 위 층으로 진행할 수록 보다 복잡한 패턴을 파악한다. 이를 패턴 공간의 계층(spatial hierarchy of patterns)이라 한다.

<div align="center"><img src="https://drek4537l1klr.cloudfront.net/chollet2/v-7/Figures/visual_hierarchy_hires.png" width="500"/></div>

## 이미지넷 경진대회

- 이미지넷(Imagenet)은 대용량의 이미지 데이터셋이며, ILSVRC 이미지 분류 경진대회에 사용된다. 
- 이미지넷의 전체 데이터셋은 총 2만2천 개 정도의 클래스로 구분되는 동물, 사물 등의 객체를 담은 고화질 사진 1500만장 정도로 구성된다. 
- 2017년까지 진행된 ILSVRC 경진대회는 보통 1000 개의 클래스로 구분되는 사물을 담은 1백만장 정도의 이미지를 이용한다.

## 2012년 이미지넷 경진대회

- 2011년 최고 모델의 성능: 74% 정도의 top-5 정확도
- 2012년 최고 모델의 성능: 84% 정도의 top-5 정확도

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/dlp2/master/jupyter-book/imgs/ch01-ilsvrc-1.png" width="500"/></div>

## 컴퓨터 비전

<div align="center"><img src="https://drek4537l1klr.cloudfront.net/chollet2/v-7/Figures/computer_vision_tasks.png" width="700"/></div>

## 키포인트 탐지 / 자세 추정

<div align="center"><img src="https://github.com/Jeff-sjtu/HybrIK/raw/main/assets/decompose.gif" width="700"/></div>

## YOLO

- 객체 추적: [YOLOv3](https://www.youtube.com/watch?v=MPU2HistivI&ab_channel=JosephRedmon)
- 객체 추적: [YOLOv7 + SORT](https://www.youtube.com/watch?v=K_OGcfXwskc&ab_channel=TheCodingBug)

## 머신러닝과 데이터 분석

- 머신러닝 모델은 훈련 데이터셋에 포함된 데이터의 정보를 이용하여 예측값 생성
- 데이터의 특성별 기여도를 평가할 수 있음.

## 수질 데이터 분석

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/water-data/master/reservoirs/google_colab/%EC%8A%B9%EC%B4%8C%EB%B3%B4(%EB%B0%A9%EB%A5%98%EB%9F%89%EA%B3%BC%20%EC%88%98%EC%98%A8)/img/daily_mean_flow1.png" width="700"/></div>

- 전통적인 통계 기법으로 분석 불가능
- 다량의 데이터를 이용한 새로운 데이터 분석 활용법 제공