# 1. 패턴인식 개요

## 1.1. 정의

### 1.1.1 패턴인식 (Pattern Recognition) 이란?

계산이 가능한 기계적인 장치(컴퓨터)가 어떠한 대상을 인식하는 문제를 다루는 **인지과학**과 **인공지능**의 한 분야, 또는 **머신러닝**이 지향하는 목적
- **인지과학 (Cognitive Science)**: **지능과 인식** 문제를 다루는 포괄적인 **과학**분야
- **인공지능 (Artificial Intelligence)**: **인간의 학습능력과 추론능력**을 인공적으로 모델링하여 외부대상을 지각하는 능력을 **컴퓨터로 구현하는 기술**
- **머신러닝 (Machine Learning)** : **인공지능을 구현**하는 구체적인 방법론으로서의 **알고리즘**들 
- **패턴인식 (Pattern Recognition)** : 인공지능의 실제 구현 문제인 **센싱된 대상을 인식**하는 문제를 공학적으로 다룬다.

<img src="./images/ML-PR.png" width="400">

### 1.1.2 여러 문헌에서 정의하는 패턴인식의 정의들
> 물리적 **객체 혹은 사건**을 이미 정해진 몇 가지 **카테고리** 중의 하나로 할당하는 것 – Duda and Hart

> **다차원 공간** 내에서 밀도함수를 추정하고 공간을 **카테고리** 혹은 **클래스** 영역으로 나누는 문제 – Fukunaga

> 복잡한 신호의 몇 가지 표본과 이들에 대한 정확한 결정이 주어질 때, 연이어 주어지는 미래 표본들에 대하여 자동적으로 결정을 내리게 하는 것 – Ripley

> **측정**의 설명 혹은 **분류 (인식)**과 관련된 과학 – Schalkoff

> **관측치 x**에 **이름 ω 를 부여**하는 과정 – Schürmann

> 패턴인식은 다음 질문에 답하는 것이다, “**이것**이 **무엇**인가?” – Morse

## 1.2. 패턴인식의 응용분야 - 인식 대상에 따른

### 문자인식

일반적으로 스캐너로 또는 영상으로 받아들인 텍스트 이미지를 컴퓨터에서 편집 가능한 코드화된 문자로 변환하게 된다.
- 자동 우편물 분류기
- 필기체 문자 인식
- 차량 번호판 인식

### 생체인식 / 행동패턴 인식
- 음성인식
- 지문인식
- 홍채인식
- 얼굴인식
- DNA 매핑
- 보행패턴 분석 및 분류
- 발화습관 분석 및 분류

### 진단시스템 분야
- 의료 영상 분석
- EEG(뇌전도), ECG(심전도) 신호 분석 및 분류 시스템

### 예측시스템 분야
- 날씨 예측
- 지진 예측
- 주가 예측

### 보안과 군사 분야
- 네트워크 트래픽  패턴 분석을 통한 컴퓨터 공격확인
- 물품 자동 검색 시스템
- 인공위성 영상 분석을 통한 테러리스트 캠프 혹은 지형 목표물 추적공격
- 레이다 신호 분류
- 적군과 아군 식별 시스템

### 기타 등등

### 1.1.3 특징과 패턴

**특징(feature)이란?**
어떤 객체가 가지고 있는 객체 고유의 분별 가능한 측면(aspect), 질(quality) 혹은 특성(characteristic) (ex: 색깔과 같은 상징기호 또는 높이/넓이/무게와 같은 수치적인 값.)

* **특징벡터(feature vector)** : 특징이 하나 이상의 수치 값을 가질 경우, D-차원의 열 벡터로 표현.
* **특징공간(feature space)** : 특징벡터가 정의되는 D-차원 공간.
* **분산플롯(scatter plot)** : 인식 대상이 되는 객체들을 특징공간에서 특징벡터가 형성하는 점으로 표현된 그림.


<img src="./images/features.png" width="550">


**패턴이란?**
개별 객체의 특색(traits) 이나 **특징(features)들의 집합**

분류작업에 사용될 **훈련 자료의 패턴**은 변수 쌍 **$(x,\omega)$**로 주어지며, 여기에서 **$x$는 특징 벡터**를, **$\omega$는 라벨**을 말한다.


**특징벡터의 선택**
패턴인식 알고리즘의 결정과 더불어 인식률에 결정적인 영향을 미친다.

**좋은 특징과 나쁜 특징**
<img src="images/GorB_features.png" width="400">
* 같은 클래스로부터의 표본은 동일하거나 유사한 특징 값을 가져야 한다.
* 다른 클래스로부터 취해진 표본은 다른 클래스와 서로 다른 특징 값을 가져야 한다.

**패턴의 유형**
* 선형 분리 가능한 유형
* 비선형 분리 가능한 유형
* 높은 상관을 가진 유형
* 멀티 모달(multimodal) 유형

<img src="images/types_of_pattern.png" width="550">

**패턴인식 시스템의 구성요소와 처리과정**
1. 센서
2. 전처리과정
3. 특징추출과정 (수동/자동)
4. 분류알고리즘
5. 분류된 또는 설명된 자료들 (훈련을 위한 자료)

<img src="images/components.png" width="500">

**패턴인식 시스템 설계 5단계**

1 단계 : **데이터 수집 단계** : 안정된 패턴인식 성능을 얻기 위해서 얼마나 많은 표본 데이터가 필요한 가를 결정하고 수집

2 단계 : **특징 선택 단계** : 대상 패턴에 대한 충분한 사전지식을 통하여 최상의 분류를 위한 특징을 선택 (“garbage in, garbage out”)

3 단계 : **모델 선택 단계** : 패턴인식을 위한 여러 접근법 중에서 (통계적/신경망적/구조적 방법들) 어느 모델을 어떠한 알고리즘을 이용하여 어떻게 구성할 것인가를 결정

4 단계 : **학습 단계** : 수집된 데이터로 부터 선택된 모델을 학습을 통하여 자료를 표현하는 완전한 모델을 만드는 단계로서 지도(감독)/비지도(무감독)/강화 학습 등이 있다.

5 단계 : **인식평가 단계** : 훈련된 모델이 얼마나 잘 맞는 지를 평가한다.
과적합(overfitting) 또는 일반화(generalization)여부에 대한 평가. 


### 패턴인식의 응용 예 - 자동 어류 분류 시스템 
(농어(a)와  연어(b)를 종류별로 각각 분류하는 자동 시스템)
<img src="images/sea_bass_salmon.jpg" width="450">

* A: 어류를 실어 나르는 컨베이어 벨트
* B: 분류된 어류를 나르는 컨베이어 벨트 두 개
* C : 어류를 집을 수 있는 기능을 갖춘 로봇 팔
* D: CCD 카메라가 장착된 비전 시스템
* E : 영상을 분석하고 로봇 팔을 제어하는 컴퓨터

<img src="images/salmon_classification.png" width="600">


* **센서**  : 비젼시스템으로부터 분류영역에 들어오는 새로운 고기에 대한 영상을 획득
* **전처리**
    - 영상처리 알고리즘을 통하여 영상의 명암 값을 정규화 하고 
     영상에서 배경과 고기를 분리한다. 
* **특징추출**
     - 평균적으로 농어가 연어보다 더 크다는 사전지식을 바탕으로 
     - 전처리 과정을 거친 고기 영상으로부터 길이를 측정한다.
* **분류**
    - 두 종류의 고기에 대한 표본집합에 대하여 길이 분포를 계산
    - 분류오류를 최소화 하는 결정 경계의 문턱 값을 결정
    - 오분류율 40%라는 실망스러운 결과…
     
<img src="images/salmon_hist.png" width="350">


**패턴인식시스템의 성능 개선하기**

* 패턴인식 시스템의 성능이 안정적이기 위해서는 인식률이 95%이상은 요구됨
* 고기의 평균 명암스케일이 다음과 같이 결정경계로 좋은 특징이 됨이 발견됨

<img src="images/hist_bright.png" width="400">

* 클래스 간의 분리 정도가 좋아지도록“길이” 와 “평균 밝기”를 조합하여 2차원 특징벡터를 만들고
* 선형판별함수를 사용하여 두 부류로 분류하여 95.7%의 인식률이 얻어 졌다.

<img src="images/salmon_scattter.png" width="300">


**비용 vs. 인식률**

* 우리의 선형분류기는 전체 오인식률을 최소화 하도록 설계되어졌다.
* 과연 이 분류기가 불고기 처리공장에 대한 가장 적절한 판별함수 일까?
  - 연어를 농어로 잘못 분류한 경우의 비용 :  최종 고객이 우연히 농어를 구입하였을 때 우연히 맛있는 한 마리의 연어를 발견하고 좋아하는 경우
  - 농어를 연어로 잘못 분류 했을 때의 비용 : 연어 가격으로 농어를 구입한 것을 알고 질겁하는 경우이다.
* 따라서 직관적으로, 비용함수를 최소화하도록 아래와 같이 결정 경계를 조정할 필요가 있다.

<img src="images/salmon_decision_bd.png" width="600">

**일반화 문제**

* 우리의 선형분류기의 인식률이 95.7%로 설계사양은 충족하지만 신경망 알고리즘을 이용하면 성능개선 가능.
* 로지스틱스와 쌍곡선의 접선 활성 함수를 조합한 5개의 은닉 층을 가지고 학습한 Levenberg-Marquardt 알고리즘의 결과로 99.9975%라는 인상적인 인식률을 얻게 된다.
* 이러한 분류기에 만족한 우리는 자동 물고기 분류 시스템을 구축하여 실제 어류분류공장에 적용하였다.
* 그러나 며칠 후, 공장의 관리자에게서  전화가 왔다, 고기의 25%가 잘못 분류된다고. 무엇이 문제 일까? $\Rightarrow$ 과적합 (Overfitting)

<img src="images/decision_nl.png" width="300">