## Machine Learning System design 
### 할 일의 우선순위를 매기기: 스팸(Spam) 분류 예



#### 스팸(spam) 분류기 구축하기

**Spam (1)**
<pre>
From: cheapsales@buystufffromme.com
To: ang@cs.stanford.edu
Subject: Buy now!

Deal of the week! Buy now!
Rolex w4tchs - $100
Med1cine (any kind) - $50
Also low cost M0rgages
available.
</pre>

***

**Non-spam (0)**
<pre>
From: Alfred Ng
To: ang@cs.stanford.edu
Subject: Christmas dates?
Hey Andrew,
Was talking to Mom about plans
for Xmas. When do you get off
work. Meet Dec 22?
Alf
</pre>

***


#### 스팸 분류기 구축

지도(supervised) 학습. $x = $ features of email.

$y = $ spam (1) or not spam (0).

특징 $x$ : 스팸/스팸 아님을 나타내는 100 단어들을 선택한다. 

e.g. deal, buy, discount, andrew, now, $\cdots$

$x = \begin{bmatrix}
0  \\
1  \\
1  \\
0  \\
\vdots \\
1  \\
\vdots \\
\end{bmatrix}
\leftarrow \begin{bmatrix}
andrew  \\
buy \\
deal  \\
discount  \\
\vdots \\
now  \\
\vdots \\
\end{bmatrix}, \quad x \in \mathbb{R}^{100}, \quad x_j = \begin{cases} 1 \quad \text{if word j appears in email} \\ 0 \quad \text{otherwise} \end{cases}$
<pre>
From: cheapsales@buystufffromme.com
To: ang@cs.stanford.edu
Subject: Buy now!
Deal of the week! Buy now!
</pre>

주의: 실제로는, 손으로 100 단어들을 선택하기 보다는, 훈련자료에서 가장 자주
나오는 단어들을 (10,000 ~ 50,000) 선택한다.



#### 스팸 분류기 구축
오류를 낮추기 위해 시간을 어떻게 사용해야 하는가?
- 많은 자료를 수집
  - E.g. “honeypot” 프로젝트.
  
  
- (이메일 해더로부터) 이메일 라우팅(routing) 정보에 기초한 정교한
특징을 개발.


- 메시지 내용에 대한 정교한 특징 개발, e.g. “discount” 와
“discounts” 를 같은 단어로 취급할 것인가? “deal” 과 “Dealer”는
어떻게 ? 구두점(punctuation)에 대한 특징은?


- 의도적 오타 감지를 위한 정교한 특징을 개발 (e.g. m0rtgage, med1cine, w4tches.)

<hr>

### 오류분석

**추천 접근법**
- 당신이 빨리 구현할 수 있는 간단한 알고리즘을 갖고 시작하시오. 그것을 구현하고, 상호-검증 자료에 대하여 시험하시오.


- 더 많은 자료 또는 더 많은 특징 등이 도움이 될 지를 알 수 있도록 학습커브를 그려보시오.


- 오류분석(Error analysis): 당신의 알고리즘이 오류를 생성한(상호검증자료에서의) 예들을 수동으로 검토한다. 오류가 생성되는 어떤 유형의 예에서 어떤 체계적인 경향을 발견할 수 있는 지를 본다. 




**오류분석(Error Analysis)**

$m_{CV} = 500$ 교차 검증(cross validation) 세트의 예에서, 

알고리즘이 100 개의 이메일을 오분류하였다.

수동으로 100 오류를 검토하고, 다음과 같이 분류한다:
(i) 어떤 유형의 이메일 인가?
(ii) 당신은 어떤 단서(특징)가 분류기가 그들을 정확히 분류하는데 도움이 된다고 생각하는가?

- Pharma: 12
- Replica/fake: 4
- Steal passwords: 53
- Other: 31


In Steal passwords (53)
- 의도적 철자 오기: 5
(m0rgage, med1cine, etc.)
- 흔치 않은 이메일 라우팅(routing): 16
- 흔치 않은 (spamming) 구두점: 32



**수치평가(numerical evaluation)의 중요성**

- discount/discounts/discounted/discounting 들을 같은 단어로 취급해야 하는가?


- “stemming” software (E.g. “Porter stemmer”)를 사용할 수 있다.
    universe/university.


- 오류 분석이 이들이 성능을 개선할 수 있다고 결정하는데 도움이 되지 않을 것이다. 유일한 해결법은 시도해보고 작동되는지 보는 것이다.


- 알고리즘의 stemming 사용과 무사용의 성능에 대한 수치검증 (e.g., cross validation error) 이 필요한다.


Without stemming: 5% 오차

With stemming: 3% 오차

Distinguish upper vs. lower case (Mom/mom): 3.2% 오차

### 편향된(skewed) 클래스에 대한 오류 행렬

**Cancer classification example**

로지스틱 회귀모델 $h_\theta(x)$ 을 훈련시켜서 ($y=1$ if cancer, $y=0$ otherwise)
시험 자료에 대하여 1% 오류(99% 정확한 진단)를 얻었다고 하자.


그리고, 단지 환자의 0.50% 만 암을 갖고 있다고 하면 ...

다음과 같이 모든 환자가 암이 없다고 판정하는 단순한 알고리즘으로도, 0.5% 의 오류를 갖게 된다.

<pre>
function y = predictCancer(x)
y = 0; %ignore x!
return
</pre>

**정확도(Precision)/재현율(Recall)**


우리가 감지하기를 원하는 흔치 않은 클래스가 존재 하면 $y=1$ 이라 하자. 


<br>

  | 1 | 0
--|---|---
1 | True positive | False positive
0 | False negative | True negative


<br>

**정확도(Precision)**
(우리가 $y=1$ 이라고 예측한 모든 환자들 중에서, 어느 비율이 실제로 암을 갖고 있는가?)

$$ {\text{True positives} \over \text{# of predicted positives} } = {\text{True positives} \over \text{ True positive + False positive} } $$

**재현율(Recall)**
(실제로 암을 갖고 있는 모든 환자들 중에서, 어느 비율로 암을 갖고 있다고 정확히 감지했는가?)

$$ {\text{True positives} \over \text{# of actual positives} } = {\text{True positives} \over \text{ True positive + False negative} } $$

## 정확도와 재현율 간의 상충관계(Trading off) 

**정확도와 재현율 상충관계**

로지스틱 회귀: $ 0 \le h_\theta (x) \le 1$

<img src="./images/recall_axis.png" width="200" align="right">

 1 로 예측, 만약 $h_\theta (x)  \ge 0.5 $ 
 
0 로 예측, 만약 $h_\theta (x)  \lt 0.5 $ 


우리가 매우 확신할 경우에만 (cancer)
라고 예측하기를 원한다면. $\Rightarrow$ 높은 정확도(Higher precision), 낮은 재현율(lower recall)



우리가 암의 경우를 놓치기를 피하고 싶다면
(avoid false negatives). $\Rightarrow$ 높은 재현율(Higher recall), 낮은 정확도(lower precision).


More generally: Predict 1 if $h_\theta(x) \ge $ threshold.



#### $F_1$ Score (F score)

precision/recall 값을 어떻게 비교하는가?

|       | Precision(P)   | Recall(R) 
|-------|----------------|-----------
| Algorithm 1 | 0.5 | 0.4
| Algorithm 2 | 0.7 | 0.1
| Algorithm 3 | 0.02 | 1.0


Average : $ { P + R  \over 2 }$


$F_1 $ Score: $ 2 { P R \over P + R } $

* $P = 0 \text{ or } R = 0 \quad \Rightarrow \quad \text{F}_1 \text{Score} = 0$ 
* $P = 1 \text{ and } R = 1 \quad \Rightarrow \quad \text{F}_1 \text{Score} = 1$ 


## Data for Machine learning

#### 고정밀 학습 시스템 설계

<img src="./images/train_size.png" align="right" width="300">

E.g. 헷갈리는 단어들을 분류하기.

{to, two, too}, {then, than}

For breakfast I ate _ _ _ _ eggs.

Algorithms
- Perceptron (Logistic regression)
- Winnow
- Memory-based
- Naïve Bayes

[Banko and Brill, 2001]


“이기는 자는 최고의 알고리즘을 가진자가 아닌, 데이타를 가장 많이 가진 자다." 

"It’s not who has the best algorithm that wins.
It’s who has the most data.”


#### 큰 자료 근거
특징 $x \in \mathscr{R}^{n+1}$ 이 $y$ 를 정확히 예측할 수 있을 만큼 충분한
정보를 가진다고 가정합니다.

예 : For breakfast I ate _ _ _ _ eggs.


반대 예: 다른 특징 없이, 오직 크기 ($\text{feet}^2$) 만으로 주택가격 예측하기.


<br>
유용한 시험 : 주어진 입력 $x$에 대하여, 사람인 전문가는 확신을 갖고 $y$를 예측할 수 있는가? 

<br>
- 많은 매개 변수를 사용한 학습 알고리즘을 사용합니다.(예: 많은 특징을 가진 로지스틱 회귀/선형 회귀; 은닉층 노드가 많은 신경망)
$\Rightarrow$ low bias algorithms.

$\Rightarrow  \quad J_{train}(\theta) $ 가 작아집니다.


- 매우 큰 훈련 자료를 사용 (과적합되지 않도록)
$\Rightarrow$ low variance algorithms.

$\Rightarrow  \quad J_{train}(\theta) \approx J_{test}(\theta)$ 

$\Rightarrow  \quad J_{test}(\theta) $ 가 작아집니다.


