# Ch11. 텍스트 분류 (Text Classification)

# v05. 나이브 베이즈 분류기 (Naive Bayes Classifier)

- 텍스트 분류를 위해 정통적으로 사용되는 분류기로 나이브 베이즈 분류기가 있다.
- 나이브 베이즈 분류기는 인공 신경망 알고리즘에는 속하지 않지만, 머신 러닝의 주요 알고리즘으로 분류되어 있어 준수한 성능을 보여주는 것으로 알려져 있다.

<br>

## 5.1 베이즈의 정리(Bayes' theorem)를 이용한 분류 메커니즘

- 나이브 베이즈 분류기를 이해하기 위해서는 우선 **베이즈의 정리(Bayes' theorem)**를 이해할 필요가 있다.

<br>

### 5.1.1 베이즈의 정리 (Bayes' theorem)

- 베이즈 정리는 조건부 확률을 계산하는 방법 중 하나이다.

- $P(A)$ : A가 일어날 확률
- $P(B)$ : B가 일어날 확률
- $P(B|A)$ : A가 일어나고 나서 B가 일어날 확률
- $P(A|B)$ : B가 일어나고 나서 A가 일어날 확률

- 이 때 $P(B|A)$를 쉽게 구할 수 있는 상황이라면, 아래와 같은 식을 통해 $P(A|B)$를 구할 수 있다.

$
\qquad
P(A|B) = \frac{P(B|A) \, P(A)}{P(B)}
$

<br>

### 5.1.2 베이즈 정리를 이용한 텍스트 분류

- 나이브 베이즈 분류기는 이러한 베이즈 정리를 이용하여 텍스트 분류를 수행한다.
- 예를 들어서 나이브 베이즈 분류기를 통해서 스팸 메일 필터를 만들어본다고 하자.

<br>

#### 5.1.2.1 구해야 하는 확률

- 입력 텍스트(메일의 본문)이 주어졌을 때, 입력 텍스트가 정상 메일인 지, 스팸 메일인 지 구분하기 위한 확률을 아래와 같이 표현할 수 있다.

$
\qquad
P(\text{정상 메일} | \text{입력 텍스트}) = \text{입력 텍스트가 있을 때 정상 메일일 확률}
$

$
\qquad
P(\text{스팸 메일} | \text{입력 텍스트}) = \text{입력 텍스트가 있을 때 스팸 메일일 확률}
$

<br>

#### 5.1.2.2 베이즈 정리를 이용하여 표현

- 이를 베이즈 정리에 따라서 식을 표현하면 아래와 같다.

$
\qquad
P(\text{정상 메일} | \text{입력 텍스트}) =
\left\{ P(\text{입력 텍스트} | \text{정상 메일}) \times P(\text{정상 메일}) \right\} \, / \, P(\text{입력 텍스트})
$

$
\qquad
P(\text{스팸 메일} | \text{입력 텍스트}) =
\left\{ P(\text{입력 텍스트} | \text{스팸 메일}) \times P(\text{스팸 메일}) \right\} \, / \, P(\text{입력 텍스트})
$

<br>

#### 5.1.2.3 정상 메일과 스팸 메일 분류 기준

- 입력 텍스트가 주어졌을 때
  - $P(\text{정상 메일} | \text{입력 텍스트}) \; > \; P(\text{스팸 메일} | \text{입력 텍스트}) \; \Rightarrow \;$ 정상 메일
  - $P(\text{정상 메일} | \text{입력 텍스트}) \; < \; P(\text{스팸 메일} | \text{입력 텍스트}) \; \Rightarrow \;$ 스팸 메일

<br>

- 그런데 두 확률 모두 식을 보면 $P(\text{입력 텍스트})$를 분모로 하고 있다.
- 그렇기 때문에 분모를 양쪽에서 제거하고 다음과 같이 식을 간소화할 수 있다.

$
\qquad
P(\text{정상 메일} | \text{입력 텍스트}) =
P(\text{입력 텍스트} | \text{정상 메일}) \times P(\text{정상 메일})
$

$
\qquad
P(\text{스팸 메일} | \text{입력 텍스트}) =
P(\text{입력 텍스트} | \text{스팸 메일}) \times P(\text{스팸 메일})
$

<br>

#### 5.1.2.4 메일의 본문을 분류기 입력으로 사용

- 입력 텍스트는 메일의 본문을 의미한다.
- 그런데 메일의 본문을 어떻게 나이브 베이즈 분류기의 입력으로 사용할 수 있을까?
- 메일의 본문에 있는 모든 단어를 토큰화 시켜서 이 단어들을 나이브 베이즈 분류기의 입력으로 사용한다.

- 만약 메일의 본문에 있는 단어가 3개라고 가정해보자.
- 기본적으로 나이브 베이즈 분류기는 **모든 단어가 독립적이라고 가정**한다.
- 메일의 본문에 있는 단어 3개를 $w_1$, $w_2$, $w_3$라고 표현하자.
- 그러면 결국 나이브 베이즈 분류기의 정상 메일일 확률과 스팸 메일일 확률을 구하는 식은 아래와 같다.

$
\qquad
P(\text{정상 메일} | \text{입력 텍스트}) =
P(w_1 | \text{정상 메일}) \times 
P(w_2 | \text{정상 메일}) \times
P(w_3 | \text{정상 메일}) \times
P(\text{정상 메일})
$

$
\qquad
P(\text{스팸 메일} | \text{입력 텍스트}) =
P(w_1 | \text{스팸 메일}) \times 
P(w_2 | \text{스팸 메일}) \times
P(w_3 | \text{스팸 메일}) \times
P(\text{스팸 메일})
$

<br>

#### 5.1.2.5 나이브 베이즈 분류기의 단어 순서

- 나이브 베이즈 분류기에서 토큰화 이전의 단어의 순서는 중요하지 않다.
- 즉, BoW와 같이 단어의 순서를 무시하고 오직 빈도수만을 고려한다.

<br>

## 5.2 스팸 메일 분류기 (Spam Detection)

- 앞서 배운 나이브 베이즈 분류식을 가지고, 입력 텍스트로부터 해당 텍스트가 정상 메일인지 스팸 메일인지를 구분하는 작업을 해보도록 하자.

<br>

### 5.2.1 훈련 데이터

- 아래와 같은 훈련 데이터가 있다고 가정하자.

| -    | 메일로부터 토큰화 및 정제 된 단어들 | 분류      |
| :--- | :---------------------------------- | :-------- |
| 1    | me free lottery                     | 스팸 메일 |
| 2    | free get free you                   | 스팸 메일 |
| 3    | you free scholarship                | 정상 메일 |
| 4    | free to contact me                  | 정상 메일 |
| 5    | you won award                       | 정상 메일 |
| 6    | you ticket lottery                  | 스팸 메일 |

<br>

### 5.2.2 정상 메일 or 스팸 메일일 확률

- "you free lottery"라는 입력 텍스트에 대해서 정상 메일일 확률과 스팸 메일일 확률을 각각 구해보자.

$
\qquad
P(\text{정상 메일} | \text{입력 텍스트}) =
P(\text{you} | \text{정상 메일}) \times 
P(\text{free} | \text{정상 메일}) \times
P(\text{lottery} | \text{정상 메일}) \times
P(\text{정상 메일})
$

$
\qquad
P(\text{스팸 메일} | \text{입력 텍스트}) =
P(\text{you} | \text{스팸 메일}) \times 
P(\text{free} | \text{스팸 메일}) \times
P(\text{lottery} | \text{스팸 메일}) \times
P(\text{스팸 메일})
$

<br>

### 5.2.3 공통 부분

$
\qquad
P(\text{정상 메일}) = P(\text{스팸 메일}) = \text{총 메일 6개 중 3개} = 0.5
$

- 위 예제에서는 $P(\text{정상 메일})$과 $P(\text{스팸 메일})$의 값은 같은 값이다.
- 그러므로 두 식에서 두 개의 확률은 생략 가능하다.

$
\qquad
P(\text{정상 메일} | \text{입력 텍스트}) =
P(\text{you} | \text{정상 메일}) \times 
P(\text{free} | \text{정상 메일}) \times
P(\text{lottery} | \text{정상 메일})
$

$
\qquad
P(\text{스팸 메일} | \text{입력 텍스트}) =
P(\text{you} | \text{스팸 메일}) \times 
P(\text{free} | \text{스팸 메일}) \times
P(\text{lottery} | \text{스팸 메일})
$

<br>

### 5.2.4 각 단어의 메일 분류별 등장 빈도수

|    단어     | 정상 메일 빈도수 | 스팸 메일 빈도수 |
| :---------: | :--------------: | :--------------: |
|     me      |        1         |        1         |
|    free     |        2         |        3         |
|   lottery   |        0         |        2         |
|     get     |        0         |        1         |
|     you     |        2         |        2         |
| scholarship |        1         |        0         |
|     to      |        1         |        0         |
|   contact   |        1         |        0         |
|     won     |        1         |        0         |
|    award    |        1         |        0         |
|   ticket    |        0         |        1         |
|  빈도수 합  |        10        |        10        |

<br>

### 5.2.5 각 단어의 조건부 확률

- $P(\text{you} | \text{정상 메일})$을 구하는 방법
  - 분모 : 정상 메일에 등장한 모든 단어의 빈도 수의 총합
  - 분자 : 정상 메일에서 you가 총 등장한 빈도 수
  - 이 경우에는 2/10 = 0.2가 된다.

<br>

### 5.2.6 확률식 전개

- 위와 같은 원리로 식을 전개하면 다음과 같다.

$
\qquad
P(\text{정상 메일} | \text{입력 텍스트}) = 2/10 \times 2/10 \times 0/10 = 0
$

$
\qquad
P(\text{스팸 메일} | \text{입력 텍스트}) = 2/10 \times 3/10 \times 2/10 = 0.012
$

<br>

### 5.2.7 결과

- 결과적으로 $P(\text{정상 메일} | \text{입력 텍스트}) < P(\text{스팸 메일} | \text{입력 텍스트})$이므로 입력 테스트 "you free lottery"는 스팸 메일로 분류된다.

<br>

### 5.2.8 지나친 일반화를 막기 위한 방법

- 그런데 예제를 보니 이상한 점이 보인다.
- 물론, 직관적으로 보기에도 you, free, lottery라는 단어가 스팸 메일에서 빈도수가 더 높기때문에 스팸 메일인 확률이 더 높은 것은 확실하다.
- 그러나 입력 텍스트에 대해서 단 하나의 단어라도 훈련 텍스트에 없었다면 확률 전체가 0이 되는 것은 지나친 일반화이다.
- 이 경우에는 정상 메일에 lottery가 단 한 번도 등장하지 않았고, 그 이유로 정상 메일일 확률 자체가 0%가 되어버렸다.

- 이를 방지하기 위해서 나이브 베이즈 분류기에서는 각 단어에 대한 확률의 분모, 분자에 전부 숫자를 더해서 분자가 0이 되는 것을 방지하는 **라플라스 스무딩**을 사용하기도 한다.

<br>

## 5.3 뉴스 데이터 분류하기(Classification of 20 News Group with Naive Bayes Classifier)

- 사이킷런에서는 Twenty Newsgroups이라고 불리는 20개의 다른 주제를 가진 18,846개의 뉴스 데이터를 제공한다.  (토픽 모델링의 LSA 챕터에서 사용했던 데이터와 동일한 데이터)
- 해당 데이터는 이미 훈련 데이터(뉴스 11,314개)와 테스트 데이터(뉴스 7,532개)를 미리 분류해놓았기 때문에 별도로 훈련 데이터와 테스트 데이터를 분류할 필요는 없다.
- 훈련 데이터로 훈련을 해서 모델을 만들고, 테스트 데이터를 예측했을 때의 정확도를 확인해보도록 하자.

<br>

### 5.3.1 뉴스 데이터에 대한 이해

- 해당 데이터는 총 5개의 속성을 갖고 있다.
- 그 중에서 우리가 사용할 것은 다음과 같다.
  - 해당 데이터의 본문을 갖고 있는 `data` 속성
  - 해당 데이터가 어떤 카테고리에 속하는 지 0부터 19까지의 라벨이 붙어 있는 `target` 속성

<br>

#### 5.3.1.1 훈련 데이터 다운로드

In [1]:
from sklearn.datasets import fetch_20newsgroups

newsdata = fetch_20newsgroups(subset='train')

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


- `subset` 속성 값 종류
  - `all` : 모든 데이터인 뉴스 18,846개를 다운로드
  - `train` : 훈련 데이터 다운로드
  - `test` : 테스트 데이터 다운로드

<br>

#### 5.3.1.2 데이터의 속성 구성 확인

In [2]:
print(newsdata.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


- 해당 데이터는 `data`, `filenames`, `target_names`, `target`, `DESCR` 이라는 5개 속성의 데이터를 갖고 있다.

<br>

#### 5.3.1.3 훈련용 뉴스의 개수 확인

In [3]:
print(len(newsdata.data),
      len(newsdata.filenames),
      len(newsdata.target_names),
      len(newsdata.target))

11314 11314 20 11314


- 훈련용 뉴스는 총 11,314개로 구성되어 있다.

<br>

#### 5.3.1.4 `newsdata.target_names`

- `newsdata.target_names`는 이 뉴스 데이터의 20개의 카테고리의 이름을 담고 있다.
- 어떤 카테고리들로 구성되어 있는 지 확인해보자.

In [4]:
print(newsdata.target_names)

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


<br>

#### 5.3.1.5 `newsdata.target`

- `target`에는 총 0부터 19까지의 숫자가 들어가 있다.
- 첫 번째 훈련용 뉴스의 경우에는 몇 번 카테고리인 지 확인해보자.

In [5]:
print(newsdata.target[0])

7


- 첫 번째 훈련용 뉴스는 카테고리 7번에 속한다고 라벨이 붙어 있다.

In [6]:
print(newsdata.target_names[7])

rec.autos


- 7번 카테고리의 제목은 `rec.autos`이다.
- 즉, 첫 번째 훈련용 뉴스는 `rec.autos` 카테고리에 속한다.

<br>

#### 5.3.1.6 `newsdata.data`

- 첫 번째 훈련용 뉴스가 어떤 내용을 갖고 있는 지 확인해보자.

In [7]:
print(newsdata.data[0])

From: lerxst@wam.umd.edu (where's my thing)
Subject: WHAT car is this!?
Nntp-Posting-Host: rac3.wam.umd.edu
Organization: University of Maryland, College Park
Lines: 15

 I was wondering if anyone out there could enlighten me on this car I saw
the other day. It was a 2-door sports car, looked to be from the late 60s/
early 70s. It was called a Bricklin. The doors were really small. In addition,
the front bumper was separate from the rest of the body. This is 
all I know. If anyone can tellme a model name, engine specs, years
of production, where this car is made, history, or whatever info you
have on this funky looking car, please e-mail.

Thanks,
- IL
   ---- brought to you by your neighborhood Lerxst ----







- 메일의 내용을 보니 스포차 카에 대한 글로 보인다.
- 즉, 이 스포츠 카에 대한 글은 총 0부터 19까지의 카테고리 중 7번 레이블에 속하는 글이고, 7번은 rec.autos 카테고리를 의미하는 것을 알 수 있다.

<br>

### 5.3.2 나이브 베이즈 분류

- 이제 다운로드 받은 훈련 데이터에 대한 전처리를 진행해보자.
- 사용할 데이터는 `newsdata.data`와 그에 대한 카테고리 레이블이 되어 있는 `newsdata.target`이다.
- 여기서 전처리를 해야 하는 데이터는 `newsdata.data`이다.
- 해당 데이터는 토큰화가 전혀 되어 있지 않다.
- 나이브 베이즈 분류를 위해서는 데이터를 BoW로 만들어 줄 필요가 있다.

<br>

#### 5.3.2.1 DTM 생성

- 여기서는 입력한 텍스트를 자동으로 BoW로 만드는 `CountVectorizer`를 사용한다. (BoW 챕터 및 DTM 챕터 참고)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB # 다항분포 나이브 베이즈 모델
from sklearn.metrics import accuracy_score # 정확도 계산

In [12]:
dtmvector = CountVectorizer()

X_train_dtm = dtmvector.fit_transform(newsdata.data)
print(X_train_dtm.shape)

(11314, 130107)


- 자동으로 DTM이 완성되었다.
- 11,314는 훈련용 뉴스의 개수이고 DTM 관점에서는 문서의 수가 된다.
- 130,107은 전체 훈련 데이터에 등장한 단어의 수를 의미한다.

<br>

#### 5.3.2.2 TF-IDF 행렬 생성

- 물론, DTM을 그대로 나이브 베이즈 분류기에 사용할 수도 있겠지만 DTM 행렬 대신 IF-IDF 가중치를 적용한 TF-IDF 행렬을 입력으로 텍스트 분류를 수행하면 성능의 개선을 얻을 수도 있다. (DTM 챕터 참고)
- 주의할 점은 TF-IDF 행렬이 항상 DTM으로 수행했을 때 보다 성능이 뛰어나지는 않다.
- 사이킷런은 TF-IDF를 자동 계산해주는 `TfidfVectorizer` 클래스를 제공한다.

In [13]:
tfidf_transformer = TfidfTransformer()

tfidfv = tfidf_transformer.fit_transform(X_train_dtm)
print(tfidfv.shape)

(11314, 130107)


- 이제 TF-IDF 행렬이 만들어졌다.

<br>

#### 5.3.2.3 나이브 베이즈 분류 수행

- 사이킷런은 나이브 베이즈 모델을 지원한다.
- 모델의 입력으로 TF-IDF 행렬과 11,314개의 훈련 데이터에 대한 레이블이 적혀 있는 `newsdata.target`이 들어간다.
- 이는 앞서 배운 분류 예제들을 상기해보면, 각각 `X_train`과 `y_train`에 해당되는 데이터들이다.

In [14]:
mod = MultinomialNB()
mod.fit(tfidfv, newsdata.target)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [15]:
MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

- 여기서 `alpha=1.0`은 라플라스 스무딩이 적용되었음을 의미한다.

<br>

#### 5.3.2.4 모델 평가

In [None]:
# 테스트 데이터 가져오기
newsdata_test = fetch_20newsgroups(subset='test', shuffle=True)

# 테스트 데이터를 DTM으로 변환
X_test_dtm = dtmvector.transform(newsdata_test.data)

# DTM을 TF-IDF 행렬로 변환
tfidfv_test = tfidf_transformer.transform(X_test_dtm)

In [17]:
# 테스트 데이터에 대한 예측
predicted = mod.predict(tfidfv_test)

# 예측값과 실제값 비교
print("정확도 : ", accuracy_score(newsdata_test.target, predicted))

정확도 :  0.7738980350504514
