# 1. Intro to NLP, Bag-of-Words

## 강의 소개

- 자연어 처리의 첫 시간으로 NLP에 대해 짧게 소개하고 자연어를 처리하는 가장 간단한 모델 중 하나인 Bag-of-Words를 소개합니다.
- Bag-of-Words는 단어의 표현에 있어서 one-hot-encoding을 이용하며, 단어의 등장 순서를 고려하지 않는 아주 간단한 방법 중 하나입니다. 간단한 모델이지만 많은 자연어 처리 task에서 효과적으로 동작하는 알고리즘 중 하나입니다.
- 그리고, 이 Bag-of-Words를 이용해 문서를 분류하는 Naive Bayes Classifier에 대해서 설명합니다.
- 이번 강의에서는 단어를 벡터로 표현하는 방법, 문서를 벡터로 표현하는 방법에 대해 고민해보면서 강의를 들어주시면 감사하겠습니다.

<br>

## 1.1 Intro to Natural Language Processing(NLP)

- Academic Disciplines related to NLP
- Trends of NLP

<br>

### 1.1.1 Goal of This Course

- Natural language processing (NLP), which aims at properly understanding and generating human languages, emerges as a crucial(결정적인) application of artificial intelligence, with the advancements of deep neural networks.
- This course will cover various deep learning approaches as well as their applications such as language modeling, machine translation, question answering, document classification, and dialog systems.

<br>

### 1.1.2 Academic Disciplines related to NLP

#### 1.1.2.1 Natural language processing

> *major conferences: ACL, EMNLP, NAACL*

- Includes state-of-the-art deep learning-based models and tasks
- Low-level parsing
  - Tokenization : 문장을 단어 단위로 쪼개기
  - stemming : 단어의 원형 찾기
- Word and phrase level
  - Named entity recognition(NER) : 고유명사 인식 task
  - part-of-speech(POS) tagging : 단어의 문장 내에서의 품사, 성분(주어, 목적어, 본동사 등)이 무엇인 지 알아내는 task
  - noun-phrase chunking
  - dependency parsing
  - coreference resolution
- Sentence level
  - Sentiment analysis : 감성 분석 (긍부정)
  - machine translation : 기계 번역
- Multi-sentence and paragraph(문단) level
  - Entailment prediction : 두 문장 사이의 논리적인 내포(?) 및 모순관계 예측
  - question answering : 질의 응답
  - dialog systems : 챗봇과 같은 대화 시스템
  - summarization : 문서 요약

<br>

#### 1.1.2.2 Text mining

> *major conferences: KDD, The WebConf (formerly, WWW), WSDM, 
CIKM, ICWSM)*

- Extract useful information and insights from text and document data
  - e.g., analyzing the trends of AI-related keywords from massive news data 
- Document clustering (e.g., topic modeling)
  - e.g., clustering news data and grouping into different subjects
- Highly related to computational social science
  - e.g., analyzing the evolution(진화) of people’s political(정치적) tendency based on social media data

<br>

#### 1.1.2.3 Information retrieval (정보 검색)

> *major conferences: SIGIR, WSDM, CIKM, RecSys*

- Highly related to computational social science
  - This area is not actively studied now
  - It has evolved(진화했다) into a **recommendation system**, which is still an active area of research

<br>

### 1.1.3 Trends of NLP

- Text data can basically be viewed as a sequence of words, and <font color='red'>each word can be represented as a vector</font> through a technique such as Word2Vec or GloVe.
  - word embedding
- <font color='red'>RNN-family models</font> (LSTMs and GRUs), which take the sequence of these vectors of words as input, are the main architecture of NLP tasks.
- Overall performance of NLP tasks has been improved since <font color='red'>attention modules and Transformer models</font>, which replaced RNNs with self-attention, have been introduced a few years ago.
- As is the case for Transformer models, most of the advanced NLP models have been originally developed for improving machine translation tasks.

- In the early days, <font color='red'>customized models for different NLP tasks</font> had developed separately.
- Since Transformer was introduced, huge models were released by stacking its basic module, self-attention, and these models are trained with large-sized datasets through language modeling tasks, one of the <font color='red'>self-supervised training setting that does not require additional labels</font> for a particular task.
  - e.g., BERT, GPT-3 …
- Afterwards, above models were applied to other tasks through <font color='red'>transfer learning(전이학습)</font>, and they outperformed all other customized models in each task. 
- Currently, these models has now become essential part in numerous(수많은) <font color='red'>NLP tasks, so NLP research become difficult with limited GPU resources</font>, since they are too large to train.

<br>

## 1.2 Bag-of-Words

- Bag-of-Words
- Bag-of-Words Example (NaiveBayes Classifier)

<br>

### 1.2.1 Bag-of-Words Representation

**Step 1. Bag-of-Words
Bag-of-Words Example (NaiveBayes Classifier)**

- Example sentences
  - "John really really loves this movie", "Jane really likes this song"
- Vocabulary
  - `{"John", "really", "loves", "this", "movie", "Jane", "likes", "song"}`

<br>

**Step 2. Encoding unique words to one-hot vectors**

- Vocabulary
  - `{"John", "really", "loves", "this", "movie", "Jane", "likes", "song"}`
- one-hot vectors
  - John : `[1 0 0 0 0 0 0 0]`
  - really : `[0 1 0 0 0 0 0 0]`
  - loves : `[0 0 1 0 0 0 0 0]`
  - this : `[0 0 0 1 0 0 0 0]`
  - movie : `[0 0 0 0 1 0 0 0]`
  - Jane : `[0 0 0 0 0 1 0 0]`
  - likes : `[0 0 0 0 0 0 1 0]`
  - song : `[0 0 0 0 0 0 0 1]`


- For any pair of words, the distance is $\sqrt{2}$
- For any pair of words, cosine similarity is 0

<br>

**Bag-of-Words Vector**

- A sentence/document can be represented as the sum of one-hot vectors
  - Sentence 1: "John really really loves this movie"
    - John + really + really + loves + this + movie: `[1 2 1 1 1 0 0 0]`
  - Sentence 2: "Jane really likes this song"
    - Jane + really + likes + this + song: `[0 1 0 1 0 1 1 1]`

<br>

### 1.2.2 NaiveBayes Classifier for Document Classification

**Bag-of-Words for Document Classification**

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1L0wo5eMkxVIh0UWY6JcRD18u7xnzidrK' width=400/>

<br>

**Bayes' Rule Applied to Documents and Classes**

- d개의 문서를 c개의 클래스로 분류할 수 있다고 하자.
- For a document **<font color='red'>d</font>** and a class **<font color='red'>c</font>**

$$
\begin{aligned}
c_{M A P} &=\underset{c \in C}{\operatorname{argmax}} P(c \mid d)
\qquad \quad \text{MAP is “maximum a posteriori” = most likely class}
\\
&=\underset{c \in C}{\operatorname{argmax}} \frac{P(d \mid c) P(c)}{P(d)} 
\qquad \quad \text{Bayes Rule}
\\
&=\underset{c \in C}{\operatorname{argmax}} P(d \mid c) P(c)
\qquad \quad \text{Dropping the denominator}
\end{aligned}
$$

- $P(d)$ : 특정 문서가 뽑힐 확률, 여기선 문서가 고정되어 있기 때문에 상수값으로 볼 수 있다.

- For a document **<font color='red'>d</font>**, which consists of a sequence of words **<font color='red'>w</font>**, and a class **<font color='red'>c</font>**
- The probability of a document can be represented by multiplying the 
probability of each word appearing
  - 각 단어들이 등장할 확률이 c가 고정되어 있는 경우 서로 독립이라고 가정할 수 있는 경우 문서가 등장할 확률을 해당 문서 안에 있는 단어들이 등장할 확률의 곱으로 표현할 수 있다.
- $P(d \mid c) \mathrm{P}(c)=P\left(w_{1}, w_{2}, \ldots, w_{n} \mid c\right) \mathrm{P}(c) \rightarrow \mathrm{P}(c) \prod_{w_{i} \in W} P\left(\mathrm{w}_{i} \mid c\right)$
  - by conditional independence assumption

- $P(d \mid c)$ : c가 고정되었을 때 문서 d가 나타날 확률

<br>

**Example**

- For a document **<font color='red'>d</font>**, which consists of a sequence of words **<font color='red'>w</font>**, and a class **<font color='red'>c</font>**

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1bfi6MR8LBDjU91E9qv2mluWisSXbDYhF' width=800/>

- $P\left(c_{c v}\right)=\frac{2}{4}=\frac{1}{2}$
- $P\left(c_{N L P}\right)=\frac{2}{4}=\frac{1}{2}$

<br>

**Example**

- For each word $w_i$ we can calculate conditional probability for class $c$
  - $P\left(w_{k} \mid c_{i}\right)=\frac{n_{k}}{n}$, where $n_k$ is occurrences of $w_k$ in documents of topic $c_i$
  - 특정 클래스에 해당하는 문서의 단어들 중 해당 단어의 등장 횟수를 확률값으로 사용

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1ziE1bB2mRwIPszgwQSGqifgKgWn22bTv' width=600/>

<br>

**For a test document $d_5$ = "Classification task uses transformer"**

-  We calculate the conditional probability of the document for each class
- We can choose a class that has the highest probability for the document
- 각각의 클래스의 확률값과 특정 문서 내의 모든 단어들의 확률값의 곱을 곱하여 해당 문서가 특정 클래스에 속할 확률을 구할 수 있다.

<br>

- $P\left(\mathrm{c}_{\mathrm{CV}} \mid d_{5}\right)=\mathrm{P}\left(\mathrm{c}_{\mathrm{CV}}\right) \prod_{\mathrm{w} \in \mathrm{W}} P\left(\mathrm{w} \mid \mathrm{c}_{\mathrm{CV}}\right)=\frac{1}{2} \times \frac{1}{10} \times \frac{1}{10} \times \frac{1}{10} \times \frac{1}{10}=0.00005$
- $P\left(\mathrm{c}_{\mathrm{NLP}} \mid d_{5}\right)=\mathrm{P}\left(\mathrm{c}_{\mathrm{NLP}}\right) \prod_{\mathrm{w} \in \mathrm{W}} P\left(\mathrm{w} \mid \mathrm{c}_{\mathrm{NLP}}\right)=\frac{1}{2} \times \frac{1}{13} \times \frac{2}{13} \times \frac{1}{13} \times \frac{1}{13} \approx 0.00003$

<br>

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1ziE1bB2mRwIPszgwQSGqifgKgWn22bTv' width=600/>

<br>

## 1.3 실습: NavieBayes Classifier

1. 주어진 데이터를 전처리합니다.
2. NaiveBayes 분류기 모델을 구현하고 학습 데이터로 이를 학습시킵니다.
3. 간단한 test case로 결과를 확인합니다.

<br>

### 1.3.1 필요 패키지 import

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 4.5 MB/s 
Collecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 59.2 MB/s 
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed JPype1-1.3.0 beautifulsoup4-4.6.0 colorama-0.4.4 konlpy-0.5.2


In [None]:
from tqdm import tqdm

# 다양한 한국어 형태소 분석기가 클래스로 구현되어 있음
from konlpy import tag 

from collections import defaultdict

import math

<br>

### 1.3.2 학습 및 테스트 데이터 전처리

- Sample 데이터를 확인합니다.
- 긍정(1), 부정(0) 2가지 class로 구성되어 있습니다.

In [None]:
train_data = [
  "정말 맛있습니다. 추천합니다.",
  "기대했던 것보단 별로였네요.",
  "다 좋은데 가격이 너무 비싸서 다시 가고 싶다는 생각이 안 드네요.",
  "완전 최고입니다! 재방문 의사 있습니다.",
  "음식도 서비스도 다 만족스러웠습니다.",
  "위생 상태가 좀 별로였습니다. 좀 더 개선되기를 바랍니다.",
  "맛도 좋았고 직원분들 서비스도 너무 친절했습니다.",
  "기념일에 방문했는데 음식도 분위기도 서비스도 다 좋았습니다.",
  "전반적으로 음식이 너무 짰습니다. 저는 별로였네요.",
  "위생에 조금 더 신경 썼으면 좋겠습니다. 조금 불쾌했습니다."
]
train_labels = [1, 0, 0, 1, 1, 0, 1, 1, 0, 0]

test_data = [
  "정말 좋았습니다. 또 가고 싶네요.",
  "별로였습니다. 되도록 가지 마세요.",
  "다른 분들께도 추천드릴 수 있을 만큼 만족했습니다.",
  "서비스가 좀 더 개선되었으면 좋겠습니다. 기분이 좀 나빴습니다."
]

<br>

- KoNLPy 패키지에서 제공하는 Twitter(Okt) tokenizer를 사용하여 tokenization합니다.

In [None]:
tokenizer = tag.Okt()

In [None]:
def make_tokenized(data):
    tokenized = [] # 단어 단위로 나뉜 리뷰 데이터
    
    for sent in tqdm(data):
        tokens = tokenizer.morphs(sent)
        tokenized.append(tokens)
    
    return tokenized

In [None]:
train_tokenized = make_tokenized(train_data)
test_tokenized = make_tokenized(test_data)

100%|██████████| 10/10 [00:07<00:00,  1.39it/s]
100%|██████████| 4/4 [00:00<00:00, 71.86it/s]


In [None]:
train_tokenized

[['정말', '맛있습니다', '.', '추천', '합니다', '.'],
 ['기대했던', '것', '보단', '별로', '였네요', '.'],
 ['다',
  '좋은데',
  '가격',
  '이',
  '너무',
  '비싸서',
  '다시',
  '가고',
  '싶다는',
  '생각',
  '이',
  '안',
  '드네',
  '요',
  '.'],
 ['완전', '최고', '입니다', '!', '재', '방문', '의사', '있습니다', '.'],
 ['음식', '도', '서비스', '도', '다', '만족스러웠습니다', '.'],
 ['위생',
  '상태',
  '가',
  '좀',
  '별로',
  '였습니다',
  '.',
  '좀',
  '더',
  '개선',
  '되',
  '기를',
  '바랍니다',
  '.'],
 ['맛', '도', '좋았고', '직원', '분들', '서비스', '도', '너무', '친절했습니다', '.'],
 ['기념일',
  '에',
  '방문',
  '했는데',
  '음식',
  '도',
  '분위기',
  '도',
  '서비스',
  '도',
  '다',
  '좋았습니다',
  '.'],
 ['전반', '적', '으로', '음식', '이', '너무', '짰습니다', '.', '저', '는', '별로', '였네요', '.'],
 ['위생', '에', '조금', '더', '신경', '썼으면', '좋겠습니다', '.', '조금', '불쾌했습니다', '.']]

<br>

- 학습데이터 기준으로 가장 많이 등장한 단어부터 순서대로 vocab에 추가합니다.

In [None]:
word_count = defaultdict(int) # Key: 단어, Value: 등장 횟수

for tokens in tqdm(train_tokenized):
    for token in tokens:
        word_count[token] += 1

100%|██████████| 10/10 [00:00<00:00, 47880.18it/s]


In [None]:
word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
print(len(word_count))

66


In [None]:
word_count[:10]

[('.', 14),
 ('도', 7),
 ('별로', 3),
 ('다', 3),
 ('이', 3),
 ('너무', 3),
 ('음식', 3),
 ('서비스', 3),
 ('였네요', 2),
 ('방문', 2)]

In [None]:
a = defaultdict(int)
a['b'] +=1
sorted(a)

['b']

In [None]:
w2i = {}  # Key: 단어, Value: 단어의 index
for pair in tqdm(word_count):
  if pair[0] not in w2i:
    w2i[pair[0]] = len(w2i)

100%|██████████| 66/66 [00:00<00:00, 263641.97it/s]


In [None]:
len(w2i)

66

In [None]:
w2i

{'!': 35,
 '.': 0,
 '가': 41,
 '가격': 23,
 '가고': 26,
 '개선': 43,
 '것': 20,
 '기념일': 52,
 '기대했던': 19,
 '기를': 45,
 '너무': 5,
 '는': 61,
 '다': 3,
 '다시': 25,
 '더': 12,
 '도': 1,
 '되': 44,
 '드네': 30,
 '만족스러웠습니다': 39,
 '맛': 47,
 '맛있습니다': 16,
 '바랍니다': 46,
 '방문': 9,
 '별로': 2,
 '보단': 21,
 '분들': 50,
 '분위기': 54,
 '불쾌했습니다': 65,
 '비싸서': 24,
 '상태': 40,
 '생각': 28,
 '서비스': 7,
 '신경': 62,
 '싶다는': 27,
 '썼으면': 63,
 '안': 29,
 '에': 13,
 '였네요': 8,
 '였습니다': 42,
 '완전': 32,
 '요': 31,
 '위생': 10,
 '으로': 58,
 '음식': 6,
 '의사': 37,
 '이': 4,
 '입니다': 34,
 '있습니다': 38,
 '재': 36,
 '저': 60,
 '적': 57,
 '전반': 56,
 '정말': 15,
 '조금': 14,
 '좀': 11,
 '좋겠습니다': 64,
 '좋았고': 48,
 '좋았습니다': 55,
 '좋은데': 22,
 '직원': 49,
 '짰습니다': 59,
 '최고': 33,
 '추천': 17,
 '친절했습니다': 51,
 '합니다': 18,
 '했는데': 53}

<br>

### 1.3.3 모델 Class 구현

NaiveBayes Classifier 모델 클래스를 구현합니다.

- `self.k`: Smoothing을 위한 상수.
- `self.w2i`: 사전에 구한 vocab.
- `self.priors`: 각 class의 prior 확률.
- `self.likelihoods`: 각 token의 특정 class 조건 내에서의 likelihood.


In [None]:
class NaiveBayesClassifier():
    def __init__(self, w2i, k=0.1):
        self.k = k
        self.w2i = w2i
        self.priors = {}
        self.likelihoods = {}

    def train(self, train_tokenized, train_labels):
        self.set_priors(train_labels) # priors 계산
        self.set_likelihoods(train_tokenized, train_labels) # Likelihoods 계산

    def inference(self, tokens):
        log_prob0 = 0.0
        log_prob1 = 0.0

        for token in tokens:
            if token in self.likelihoods:  # 학습 당시 추가했던 단어에 대해서만 고려.
                log_prob0 += math.log(self.likelihoods[token][0])
                log_prob1 += math.log(self.likelihoods[token][1])

        # 마지막에 prior를 고려.
        log_prob0 += math.log(self.priors[0])
        log_prob1 += math.log(self.priors[1])

        if log_prob0 >= log_prob1:
            return 0
        else:
            return 1

    def set_priors(self, train_labels):
        class_counts = defaultdict(int)
        for label in tqdm(train_labels):
            class_counts[label] += 1

        for label, count in class_counts.items():
            self.priors[label] = class_counts[label] / len(train_labels)

    def set_likelihoods(self, train_tokenized, train_labels):
        token_dists = {}  # 각 단어의 특정 class 조건 하에서의 등장 횟수.
        class_counts = defaultdict(int)  # 특정 class에서 등장한 모든 단어의 등장 횟수.   

        for i, label in enumerate(tqdm(train_labels)):
            count = 0
            for token in train_tokenized[i]:
                if token in self.w2i: # 학습 데이터로 구축한 vocab에 있는 token만 고려
                    if token not in token_dists:
                        token_dists[token] = {0:0, 1:0}
                    token_dists[token][label] += 1
                    count += 1
            class_counts[label] += count

        for token, dist in tqdm(token_dists.items()):
            if token not in self.likelihoods:
                self.likelihoods[token] = {
                    0:(token_dists[token][0] + self.k) / (class_counts[0] + len(self.w2i)*self.k),
                    1:(token_dists[token][1] + self.k) / (class_counts[1] + len(self.w2i)*self.k),
                }

<br>

### 1.3.4 모델 학습

- 모델 객체를 만들고 학습 데이터로 학습시킵니다.

In [None]:
classifier = NaiveBayesClassifier(w2i)
classifier.train(train_tokenized, train_labels)

100%|██████████| 10/10 [00:00<00:00, 8259.76it/s]
100%|██████████| 10/10 [00:00<00:00, 23353.59it/s]
100%|██████████| 66/66 [00:00<00:00, 143432.16it/s]


<br>

### 1.3.5 테스트

- Test sample에 대한 결과는 다음과 같습니다.

In [None]:
preds = []
for test_tokens in tqdm(test_tokenized):
  pred = classifier.inference(test_tokens)
  preds.append(pred)

100%|██████████| 4/4 [00:00<00:00, 18787.48it/s]


In [None]:
preds

[1, 0, 1, 0]

In [None]:
test_data

['정말 좋았습니다. 또 가고 싶네요.',
 '별로였습니다. 되도록 가지 마세요.',
 '다른 분들께도 추천드릴 수 있을 만큼 만족했습니다.',
 '서비스가 좀 더 개선되었으면 좋겠습니다. 기분이 좀 나빴습니다.']