## **1. NaiveBayes Classifier**
1. 주어진 데이터를 전처리합니다.
2. NaiveBayes 분류기 모델을 구현하고 학습 데이터로 이를 학습시킵니다.
3. 간단한 test case로 결과를 확인합니다.

### **필요 패키지 import**

In [1]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m11.6 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [2]:
from tqdm import tqdm

# 다양한 한국어 형태소 분석기가 클래스로 구현되어 있음
from konlpy import tag 

from collections import Counter, defaultdict
from itertools import chain

import math

### **학습 및 테스트 데이터 전처리**

Sample 데이터를 확인해 봅시다.
긍정($1$), 부정($0$) 2가지 class로 구성되어 있습니다.

In [3]:
train_data = [
  "정말 맛있습니다. 추천합니다.",
  "기대했던 것보단 별로였네요.",
  "다 좋은데 가격이 너무 비싸서 다시 가고 싶다는 생각이 안 드네요.",
  "완전 최고입니다! 재방문 의사 있습니다.",
  "음식도 서비스도 다 만족스러웠습니다.",
  "위생 상태가 좀 별로였습니다. 좀 더 개선되기를 바랍니다.",
  "맛도 좋았고 직원분들 서비스도 너무 친절했습니다.",
  "기념일에 방문했는데 음식도 분위기도 서비스도 다 좋았습니다.",
  "전반적으로 음식이 너무 짰습니다. 저는 별로였네요.",
  "위생에 조금 더 신경 썼으면 좋겠습니다. 조금 불쾌했습니다."
]
train_labels = [1, 0, 0, 1, 1, 0, 1, 1, 0, 0]

test_data = [
  "정말 좋았습니다. 또 가고 싶네요.",
  "별로였습니다. 되도록 가지 마세요.",
  "다른 분들께도 추천드릴 수 있을 만큼 만족했습니다.",
  "서비스가 좀 더 개선되었으면 좋겠습니다. 기분이 좀 나빴습니다."
]

KoNLPy 패키지에서 제공하는 Twitter(Okt) 토큰화기를 사용하여 토큰화합니다.

In [4]:
tokenizer = tag.Okt()

In [5]:
def make_tokenized(data):
  tokenized = []  # 단어 단위로 나뉜 리뷰 데이터.

  for sent in tqdm(data):
    tokens = tokenizer.morphs(sent)
    tokenized.append(tokens)

  return tokenized

In [6]:
train_tokenized = make_tokenized(train_data)
test_tokenized = make_tokenized(test_data)

100%|█████████████████████████████████████████████████████████████████████| 10/10 [00:02<00:00,  4.96it/s]
100%|██████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 401.48it/s]


In [7]:
train_tokenized

[['정말', '맛있습니다', '.', '추천', '합니다', '.'],
 ['기대했던', '것', '보단', '별로', '였네요', '.'],
 ['다',
  '좋은데',
  '가격',
  '이',
  '너무',
  '비싸서',
  '다시',
  '가고',
  '싶다는',
  '생각',
  '이',
  '안',
  '드네',
  '요',
  '.'],
 ['완전', '최고', '입니다', '!', '재', '방문', '의사', '있습니다', '.'],
 ['음식', '도', '서비스', '도', '다', '만족스러웠습니다', '.'],
 ['위생',
  '상태',
  '가',
  '좀',
  '별로',
  '였습니다',
  '.',
  '좀',
  '더',
  '개선',
  '되',
  '기를',
  '바랍니다',
  '.'],
 ['맛', '도', '좋았고', '직원', '분들', '서비스', '도', '너무', '친절했습니다', '.'],
 ['기념일',
  '에',
  '방문',
  '했는데',
  '음식',
  '도',
  '분위기',
  '도',
  '서비스',
  '도',
  '다',
  '좋았습니다',
  '.'],
 ['전반', '적', '으로', '음식', '이', '너무', '짰습니다', '.', '저', '는', '별로', '였네요', '.'],
 ['위생', '에', '조금', '더', '신경', '썼으면', '좋겠습니다', '.', '조금', '불쾌했습니다', '.']]

토큰화된 단어들을 숫자로 변환할 수 있도록 학습 자료의 모든 단어들을 vocaburary에 추가하고, 단어를 숫자로, 숫자를 단어로 바꾸는 객체를 만들어 봅시다.

In [8]:
i2w = list(set(chain.from_iterable(train_tokenized)))
w2i = {w: i for i, w in enumerate(i2w)}                 # Key: 단어, Value: 단어의 index

In [9]:
len(w2i)

66

In [10]:
w2i

{'불쾌했습니다': 0,
 '음식': 1,
 '에': 2,
 '기념일': 3,
 '싶다는': 4,
 '드네': 5,
 '합니다': 6,
 '상태': 7,
 '이': 8,
 '직원': 9,
 '정말': 10,
 '완전': 11,
 '최고': 12,
 '입니다': 13,
 '서비스': 14,
 '였네요': 15,
 '짰습니다': 16,
 '신경': 17,
 '방문': 18,
 '기대했던': 19,
 '였습니다': 20,
 '좋았고': 21,
 '저': 22,
 '!': 23,
 '비싸서': 24,
 '맛있습니다': 25,
 '것': 26,
 '요': 27,
 '분위기': 28,
 '의사': 29,
 '맛': 30,
 '만족스러웠습니다': 31,
 '좋은데': 32,
 '분들': 33,
 '가고': 34,
 '생각': 35,
 '좋았습니다': 36,
 '으로': 37,
 '좋겠습니다': 38,
 '위생': 39,
 '썼으면': 40,
 '추천': 41,
 '바랍니다': 42,
 '도': 43,
 '재': 44,
 '했는데': 45,
 '적': 46,
 '가격': 47,
 '너무': 48,
 '다시': 49,
 '좀': 50,
 '별로': 51,
 '는': 52,
 '친절했습니다': 53,
 '개선': 54,
 '다': 55,
 '더': 56,
 '안': 57,
 '되': 58,
 '보단': 59,
 '가': 60,
 '조금': 61,
 '있습니다': 62,
 '.': 63,
 '전반': 64,
 '기를': 65}

### **모델 Class 구현**

NaiveBayes Classifier 모델 클래스를 구현해 봅시다.

*   `self.k`: Smoothing을 위한 상수.
*   `self.w2i`: 사전에 구한 vocab.
*   `self.priors`: 각 class의 prior 확률.
*   `self.likelihoods`: 각 token의 특정 class 조건 내에서의 likelihood.


In [17]:
class NaiveBayesClassifier():
  def __init__(self, w2i, k=0.1):
    self.k = k
    self.w2i = w2i
    self.priors = {}
    self.likelihoods = {}

  def train(self, train_tokenized, train_labels):
    self.set_priors(train_labels)  # Priors 계산.
    self.set_likelihoods(train_tokenized, train_labels)  # Likelihoods 계산.

  def inference(self, tokens):
    log_prob0 = 0.0
    log_prob1 = 0.0

    for token in tokens:
      if token in self.likelihoods:  # 학습 당시 추가했던 단어에 대해서만 고려.
        log_prob0 += math.log(self.likelihoods[token][0])
        log_prob1 += math.log(self.likelihoods[token][1])

    # 마지막에 prior를 고려.
    log_prob0 += math.log(self.priors[0])
    log_prob1 += math.log(self.priors[1])

    if log_prob0 >= log_prob1:
      return 0
    else:
      return 1

  # set_priors는 단순히 label의 비율을 계산 -> 해당 class의 개수가 많으면 비율도 높아짐
  def set_priors(self, train_labels):
    class_counts = Counter(train_labels)
    
    for label, count in class_counts.items():
      self.priors[label] = class_counts[label] / len(train_labels)

  def set_likelihoods(self, train_tokenized, train_labels):
    token_dists = {}  # 각 단어의 특정 class 조건 하에서의 등장 횟수.
    class_counts = defaultdict(int)  # 특정 class에서 등장한 모든 단어의 등장 횟수.

    for tokens, label in zip(train_tokenized, tqdm(train_labels)):
      count = 0
      for token in tokens:
        if token in self.w2i:  # 학습 데이터로 구축한 vocab에 있는 token만 고려.
          if token not in token_dists:
            token_dists[token] = {0:0, 1:0}
          token_dists[token][label] += 1
          count += 1
      class_counts[label] += count

    for token, dist in tqdm(token_dists.items()):
      if token not in self.likelihoods:
        self.likelihoods[token] = {
            # Laplace smoothing으로 '특정 클래스에서 특정 단어가 아예 등장하지 않더라도' 확률을 0이 아니도록 변환해줌
            0:(token_dists[token][0] + self.k) / (class_counts[0] + len(self.w2i)*self.k),
            1:(token_dists[token][1] + self.k) / (class_counts[1] + len(self.w2i)*self.k),
        }

### **모델 학습**

모델 객체를 만들고 학습 데이터로 학습시킵니다.

In [12]:
classifier = NaiveBayesClassifier(w2i)
classifier.train(train_tokenized, train_labels)

 90%|████████████████████████████████████████████████████████████▎      | 9/10 [00:00<00:00, 66459.04it/s]
100%|█████████████████████████████████████████████████████████████████| 66/66 [00:00<00:00, 422632.16it/s]


### **테스트**

Test sample에 대한 결과는 다음과 같습니다.

In [15]:
preds = []
for test_tokens in tqdm(test_tokenized):
    print(test_tokens)
    pred = classifier.inference(test_tokens)
    preds.append(pred)

100%|████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 40136.88it/s]

['정말', '좋았습니다', '.', '또', '가고', '싶네요', '.']
['별로', '였습니다', '.', '되도록', '가지', '마세요', '.']
['다른', '분', '들께도', '추천', '드릴', '수', '있을', '만큼', '만족했습니다', '.']
['서비스', '가', '좀', '더', '개선', '되었으면', '좋겠습니다', '.', '기분', '이', '좀', '나빴습니다', '.']





In [16]:
preds

[1, 0, 1, 0]

###**콘텐츠 라이선스**

<font color='red'><b>**WARNING**</b></font> : **본 교육 콘텐츠의 지식재산권은 재단법인 네이버커넥트에 귀속됩니다. 본 콘텐츠를 어떠한 경로로든 외부로 유출 및 수정하는 행위를 엄격히 금합니다.** 다만, 비영리적 교육 및 연구활동에 한정되어 사용할 수 있으나 재단의 허락을 받아야 합니다. 이를 위반하는 경우, 관련 법률에 따라 책임을 질 수 있습니다.

