#Bag Of Words
- 단어들의 순서는 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법임.

- 주어진 문장 혹은 문서의 의미를 벡터로 나타내기 위해 유의미한 단어들의 등장 횟수를 벡터 내의 자릿수로 활용하는 방식

- 유의미한 단어들의 등장 횟수를 카운트해서 벡터로 변환함.

#Token
- 자연어 처리에서 집중하는 최소 의미 단위를 뜻하는 단어로서, 어절, 형태소 등의 단위로 구분함

#Tokenization
- 주어진 문장, 문서 등 raw 자연어 입력을 토큰 단위로 변경해주는 작업을 의미하며, 토큰화를 담당하는 객체 혹은 모듈은 tokenizer라고 부르기도 함.

In [1]:
# 단어 토큰화 및 벡터화 예시
# 1. 문장 -> 어절 단위로 분리(split)
sentence = "Thomas Jefferson began building Monticello at the age of 26."
sentence.split()

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26.']

In [2]:
# NLP에서 vocab이라는 표현은 현재 다루고 있는 모든 토큰들을 모은 어휘집(lexicon)을 나타내기 위해 쓰임.
# 현재 다루고 있는 모든 단어들의 집합
# 사전 순으로 정렬된 vocab 생성하기
# 2. 토큰을 중복 제거하여 vocab 생성
import numpy as np
token_seq = str.split(sentence)
vocab = sorted(set(token_seq))
', '.join(vocab)

'26., Jefferson, Monticello, Thomas, age, at, began, building, of, the'

In [3]:
print('token_seq:',token_seq)
print('vocab:',vocab)

token_seq: ['Thomas', 'Jefferson', 'began', 'building', 'Monticello', 'at', 'the', 'age', 'of', '26.']
vocab: ['26.', 'Jefferson', 'Monticello', 'Thomas', 'age', 'at', 'began', 'building', 'of', 'the']


In [4]:
# 생성된 Vocab, 입력 문장을 바탕으로 입력 문장을 one-hot vector로 나타냄.
# 각각의 row가 토큰들을 벡터화한다.

num_tokens = len(token_seq) # 토큰 수 = 행
vocab_size = len(vocab) # vocab 크기 = 열
print("토큰 수:",num_tokens)
print("vocab 크기:", vocab_size)
print()

onehot_vectors = np.zeros((num_tokens, vocab_size), int)

for i, word in enumerate(token_seq):
  onehot_vectors[i,vocab.index(word)] = 1

print(onehot_vectors)

토큰 수: 10
vocab 크기: 10

[[0 0 0 1 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 0 1 0 0]
 [0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1]
 [0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0]
 [1 0 0 0 0 0 0 0 0 0]]


#One-hot encoding
- 다중 클래스 분류 문제에서 label을 만들던 방식과 유사함.
- NLP에서 모델 학습에 사용하는 데이터 셋 = 말뭉치(corpus)라고 함.

- 1. corpus 내의 모든 단어에 대해 중복을 제거한 리스트를 만든다.
- 2. 모든 단어 수에 해당하는 크기를 갖도록 feature vector 크기를 설정한다.
- 3. 각 단어의 feature vector는 리스트 내 해당 단어의 index와 같은 위치의 feature는 1, 나머지 feature들은 전부 0으로 설정함.  

- one-hot encoding을 통해 나온 feature vector는 표현하고자 하는 단어 인덱스에 해당하는 값만 1이고, 나머지는 전부 0의 값을 가짐.
  - 희소 표현(sparse representation): 벡터나 행렬의 값이 대부분이 0으로 표현되는 것
  - 밀집 표현(dense representation): 벡터나 행렬의 값이 0 이외의 값을 갖고 있는 것

- 장점: one-hot encoding은 직관적이고 효과적인 벡터화 방식 중 하나임.
- 단점: 단어 수가 늘어남에 따라 벡터의 크기가 같이 늘어나야 하므로 메모리 비효율이 심함.
- feature vector는 전체 단어 수 만큼의 크기를 갖기 때문에 크기가 커지면 커질수록
벡터 대부분의 값이 어차피 0의 값을 가지므로 메모리 낭비가 더욱 심해진다.

#Corpus
- 자연어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합

#Bag-of-words
- one-hot vector보다 효과적으로 문장을 표현하기 위한 간단한 해결책으로서 bag-of-words 방식이 있다.
- Bag-of-words 방식을 쓰면 벡터의 길이는 토큰 수와 같다는 점은 one-hot vector와 유사하나 이러한 벡터가 단어 하나를 나타내는 것이 아니라 문장이나 문서를 나타내게 되어 메모리 효율성이 훨씬 개선된다.

In [5]:
# pandas를 활용하여 보다 쉽게 one-hot vector 나타내기
import pandas as pd
pd.DataFrame(onehot_vectors, columns=vocab)

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,0,0,0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,1,0,0,0
3,0,0,0,0,0,0,0,1,0,0
4,0,0,1,0,0,0,0,0,0,0
5,0,0,0,0,0,1,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1
7,0,0,0,0,1,0,0,0,0,0
8,0,0,0,0,0,0,0,0,1,0
9,1,0,0,0,0,0,0,0,0,0


In [6]:
# 두 문장을 bag-of-words 방식으로 나타낸 예시
# Bag-of-words 방식으로 나타내어진 문장이나 문서의 유사성을 비교하고 싶다면, 벡터 내겆을 구하면 두 문장 모두 등장한 단어들에 대해서만 값이 남아서 더해지게 된다.
# 그래서 내적값이 높을 수록 겹치는 단어가 많은 문장 혹은 문서라고 볼 수 있음.
sentence = "Thomas Jefferson began building Monticello at the age of 26.\n"
sentence += "He moved into the South Pavilion. Turning Monticello into a neoclassical masterpiece."

corpus = {}
for i, sent in enumerate(sentence.split('\n')):
  corpus[f'sent{i}'] = dict((tok, 1) for tok in sent.split())

df = pd.DataFrame.from_records(corpus).fillna(0).astype(int).T
df

Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.,He,moved,into,South,Pavilion.,Turning,a,neoclassical,masterpiece.
sent0,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0
sent1,0,0,0,0,1,0,1,0,0,0,1,1,1,1,1,1,1,1,1


In [7]:
# 내적 기반의 유사도
df = df.T
df.sent0.dot(df.sent1)

2

In [8]:
# NLTK(Natural Language Toolkit)
# 문장 부호 분리 확인 가능
from nltk.tokenize import TreebankWordTokenizer

sentence = "Thomas Jefferson began building Monticello at the age of 26."
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(sentence)

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '.']

In [10]:
# 형태소 분석기
# KoNLPy는 pip로 쉽세 설치 가능
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m71.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m23.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [12]:
# Okt 분석기 결과
from konlpy.tag import Okt
okt = Okt()
print('Okt 형태소 분석:', okt.morphs('한국어 단어는 형태소들로 구성되어 있다.'))
print('Okt 품사 태깅:', okt.pos('한국어 단어는 형태소들로 구성되어 있다.'))

Okt 형태소 분석: ['한국어', '단어', '는', '형태소', '들', '로', '구성', '되어', '있다', '.']
Okt 품사 태깅: [('한국어', 'Noun'), ('단어', 'Noun'), ('는', 'Josa'), ('형태소', 'Noun'), ('들', 'Suffix'), ('로', 'Josa'), ('구성', 'Noun'), ('되어', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation')]


In [13]:
# Kkma 분석기 결과
from konlpy.tag import Kkma
kkma = Kkma()
print('Kkma 형태소 분석:', kkma.morphs('한국어 단어는 형태소들로 구성되어 있다.'))
print('Kkma 품사 태깅:', kkma.pos('한국어 단어는 형태소들로 구성되어 있다.'))
# 형태소 분석기마다 품사 코드도 다르고, 이에 따른 형태소 분석 결과ㅏ도 다를 수 있으므로 잘 파악해서 활용하여야 함.

Kkma 형태소 분석: ['한국어', '단어', '는', '형태소', '들', '로', '구성', '되', '어', '있', '다', '.']
Kkma 품사 태깅: [('한국어', 'NNG'), ('단어', 'NNG'), ('는', 'JX'), ('형태소', 'NNG'), ('들', 'XSN'), ('로', 'NNG'), ('구성', 'NNG'), ('되', 'XSV'), ('어', 'ECD'), ('있', 'VXV'), ('다', 'EFN'), ('.', 'SF')]
