# Corpus(말뭉치)
- 자연어 처리 작업에서 사용하는 텍스트 데이터의 집합을 의미함.
- 주로 문장, 문서, 대화 형태의 텍스트로 구성됨.
- 용도: 모델을 훈련할 때, 입력으로 사용되며, 특정 언어의 문법, 표현 방식, 단어 사용 빈도를 분석하는데 활용됨.
- 특징: 크기나 도메인에 따라 다를 수 있으며, 단일 텍스트가 아니라 다양한 텍스트로 구성된 데이터 셋이다.

# Vocab
- 주어진 Corpus에서 등장하는 고유한 단어들의 목록임.
- Corpus에서 사용된 모든 단어의 모음을 정리한 것(중복 제외됨.)
- ex) ["cat", "dog", "sleep"]
- 용도: 모델이 텍스트를 처리할 때, Vocab을 참조하여 단어들을 인덱싱하고, 이를 바탕으로 단어의 의미를 파악하거나 예측함.
- 특징
- 1. Corpus에서 중복을 제거한 고유한 단어들만 포함되므로 크기가 더 작다
- 2. 모델의 성능을 높이기 위해 자주 사용되지 않는 단어는 제외하고 일부 단어만 포함하는 경우도 있다.(불용어 제거 후 사용할 때도 있음.)

# Lexicon
- 특정 언어의 단어 목록 또는 특정 도메인에서 사용되는 용어들의 특징 집합을 말함.
- 단순한 어휘 목록이 아니라 특정 단어와 그 단어에 대한 구체적인 정보가 포함된 일종의 어휘 사전이라고 할 수 있음.
- ex) ('apple', 'n')


# 단어 출현 빈도를 활용한 벡터화
- 특정 문장이나 문서를 그 의미에 따라 벡터화하기 위한 방법 중 하나로서 bag-of-words처럼 어떤 단어들이 많이 등장하고 어떤 단어들이 적게 등장헀는지를 활용할 수 있다.
- ex) 특정 분야에 대한 문서는 관련 전문 용어가 다른 분야의 문서에서보다 훨씬 많이 등장할 확률이 높다.
- (문제 발생) 단어의 출현 횟수만으로 문장이나 문서를 벡터로 나타낸다면 문장, 문서의 길이가 제각각이기 때문에 긴 문장에서와 짧은 문장에서의 벡터값 분포가 매우 달라진다.
- (문제 해결) 따라서 bag-of-words를 전체 문장, 문서 길이에 대해 정규화하면 단어 출현 횟수가 아닌 단어 출현 빈도(비율)이 되면 더 우수한 벡터 표현이 된다고 할 수 있다.
#TF(Term Frequency)
- 단어 출현 횟수 / 전체 토큰 수
- 위와 같은 식으로 구한 특정 단어의 출현 빈도를 TF라고 하며, 전통적인 NLP에서의 주요 특징 중 하나로 널리 활용되고 있음.
- 출현 횟수(BoW)가 아니라 정규화된 형태인 '출현 빈도'를 사용하는 이유
  - 1. 다양한 길이에 대해 문서끼리 비교가 용이함.
  - 2. BoW보다 긴 텍스트에서 성능 향상

In [3]:
# NLTK를 활용한 문서 토큰화
from nltk.tokenize import TreebankWordTokenizer

In [4]:
sentence = '''The faster Harry got to the store, the faster Harry, the faster, would get home.'''
tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(sentence.lower())
tokens

['the',
 'faster',
 'harry',
 'got',
 'to',
 'the',
 'store',
 ',',
 'the',
 'faster',
 'harry',
 ',',
 'the',
 'faster',
 ',',
 'would',
 'get',
 'home',
 '.']

In [5]:
from collections import Counter
bag_of_words = Counter(tokens)
bag_of_words.most_common(4) # 기본적으로 most_common()은 모든 토큰을 그 빈도순으로(자주 출현한 것부터) 나열한다. 4로 지정해주었기 때문에 최상위 4개만 출력한다.

[('the', 4), ('faster', 3), (',', 3), ('harry', 2)]

In [15]:
# TF
times_harry_appears = bag_of_words['harry']
num_unique_words = len(tokens) # 원 문장에 있는 고유한 토큰의 수
tf = times_harry_appears / num_unique_words # term frequency: 특정 단어의 출현
round(tf,4)

0.0099

In [7]:
# kite 문서 토큰화 및 용어별 출현 횟수 계산
# 관사가 최상위에 위치에 있는데 이는 특별한 의미를 담고 있지 않으므로 불용어 제거를 수행하고자 함.
from collections import Counter
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()

In [9]:
kite_text = '''
A kite is a tethered heavier-than-air or lighter-than-air craft with wing surfaces that react against the air to create lift and drag forces.
A kite consists of wings, tethers and anchors. Kites often have a bridle and tail to guide the face of the kite so the wind can lift it.
Some kite designs do not need a bridle; box kites can have a single attachment point.
A kite may have fixed or moving anchors that can balance the kite. The name is derived from the kite, the hovering bird of prey.
There are several shapes of kites.
The lift that sustains the kite in flight is generated when air moves around the kite's surface, producing low pressure above and high pressure below the wings.
The interaction with the wind also generates horizontal drag along the direction of the wind.
The resultant force vector from the lift and drag force components is opposed by the tension of one or more of the lines or tethers to which the kite is attached.
The anchor point of the kite line may be static or moving (e.g., the towing of a kite by a running person, boat, free-falling anchors as in paragliders and fugitive parakites or vehicle).
The same principles of fluid flow apply in liquids, so kites can be used in underwater currents.
Paravanes and otter boards operate underwater on an analogous principle.
Man-lifting kites were made for reconnaissance, entertainment and during development of the first practical aircraft, the biplane.
Kites have a long and varied history and many different types are flown individually and at festivals worldwide.
Kites may be flown for recreation, art or other practical uses. Sport kites can be flown in aerial ballet, sometimes as part of a competition.
Power kites are multi-line steerable kites designed to generate large forces which can be used to power activities such as kite surfing, kite landboarding, kite buggying and snow kiting.
'''
tokens = tokenizer.tokenize(kite_text.lower())
token_counts = Counter(tokens)
token_counts

Counter({'a': 11,
         'kite': 14,
         'is': 5,
         'tethered': 1,
         'heavier-than-air': 1,
         'or': 7,
         'lighter-than-air': 1,
         'craft': 1,
         'with': 2,
         'wing': 1,
         'surfaces': 1,
         'that': 3,
         'react': 1,
         'against': 1,
         'the': 27,
         'air': 2,
         'to': 5,
         'create': 1,
         'lift': 4,
         'and': 12,
         'drag': 3,
         'forces.': 1,
         'consists': 1,
         'of': 12,
         'wings': 1,
         ',': 13,
         'tethers': 2,
         'anchors.': 1,
         'kites': 9,
         'often': 1,
         'have': 4,
         'bridle': 2,
         'tail': 1,
         'guide': 1,
         'face': 1,
         'so': 2,
         'wind': 2,
         'can': 6,
         'it.': 1,
         'some': 1,
         'designs': 1,
         'do': 1,
         'not': 1,
         'need': 1,
         ';': 1,
         'box': 1,
         'single': 1,
         'attachme

In [10]:
# 불용어 제거 후 the, a 등의 관사가 제거됨을 알 수 있음.
import nltk
nltk.download('stopwords',quiet=True)

True

In [12]:
stopwords = nltk.corpus.stopwords.words('english')
tokens = [x for x in tokens if x not in stopwords] # tokens == 전체 토큰, 불용어 제거
kite_counts = Counter(tokens) # 불용어를 제거한 전체 토큰
kite_counts

Counter({'kite': 14,
         'tethered': 1,
         'heavier-than-air': 1,
         'lighter-than-air': 1,
         'craft': 1,
         'wing': 1,
         'surfaces': 1,
         'react': 1,
         'air': 2,
         'create': 1,
         'lift': 4,
         'drag': 3,
         'forces.': 1,
         'consists': 1,
         'wings': 1,
         ',': 13,
         'tethers': 2,
         'anchors.': 1,
         'kites': 9,
         'often': 1,
         'bridle': 2,
         'tail': 1,
         'guide': 1,
         'face': 1,
         'wind': 2,
         'it.': 1,
         'designs': 1,
         'need': 1,
         ';': 1,
         'box': 1,
         'single': 1,
         'attachment': 1,
         'point.': 1,
         'may': 3,
         'fixed': 1,
         'moving': 2,
         'anchors': 2,
         'balance': 1,
         'kite.': 1,
         'name': 1,
         'derived': 1,
         'hovering': 1,
         'bird': 1,
         'prey.': 1,
         'several': 1,
         'shapes':

In [13]:
# 빈도가 높은 단어 순으로 TF를 벡터 값으로 이용해서 문서를 벡터화 한 결과
document_vector = []
doc_length = len(tokens)
for key, value in kite_counts.most_common(): # 특정 단어 등장 횟수 내림차순
  document_vector.append(value / doc_length) # TF = 토큰 출현 횟수 / 총 토큰 갯수(불용어 제거)
document_vector

[0.06930693069306931,
 0.06435643564356436,
 0.04455445544554455,
 0.019801980198019802,
 0.01485148514851485,
 0.01485148514851485,
 0.01485148514851485,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.009900990099009901,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.0049504950495049506,
 0.004950495049504

In [32]:
# 세 문장 유사도 비교
docs = ["The faster Harry got to the store, the faster and faster Harry would get home."]
docs.append("Harry is hairy and faster than Jill.")
docs.append("Jill is not as hairy as Harry.")

In [33]:
# TF 벡터 생성에 앞서 vocab 구축
doc_tokens = []
for doc in docs:
  doc_tokens += [sorted(tokenizer.tokenize(doc.lower()))]

In [34]:
len(doc_tokens[0])

17

In [35]:
all_doc_tokens = sum(doc_tokens,[])

In [36]:
len(all_doc_tokens) # 총 33개의 토큰 생성

33

In [37]:
vocab = sorted(set(all_doc_tokens)) # 토큰 중복 제거

In [38]:
len(vocab)

18

In [39]:
vocab

[',',
 '.',
 'and',
 'as',
 'faster',
 'get',
 'got',
 'hairy',
 'harry',
 'home',
 'is',
 'jill',
 'not',
 'store',
 'than',
 'the',
 'to',
 'would']

In [40]:
# 벡터를 통한 유사도 계산
# 현재 모든 3개의 문서에 등장하는 토큰이 18개 있으므로 각 문서를 표현하기 위해서 18개의 성분을 가진 벡터가 필요
# 각 벡터의 성분의 위치(index)에 따라 대응되는 토큰이 동일하게 유지되어야 함.
# 같은 벡터 공간 상에서 문서들을 벅터화하여 표현하여야 하며, 아래는 벡터 공간에서의 영벡터 예시임.
from collections import OrderedDict
zero_vector = OrderedDict((token,0) for token in vocab)
zero_vector

OrderedDict([(',', 0),
             ('.', 0),
             ('and', 0),
             ('as', 0),
             ('faster', 0),
             ('get', 0),
             ('got', 0),
             ('hairy', 0),
             ('harry', 0),
             ('home', 0),
             ('is', 0),
             ('jill', 0),
             ('not', 0),
             ('store', 0),
             ('than', 0),
             ('the', 0),
             ('to', 0),
             ('would', 0)])

In [41]:
# 각 문장별로 TF 벡터 계산
# 영벡터를 복사한 뒤, 단어 출현 빈도에 대한 벡터 생성
# 단어 출현 빈도는 각 단어의 출현 횟수를 해당 문서의 길이로 나누어주어야 함.
import copy
doc_vectors = []
for doc in docs: # 각 문서에 대해서 loop
  vec = copy.copy(zero_vector) #  영벡터 복사 -> 독립적인 벡터 생성
  tokens = tokenizer.tokenize(doc.lower()) # 토큰화
  token_counts = Counter(tokens)
  for key, value in token_counts.items():
    vec[key] = value / len(tokens) # 각 토큰에 대한 TF 계산
  doc_vectors.append(vec)

In [42]:
tokens # 중복 허용된 토큰

['jill', 'is', 'not', 'as', 'hairy', 'as', 'harry', '.']

In [43]:
token_counts

Counter({'jill': 1,
         'is': 1,
         'not': 1,
         'as': 2,
         'hairy': 1,
         'harry': 1,
         '.': 1})

In [44]:
vec # 각 토큰에 대한 TF

OrderedDict([(',', 0),
             ('.', 0.125),
             ('and', 0),
             ('as', 0.25),
             ('faster', 0),
             ('get', 0),
             ('got', 0),
             ('hairy', 0.125),
             ('harry', 0.125),
             ('home', 0),
             ('is', 0.125),
             ('jill', 0.125),
             ('not', 0.125),
             ('store', 0),
             ('than', 0),
             ('the', 0),
             ('to', 0),
             ('would', 0)])

In [45]:
doc_vectors

[OrderedDict([(',', 0.058823529411764705),
              ('.', 0.058823529411764705),
              ('and', 0.058823529411764705),
              ('as', 0),
              ('faster', 0.17647058823529413),
              ('get', 0.058823529411764705),
              ('got', 0.058823529411764705),
              ('hairy', 0),
              ('harry', 0.11764705882352941),
              ('home', 0.058823529411764705),
              ('is', 0),
              ('jill', 0),
              ('not', 0),
              ('store', 0.058823529411764705),
              ('than', 0),
              ('the', 0.17647058823529413),
              ('to', 0.058823529411764705),
              ('would', 0.058823529411764705)]),
 OrderedDict([(',', 0),
              ('.', 0.125),
              ('and', 0.125),
              ('as', 0),
              ('faster', 0.125),
              ('get', 0),
              ('got', 0),
              ('hairy', 0.125),
              ('harry', 0.125),
              ('home', 0),
              (

# 벡터를 통한 유사도 계산
- 특징점들로 나타낸 벡터들의 유사도를 계산할 때는 벡터들 사이의 각도에 대한 정보에 해당하는 cosine similarity를 주로 활용함.
- TF의 경우를 생각해보면 절대 빈도가 아니라 단어들 사이의 TF 비율에 근거해서 유사도를 판단함.
- 벡터 공간에서 차원 수는 Vocab의 토큰 개수와 같음.
- 거리보다 각도(방향)을 통해 유사도를 측정한다.

In [46]:
# 벡터를 통한 유사도 계산 구현
import math
def cosine_sim(vec1, vec2):
  '''
  두 문서 표현 벡터의 코사인 유사도를 계산하는 함수
  '''
  vec1 = [val for val in vec1.values()]
  vec2 = [val for val in vec2.values()]
  dot_prod = 0
  for i, v in enumerate(vec1):
    dot_prod += v*vec2[i]
  mag_1 = math.sqrt(sum([x**2 for x in vec1]))
  mag_2 = math.sqrt(sum([x**2 for x in vec2]))

  return dot_prod / (mag_1 * mag_2)

In [47]:
cosine_sim(doc_vectors[0], doc_vectors[1])

0.44450044450066667

In [48]:
cosine_sim(doc_vectors[0], doc_vectors[2])

0.1703885502741194

In [51]:
# 코사인 유사도는 -1 ~ +1의 값을 가지며, 값이 높을수록 유사도가 높음.
# 음수의 경우, 반대 방향임을 의미하며 -1이면 정반대의 방향이라는 뜻임.
# 0이면 공통점이 전혀 없다는 것을 의미
cosine_sim(doc_vectors[1], doc_vectors[2])

0.5590169943749475

# Term Frequency(TF)
- TF = 출현 횟수(BoW) / 전체 토큰 수(len(tokens))
- 문서의 길이에 따라 정규화하는 것이 아니라 출현 횟수를 전체 우리가 사용하고 있는 어휘의 수와 비교해서 보겠다.

# 역문서 빈도(Inverse Document Frequency, IDF)
- (문제 발생) TF 자체도 훌륭한 특징점으로 활용할 수 있지만, 어느 문서에서나 유사하게 많이 쓰이는 단어도 있고, 특정 문서에서만 많이 등장하는 단어가 있을 수도 있다. -> 어디서나 많이 쓰이는 단어가 유사도가 높게 나온다.
- (문제 해결) IDF 활용, 각 단어에 대해 해당 단어가 출현한 문서 수를 전체 문서 수에 대해 나눈 것으로서, 많은 문서에서 등장하는 단어일수록 IDF 값이 낮아짐.
- IDF = 전체 문서 수 / 해당 단어 출현 문서 수
- IDF 값이 높을수록 특정 문서에서만 등장하는 단어가 되며 이는 각 문서의 주제를 대표하는 단어일 확룔이 높아짐을 의미함.

In [52]:
history_text = '''
The kite has been claimed as the invention of the 5th-century BC Chinese philosophers Mozi (also Mo Di, or Mo Ti) and Lu Ban (also Gongshu Ban, or Kungshu Phan). Materials ideal for kite building were readily available including silk fabric for sail material; fine, high-tensile-strength silk for flying line; and resilient bamboo for a strong, lightweight framework. By 549 AD, paper kites were certainly being flown, as it was recorded that in that year a paper kite was used as a message for a rescue mission. Ancient and medieval Chinese sources describe kites being used for measuring distances, testing the wind, lifting men, signaling, and communication for military operations. The earliest known Chinese kites were flat (not bowed) and often rectangular.
Later, tailless kites incorporated a stabilizing bowline.
Kites were decorated with mythological motifs and legendary figures; some were fitted with strings and whistles to make musical sounds while flying.
Kite Flying by Suzuki Harunobu, 1766 (Metropolitan Museum of Art)
After its introduction into India, the kite further evolved into the fighter kite, known as the patang in India, where thousands are flown every year on festivals such as Makar Sankranti.
Kites were known throughout Polynesia, as far as New Zealand, with the assumption being that the knowledge diffused from China along with the people.
Anthropomorphic kites made from cloth and wood were used in religious ceremonies to send prayers to the gods.
Polynesian kite traditions are used by anthropologists to get an idea of early "primitive" Asian traditions that are believed to have at one time existed in Asia.
Kites were late to arrive in Europe, although windsock-like banners were known and used by the Romans.
Stories of kites were first brought to Europe by Marco Polo towards the end of the 13th century, and kites were brought back by sailors from Japan and Malaysia in the 16th and 17th centuries.
Konrad Kyeser described dragon kites in Bellifortis about 1400 AD.
Although kites were initially regarded as mere curiosities, by the 18th and 19th centuries they were being used as vehicles for scientific research.
Boys flying a kite. Engraving published in Germany in 1828 by Johann Michael Voltz
In 1752, Benjamin Franklin published an account of a kite experiment to prove that lightning was caused by electricity.
Kites were also instrumental in the research of the Wright brothers, and others, as they developed the first airplane in the late 1800s.
Several different designs of man-lifting kites were developed. The period from 1860 to about 1910 became the European "golden age of kiting".
In the 20th century, many new kite designs are developed. These included Eddy's tailless diamond, the tetrahedral kite, the Rogallo wing, the sled kite, the parafoil, and power kites.
Kites were used for scientific purposes, especially in meteorology, aeronautics, wireless communications and photography.
The Rogallo wing was adapted for stunt kites and hang gliding and the parafoil was adapted for parachuting and paragliding.
The rapid development of mechanically powered aircraft diminished interest in kites.
World War II saw a limited use of kites for military purposes (survival radio, Focke Achgelis Fa 330, military radio antenna kites).
Kites are now mostly used for recreation.
Lightweight synthetic materials (ripstop nylon, plastic film, carbon fiber tube and rod) are used for kite making.
Synthetic rope and cord (nylon, polyethylene, kevlar and dyneema) are used as bridle and kite line.
'''

In [53]:
# 개요 문서
intro_text = kite_text.lower()
intro_tokens = tokenizer.tokenize(intro_text) # 중복 허용한 토큰 수

# 역사 문서
history_text = history_text.lower()
history_tokens = tokenizer.tokenize(history_text)

# 중복 허용한 총 토근 수
intro_total = len(intro_tokens)
history_total = len(history_tokens)

print(intro_total)
print(history_total)

339
624


In [58]:
# 두 문서에서의 kite에 대한 TF 비교
intro_tf = {}
history_tf = {}
intro_counts = Counter(intro_tokens) # intro 토큰 수(중복 허용)
intro_tf['kite'] = intro_counts['kite'] / intro_total # intro TF
history_counts = Counter(history_tokens) # history 토큰 수(중복 허용)
history_tf['kite'] = history_counts['kite'] / history_total # history TF
print(f'Term Frequency of "kite" in intro is: {intro_tf["kite"]}')
print(f'Term Frequency of "kite" in history is: {history_tf["kite"]}')

Term Frequency of "kite" in intro is: 0.04129793510324484
Term Frequency of "kite" in history is: 0.020833333333333332


In [59]:
# (문제 발생) TF만으로 'kite'의 중요도를 판별하긴 어렵다.
# (문제 해결) 역문서 빈도를 활용함.
num_docs_containing_kite = 0
num_docs_containing_and = 0
num_docs_containing_china = 0

for doc in [intro_tokens, history_tokens]:
  if 'kite' in doc:
    num_docs_containing_kite += 1
  if 'and' in doc:
    num_docs_containing_and += 1
  if 'china' in doc:
    num_docs_containing_china += 1
#-----------------------------------------> 각 단어가 등장하는 문서 수를 다 셈.
doc_len = 2

print('kite IDF:', doc_len / num_docs_containing_kite) # 두 문서에서 모두 등장
print('and IDF:', doc_len / num_docs_containing_and) # 두 문서에서 모두 등장
print('china IDF:', doc_len / num_docs_containing_china) # 한 문서에서만 등장
# 현재 문서 데이터 셋에서 'china'는 희귀하게 등장하는 단어임.
# china 등장시 이 단어의 중요도를 올리자.
# 그러면 이 문서에 대한 벡터를 뽑을 때, 이 문서의 특징을 더 잘 반영할 것임.

kite IDF: 1.0
and IDF: 1.0
china IDF: 2.0


# TF-IDF
- TF와 IDF를 곱한 특징점으로서 단어의 출현 빈도와 특정 문서에서의 희귀도를 모두 고려한 NLP에서의 특징점이라고 할 수 있다.
- 문서 -> 벡터화(BoW보다 효과적인 방식)

In [62]:
# TF
intro_tf['and'] = intro_counts['and'] / intro_total
history_tf['and'] = history_counts['and'] / history_total
intro_tf['kite'] = intro_counts['kite'] / intro_total
history_tf['kite'] = history_counts['kite'] / history_total
intro_tf['china'] = intro_counts['china'] / intro_total
history_tf['china'] = history_counts['china'] / history_total

#IDF
num_docs = 2
intro_idf = {}
history_idf = {}
intro_idf['and'] = num_docs / num_docs_containing_and
history_idf['and'] = num_docs / num_docs_containing_and
intro_idf['kite'] = num_docs / num_docs_containing_kite
history_idf['kite'] = num_docs / num_docs_containing_kite
intro_idf['china'] = num_docs / num_docs_containing_china
history_idf['china'] = num_docs / num_docs_containing_china

In [64]:
# TF를 IDF가 좀 더 보정함.
intro_tfidf = {}
intro_tfidf['and'] = intro_tf['and'] * intro_idf['and']
intro_tfidf['kite'] = intro_tf['kite'] * intro_idf['kite']
intro_tfidf['china'] = intro_tf['china'] * intro_idf['china']

history_tfidf = {}
history_tfidf['and'] = history_tf['and'] * history_idf['and']
history_tfidf['kite'] = history_tf['kite'] * history_idf['kite']
history_tfidf['china'] = history_tf['china'] * history_idf['china']

In [66]:
intro_tfidf

{'and': 0.035398230088495575, 'kite': 0.04129793510324484, 'china': 0.0}

In [69]:
history_tfidf

{'and': 0.03685897435897436,
 'kite': 0.020833333333333332,
 'china': 0.003205128205128205}

In [72]:
# 아래의 세 문장의 TF-IDF 벡터를 구하고, 주어진 쿼리에 대해 어떤 문장이 유사한지 계산하고자 함.
doc0 = "The faster Harry got to the store, the faster and faster Harry would get home."
doc1 = "Harry is hairy and faster than Jill."
doc2 = "Jill is not as hairy as Harry."

In [73]:
# 각 문장의 TF-IDF 벡터 계산
doc_tfidf_vectors = []
docs = [doc0, doc1, doc2]

for doc in docs:
  vec = copy.copy(zero_vector)

  tokens = tokenizer.tokenize(doc.lower()) # 토큰화
  token_counts = Counter(tokens) # 단어에 대한 출현 횟수 == BoW

  for key, val in token_counts.items(): # 각 토큰에 대해서 해당 토큰이 등장하는 문서를 센다.
    docs_containing_key = 0
    for _doc in docs:
      if key in _doc:
        docs_containing_key += 1
    tf = val / len(tokens)
    if docs_containing_key:
      idf = len(docs) / docs_containing_key
    else: # 모든 문서에 대해 해당 토큰이 등장하지 않음. (예외 처리)
      idf = 0
    vec[key] = tf * idf
  doc_tfidf_vectors.append(vec)

In [74]:
# 주어진 질문에 대해 가장 유사한 문장 찾기
# 질문 문장에 대한 TF-IDF 벡터 생성
# Vocab에 없는 토큰에 대해서는 TF-IDF값을 생성할 수 없음.
# 학습 데이터 셋에서 불용어 제거, 일부러 제거한 토큰들, query에는 Vocab에 없는 토큰이 등장할 수 있다.
query = "How long does it take to get to the store?"
query_vec = copy.copy(zero_vector)

tokens = tokenizer.tokenize(query.lower())
token_counts = Counter(tokens)

for key, val in token_counts.items():
  docs_containing_key = 0
  for _doc in docs:
    if key in _doc.lower():
      docs_containing_key += 1
  if docs_containing_key == 0: # Vocab에 없는 토큰은 tfidf 생성 못하게 함.
    continue
  tf = val / len(tokens)
  idf = len(docs) / docs_containing_key
  query_vec[key] = tf * idf
query_vec

OrderedDict([(',', 0),
             ('.', 0),
             ('and', 0),
             ('as', 0),
             ('faster', 0),
             ('get', 0.2727272727272727),
             ('got', 0),
             ('hairy', 0),
             ('harry', 0),
             ('home', 0),
             ('is', 0),
             ('jill', 0),
             ('not', 0),
             ('store', 0.2727272727272727),
             ('than', 0),
             ('the', 0.2727272727272727),
             ('to', 0.5454545454545454),
             ('would', 0)])

In [76]:
# 주어진 질문에 대해 가장 유사한 문장 찾기
print(cosine_sim(query_vec, doc_tfidf_vectors[0]))
print(cosine_sim(query_vec, doc_tfidf_vectors[1])) # query와 겹치는 토큰이 없다는 의미
print(cosine_sim(query_vec, doc_tfidf_vectors[2]))

0.6132857433407974
0.0
0.0


# TF-IDF
- (문제 발생) 이 간단한 공식을 가지고 검색 해결이 안되는 경우 발생
- IDF의 기본적인 개념만 고려한다면, 전의 수행한 것과 같이 IDF를 계산해도 충분하지만, 실제로는 총 문서 수가 굉장히 많을 수 있다는 문제가 있음.
- 문서 수가 굉장히 많으면, IDF의 값이 너무 커지는 문제가 발생한다.
- (문제 해결) 정규화 방안으로 문서 수가 굉장히 많으면, log를 취한다.
- 전체 문서에서 등장 횟수가 0인 단어가 있다면, IDF 분모가 0이 되므로 이를 예방하기 위해 분모에 1을 더해주는 형식이 주로 활용됨.
- TF(term, document) = number of times term appears in document / total number of terms in document
- IDF(term) = log(N / (1 + df))
- TF-IDF(term, document) = TF(term, document) * IDF(term)

In [77]:
# scikit-learn의 TfidfVectorizer 모델을 활용하여 쉽게 주어진 문서에 대해 TF-IDF 벡터 계산 및 분석 가능

from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [doc0, doc1, doc2]

vectorizer = TfidfVectorizer(min_df=1)
model = vectorizer.fit_transform(corpus)

print(model.todense()) # TF-IDF

[[0.1614879  0.         0.48446369 0.21233718 0.21233718 0.
  0.25081952 0.21233718 0.         0.         0.         0.21233718
  0.         0.63701154 0.21233718 0.21233718]
 [0.36930805 0.         0.36930805 0.         0.         0.36930805
  0.28680065 0.         0.36930805 0.36930805 0.         0.
  0.48559571 0.         0.         0.        ]
 [0.         0.75143242 0.         0.         0.         0.28574186
  0.22190405 0.         0.28574186 0.28574186 0.37571621 0.
  0.         0.         0.         0.        ]]


# BM25
- Okapi BM25는 Okapi 정보 검색 시스템에 쓰인 query-document 매칭 기법임.
- 오픈 소스 검색 엔진 중 가장 유명한 ElasticSearch에서도 현재 활용하고 있음.
- TF-IDF는 단어, 문서가 변수로 들어가고 유사도 계산을 위해서 코사인 유사도 등을 계산을 해야한다.
- TF-IDF의 목적: 문서 -> 벡터로 만드는 것
- BM25는 문서, query가 변수로 들어가고 유사도가 결과로 나온다는 것에 유의
- BM25의 목적: 문서, query가 입력 -> 유사도(점수)가 결과로 나옴.

# BM25 vs TF-IDF
- 1. BM25는 TF-IDF에 비해서 IDF 값은 문서 빈도가 증가함에 따라 더욱 급격히 감소시키고 심지어 음의 값을 갖게 만든다.
- 2. BM25는 TF-IDF에 비해서 TF 관련 term의 경우, 용어 카운트가 늘어남에 따라 증가하는 정도를 saturation(만족, 수렴) 시켰다. -> 너무 극단적으로 급증하는 값을 완화함.
- 3. BM25는 TF-IDF에 비해서 문서 길이가 늘어남에 따라 같은 용어 카운트에 대해 score가 감소하는 폭을 완화함.
- TF-IDF는 벡터 형태로 나오는 것에 반해 BM25는 각 토큰들에 대해 계산한 점수를 합하므로 위와 같은 방식을 통해 구해진 각 토큰의 점수를 취합하여 쿼리-문서의 매칭 정도를 나타내는 방식이라고 할 수 있음.