### BoW (Bag of Words)

- 다음과 같이 세 개의 문서가 존재한다고 가정.

   - 문서 1: "컴퓨터가 좋아요"
   - 문서 2: "컴퓨터가 좋아요, 좋아요."
   - 문서 3: "컴퓨터가 싫어요."

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

documents = [
    '컴퓨터가 좋아요.',
    '컴퓨터가 좋아요, 좋아요.',
    '컴퓨터가 싫어요.'
]
vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도 수를 기록
print(vector.fit_transform(documents).toarray())
# 각 단어 별로 인덱스 확인
print(vector.vocabulary_)

[[0 1 1]
 [0 2 1]
 [1 0 1]]
{'컴퓨터가': 2, '좋아요': 1, '싫어요': 0}


### 유클리드 거리 계산 예시 1)
- 다음과 같이 세 개의 문서가 존재한다고 가정합시다.
  - 문서 1: "컴퓨터가 좋아요"
  - 문서 2: "컴퓨터가 좋아요, 좋아요."
  - 문서 3: "컴퓨터가 싫어요."

- 유클리드 거리 계산 예시
  - 유클리드 거리의 값이 작을수록 유사하다는 의미입니다.

In [2]:
from numpy.linalg import norm
import numpy as np

def euclidean_distance(A, B):
    return np.linalg.norm(A - B)

document_1 = np.array([1, 1, 0])
document_2 = np.array([1, 2, 0])
document_3 = np.array([1, 0, 1])

# 문서 1과 문서 2의 유클리드 거리 출력
print(euclidean_distance(document_1, document_2))
# 문서 1과 문서 3의 유클리드 거리 출력
print(euclidean_distance(document_1, document_3))

1.0
1.4142135623730951


### 유클리드 거리 계산 예시 2)
- 다음과 같이 세 개의 문서가 존재한다고 가정.
  - 문서 1: "컴퓨터가 좋아요"
  - 문서 2: "컴퓨터가 좋아요, 컴퓨터가 좋아요, 컴퓨터가 좋아요."
  - 문서 3: "컴퓨터가 싫어요."

- 유클리드 거리 계산 예시
  - 결과가 작을수록 유사하다는 의미.

- 본 예시에서는 유클리드 거리를 이용하는 것이 좋지 않은 결과를 보이고 있음.

In [5]:
from numpy.linalg import norm
import numpy as np

def euclidean_distance(A, B):
    return np.linalg.norm(A - B)

document_1 = np.array([1, 1, 0])
document_2 = np.array([3, 3, 0])
document_3 = np.array([1, 0, 1])

# 문서 1과 문서 2의 유클리드 거리 출력
print(euclidean_distance(document_1, document_2))
# 문서 1과 문서 3의 유클리드 거리 출력
print(euclidean_distance(document_1, document_3))


2.8284271247461903
1.4142135623730951


### 코사인 유사도
- 다음과 같이 세 개의 문서가 존재한다고 가정합시다.
  - 문서 1: "컴퓨터가 좋아요"
  - 문서 2: "컴퓨터가 좋아요, 컴퓨터가 좋아요, 컴퓨터가 좋아요."
  - 문서 3: "컴퓨터가 싫어요."

- 코사인 유사도 계산 예시
- 결과가 1에 가까울 수록 유사하다는 의미입니다.


In [6]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cosine_similarity(A, B):
    return dot(A, B) / (norm(A) * norm(B))

document_1 = np.array([1, 1, 0])
document_2 = np.array([3, 3, 0])
document_3 = np.array([1, 0, 1])

# 문서 1과 문서 2의 코사인 유사도 출력
print(cosine_similarity(document_1, document_2))
# 문서 1과 문서 3의 코사인 유사도 출력
print(cosine_similarity(document_1, document_3))

1.0
0.4999999999999999


### TF-IDF

In [7]:
import pandas as pd
from math import log

documents = [
  '자연어 좋아요 자연어 처리 배울래요',
  '이미지 처리 좋아요 나머진 흥미 없어요',
  '저는 쉴래요'
]

# 전체적으로 어떤 단어들이 존재하는지 확인
voca = list(set(w for documents in documents for w in documents.split()))
voca.sort()
print(voca)

['나머진', '배울래요', '쉴래요', '없어요', '이미지', '자연어', '저는', '좋아요', '처리', '흥미']


In [8]:
# 전체 문서의 수
n = len(documents)

# TF: 특정한 문서 d에서의 특정 단어 t의 등장 횟수
def tf(d, t):
    return d.count(t)

# DF: 특정한 단어 t가 등장한 문서의 수
def df(t):
    result = 0
    for document in documents:
        result += t in document
    return result

# IDF (Inverse Document Frequency)
def idf(t):
    return log(n / (df(t) + 1))

# TF-IDF
def tf_idf(d, t):
    return tf(d, t) * idf(t)


In [9]:
result = []

# 모든 문서에 대해서
for d in documents:
    result.append([]) # TF 결과를 담을 리스트
    for t in voca:
        result[-1].append(tf(d, t))

tf_ = pd.DataFrame(result, columns=voca)
tf_

Unnamed: 0,나머진,배울래요,쉴래요,없어요,이미지,자연어,저는,좋아요,처리,흥미
0,0,1,0,0,0,2,0,1,1,0
1,1,0,0,1,1,0,0,1,1,1
2,0,0,1,0,0,0,1,0,0,0


In [10]:
result = []

# 모든 단어에 대해서
for t in voca:
    result.append(idf(t)) # IDF 결과를 담을 리스트

idf_ = pd.DataFrame(result, index=voca, columns=["IDF"])
idf_

Unnamed: 0,IDF
나머진,0.405465
배울래요,0.405465
쉴래요,0.405465
없어요,0.405465
이미지,0.405465
자연어,0.405465
저는,0.405465
좋아요,0.0
처리,0.0
흥미,0.405465


In [11]:
result = []

# 모든 문서에 대해서
for d in documents:
    result.append([])
    for t in voca:
        result[-1].append(tf_idf(d, t)) # TF-IDF 결과를 담을 리스트

tf_idf_ = pd.DataFrame(result, columns = voca)
tf_idf_

Unnamed: 0,나머진,배울래요,쉴래요,없어요,이미지,자연어,저는,좋아요,처리,흥미
0,0.0,0.405465,0.0,0.0,0.0,0.81093,0.0,0.0,0.0,0.0
1,0.405465,0.0,0.0,0.405465,0.405465,0.0,0.0,0.0,0.0,0.405465
2,0.0,0.0,0.405465,0.0,0.0,0.0,0.405465,0.0,0.0,0.0
