## Bag of Words

BoW는 자연어 처리(NLP)에서 **텍스트 데이터를 숫자 형태**로 표현하는 간단하면서도 효과적인 방법 중 하나입니다. 이 방식은 텍스트를 단어의 집합으로 간주하며, **단어의 순서나 문법적 구조는 무시**하고 단어의 출현 빈도에 초점을 맞춥니다.

다음과 같은 세 개의 문장이 있다고 가정해 보겠습니다.

- I love natural language processing
- I love popcorn
- I enjoy cooking

위 문장의 **단어 사전**은 다음과 같이 생성됩니다.

`["I", "love", "natural", "language", "processing", "popcorn", "enjoy", "cooking"]`

각 문장을 BoW로 표현하면,

- `I love natural language processing` ⇒ **[1, 1, 1, 1, 1, 0, 0, 0]
⇒** "I", "love", "natural", "language", "processing" 각각 1번씩 등장
- `I love popcorn` ⇒ **[1, 1, 0, 0, 0, 1, 0, 0]**
⇒ "I", "love", "popcorn" 각각 1번씩 등장
- `I enjoy cooking` ⇒ **[1, 0, 0, 0, 0, 0, 1, 1]
⇒** "I", "enjoy", "cooking" 각각 1번씩 등장

### BoW의 장점

- 구현이 간단하고 이해하기 쉽습니다.
- 텍스트 데이터를 수치적으로 표현할 수 있어 머신러닝 모델에 적용하기 용이합니다.

### BoW의 단점

- **단어의 순서와 문맥 정보가 무시**됩니다.
- 희소 행렬 문제가 발생할 수 있습니다.(단어 사전이 커지면 벡터의 차원이 매우 커짐).
- 불용어(stopwords)나 동의어 처리 등에 대한 추가 작업이 필요합니다.

### 한계점

- **단어 순서 무시** : BoW는 텍스트를 단어의 집합으로 간주하여 단어의 순서를 완전히 무시합니다. 이로 인해 "나는 너를 좋아한다"와 "너는 나를 좋아한다"와 같은 문장이 동일하게 처리될 수 있습니다. 단어 순서가 중요한 경우(예: 문맥, 구문 구조) 정보 손실이 발생합니다.
- **의미 정보 손실** : BoW는 단어의 형태만을 고려하고, 단어 간의 의미적 관계나 문맥을 반영하지 않습니다. 예를 들어, "강아지"와 "개"가 유사한 의미를 가지더라도 BoW는 이를 다른 특성으로 처리합니다.
- **희소성 문제(Sparsity)** : BoW는 단어의 존재 여부만을 고려하므로, 대부분의 문서에서 대부분의 단어가 등장하지 않아 벡터가 매우 희소(sparse)해집니다. 이는 고차원의 데이터를 생성하며, 메모리와 계산 비용이 증가할 수 있습니다.
- **단어 중요도 반영 부족** : BoW는 모든 단어를 동일한 중요도로 취급합니다. 그러나 실제로는 특정 단어가 문서의 의미를 더 잘 나타낼 수 있습니다(예: "the", "is"와 같은 불용어는 중요도가 낮음). 이를 보완하기 위해 TF-IDF와 같은 가중치 기법이 사용되기도 하지만, BoW 자체는 이를 고려하지 않습니다.
- **동음이의어 및 다의어 문제** : BoW는 단어의 의미를 구분하지 않습니다. 예를 들어, "bank"라는 단어는 "은행"과 "강둑"이라는 두 가지 의미를 가지지만, BoW는 이를 동일한 특성으로 처리합니다.
- **문서 길이에 대한 민감성** : BoW는 문서의 길이에 영향을 받습니다. 긴 문서는 더 많은 단어를 포함할 가능성이 높아 벡터의 크기가 커지고, 짧은 문서와의 비교가 어려울 수 있습니다.
- **확장성 문제** : 단어 집합(vocabulary)이 커질수록 벡터의 차원이 급격히 증가하며, 이는 계산 복잡성과 저장 공간 문제를 야기할 수 있습니다.

In [1]:
class BagOfWords:
    def __init__(self):
        self.vocabulary = {}  # 단어 사전 (단어: 인덱스)
        self.bow_vectors = []  # BoW 벡터 리스트
        self.sentences = []  # 입력된 문장 저장

    def add_sentence(self, sentence):
        """
        새로운 문장을 추가하고 단어 사전과 BoW 벡터를 업데이트합니다.
        """
        self.sentences.append(sentence)
        words = sentence.split()

        # 단어 사전 업데이트
        for word in words:
            if word not in self.vocabulary:
                self.vocabulary[word] = len(
                    self.vocabulary
                )  # 새로운 단어에 인덱스 부여

        # 기존 BoW 벡터 업데이트
        for i in range(len(self.bow_vectors)):
            vector = self.bow_vectors[i]
            while len(vector) < len(
                self.vocabulary
            ):  # 새로운 단어가 추가되면 0으로 채움
                vector.append(0)

        # 새로운 문장에 대한 BoW 벡터 생성
        new_vector = [0] * len(self.vocabulary)
        for word in words:
            if word in self.vocabulary:
                new_vector[self.vocabulary[word]] += 1
        self.bow_vectors.append(new_vector)

    @property
    def current_vocabulary(self):
        """
        현재 단어 사전을 반환합니다.
        """
        return self.vocabulary

    @property
    def current_vectors(self):
        """
        현재까지의 BoW 벡터를 반환합니다.
        """
        return self.bow_vectors

    def __str__(self):
        """
        현재 상태를 문자열로 출력합니다.
        """
        return f"Vocabulary: {self.vocabulary}\nBoW Vectors: {self.bow_vectors}"

In [2]:
# BoW 객체 생성
bow = BagOfWords()

In [3]:
# 문장 추가
bow.add_sentence("I love natural language processing")
bow.add_sentence("I love popcorn")
bow.add_sentence("I enjoy cooking")

# 현재 상태 출력
print(bow)

Vocabulary: {'I': 0, 'love': 1, 'natural': 2, 'language': 3, 'processing': 4, 'popcorn': 5, 'enjoy': 6, 'cooking': 7}
BoW Vectors: [[1, 1, 1, 1, 1, 0, 0, 0], [1, 1, 0, 0, 0, 1, 0, 0], [1, 0, 0, 0, 0, 0, 1, 1]]


In [4]:
# 새로운 문장 추가
bow.add_sentence("I love deep learning")

# 업데이트된 상태 출력
print("\n새로운 문장 추가 후:")
print(bow)


새로운 문장 추가 후:
Vocabulary: {'I': 0, 'love': 1, 'natural': 2, 'language': 3, 'processing': 4, 'popcorn': 5, 'enjoy': 6, 'cooking': 7, 'deep': 8, 'learning': 9}
BoW Vectors: [[1, 1, 1, 1, 1, 0, 0, 0, 0, 0], [1, 1, 0, 0, 0, 1, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 1, 1, 0, 0], [1, 1, 0, 0, 0, 0, 0, 0, 1, 1]]


In [5]:
# Vocabulary와 Vectors를 별도로 확인
print("\nCurrent Vocabulary:")
print(bow.current_vocabulary)

print("\nCurrent Vectors:")
print(bow.current_vectors)


Current Vocabulary:
{'I': 0, 'love': 1, 'natural': 2, 'language': 3, 'processing': 4, 'popcorn': 5, 'enjoy': 6, 'cooking': 7, 'deep': 8, 'learning': 9}

Current Vectors:
[[1, 1, 1, 1, 1, 0, 0, 0, 0, 0], [1, 1, 0, 0, 0, 1, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 1, 1, 0, 0], [1, 1, 0, 0, 0, 0, 0, 0, 1, 1]]
