# Bag-of-Words(BoW)
자연어 처리(NLP)와 정보 검색(IR)에서 텍스트를 표현하는 매우 간단하면서도 효과적인 방법입니다. 이름에서 알 수 있듯이, BoW 모델은 텍스트(문서나 문장 등)를 단어의 순서나 문법 구조는 무시하고, 단어들의 집합(가방)으로 간주합니다. 즉, 어떤 단어가 몇 번 등장했는지만을 중요하게 생각합니다. BoW는 주로 텍스트 분류, 감성 분석, 스팸 메일 필터링 등 다양한 NLP 작업의 초기 단계에서 텍스트 데이터를 컴퓨터가 이해할 수 있는 숫자 형태의 벡터로 변환하는 데 사용됩니다.

In [46]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'He is a great great person.',
    'She is a great person.',
    'Python is a great programming language.',
    'Is Python a great great language?'
]

vectorizer = CountVectorizer()

bow_matrix = vectorizer.fit_transform(corpus)

In [47]:
vectorizer.vocabulary_

{'he': 1,
 'is': 2,
 'great': 0,
 'person': 4,
 'she': 7,
 'python': 6,
 'programming': 5,
 'language': 3}

In [48]:
bow_matrix

<4x8 sparse matrix of type '<class 'numpy.int64'>'
	with 17 stored elements in Compressed Sparse Row format>

In [49]:
bow_matrix.toarray()

array([[2, 1, 1, 0, 1, 0, 0, 0],
       [1, 0, 1, 0, 1, 0, 0, 1],
       [1, 0, 1, 1, 0, 1, 1, 0],
       [2, 0, 1, 1, 0, 0, 1, 0]], dtype=int64)

In [50]:
vectorizer.get_feature_names_out()

array(['great', 'he', 'is', 'language', 'person', 'programming', 'python',
       'she'], dtype=object)

In [51]:
import pandas as pd

pd.DataFrame(bow_matrix.toarray(), columns = vectorizer.get_feature_names_out())

Unnamed: 0,great,he,is,language,person,programming,python,she
0,2,1,1,0,1,0,0,0
1,1,0,1,0,1,0,0,1
2,1,0,1,1,0,1,1,0
3,2,0,1,1,0,0,1,0


In [52]:
df = pd.read_excel('text data.xlsx').dropna()
df

Unnamed: 0,document,label
0,그럭저럭 볼만한 영화였다,1
1,도대체 뭔 내용??-_-기대했는데 완전 기대이하,0
2,오로지 최우식 보고싶어서 갔는데 (지방에는 해주지 않아서 서울까지 가서 보고왔어요ㅠ...,1
3,차라리 아무 이유없이 죽여대는 싸이코 패스였으면 이해가 가겠음... 주인공이 어릴때...,0
4,아이고 하노이스~ 잔뜩 궁금증이 있을꺼 같은 냄새만 풍기고 아무것도 없었다. 영화요...,0
...,...,...
37532,조폭코미디 장르에서 이 정도면 수작,1
37533,김소현때문에봤다가 조수향한테입덕할뻔. 그그 시진이하고.... 연기너무잘해,1
37534,와우~~~~엄청난영화입니바,1
37535,80년대 한국을 대표하는 에로작,0


In [53]:
from konlpy.tag import Okt

okt = Okt()

def tokenize(text):
    return okt.morphs(text)

vectorizer = CountVectorizer(tokenizer=tokenize)

X = vectorizer.fit_transform(df['document'])
X



<37533x47758 sparse matrix of type '<class 'numpy.int64'>'
	with 496276 stored elements in Compressed Sparse Row format>

In [9]:
pd.DataFrame(X.toarray(), columns = vectorizer.get_feature_names_out())

Unnamed: 0,!,!!,!!!,!!!!,!!!!!,!!!!!!,!!!!!!!,!!!!!!!!,!!!!!!!!!,!!!!!!!!!!,...,流水,！,！宋慧,！！,＋,＼,～～,～～～,￣,￣∇￣
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
37528,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
37529,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
37530,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
37531,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [10]:
Y = df['label'].values
Y

array([1, 0, 1, ..., 1, 0, 0], dtype=int64)

In [11]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

train_x, test_x, train_y, test_y = train_test_split(X, Y)

model = RandomForestClassifier()
model.fit(train_x, train_y)

In [12]:
from sklearn.metrics import classification_report

pred = model.predict(test_x)

report = classification_report(test_y, pred)
print(report)

              precision    recall  f1-score   support

           0       0.79      0.82      0.80      4716
           1       0.81      0.77      0.79      4668

    accuracy                           0.80      9384
   macro avg       0.80      0.80      0.80      9384
weighted avg       0.80      0.80      0.80      9384



In [13]:
sentence = "이 영화는 너무 재미있었어!"
X_new = vectorizer.transform([sentence])
pred = model.predict(X_new)
print(f"Prediction for '{sentence}': {pred[0]}")

Prediction for '이 영화는 너무 재미있었어!': 1


In [14]:
sentence = "이 영화는 쓰레기야."
X_new = vectorizer.transform([sentence])
pred = model.predict(X_new)
print(f"Prediction for '{sentence}': {pred[0]}")

Prediction for '이 영화는 쓰레기야.': 0


## 한계점 개선 (n-gram)
"나는 너를 좋아하지 않아"와 "나는 너를 좋아해, 하지 않아?"는 완전히 다른 의미를 갖지만, 사용된 단어의 집합은 거의 동일하므로 BoW/TF-IDF 모델은 두 문장을 매우 유사하다고 판단할 수 있습니다. 이는 모델의 성능을 저하하는 주요 원인이 됩니다. 가장 간단하게 단어의 순서 정보를 일부 보존하는 방법은 n-gram을 사용하는 것입니다. n-gram은 연속된 n개의 단어를 하나의 토큰으로 취급하는 기법입니다.

In [15]:
corpus = [
    'He is a great person.',
    'Python is a great programming language.'
]

# 1. unigram (BoW와 동일)
unigram_vectorizer = CountVectorizer(ngram_range=(1, 1))
unigram_bow = unigram_vectorizer.fit_transform(corpus)
print(unigram_vectorizer.get_feature_names_out())

['great' 'he' 'is' 'language' 'person' 'programming' 'python']


In [16]:
# 2. bigram 적용
bigram_vectorizer = CountVectorizer(ngram_range=(2, 2))
bigram_bow = bigram_vectorizer.fit_transform(corpus)
print(bigram_vectorizer.get_feature_names_out())

['great person' 'great programming' 'he is' 'is great'
 'programming language' 'python is']


In [17]:
# 3. unigram + bigram 모두 사용
# ngram_range=(1, 2)는 unigram과 bigram을 모두 토큰으로 사용하겠다는 의미입니다.
# 이것이 가장 일반적으로 사용되는 방식입니다.
combined_vectorizer = CountVectorizer(ngram_range=(1, 2))
combined_bow = combined_vectorizer.fit_transform(corpus)
print("--- Unigram + Bigram Vocabulary ---")
print(combined_vectorizer.get_feature_names_out())

--- Unigram + Bigram Vocabulary ---
['great' 'great person' 'great programming' 'he' 'he is' 'is' 'is great'
 'language' 'person' 'programming' 'programming language' 'python'
 'python is']


## 한계점 개선 (Word Embedding)
의미적 유사성 문제를 해결하기 위한 근본적인 접근법은 ```단어 임베딩(Word Embedding)```입니다. 단어 임베딩은 각 단어를 고정된 크기의 ```밀집 벡터(dense vector)```로 표현하는 기법입니다. 이 벡터 공간에서는 의미가 비슷한 단어들이 서로 가까운 위치에 존재하게 됩니다. 대표적인 단어 임베딩 모델로는 Word2Vec, GloVe, FastText 등이 있습니다.

In [7]:
import numpy as np
from gensim.models import Word2Vec

# 1. 학습에 사용할 문장 데이터 (토큰화된 리스트의 리스트 형태)
corpus = [
    ['king', 'is', 'a', 'man'], ['queen', 'is', 'a', 'woman'],
    ['king', 'is', 'a', 'man'], ['queen', 'is', 'a', 'woman'],
    ['king', 'is', 'a', 'man'], ['queen', 'is', 'a', 'woman'],
    ['king', 'is', 'a', 'man'], ['queen', 'is', 'a', 'woman'],
    ['a', 'man', 'is', 'a', 'king'], ['a', 'woman', 'is', 'a', 'queen'],
    ['a', 'man', 'is', 'a', 'king'], ['a', 'woman', 'is', 'a', 'queen'],
    ['the', 'king', 'rules'], ['the', 'queen', 'rules'],
    ['the', 'king', 'rules'], ['the', 'queen', 'rules'],
    ['the', 'king', 'rules'], ['the', 'queen', 'rules'],
    ['a', 'wise', 'king'], ['a', 'wise', 'queen'],
    ['a', 'strong', 'king'], ['a', 'strong', 'queen'],
    ['a', 'king', 'is', 'a', 'royal', 'man'], ['a', 'queen', 'is', 'a', 'royal', 'woman'],
    ['the', 'king', 'has', 'a', 'prince'], ['the', 'queen', 'has', 'a', 'prince'],
    ['the', 'king', 'has', 'a', 'princess'], ['the', 'queen', 'has', 'a', 'princess'],
    ['prince', 'is', 'a', 'boy'], ['princess', 'is', 'a', 'girl'],
    ['a', 'boy', 'is', 'a', 'young', 'man'], ['a', 'girl', 'is', 'a', 'young', 'woman'],
    ['prince', 'is', 'a', 'son'], ['princess', 'is', 'a', 'daughter'],
    ['the', 'son', 'of', 'a', 'king', 'is', 'a', 'prince'],
    ['the', 'daughter', 'of', 'a', 'queen', 'is', 'a', 'princess'],
    ['the', 'son', 'is', 'a', 'man'], ['the', 'daughter', 'is', 'a', 'woman'],
    ['the', 'man', 'is', 'the', 'king'], ['the', 'woman', 'is', 'the', 'queen'],
    ['a', 'man', 'is', 'what', 'a', 'king', 'is'],
    ['a', 'woman', 'is', 'what', 'a', 'queen', 'is'],
    ['royalty', 'for', 'a', 'man', 'is', 'a', 'king'],
    ['royalty', 'for', 'a', 'woman', 'is', 'a', 'queen'],
    ['the', 'kingdom', 'has', 'a', 'king'], ['the', 'kingdom', 'has', 'a', 'queen'],
    ['the', 'kingdom', 'needs', 'a', 'king'], ['the', 'kingdom', 'needs', 'a', 'queen'],
    ['a', 'king', 'is', 'the', 'ruler'], ['a', 'queen', 'is', 'the', 'ruler'],
]

In [33]:
# 2. Word2Vec 모델 학습
# vector_size: 임베딩 벡터의 차원
# window: 주변 단어를 몇 개까지 볼 것인지 (window size)
# min_count: 최소 등장 횟수 (이 횟수 미만으로 등장한 단어는 무시)
# workers: 학습에 사용할 CPU 코어 수
model = Word2Vec(sentences=corpus, vector_size=10, window=5, min_count=1, epochs = 1000, sg=1, seed=42) # skip-gram

In [34]:
# 3. 학습된 단어 벡터 확인
print("--- 'king'의 단어 벡터 ---")
king_vector = model.wv['king']
print(king_vector)

--- 'king'의 단어 벡터 ---
[-0.44216254  0.19504175 -0.42383987  0.09220555  0.68053967  0.5175968
 -0.51968354  0.65223753 -0.21367037 -0.2569898 ]


In [35]:
# 4. 단어 간 유사도 계산
# 'king'과 가장 유사한 단어들을 찾아봅니다.
print("--- 'king'과 유사한 단어 ---")
similar_words = model.wv.most_similar('king')
print(similar_words)

--- 'king'과 유사한 단어 ---
[('queen', 0.9085333347320557), ('the', 0.811302661895752), ('son', 0.7719873189926147), ('a', 0.7299111485481262), ('daughter', 0.6984384655952454), ('boy', 0.6432107090950012), ('girl', 0.6373036503791809), ('wise', 0.6145596504211426), ('what', 0.603903591632843), ('prince', 0.60101717710495)]


In [36]:
# 5. 의미적 관계 추론
# 왕 - 남자 + 여자 ≈ ?
print("--- 의미 관계 추론: king - man + woman ---")
# topn=1은 가장 유사한 단어 1개만 보겠다는 의미
result = model.wv.most_similar(positive=['king', 'woman'], negative=['man'], topn=1)
print(result)

--- 의미 관계 추론: king - man + woman ---
[('queen', 0.8600576519966125)]


## 연습문제
1. 아래 new_corpus가 주어졌을 때, CountVectorizer를 사용하여 어휘 사전(vocabulary)을 만들고, 생성된 딕셔너리 형태의 어휘 사전을 화면에 출력하는 코드를 작성하세요.

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()

new_corpus = [
    'I love studying python.',
    'I hate studying bugs.',
    'Python is fun, python is easy.'
]

matrix = cv.fit_transform(new_corpus)
cv.vocabulary_

{'love': 5,
 'studying': 7,
 'python': 6,
 'hate': 3,
 'bugs': 0,
 'is': 4,
 'fun': 2,
 'easy': 1}

2. 문제 1에서 사용한 new_corpus와 CountVectorizer 객체를 이용하여, BoW 행렬을 만들고 pandas DataFrame으로 변환하여 출력하는 코드를 작성하세요.

In [5]:
cv.get_feature_names_out()

array(['bugs', 'easy', 'fun', 'hate', 'is', 'love', 'python', 'studying'],
      dtype=object)

In [6]:
import pandas as pd
A = matrix.toarray()
df2 = pd.DataFrame(A, columns = cv.get_feature_names_out())
df2

Unnamed: 0,bugs,easy,fun,hate,is,love,python,studying
0,0,0,0,0,0,1,1,1
1,1,0,0,1,0,0,0,1
2,0,1,1,0,2,0,2,0


3. 문제 2에서 생성한 DataFrame에서, 3번째 문서(index 2)에 있는 'python'이라는 단어의 등장 횟수(빈도수)를 선택하여 출력하는 코드를 작성하세요.

In [7]:
df2.iloc[2]['python']

2

4. konlpy.tag에 있는 다른 형태소 분석기인 Kkma를 사용하도록 CountVectorizer를 초기화하는 코드를 작성하세요.

In [9]:
from konlpy.tag import Okt, Kkma
import warnings

warnings.filterwarnings("ignore")

okt = Okt()

def tokenize(text):
    return okt.morphs(text)

cv = CountVectorizer(tokenizer=tokenize)
cv.fit_transform(new_corpus)

<3x11 sparse matrix of type '<class 'numpy.int64'>'
	with 16 stored elements in Compressed Sparse Row format>

5. 아래 new_sentence가 긍정(1)인지 부정(0)인지 예측하는 코드를 작성하고, 예측 결과(0 또는 1)를 출력하세요.

In [10]:
new_sentence = "배우들 연기가 정말 대단했어요. 몰입감이 최고입니다."

df = pd.read_excel('text data.xlsx').dropna()

cv = CountVectorizer(tokenizer=tokenize)
matrix = cv.fit_transform(df['document'])
matrix

<37533x47758 sparse matrix of type '<class 'numpy.int64'>'
	with 496276 stored elements in Compressed Sparse Row format>

In [15]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

Y = df['label'].values

train_x, test_x, train_y, test_y = train_test_split(matrix, Y)

model = RandomForestClassifier()
model.fit(train_x, train_y)

In [17]:
from sklearn.metrics import classification_report
pred = model.predict(test_x)
report = classification_report(test_y, pred)
print(report)

              precision    recall  f1-score   support

           0       0.77      0.84      0.81      4631
           1       0.83      0.76      0.79      4753

    accuracy                           0.80      9384
   macro avg       0.80      0.80      0.80      9384
weighted avg       0.80      0.80      0.80      9384



6. 아래 new_sentence가 긍정(1)인지 부정(0)인지 예측하는 코드를 작성하고, 예측 결과(0 또는 1)를 출력하세요.

In [18]:
new_sentence = "스토리가 너무 지루하고 돈이 아까웠다."
A = cv.transform([new_sentence])
model.predict(A)

array([0], dtype=int64)

7. 두 문장을 각각 BoW 벡터로 변환하고, 그 결과를 출력하세요.

In [20]:
sentence_neg = "나는 너를 좋아하지 않아"
sentence_pos = "나는 너를 좋아해, 하지 않아?"

box = [sentence_pos, sentence_neg]

cv = CountVectorizer(tokenizer=tokenize)
matrix = cv.fit_transform(box)
matrix.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 0, 1, 1],
       [0, 0, 1, 1, 1, 1, 1, 1, 0, 0]], dtype=int64)

8. 아래 딕셔너리(mini_data)를 pandas DataFrame으로 만든 후, CountVectorizer와 Okt 토크나이저를 사용하여 BoW 행렬(X)과 라벨(Y)로 변환하는 코드를 작성하고, 생성된 X 행렬의 shape과 Y 배열을 출력하세요.

In [25]:
mini_data = {
    'document': [
        '정말 최고의 영화',
        '배우 연기가 아쉬웠지만 스토리는 좋았다',
        '정말 최악의 영화'
    ],
    'label': [1, 1, 0]
}

df2 = pd.DataFrame(mini_data)

cv = CountVectorizer()
matrix = cv.fit_transform(df2['document'])

X = matrix
Y = df2['label'].values

X.shape, Y.shape

((3, 9), (3,))