문서 표현 (Document Representation)

1. BoW (Bag of Words)

<img src="https://image.slidesharecdn.com/vector-space-models-170118145044/95/cs571-vector-space-models-3-638.jpg?cb=1485433004" />

https://en.wikipedia.org/wiki/Bag-of-words_model
https://www.slideshare.net/jchoi7s/cs571-vector-space-models

1.1 직접구현

In [2]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

##### 1) 띄어쓰기 단위로 토큰화

In [3]:
doc_ls = [doc.split() for doc in docs]
doc_ls

#'docs'를 공백을 기준으로 분할하여 단어 단위로 분리한 후, 그 결과를 리스트에 저장
#'docs_ls'는 2차원 리스트로 구성. 각 문서에 대한 단어 목록을 요소로 가짐

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

##### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [4]:
from collections import defaultdict

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc ]     
word2id   

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

##### 3) BoW 생성

In [5]:
import numpy as np 

BoW_ls = [] #각 문서에 대한 BoW 벡터(=단어의 출현 빈도)를 저장하는 리스트

for i, doc in enumerate(doc_ls):
  bow = np.zeros(len(word2id), dtype=int) #단어 개수만큼의 0으로 초기하된 배열 생성
  for token in doc:
      bow[word2id[token]] += 1 #해당 단어의 인덱스를 찾고, BoW 벡터에서 해당 위치의 값을 1 증가
  BoW_ls.append(bow.tolist())
BoW_ls

[[1, 1, 1, 1, 0, 0, 0, 0], [1, 1, 0, 2, 1, 0, 0, 0], [0, 1, 0, 0, 0, 1, 2, 1]]

In [6]:
#BoW 벡터를 df로 변환하여 출력

from IPython.core import display as ICD
import pandas as pd

sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]
for i in range(len(docs)) :
  print("문서{} : {}".format(i, docs[i]))
  ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))
  print("\n\n")

문서0 : 오늘 동물원에서 원숭이를 봤어


  ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,1,1,1,1,0,0,0,0





문서1 : 오늘 동물원에서 코끼리를 봤어 봤어


  ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,1,1,0,2,1,0,0,0





문서2 : 동물원에서 원숭이에게 바나나를 줬어 바나나를


  ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,0,1,0,0,0,1,2,1









---





1.2 단어 순서를 고려하지 않은 BoW

In [7]:
docs = ['나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
        '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해']

#의미상으론 정반대되는 문장이지만 BoW로 만들어 count하면 문장으로 인식 => BoW의 한계

##### 1) 띄어쓰기 단위로 토큰화

In [8]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '치킨을', '싫어해'],
 ['나는', '후라이드', '치킨을', '좋아해', '하지만', '양념', '치킨을', '싫어해']]

##### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [9]:
from collections import defaultdict #존재하지 않는 키에 대한 기본값(default value)을 설정

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc ]
word2id

#defaultdict를 사용하여 단어를 고유한 인덱스로 매핑하는 딕셔너리 word2id 생성
#단어가 인덱스로 매핑되어 있고, 각 단어는 고유한 인덱스를 가지게 됨

defaultdict(<function __main__.<lambda>()>,
            {'나는': 0,
             '양념': 1,
             '치킨을': 2,
             '좋아해': 3,
             '하지만': 4,
             '후라이드': 5,
             '싫어해': 6})

##### 3) BoW 생성

In [10]:
import numpy as np 

BoW_ls = []

for i, doc in enumerate(doc_ls):
  bow = np.zeros(len(word2id), dtype=int)
  for token in doc:
      bow[word2id[token]] += 1 #해당 토큰의 위치(column)
  BoW_ls.append(bow.tolist())
BoW_ls

[[1, 1, 2, 1, 1, 1, 1], [1, 1, 2, 1, 1, 1, 1]]

In [11]:
from IPython.core import display as ICD

sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]
for i in range(len(docs)) :
  print("문서{} : {}".format(i, docs[i]))
  ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))
  print("\n\n")

문서0 : 나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해


  ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))


Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
0,1,1,2,1,1,1,1





문서1 : 나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해


  ICD.display(pd.DataFrame([BoW_ls[i]], columns=vocab))


Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
0,1,1,2,1,1,1,1









---



https://en.wikipedia.org/wiki/Document-term_matrix

1.3 sklearn 활용

In [12]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [15]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)

BoW.toarray()[0]

array([1, 0, 1, 1, 1, 0, 0, 0], dtype=int64)

In [None]:
# CountVectorizer?

Object `CountVectorizer` not found.


In [None]:
from IPython.core import display as ICD

vocab = count_vect.get_feature_names_out()
for i in range(len(docs)) :
  print("문서{} : {}".format(i, docs[i]))
  ICD.display(pd.DataFrame([BoW.toarray()[i]], columns=vocab))
  print("\n\n")

#CounterVectorizer를 사용하여 문서 집합(docs)에 대한 BoW 생성
#CounterVectorizer: 각 문서를 토큰화하고, 단어의 출현 빈도를 세어 BoW 벡터를 생성 (벡터의 각 요소는 해당 단어의 출현 빈도를 나타냄)
#BoW.toarray()[0]: BoW 행렬에서 첫 번째 문서에 대한 BoW 벡터를 가져옴

  ICD.display(pd.DataFrame([BoW.toarray()[i]], columns=vocab))


문서0 : 오늘 동물원에서 원숭이를 봤어


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,0,1,1,1,0,0,0





문서1 : 오늘 동물원에서 코끼리를 봤어 봤어


  ICD.display(pd.DataFrame([BoW.toarray()[i]], columns=vocab))


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,0,2,1,0,0,0,1





문서2 : 동물원에서 원숭이에게 바나나를 줬어 바나나를


  ICD.display(pd.DataFrame([BoW.toarray()[i]], columns=vocab))


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,2,0,0,0,1,1,0







1.4 gensim 활용

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [None]:
#gensim 라이브러리를 사용하여 문서 집합(docs)에 대한 BoW 생성

import gensim
import numpy as np
from gensim import corpora

doc_ls = [doc.split() for doc in docs] #문서집합(docs_ls)을 단어 리스트로 분할
id2word = corpora.Dictionary(doc_ls) #corpora.Dictionary를 사용하여 단어들의 사전(id2word) 생성

BoW = [id2word.doc2bow(doc) for doc in doc_ls]
BoW[0]

[(0, 1), (1, 1), (2, 1), (3, 1)]

In [None]:
id2word[5]

'바나나를'

In [None]:
from gensim.matutils import sparse2full
from IPython.core import display as ICD

vocab = [id2word[i] for i in id2word.keys()]
for i in range(len(docs)) :
  print("문서{} : {}".format(i, docs[i]))
  ICD.display(pd.DataFrame([sparse2full(BoW[0], len(vocab))], columns=vocab))
  print("\n\n")

#sparse2full 함수를 사용하여 희소행렬(sparse matrix)인 BoW(Bag of Words)벡터 -> 밀집행렬(dense matrix)로 변환
#BoW 벡터의 각 요소=해당 단어의 출현 빈도, df의 각 열=단어 나타냄

문서0 : 오늘 동물원에서 원숭이를 봤어


  ICD.display(pd.DataFrame([sparse2full(BoW[0], len(vocab))], columns=vocab))


Unnamed: 0,동물원에서,봤어,오늘,원숭이를,코끼리를,바나나를,원숭이에게,줬어
0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0





문서1 : 오늘 동물원에서 코끼리를 봤어 봤어


  ICD.display(pd.DataFrame([sparse2full(BoW[0], len(vocab))], columns=vocab))


Unnamed: 0,동물원에서,봤어,오늘,원숭이를,코끼리를,바나나를,원숭이에게,줬어
0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0





문서2 : 동물원에서 원숭이에게 바나나를 줬어 바나나를


  ICD.display(pd.DataFrame([sparse2full(BoW[0], len(vocab))], columns=vocab))


Unnamed: 0,동물원에서,봤어,오늘,원숭이를,코끼리를,바나나를,원숭이에게,줬어
0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0







2. TDM(Term-Document Matrix)

2.1 직접구현

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

##### 1) 띄어쓰기 단위로 토큰화

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

##### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [None]:
from collections import defaultdict

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc ]     
word2id

#문서(doc_ls)를 토큰화하여 고유한 단어에 대해 인덱스 생성
#word2id: 각 단어에 대해 고유한 인덱스를 매핑하는 defaultdict (출력 시 각 단어에 대한 인덱스 확인 가능)

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

##### 3) TDM 생성

In [None]:
import numpy as np

TDM = np.zeros((len(word2id), len(doc_ls)), dtype=int) #모든 요소가 0인 행렬 생성
for i, doc in enumerate(doc_ls):
  for token in doc:
      TDM[word2id[token], i] += 1
TDM

#Term-Document Matrix(TDM) 생성
#TDM: 각 단어의 출현 빈도를 문서별로 나타내는 행렬. TDM의 각 요소=해당 단어가 해당 문서에 등장한 횟수

array([[1, 1, 0],
       [1, 1, 1],
       [1, 0, 0],
       [1, 2, 0],
       [0, 1, 0],
       [0, 0, 1],
       [0, 0, 2],
       [0, 0, 1]])

In [None]:
#TDM -> df 변환 후 '단어'를 인덱스로 설정

import pandas as pd

doc_names = ['문서'+ str(i) for i in range(len(doc_ls))]
sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]
df_TDM = pd.DataFrame(TDM, columns=doc_names) #TDM -> df. 열이름을 문서이름(doc_names)으로 설정
df_TDM['단어'] = vocab
df_TDM.set_index('단어') #'단어'열을 df의 인덱스로 설정

Unnamed: 0_level_0,문서0,문서1,문서2
단어,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
오늘,1,1,0
동물원에서,1,1,1
원숭이를,1,0,0
봤어,1,2,0
코끼리를,0,1,0
원숭이에게,0,0,1
바나나를,0,0,2
줬어,0,0,1


2.2 sklearn 활용

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
DTM = count_vect.fit_transform(docs)
DTM.toarray()

array([[1, 0, 1, 1, 1, 0, 0, 0],
       [1, 0, 2, 1, 0, 0, 0, 1],
       [1, 2, 0, 0, 0, 1, 1, 0]], dtype=int64)

In [None]:
import pandas as pd

doc_names = ['문서'+ str(i) for i in range(len(docs))]
vocab = count_vect.get_feature_names_out()
df_TDM = pd.DataFrame(DTM.toarray().T, columns=doc_names)
df_TDM['단어'] = vocab
df_TDM.set_index('단어')

Unnamed: 0_level_0,문서0,문서1,문서2
단어,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
동물원에서,1,1,1
바나나를,0,0,2
봤어,1,2,0
오늘,1,1,0
원숭이를,1,0,0
원숭이에게,0,0,1
줬어,0,0,1
코끼리를,0,1,0




---


2.3 gensim 활용

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [None]:
import gensim
from gensim import corpora

doc_ls = [doc.split() for doc in docs] #공백으로 토큰화
id2word = corpora.Dictionary(doc_ls)
TDM = [id2word.doc2bow(doc) for doc in doc_ls]
TDM

[[(0, 1), (1, 1), (2, 1), (3, 1)],
 [(0, 1), (1, 2), (2, 1), (4, 1)],
 [(0, 1), (5, 2), (6, 1), (7, 1)]]

In [None]:
import pandas as pd

doc_names = ['문서'+ str(i) for i in range(len(doc_ls))]
vocab = [id2word[i] for i in id2word.keys()]
DTM_matrix = [sparse2full(doc, len(vocab)).tolist() for doc in TDM]

df_TDM = pd.DataFrame(np.array(DTM_matrix, dtype=int).T, columns=doc_names)
df_TDM['단어'] = vocab
df_TDM.set_index('단어')

Unnamed: 0_level_0,문서0,문서1,문서2
단어,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
동물원에서,1,1,1
봤어,1,2,0
오늘,1,1,0
원숭이를,1,0,0
코끼리를,0,1,0
바나나를,0,0,2
원숭이에게,0,0,1
줬어,0,0,1


In [None]:
DTM_matrix #3개의 문서를 DTM_matrix로 만들어줌

[[1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0],
 [1.0, 2.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0],
 [1.0, 0.0, 0.0, 0.0, 0.0, 2.0, 1.0, 1.0]]