# 문서 표현 (Document Representation)

# 1 BoW (Bag of Words)

<img src="https://image.slidesharecdn.com/vector-space-models-170118145044/95/cs571-vector-space-models-3-638.jpg?cb=1485433004" />

https://en.wikipedia.org/wiki/Bag-of-words_model
https://www.slideshare.net/jchoi7s/cs571-vector-space-models

## 1.1 직접구현

In [1]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

### 1) 띄어쓰기 단위로 토큰화

In [2]:
doc_ls = [d.split() for d in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [3]:
from collections import defaultdict

word2id = defaultdict(lambda:len(word2id))
[word2id[t] for d in doc_ls for t in d]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

### 3) BoW 생성

In [4]:
import numpy as np

bow_ls = []

for i, d in enumerate(doc_ls) :
  bow = np.zeros(len(word2id), dtype=int)
  for t in d :
    bow[word2id[t]] += 1
  bow_ls.append(bow.tolist())

In [5]:
bow_ls

[[1, 1, 1, 1, 0, 0, 0, 0], [1, 1, 0, 2, 1, 0, 0, 0], [0, 1, 0, 0, 0, 1, 2, 1]]



---





## 1.2 단어 순서를 고려하지 않은 BoW

In [6]:
docs = ['나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
        '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해']

### 1) 띄어쓰기 단위로 토큰화

In [7]:
doc_ls = [d.split() for d in docs]
doc_ls

[['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '치킨을', '싫어해'],
 ['나는', '후라이드', '치킨을', '좋아해', '하지만', '양념', '치킨을', '싫어해']]

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [8]:
from collections import defaultdict

word2id = defaultdict(lambda:len(word2id))
[word2id[t] for d in doc_ls for t in d]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'나는': 0,
             '양념': 1,
             '치킨을': 2,
             '좋아해': 3,
             '하지만': 4,
             '후라이드': 5,
             '싫어해': 6})

### 3) BoW 생성

In [9]:
import numpy as np

bow_ls = []

for i, d in enumerate(doc_ls) :
  bow = np.zeros(len(word2id), dtype=int)
  for t in d :
    bow[word2id[t]] += 1
  bow_ls.append(bow.tolist())

In [10]:
bow_ls

[[1, 1, 2, 1, 1, 1, 1], [1, 1, 2, 1, 1, 1, 1]]



---



https://en.wikipedia.org/wiki/Document-term_matrix

## 1.3 sklearn 활용

In [11]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)

In [13]:
BoW.toarray()

array([[1, 0, 1, 1, 1, 0, 0, 0],
       [1, 0, 2, 1, 0, 0, 0, 1],
       [1, 2, 0, 0, 0, 1, 1, 0]], dtype=int64)

In [14]:
count_vect.vocabulary_

{'오늘': 3,
 '동물원에서': 0,
 '원숭이를': 4,
 '봤어': 2,
 '코끼리를': 7,
 '원숭이에게': 5,
 '바나나를': 1,
 '줬어': 6}



---


## 1.4 gensim 활용

In [15]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [16]:
import gensim
from gensim import corpora

doc_ls = [d.split() for d in docs]
id2word = corpora.Dictionary(doc_ls)
bow = [id2word.doc2bow(d) for d in doc_ls]

In [17]:
bow[2]

[(0, 1), (5, 2), (6, 1), (7, 1)]

In [18]:
id2word[5]

'바나나를'



---



# 2 TDM(Term-Document Matrix)

## 2.1 직접구현

In [19]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

### 1) 띄어쓰기 단위로 토큰화

In [20]:
doc_ls = [d.split() for d in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [21]:
from collections import defaultdict

word2id = defaultdict(lambda:len(word2id))
[word2id[t] for d in doc_ls for t in d]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

In [22]:
import numpy as np

TDM = np.zeros((len(word2id), len(doc_ls)), dtype=int)
for i, d in enumerate(doc_ls) :
  for t in d :
    TDM[word2id[t], i] += 1

In [23]:
TDM

array([[1, 1, 0],
       [1, 1, 1],
       [1, 0, 0],
       [1, 2, 0],
       [0, 1, 0],
       [0, 0, 1],
       [0, 0, 2],
       [0, 0, 1]])

## 2.2 sklearn 활용

In [24]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [25]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
DTM = count_vect.fit_transform(docs)

In [26]:
DTM.toarray()

array([[1, 0, 1, 1, 1, 0, 0, 0],
       [1, 0, 2, 1, 0, 0, 0, 1],
       [1, 2, 0, 0, 0, 1, 1, 0]], dtype=int64)



---


## 2.3 gensim 활용

In [27]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [28]:
import gensim
from gensim import corpora

doc_ls = [d.split() for d in docs]
id2word = corpora.Dictionary(doc_ls)
TDM = [id2word.doc2bow(d) for d in doc_ls]

In [29]:
TDM

[[(0, 1), (1, 1), (2, 1), (3, 1)],
 [(0, 1), (1, 2), (2, 1), (4, 1)],
 [(0, 1), (5, 2), (6, 1), (7, 1)]]

---