# 문서 표현 (Document Representation)

# 1.BoW (Bag of Words)
<img src="https://image.slidesharecdn.com/vector-space-models-170118145044/95/cs571-vector-space-models-3-638.jpg?cb=1485433004" />

https://en.wikipedia.org/wiki/Bag-of-words_model
https://www.slideshare.net/jchoi7s/cs571-vector-space-models

## 1.1. 직접 구현

In [3]:
# corpus
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

### 1) 띄어쓰기 단위로 토큰화

In [4]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [None]:
# 어휘집 생성
from collections import defaultdict
word2id = defaultdict(lambda: len(word2id))
[word2id[token] for doc in doc_ls for token in doc]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

### 3) BoW 생성

In [None]:
import numpy as np
BoW_ls = [] 

# 말뭉치에서 문서 하나씩 꺼냄
for i, doc in enumerate(doc_ls):


    # 고유토큰 개수 크기의 1차원 배열 생성
    bow = np.zeros(len(word2id), dtype = int)

    # 각 문서마다 토큰 하나씩 꺼내옴
    for token in doc:
        bow[word2id[token]] += 1        # 어휘집에서 해당 토큰의 위치 (= column)

    BoW_ls.append(bow.tolist())

BoW_ls

[[1, 1, 1, 1, 0, 0, 0, 0], [1, 1, 0, 2, 1, 0, 0, 0], [0, 1, 0, 0, 0, 1, 2, 1]]

In [21]:
from IPython.display import display
import pandas as pd

vocab = list(word2id.keys())
vocab

['오늘', '동물원에서', '원숭이를', '봤어', '코끼리를', '원숭이에게', '바나나를', '줬어']

In [20]:
for i in range(len(docs)):
    print("{}:{}".format(i,docs[i]))

    # 각 문서의 bow 출력
    display(pd.DataFrame([BoW_ls[i]], columns=vocab))
    print('\n\n')

0:오늘 동물원에서 원숭이를 봤어


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,1,1,1,1,0,0,0,0





1:오늘 동물원에서 코끼리를 봤어 봤어


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,1,1,0,2,1,0,0,0





2:동물원에서 원숭이에게 바나나를 줬어 바나나를


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,0,1,0,0,0,1,2,1







## 1.2. sklearn 활용


In [41]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [24]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)

print(BoW.toarray())

[[1 0 1 1 1 0 0 0]
 [1 0 2 1 0 0 0 1]
 [1 2 0 0 0 1 1 0]]


In [25]:
from IPython.display import display

# 어휘집 생성
vocab = count_vect.get_feature_names_out()
print(vocab)

['동물원에서' '바나나를' '봤어' '오늘' '원숭이를' '원숭이에게' '줬어' '코끼리를']


In [None]:
# 각 문서별로 df 생성

for i in range(len(docs)):
    print ( "{}:{}".format(i,   docs[i]))

    display(pd.DataFrame   , columns=vocab)
    print("\n\n")

AttributeError: 'int' object has no attribute 'docs'

## 1.3. gensim 활용

In [5]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [28]:
! pip install gensim

Collecting gensim
  Downloading gensim-4.3.3-cp310-cp310-macosx_11_0_arm64.whl.metadata (8.2 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp310-cp310-macosx_11_0_arm64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp310-cp310-macosx_12_0_arm64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Downloading smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Collecting wrapt (from smart-open>=1.8.1->gensim)
  Downloading wrapt-1.17.0-cp310-cp310-macosx_11_0_arm64.whl.metadata (6.4 kB)
Downloading gensim-4.3.3-cp310-cp310-macosx_11_0_arm64.whl (24.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.0/24.0 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading numpy-1.26.4-cp310-cp310-macosx_11_0_arm64.whl (14.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.0/14.0 MB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[

In [None]:
import gensim
import numpy as np
from gensim import corpora

In [6]:
# 각 문서마다 토큰화
doc_ls = [doc.split() for doc in docs]
print(doc_ls)

[['오늘', '동물원에서', '원숭이를', '봤어'], ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'], ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]


In [8]:
# 어휘집 생성
id2word = corpora.Dictionary(doc_ls)
print(type(id2word))
print(id2word)
print(dict(id2word))

<class 'gensim.corpora.dictionary.Dictionary'>
Dictionary<8 unique tokens: ['동물원에서', '봤어', '오늘', '원숭이를', '코끼리를']...>
{0: '동물원에서', 1: '봤어', 2: '오늘', 3: '원숭이를', 4: '코끼리를', 5: '바나나를', 6: '원숭이에게', 7: '줬어'}


In [9]:
# test
# 2: '오늘'토큰의 인덱스 번호, 1: '오늘'토큰의 빈도 수
id2word.doc2bow(['오늘'])

[(2, 1)]

In [10]:
BoW = [id2word.doc2bow(doc) for doc in doc_ls]
print(BoW)

[[(0, 1), (1, 1), (2, 1), (3, 1)], [(0, 1), (1, 2), (2, 1), (4, 1)], [(0, 1), (5, 2), (6, 1), (7, 1)]]


In [12]:
from gensim.matutils import sparse2full
from IPython.display import display

# df에서 column 명으로 쓸 어휘집 생성
vocab = list(id2word.values())
print(vocab)
print(dict(id2word))

['동물원에서', '봤어', '오늘', '원숭이를', '코끼리를', '바나나를', '원숭이에게', '줬어']
{0: '동물원에서', 1: '봤어', 2: '오늘', 3: '원숭이를', 4: '코끼리를', 5: '바나나를', 6: '원숭이에게', 7: '줬어'}


sparse2full 함수의 역할: 밀집 벡터로의 변환
- 입력: 희소 표현의 벡터와 전체 벡터의 길이.
  - BoW[i]: 희소 벡터 (예: 특정 위치에 값이 존재하는 리스트 또는 배열).
  - len(vocab): 전체 벡터의 길이 (이 벡터가 몇 개의 요소를 가져야 하는지).

In [None]:
# 각 문서별로 df화 

print(BoW[0])                        # 첫 번째 문서의 BoW 확인
sparse2full(BoW[0], len(vocab))      # 첫 번째 문서의 밀집 벡터

[(0, 1), (1, 1), (2, 1), (3, 1)]


array([1., 1., 1., 1., 0., 0., 0., 0.], dtype=float32)

In [15]:
import pandas as pd

for i in range(len(docs)):
    print ( "{}:{}".format(i, docs[i]))

    display(pd.DataFrame([sparse2full(BoW[i], len(vocab))]) , columns=vocab)
    print("\n\n")

0:오늘 동물원에서 원숭이를 봤어


TypeError: ZMQDisplayPublisher.publish() got an unexpected keyword argument 'columns'

# 2.DTM (Document-Term Matrix)

## 2.1. 직접 구현

In [61]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

### 1) 띄어쓰기 단위로 토큰화

In [16]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

### 2) 각 고유 토큰에 index 설정

In [17]:
# 어휘집 생성
from collections import defaultdict

word2id = defaultdict(lambda: len(word2id))

[word2id[token] for doc in doc_ls for token in doc]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

### 3) DTM 생성

In [None]:
import numpy as np

# 빈 벡터행렬 생성 
DTM = np.zeros((len(doc_ls), len(word2id)), dtype=int)


# 문서별 단어 (토큰) 빈도 계산
for i, doc in enumerate(doc_ls):
    for token in doc:
        # 문서별 해당 토큰 위치에 +1
        DTM[i, word2id[token]] += 1         # 해당 문서(i)에 해당되는 토큰의 위치(column)에 값을 등가시킴

# 결과 출력
print("Word2ID mapping:", dict(word2id))
print("Document-Term Matrix (DTM):\n", DTM)

Word2ID mapping: {'오늘': 0, '동물원에서': 1, '원숭이를': 2, '봤어': 3, '코끼리를': 4, '원숭이에게': 5, '바나나를': 6, '줬어': 7}
Document-Term Matrix (DTM):
 [[1 1 1 1 0 0 0 0]
 [1 1 0 2 1 0 0 0]
 [0 1 0 0 0 1 2 1]]


In [22]:
import pandas as pd

# 문서 이름 리스트
doc_names = ['문서' + str(i+1) for i in range(len(docs))]
doc_names

# 어휘집 (칼럼명으로 쓸 어휘집)
vocab = list(word2id.keys())
vocab

# df 생성
df_DTM = pd.DataFrame(DTM, index=doc_names, columns=vocab)
df_DTM

Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
문서1,1,1,1,1,0,0,0,0
문서2,1,1,0,2,1,0,0,0
문서3,0,1,0,0,0,1,2,1


## 2.2. sklearn 활용

In [23]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [28]:
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
DTM = count_vect.fit_transform(docs)
DTM.toarray()

array([[1, 0, 1, 1, 1, 0, 0, 0],
       [1, 0, 2, 1, 0, 0, 0, 1],
       [1, 2, 0, 0, 0, 1, 1, 0]])

In [30]:
import pandas as pd

# 문서 이름 리스트 (행 인덱스)
doc_names = ['문서' + str(i+1) for i in range(len(docs))]
doc_names

# 단어 사전의 인덱스를 기준으로 정렬된 단어 리스트 생성
vocab = count_vect.get_feature_names_out()
vocab

# DTM 행렬을 데이터프레임으로 변환
df_DTM = pd.DataFrame(DTM.toarray(), index=doc_names, columns=vocab)

# 결과 출력
display(df_DTM)


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
문서1,1,0,1,1,1,0,0,0
문서2,1,0,2,1,0,0,0,1
문서3,1,2,0,0,0,1,1,0


## 2.3. gensim 활용

In [31]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [32]:
import gensim
from gensim import corpora
import numpy as np
import pandas as pd

# 1. 문서를 공백으로 토큰화
doc_ls = [doc.split() for doc in docs]
print(doc_ls)

[['오늘', '동물원에서', '원숭이를', '봤어'], ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'], ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]


In [33]:
# 2. Gensim의 사전을 생성
id2word = corpora.Dictionary(doc_ls)
print(id2word)
print(dict(id2word))

Dictionary<8 unique tokens: ['동물원에서', '봤어', '오늘', '원숭이를', '코끼리를']...>
{0: '동물원에서', 1: '봤어', 2: '오늘', 3: '원숭이를', 4: '코끼리를', 5: '바나나를', 6: '원숭이에게', 7: '줬어'}


In [34]:
# 3. 각 문서를 BoW 형식으로 변환 (문서-단어 행렬)
DTM =[ id2word.doc2bow(doc) for doc in doc_ls]
print(DTM)

[[(0, 1), (1, 1), (2, 1), (3, 1)], [(0, 1), (1, 2), (2, 1), (4, 1)], [(0, 1), (5, 2), (6, 1), (7, 1)]]


- 밀집 행렬로 변환
- gensim.matutils.corpus2dense()
  - 이 함수는 Gensim에서 제공하는 함수로, 희소 표현의 BOW 코퍼스를 밀집 행렬로 변환.
  - corpus2dense 함수는 코퍼스(DTM)를 입력받아 이를 밀집 형태의 행렬로 변환.


In [35]:
# 4. BoW 형식을 풀어서 DTM을 2D 행렬로 변환
DTM_matrix = gensim.matutils.corpus2dense(DTM,num_terms=len(id2word)).T
print(DTM_matrix)

[[1. 1. 1. 1. 0. 0. 0. 0.]
 [1. 2. 1. 0. 1. 0. 0. 0.]
 [1. 0. 0. 0. 0. 2. 1. 1.]]


In [36]:
# 5. DataFrame으로 변환
doc_names = ['문서' + str(i+1) for i in range(len(docs))]

# 칼럼별 생성
vocab = list(id2word.values())
print(doc_names)
print(vocab)

['문서1', '문서2', '문서3']
['동물원에서', '봤어', '오늘', '원숭이를', '코끼리를', '바나나를', '원숭이에게', '줬어']


In [39]:
df_DTM = pd.DataFrame(DTM_matrix, index=doc_names, columns=vocab)

display(df_DTM)

Unnamed: 0,동물원에서,봤어,오늘,원숭이를,코끼리를,바나나를,원숭이에게,줬어
문서1,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0
문서2,1.0,2.0,1.0,0.0,1.0,0.0,0.0,0.0
문서3,1.0,0.0,0.0,0.0,0.0,2.0,1.0,1.0


# 3.TF-IDF (Term Frequency-Inverse Document Frequency)

*  TF(단어 빈도, Term Frequency) : 단어가 문서 내에 등장하는 빈도
*  IDF(역문서 빈도, Inverse Document Frequency) : 단어가 여러 문서에 공통적으로 등장하는 빈도
*  한 문서 내에 자주 등장하고 다른 문서에 자주 등장하지 않는 단어를 주요 단어로 판별할 수 있음

## 3.1. 직접 계산

In [89]:
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"
doc_ls = [d1, d2]

In [None]:
import numpy as np
from collections import defaultdict
import pandas as pd
from IPython.display import display

# tf (특정 문서 내 단어 빈도)
# d: 특정 문서
# t: 특정 단어 
def tf(t, d):
    return d.count(t) / len(d)

# idf (log(전체 문서 수 / 전체 문서에서 단어 등장 수))
# D: 전체 문서 
# t: 특정 단어 
def idf(t, D):
    N = len(D)
    n = len([True for d in D if t in d]) # 토큰이 등장하는 문서 수 
    return np.log(N / n)

# tfidf 
def tfidf(t, d, D):
    return tf(t, d) * idf(t, D)

# 토크나이저 
def tokenizer(d):
    return d.split()

# 각 토큰에 대한 tf-idf 계산 적용한 행렬 생성
def tfidfScorer(D):

    # 토큰화 
    doc_ls = [tokenizer(d) for d in D]

    # 단어 ID 매핑 (사전집 생성)
    word2id = defaultdict(lambda: len(word2id))
    [word2id[t] for d in doc_ls for t in d]

    # TF-IDF 매트릭스 초기화
    tfidf_mat = np.zeros((len(doc_ls), len(word2id)))

    # TF-IDF 계산
    for i, d in enumerate(doc_ls):
        for t in d:
            tfidf_mat[i, word2id[t]] = tfidf(t, d, D)

    return tfidf_mat, list(word2id.keys())

# 예제 문서
docs = ["The cat sat on my face I hate a cat", "The dog sat on my bed I love a dog"]

# TF-IDF 스코어링 수행
mat, vocab = tfidfScorer(docs)

# DataFrame으로 변환
df = pd.DataFrame(mat, columns=vocab)

# 결과 출력
display(df)

Unnamed: 0,The,cat,sat,on,my,face,I,hate,a,dog,bed,love
0,0.0,0.138629,0.0,0.0,0.0,0.069315,0.0,0.069315,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.138629,0.069315,0.069315


## 3.2. sklearn 활용

- todense()와 toarray()는 동일한 숫자 데이터를 포함하고 있으며, 두 함수 모두 TF-IDF 결과를 밀집된 형태로 반환.
  - https://alluring-parent-4dd.notion.site/16cd791a37c680e68b64ca376389b93e?pvs=4

  - 차이점은 데이터의 형식에 있음. todense()는 numpy.matrix 객체를 반환하고, toarray()는 numpy.ndarray를 반환.

  - 대부분의 경우, 두 방법 모두 동일한 결과를 제공. 
  - 그러나 행렬 연산이 필요한 경우에는 todense()가 더 적합할 수 있고, 다양한 차원의 데이터를 다루고 싶다면 toarray()가 더 적합할 수 있음.

- tfidf 결과는 희소 행렬로 반환하고 (문서 번호, 단어 ID)의 형태로 나타남

In [46]:
from sklearn.feature_extraction.text import TfidfVectorizer

d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"
docs = [d1, d2]

tfidf_vect = TfidfVectorizer()
tfidf = tfidf_vect.fit_transform(docs)
print(tfidf)


  (0, 9)	0.2511643891128359
  (0, 1)	0.7060055705947859
  (0, 8)	0.2511643891128359
  (0, 7)	0.2511643891128359
  (0, 6)	0.2511643891128359
  (0, 3)	0.35300278529739293
  (0, 4)	0.35300278529739293
  (1, 9)	0.2511643891128359
  (1, 8)	0.2511643891128359
  (1, 7)	0.2511643891128359
  (1, 6)	0.2511643891128359
  (1, 2)	0.7060055705947859
  (1, 0)	0.35300278529739293
  (1, 5)	0.35300278529739293


In [47]:
todense = pd.DataFrame(tfidf.todense(), columns=tfidf_vect.get_feature_names_out())
toarray = pd.DataFrame(tfidf.toarray(), columns=tfidf_vect.get_feature_names_out())

print('todentnse type: ', type(tfidf.todense()))
print('toarray type: ', type(tfidf.toarray()))

display(todense)
display(toarray)

todentnse type:  <class 'numpy.matrix'>
toarray type:  <class 'numpy.ndarray'>


Unnamed: 0,bed,cat,dog,face,hate,love,my,on,sat,the
0,0.0,0.706006,0.0,0.353003,0.353003,0.0,0.251164,0.251164,0.251164,0.251164
1,0.353003,0.0,0.706006,0.0,0.0,0.353003,0.251164,0.251164,0.251164,0.251164


Unnamed: 0,bed,cat,dog,face,hate,love,my,on,sat,the
0,0.0,0.706006,0.0,0.353003,0.353003,0.0,0.251164,0.251164,0.251164,0.251164
1,0.353003,0.0,0.706006,0.0,0.0,0.353003,0.251164,0.251164,0.251164,0.251164


## 3.3. gensim 활용

In [None]:


# 문서 목록
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog"
docs = [d1, d2]

# 문서를 공백 기준으로 토큰화


# 사전(Dictionary) 생성


# DTM 생성 (BoW 형식)


In [None]:
# TF-IDF 모델 학습


# TF-IDF 값으로 DTM 행렬 생성
# 각 문서가 tf-idf 벡터로 표현된 2차원 리스트 생성 
# model[DTM] : 각 문서의 tf-idf 계산 
# 희소벡터를 밀집벡터로 변환 


# DataFrame으로 변환


# 결과 출력
