Gensim 은 Dictionary 라는 vocabulary to index, index to vocabulary mapper 를 이용합니다. Scikit-learn 으로 vectorizing 을 할 경우에는 이를 만들기가 다소 불편합니다. Dictionary 의 save file format 을 살펴봅니다.

아래의 코드는 Gensim 의 공식 튜토리얼의 코드입니다. 9 개의 문서로부터 stopwords 와 1 번 등장한 단어를 제거하여 list of list of str 형식의 texts 를 만드는 과정입니다.

In [2]:
from collections import defaultdict

documents = [
    "Human machine interface for lab abc computer applications",
    "A survey of user opinion of computer system response time",
    "The EPS user interface management system",
    "System and human system engineering testing of EPS",
    "Relation of user perceived response time to error measurement",
    "The generation of random binary unordered trees",
    "The intersection graph of paths in trees",
    "Graph minors IV Widths of trees and well quasi ordering",
    "Graph minors A survey"
]

# remove stopwords
stoplist = set('for a of the and to in'.split())
texts = [
    [word for word in document.lower().split() if word not in stoplist]
     for document in documents]

# remove words that appear only once
frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1

texts = [
    [token for token in text if frequency[token] > 1]
    for text in texts]

texts

[['human', 'interface', 'computer'],
 ['survey', 'user', 'computer', 'system', 'response', 'time'],
 ['eps', 'user', 'interface', 'system'],
 ['system', 'human', 'system', 'eps'],
 ['user', 'response', 'time'],
 ['trees'],
 ['graph', 'trees'],
 ['graph', 'minors', 'trees'],
 ['graph', 'minors', 'survey']]

Dictionary 는 texts 를 입력하여 만들 수 있습니다.

In [3]:
from gensim.corpora import Dictionary

dictionary = Dictionary(texts)

Dictionary 를 텍스트 파일로 저장할 수 있습니다. 이 파일을 저장하여 구조를 살펴봅니다.

In [4]:
dictionary.save_as_text('dictionary_format.txt')

맨 윗줄은 document 의 개수이며, tap separated 된 three columns 으로 <term idx, term, document frequency> 가 저장되어 있습니다.

```
9
0	computer	2
8	eps	2
10	graph	3
1	human	2
2	interface	2
11	minors	2
3	response	2
4	survey	2
5	system	3
6	time	2
9	trees	3
7	user	3
```