## 1. 데이터 로딩

scikit-learn (sklearn) 은 다양한 머신러닝 알고리즘 및 데이터 처리 모듈들을 가지고 있는 툴킷입니다. sklearn 의 CountVectorizer 를 이용하여 term frequency matrix 를 만드는 법을 연습합니다. 

이를 위해서 작은 영화 데이터셋을 이용합니다. sys.path 는 각 Ipython notebook 파일마다 추가해야 합니다. 항상 sys.path.append 하는 것이 번거롭다면 [링크](https://wikidocs.net/29)의 내용을 참고하세요.

In [1]:
from config import dataset_dir
import sys
sys.path.append(dataset_dir)

from lovit_textmining_dataset.navermovie_comments import load_movie_comments

idxs, texts, rates = load_movie_comments(large=False, tokenize=None, num_doc=1000)

## 2. From corpus to noun term frequency sparse matrix

Twitter.nouns(sent) 는 주어진 sent 에서 명사를 추출하여 return 합니다. type 은 list of str 입니다. 

In [2]:
from collections import defaultdict
from pprint import pprint
from konlpy.tag import Komoran

komoran = Komoran()
komoran.nouns('이건 테스트입니다')

['이건', '테스트']

앞서 배운 collections.Counter 를 이용하여 한 번에 명사의 개수를 세어 봅시다. 

In [3]:
from collections import Counter

noun_counter = Counter(
    [noun for text in texts for noun in komoran.nouns(text)]
)

print('num of nouns: %d' % len(noun_counter))

num of nouns: 1469


term frequency matrix 를 만들 때, 거의 등장하지 않는 단어들은 의미가 없습니다. min count 를 설정하여 각 threshold 별로 몇 개의 명사가 살아남는지 알아봅니다. 

In [4]:
for min_count in [2, 3, 5, 10]:
    _counter = {
        word for word, freq in noun_counter.items()
        if freq >= min_count
    }
    print('num of nouns (min_count = %d): %d' % (
        min_count, len(_counter)))

num of nouns (min_count = 2): 626
num of nouns (min_count = 3): 395
num of nouns (min_count = 5): 219
num of nouns (min_count = 10): 93


우리는 2번 이상 나오는 626 개의 명사를 이용하여 term frequency matrix 를 만들어 봅니다. 우리는 전체 문서에서의 빈도수가 2 이상인 명사만을 return 하는 토크나이저를 만들 것입니다.

Komoran.nouns() 와 custom_tokenizer의 결과가 달라짐을 확인할 수 있습니다.

In [5]:
noun_dict = {
    word for word, freq in noun_counter.items()
    if freq >= 2
}

def custom_tokenizer(doc):
    return [word for word in komoran.nouns(doc) if word in noun_dict]

print(komoran.nouns(texts[1]))
print(custom_tokenizer(texts[1]))

['인셉션', '크리스토퍼', '감독', '신작', '인터스텔라', '이번', '주', '일요일', '완전', '기대', '중']
['인셉션', '크리스토퍼', '감독', '신작', '인터스텔라', '이번', '주', '완전', '기대', '중']


In [6]:
len(noun_dict)

626

CountVectorizer 는 document frequency 를 기준으로 대부분 문서에 등장하거나 거의 등장하지 않는 극단적인 단어들을 제거할 수 있습니다. min_df 와 max_df 를  이용하면 되며, df 는 비율입니다. [0, 1] 사이의 값을 입력해야 합니다. 

CountVectorizer 의 argument tokenizer 는 str 형식의 문장이 들어왔을 때 이를 list of str 형식의 단어열로 변형하는 함수입니다. 기본값은 lambda x:x.split()으로 띄어쓰기 기준으로 단어를 나눕니다. 우리가 만든 custom_tokenizer 를 이용하여 빈도수가 2 이상인 명사들만을 return 하는 토크나이저로 이를 대채합니다.

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(
    tokenizer=custom_tokenizer,
    min_df=0.005,
    max_df=0.95
)

x_sparse = vectorizer.fit_transform(texts)

x_sparse 는 scipy 의 sparse matrix 입니다. Sparse matrix 는 0 값이 많은 행렬에 대하여 0 이 아닌 (i, j) 의 값만을 저장한 matrix 를 의미합니다. Term frequency matrix 는 very sparse matrix 에 속하므로 dense matrix 보다 sparse matrix 가 훨씬 효율적입니다. dense matrix 는 문서의 양이 조금만 커도 매우 큰 메모리가 필요합니다.

In [8]:
type(x_sparse)

scipy.sparse.csr.csr_matrix

x_sparse 는 1,000 개의 리뷰가 211 개의 단어로 표현된 형태입니다. 이는 우리가 min_df = 0.005 로 설정하였기 때문입니다. Document frequency 가 4 이하인 단어들도 제거되었기 때문입니다.

또한 이 sparse matrix 는 CSR matrix 형식입니다. sparse matrix 의 형식은 이후에 다시 설명하겠습니다.

In [9]:
print(type(x_sparse))
x_sparse

<class 'scipy.sparse.csr.csr_matrix'>


<1000x211 sparse matrix of type '<class 'numpy.int64'>'
	with 3319 stored elements in Compressed Sparse Row format>

## 3. CountVectorizer 에서 각 column 에 해당하는 term 알아내기

vectorizer.vocabulary_ 는 dict 형식으로, {word:index} 입니다. 

    {'가장': 0,
     '가족': 1,
     '가치': 2,
     '각본': 3,
     '간다': 4,
     '감': 5,
     '감독': 6,
     ...
    }

이를 이용하여 vocab to index, index to vocab 을 만들어 봅니다. 영화라는 단어가 115 에 해당합니다. 

In [10]:
vocab2int = vectorizer.vocabulary_
vocab2int['영화']

115

index 는 0 부터 시작합니다. 그러므로 int2vocab 은 dictionary 형태보다 list 형태로 가지고 있어도 좋습니다. 이를 위해 sorted 함수를 이용합니다. 115 번째 단어가 '영화'임을 다시 확인할 수 있습니다. 

In [11]:
int2vocab = [
    word for word,index in sorted(
        vocab2int.items(), key=lambda x:x[1])
]
int2vocab[115]

'영화'

## 4. Sparse matrix I/O

scipy.io 는 sparse matrix 를 읽고 쓰는 기능을 제공합니다. mmwrite 는 sparse matrix 를 filepath 에 저장합니다. 그런데 filepath 의 경로에 directory 가 존재하지 않는다면 오류가 발생합니다. 이를 방지하기 위해서 path 가 존재하는지 확인하고, directory 가 존재하지 않을 경우 이를 만들어야 합니다.

    if not os.path.exists('tmp/'):
        os.makedirs('tmp')

위의 코드는 tmp 폴더가 있는지 확인하고, 존재하지 않는 경우 tmp 폴더를 만드는 코드입니다. 

In [12]:
import os
from scipy.io import mmwrite, mmread

if not os.path.exists('tmp/'):
    os.makedirs('tmp')

mmwrite('./tmp/x.mm', x_sparse)

mmread 는 filepath 의 sparse matrix 를 읽습니다. 그런데 mmread 의 형식은 COO matrix 입니다. 이를 CSR matrix 로 바꾸기 위해 tocsr 함수를 이용합니다.

In [13]:
loaded_x_sparse = mmread('./tmp/x.mm').tocsr()
loaded_x_sparse

<1000x211 sparse matrix of type '<class 'numpy.int64'>'
	with 3319 stored elements in Compressed Sparse Row format>

## 5. Save vectorizer and vocabulary

vectorizer 는 pickling 으로 저장하여도 좋습니다. vocabulary list 는 따로 list 파일로 저장해도 좋습니다. 

In [14]:
import pickle

with open('./tmp/vectorizer.pkl', 'wb') as f:
    pickle.dump(vectorizer, f)

with open('./tmp/vocabulary.txt', 'w', encoding='utf-8') as f:
    for vocab in int2vocab:
        f.write('%s\n' % vocab)

In [15]:
with open('./tmp/vectorizer.pkl', 'rb') as f:
    loaded_vectorizer = pickle.load(f)

print(loaded_vectorizer.vocabulary_['영화'])

115


In [16]:
with open('./tmp/vocabulary.txt', encoding='utf-8') as f:
    for _ in range(5):
        print(next(f).strip())

11월
가족
가치
각본
간
