## 1. Google의 SentencePiece를 활용하여 Vocab 만들기

자연어 처리를 하는 데에 있어서 문장을 어떻게 쪼개어서 해석을 할지에 대한 문제이다. 즉, 의미를 부여하는 단위를 만드는 작업이라고 할 수 있다. 보통 아래와 같은 단위로 문장을 나눌 수 있고, 언어(영어, 한국어, 중국어, 등)에 따라서도 성능에 큰 차이가 있다.


* Charater level

* Space level

* Subword level

### 1.1 Download & conver to txt

* [위키백과: 데이터베이스 다운로드](https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4_%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C)
    * [다운받은 데이터를 텍스트로 변환 - wikiextractor](https://github.com/attardi/wikiextractor)<br/>
    
    
    
* [web-crawler](https://github.com/paul-hyun/web-crawler)

```
git clone https://github.com/paul-hyun/web-crawler.git
cd web-crawler
python kowiki.py
```
</br>

    * `kowiki`폴더에 `kowiki_*.csv`은 다시 `*.txt`로 변환되어야 한다.

In [1]:
import pandas as pd

In [2]:
import sys
import csv

csv.field_size_limit(sys.maxsize)

131072

In [3]:
res = '../../data/kowiki.txt'

In [5]:
data_df = pd.read_csv('../../../web-crawler/kowiki/kowiki_20210319.csv', \
                     sep=u"\u241D")

  data_df = pd.read_csv('../../../web-crawler/kowiki/kowiki_20210319.csv', \


In [13]:
with open(res, "w") as f:
    for idx, row in data_df.iterrows():
        f.write(row["text"]) # title 과 text를 중복 되므로 text만 저장 함
        f.write("\n\n\n\n") # 구분자

위키데이터의 경우는 본몬(text)에 제목(title) 정보를 포함하고 있어서 제목과, 본문을 둘다 저장할 경우 내용이 중복되므로 본문만 저장한다. 이 때, 위키 문서별로 구분하기 위해 구분자로 줄바꿈을 4개 주었다.

In [14]:
import sentencepiece as spm

In [17]:
corpus = '../data/kowiki.txt'
prefix = 'kowiki'
vocab_size = 8000

* input: 입력 corpus
* prefix: 저장할 모델 이름
* vocab_size: vocab 개수 (기본 8,000에 스페셜 토큰 7개를 더해서 8,007개)
* max_sentence_length: 문장의 최대 길이
* pad_id, pad_piece: pad token id, 값
* unk_id, unk_piece: unknown token id, 값
* bos_id, bos_piece: begin of sentence token id, 값
* eos_id, eos_piece: end of sequence token id, 값
* user_defined_symbols: 사용자 정의 토큰


In [18]:
spm.SentencePieceTrainer.train(
    f"--input={corpus} --model_prefix={prefix} --vocab_size={vocab_size + 7}" + 
    " --model_type=bpe" +
    " --max_sentence_length=999999" + # 문장 최대 길이
    " --pad_id=0 --pad_piece=[PAD]" + # pad (0)
    " --unk_id=1 --unk_piece=[UNK]" + # unknown (1)
    " --bos_id=2 --bos_piece=[BOS]" + # begin of sequence (2)
    " --eos_id=3 --eos_piece=[EOS]" + # end of sequence (3)
    " --user_defined_symbols=[SEP],[CLS],[MASK]") # 사용자 정의 토큰

vocab_size는 성능에 비례하지만, 모델 파라미터 수와도 비례하며, Etri korbert는 32,000개 Skt kobert는 8,000개를 사용한다.

위의 과정을 통해 kowiki.model, kowiki.vocab 파일 두개가 생성된다.

In [27]:
vocab_file = "./kowiki.model"
vocab = spm.SentencePieceProcessor()
vocab.load(vocab_file)

lines = [
  "안녕하세요. 저는 김원철입니다.",
  "오늘은 날씨가 어떤가요?",
  "오늘은 생각보다 날씨가 춥네요"
]
for line in lines:
    pieces = vocab.encode_as_pieces(line)
    ids = vocab.encode_as_ids(line)
    print(line)
    print(pieces)
    print(ids)
    print()

안녕하세요. 저는 김원철입니다.
['▁안', '녕', '하', '세', '요', '.', '▁저', '는', '▁김', '원', '철', '입', '니다', '.']
[174, 4426, 3493, 3581, 3656, 3487, 318, 3490, 204, 3555, 3806, 3698, 1181, 3487]

오늘은 날씨가 어떤가요?
['▁오늘', '은', '▁날', '씨', '가', '▁어떤', '가', '요', '?']
[1597, 3501, 691, 3924, 3496, 1275, 3496, 3656, 4155]

오늘은 생각보다 날씨가 춥네요
['▁오늘', '은', '▁생각', '보다', '▁날', '씨', '가', '▁', '춥', '네', '요']
[1597, 3501, 740, 472, 691, 3924, 3496, 3484, 6432, 3753, 3656]



위의 결과는 `sentencepiece`를 이용하여 `subword` 방법 중 `BPE(Byte Pair Encoding)`를 사용한 것이다.

## 2. Convert data to .json

[Naver sentiment movie corpus](https://github.com/e9t/nsmc)에서 다운로드 하거나 아래 명령으로 다운로드 하세요.

학습데이터: ratings_train.txt
평가데이터: ratings_test.txt

```
$ wget https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt
$ wget https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt
```

In [6]:
import sentencepiece as spm
import pandas as pd
import json
from tqdm import tqdm

In [8]:
vocab = spm.SentencePieceProcessor()
vocab.load('../data/kowiki.model')

True

In [9]:
def convert_to_json(vocab, infile, outfile):
    df = pd.read_csv(infile, sep='\t')
    
    with open(outfile, 'w') as f:
        for idx, row in tqdm(df.iterrows()):
            doc = row['document']
            if type(doc) != str:
                continue
            data = { "id": row["id"], 
                        "doc": vocab.encode_as_pieces(doc), 
                        "label": row["label"] }
            f.write(json.dumps(data))
            f.write('\n')


In [10]:
convert_to_json(vocab, '../data/ratings_train.txt', '../data/ratings_train.json')
convert_to_json(vocab, '../data/ratings_test.txt', '../data/ratings_test.json')

6375it [00:02, 3160.91it/s]


KeyboardInterrupt: 