<a href="https://colab.research.google.com/github/rlagusgh0223/ICT-2/blob/main/220410_1(kowiki).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **[환경설정]**

런타임 - 런타임 유형 변경 - GPU 설정 후  
도구 - 설정 - 편집기 - 행 번호 표시 하면 행 번호 나온다

▷ install

In [1]:
!pip install sentencepiece

Collecting sentencepiece
  Downloading sentencepiece-0.1.96-cp39-cp39-win_amd64.whl (1.1 MB)
Installing collected packages: sentencepiece
Successfully installed sentencepiece-0.1.96


▷ import

In [2]:
import os
import random
import shutil
import json
import zipfile
import matplotlib.pyplot as plt
import numpy as np
import sentencepiece as spm
import tensorflow as tf
import tensorflow.keras.backend as K
from tqdm.notebook import tqdm

In [3]:
# random seed initialize
random_seed = 1234
random.seed(random_seed)
np.random.seed(random_seed)
tf.random.set_seed(random_seed)

In [4]:
# GPU 사용 확인
!nvidia-smi

'nvidia-smi'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [5]:
# google drive mount
# content에 dirve폴더가 없으니까 만든 다음에 실행
# 폴더가 꼬인것 같으니까 난 sdrive로 할 것
from google.colab import drive
drive.mount('/content/sdrive', force_remount=True)

ModuleNotFoundError: No module named 'google.colab'

In [None]:
# data dir
data_dir = '/content/sdrive/MyDrive/Colab Notebooks/Data/nlp'
os.listdir(data_dir)

## **[Vocabulary]**
▷ 한국어 위키 다운로드

In [None]:
# korean wiki dir
kowiki_dir = os.path.join(data_dir, 'kowiki')
if not os.path.exists(kowiki_dir):
 os.makedirs(kowiki_dir)
os.listdir(kowiki_dir)

In [None]:
!wget https://dumps.wikimedia.org/kowiki/latest/kowiki-latest-pages-meta-current.xml.bz2

In [None]:
# WikiExtractor 다운로드
!wget https://github.com/paul-hyun/web-crawler/raw/master/WikiExtractor.py

In [None]:
# 파일이 잘 받아졌는지 확인
os.listdir('.')

In [None]:
# WikiExtractor 실행
os.system(f"python WikiExtractor.py -o kowiki --json kowiki-latest-pages-meta-current.xml.bz2")

In [None]:
with open(os.path.join('kowiki', 'AA', 'wiki_00')) as f:
  for i, line in enumerate(f):
    if i >= 10:
      break
    line = line.strip()
    print(line)

In [None]:
filepaths = []
dirnames = os.listdir('kowiki')
for dirname in dirnames:
  dirpath = os.path.join('kowiki', dirname)
  filenames = os.listdir(dirpath)
  for filename in filenames:
    if filename.startswith('wiki_'):
      filepath = os.path.join(dirpath, filename)
      filepaths.append(filepath)
filepaths = sorted(filepaths)
print(len(filepaths), filepaths[:10])

In [None]:
def trim_text(item):
  """
  한 위키 문서 내의 여러줄띄키(\n\n...)를 한 줄 띄기(\n)로 변경
  :param item: 위키 항목
  :return: text의 여러줄 new line을 한 줄 new line으로 변경한 json data
  """
  data = json.loads(item)
  text = data["text"]
  value = list(filter(lambda x: len(x) > 0, text.split('\n')))
  data["text"] = "\n".join(value)
  return data

In [None]:
# 여러 줄 띄기(\n\n...)를 한 줄 띄기(\n)로 변경
dataset = []
for filepath in tqdm(filepaths):
  with open(filepath, 'r') as f:
    for line in f:
      line = line.strip()    # 양쪽에 공백이 있으면 자름
      if line:
        dataset.append(trim_text(line))
print(len(dataset))

In [None]:
# 위키를 한 파일로 저장
with open('kowiki.txt', 'w') as f:
  for data in tqdm(dataset):
    f.write(data["text"])
    f.write('\n\n\n')

In [None]:
# 파일 내용 확인
with open("kowiki.txt") as f:
  for i, line in enumerate(f):
    if i >= 30:
      break
    line = line.strip()
    print(line)

In [None]:
# 압축
!zip kowiki.txt.zip kowiki.txt

In [None]:
# 압축파일 보관
shutil.move("kowiki.txt.zip", os.path.join(kowiki_dir, 'kowiki.txt.zip'))
os.listdir(kowiki_dir)

▷ sentencepiece vocabulary 생성
  
특수 Token : 7개 정의  
vocabulary : 32,000개  
학습방법 : unigram  
  
특수 Token들  
● [PAD]: 자연어처리 문장들의 길이가 다르기 때문에 길이를 맞춰주기 위해 추가하는 token

● [UNK]: vocabulary에 등록되지 않는 단어가 있는 경우 [UNK]로 처리함

● [BOS]: Begin of Sequence로 문장의 시작을 의미하는 token

● [EOS]: End of Sequence로 문장의 끝을 의미하는 token

● [SEP]: Separator로 두 개 이상의 문장을 구분하기 위한 token

● [CLS]: Class로 문장을 대표하는 벡터를 의미하는 token

● [MASK]: Mask로 단어를 가리고자 할 때 사용하는 token

In [None]:
# sentencepiece 학습 함수
def trian_sentencepiece(corpus, prefix, vocab_size=32000):
  """
  sentencepiece를 이용해 vocab 학습
  :param corpus: 학습할 말뭉치
  :param prefix: 저장할 vocab 이름
  :param vocab_size: vocab 개수
  """
  spm.SentencePieceTrainer.train(
      f"--input={corpus} --model_prefix={prefix} --vocab_size={vocab_size+7}" +
      # 7은 특수문자 개수
      " --model_type=unigram" +
      " --max_sentence_length=999999" + # 문장 최대 길이
      " --pad_id=0 --pad_piece=[PAD]" + # pad 지정
      " --unk_id=1 --unk_piece=[UNL]" + # unknown token 지정
      " --bos_id=2 --bos_piece=[BOS]" + # bos 지정
      " --eos_id=3 --eos_piece=[EOS]" + # eos 지정
      " --user_defined_symbols=[SEP], [CLS], [MASK]")

In [None]:
# sentencepiece 생성
# vocab 생성
train_sentencepiece('kowiki.txt', 'ko_32000', vocab_size=32000)

In [None]:
# vocabulary 파일 보관
# 생성된 vocab 이동
shutil.move('ko_32000.model', os.path.join(data_dir, 'ko_32000.model'))
shutil.move('ko_32000.vocab', os.path.join(data_dir, 'ko_32000.vocab'))
os.listdir(data_dir)

▷ sentencepiece vocabulary 확인

In [None]:
# ko_32000.model 로드
# load vocab
vocab = spm.SentencePieceProcessor()
vocab.load(os.path.join(data_dir, 'ko_32000.model'))

In [None]:
# vocab 출력
print(f'len: {len(vocab)}')
for _id in range(16):
  print(f'{_id:5d}: {vocab.id_to_piece(_id)}')

In [None]:
text =  '위키백과의 최상위 도메인이 .com이던 시절 ko.wikipedia.com에 구판 미디어위키가 깔렸으나 한글 처리에 문제가 있어 글을 올릴 수도 없는 이름뿐인 곳이었다.'

pieces = vocab.encode_as_pieces(text)
print(pieces[0:100])

In [None]:
print(vocab.decode_pieces(pieces))

In [None]:
piece_ids = []
for piece in pieces:
  piece_ids.append(vocab.piece_to_id(piece))
print(piece_ids[0:100])

In [None]:
# text를 id로 tokenize 함
# sentence to ids
ids = vocab.encode_as_ids(text)
print(ids[0:100])

In [None]:
print(vocab.decode_ids(ids))

In [None]:
id_pieces = []
for id in ids:
 id_pieces.append(vocab.id_to_piece(id))
print(id_pieces[0:100])