In [3]:
from transformers import AutoTokenizer
import os
import json
import pickle
import numpy as np
import pandas as pd

from tqdm.auto import tqdm

from sklearn.feature_extraction.text import TfidfVectorizer

from datasets import (
    Dataset,
    load_from_disk,
    concatenate_datasets,
)

from preprocess import preprocess_retrieval

In [1]:
model_name = "xlm-roberta-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)

In [4]:
with open("../data/wikipedia_documents.json", "r", encoding="utf-8") as f:
    wiki = json.load(f)

contexts = list(dict.fromkeys([v["text"] for v in wiki.values()]))

In [5]:
contexts[0]

'이 문서는 나라 목록이며, 전 세계 206개 나라의 각 현황과 주권 승인 정보를 개요 형태로 나열하고 있다.\n\n이 목록은 명료화를 위해 두 부분으로 나뉘어 있다.\n\n# 첫 번째 부분은 바티칸 시국과 팔레스타인을 포함하여 유엔 등 국제 기구에 가입되어 국제적인 승인을 널리 받았다고 여기는 195개 나라를 나열하고 있다.\n# 두 번째 부분은 일부 지역의 주권을 사실상 (데 팍토) 행사하고 있지만, 아직 국제적인 승인을 널리 받지 않았다고 여기는 11개 나라를 나열하고 있다.\n\n두 목록은 모두 가나다 순이다.\n\n일부 국가의 경우 국가로서의 자격에 논쟁의 여부가 있으며, 이 때문에 이러한 목록을 엮는 것은 매우 어렵고 논란이 생길 수 있는 과정이다. 이 목록을 구성하고 있는 국가를 선정하는 기준에 대한 정보는 "포함 기준" 단락을 통해 설명하였다. 나라에 대한 일반적인 정보는 "국가" 문서에서 설명하고 있다.'

In [19]:
from collections import Counter

In [20]:
txt = "나는 뷀뷁 뙇 뛓 이다."
encoded = tokenizer(txt)['input_ids'][1:-1]
tokenized = tokenizer.tokenize(txt)
print(tokenizer.decode(encoded))
print(encoded)
print(tokenized)
print(len(encoded), len(tokenized))

나는 <unk> <unk> <unk> 이다.
[37231, 6, 3, 6, 3, 6, 3, 6, 5769, 5]
['▁나는', '▁', '뷀뷁', '▁', '뙇', '▁', '뛓', '▁', '이다', '.']
10 10


띄어쓰기(_) : 6, UNK : 3 & UNK에 대해서 tokenize는 되지만 encoding은 안되는 듯

In [22]:
preprocessed = []
tokens = []

for context in tqdm(contexts):
    preprocessed.append(preprocess_retrieval(context))
    
for context in tqdm(preprocessed):
    tokens.extend(tokenizer(context)['input_ids'][1:-1])
    
counter = Counter(tokens)
len(counter)

HBox(children=(FloatProgress(value=0.0, max=56737.0), HTML(value='')))

Token indices sequence length is longer than the specified maximum sequence length for this model (1194 > 512). Running this sequence through the model will result in indexing errors





54387

In [23]:
type(counter)

collections.Counter

In [40]:
counter.most_common(17)

[(6, 899284),
 (5, 592248),
 (4, 443375),
 (367, 414961),
 (480, 284455),
 (413, 282849),
 (469, 224792),
 (16, 221887),
 (132, 219792),
 (697, 196470),
 (769, 182561),
 (2680, 177012),
 (688, 175797),
 (1083, 162484),
 (713, 160175),
 (1180, 138660),
 (1654, 115533)]

In [46]:
common = [tokenizer.decode(idx) for idx, _ in counter.most_common(50)]
print(common)

['', '.', ',', '의', '에', '을', '이', ')', '(', '은', '는', '년', '를', '로', '가', '에서', '으로', '한', '이', '고', '과', '인', '와', '도', '월', '리', '지', '일', '사', '스', '수', '기', '다', '있다', '어', '시', '했다', '르', '자', '하였다', '하는', '라', '그', '해', '하고', '전', '부', '이다', '하여', '군']


In [31]:
len(tokens)

24359584

In [49]:
import re

def preprocess_retrieval(corpus):
    corpus = corpus.replace(f"\n", "")
    corpus = re.sub(f"[\"<>\[\].,?!\(\)\:#\|'\=-]", " ", corpus)
    corpus = ' '.join(corpus.split())
    return corpus

In [50]:
preprocess_retrieval(contexts[0])

'이 문서는 나라 목록이며 전 세계 206개 나라의 각 현황과 주권 승인 정보를 개요 형태로 나열하고 있다 이 목록은 명료화를 위해 두 부분으로 나뉘어 있다 첫 번째 부분은 바티칸 시국과 팔레스타인을 포함하여 유엔 등 국제 기구에 가입되어 국제적인 승인을 널리 받았다고 여기는 195개 나라를 나열하고 있다 두 번째 부분은 일부 지역의 주권을 사실상 데 팍토 행사하고 있지만 아직 국제적인 승인을 널리 받지 않았다고 여기는 11개 나라를 나열하고 있다 두 목록은 모두 가나다 순이다 일부 국가의 경우 국가로서의 자격에 논쟁의 여부가 있으며 이 때문에 이러한 목록을 엮는 것은 매우 어렵고 논란이 생길 수 있는 과정이다 이 목록을 구성하고 있는 국가를 선정하는 기준에 대한 정보는 포함 기준 단락을 통해 설명하였다 나라에 대한 일반적인 정보는 국가 문서에서 설명하고 있다'