In [1]:
import torch
from os import sys
from myutils import GPU_info, seed_everything, mlogging, AccuracyForMaskedToken, SaveBERTModel
#seed 설정
seed_everything(222)


In [2]:
from transformers import AlbertTokenizer, AlbertForMaskedLM, AlbertModel
vocab_path = '../data11/model/albert/albert-base-v2-ftp-3/newvocab' # 앞에서 만들어진 spiece_new.model 이 있는 경로 지정해줌
tokenizer = AlbertTokenizer.from_pretrained(vocab_path)
print(len(tokenizer))

76043


In [3]:
text = "모코엠시스에서는 문서중앙화 엠파워 제품을 만들었다."
token_ids = tokenizer.encode(text)
print(token_ids)
tokenizer.decode(token_ids)

[2, 54150, 1, 54146, 54148, 30253, 1, 30521, 1, 9, 3]


'모코엠시스 ⁇  문서중앙화 엠파워 제품 ⁇  만들 ⁇.'

In [4]:
from torch.utils.data import DataLoader, RandomSampler
import sys
from myutils import MLMDataset, MLMDatasetbyDistilBert

# 각 스페셜 tokenid를 구함
CLStokenid = tokenizer.convert_tokens_to_ids('[CLS]')
SEPtokenid = tokenizer.convert_tokens_to_ids('[SEP]')
UNKtokenid = tokenizer.convert_tokens_to_ids('<UNK>')
PADtokenid = tokenizer.convert_tokens_to_ids('<pad>')
MASKtokenid = tokenizer.convert_tokens_to_ids('[MASK]')
print('CLSid:{}, SEPid:{}, UNKid:{}, PADid:{}, MASKid:{}'.format(CLStokenid, SEPtokenid, UNKtokenid, PADtokenid, MASKtokenid))

eval_corpus = '../data11/korpora/kowiki_20190620/wiki_eval_test.txt'
token_max_len = 128
batch_size = 32
MaskVocabList = ['▁문서중앙화','▁보안파일서버','▁엠파워','▁영국', '▁월드컵', '▁나라', '▁사회', '▁문화', '▁날씨','▁경제', '▁tetetetetetete']

eval_dataset = MLMDatasetbyDistilBert(corpus_path = eval_corpus,
                          tokenizer = tokenizer, 
                          CLStokeinid = CLStokenid ,   # [CLS] 토큰 id
                          SEPtokenid = SEPtokenid ,    # [SEP] 토큰 id
                          UNKtokenid = UNKtokenid ,    # [UNK] 토큰 id
                          PADtokenid = PADtokenid,     # [PAD] 토큰 id
                          Masktokenid = MASKtokenid,   # [MASK] 토큰 id
                          max_sequence_len=token_max_len,  # max_sequence_len)
                          mlm_probability=0.15,
                          overwrite_cache=False,
                          Maskvocab_list = MaskVocabList
                          )

CLSid:2, SEPid:3, UNKid:1, PADid:0, MASKid:4
*maskvocablist_len: 10
*maskvocablist: [54146, 54147, 54148, 37254, 54195, 31568, 31320, 32440, 42232, 31303]
*corpus:../data11/korpora/kowiki_20190620/wiki_eval_test.txt
*max_sequence_len:128
*mlm_probability:0.15
*CLStokenid:2, SEPtokenid:3, UNKtokenid:1, PADtokeinid:0, Masktokeid:4
*total_line: 114


  0%|          | 0/114 [00:00<?, ?it/s]

  0%|          | 0/114 [00:00<?, ?it/s]

In [None]:
eval_dataset[1]

In [None]:
MaskVocabList = ['▁문서중앙화','▁보안파일서버','▁엠파워','▁영국', '▁월드컵', '▁나라', '▁사회', '▁문화', '▁날씨','▁경제', '▁tetetetetetete']

In [None]:
token = tokenizer.convert_ids_to_tokens(70002)
print(token)

print(len(tokenizer.get_vocab()))

In [None]:
tokenid = tokenizer.convert_tokens_to_ids('▁출장소')
print(tokenid)

In [7]:
Maskvocab_list = [
    '▁정보', '▁데이터', '▁서비스', '▁인터페이스', '▁환경', '▁통합', '▁이름', '▁저장', '▁성능', '▁연결', '▁테이블', 
    '▁웹', '▁Application', '▁소프트웨어', '▁관리자', '▁제품', '▁기간', '▁모듈', '▁구조', '▁네트워크', '▁호스트', 
    '▁정책', '▁software', '▁클라우드', '▁노드', '▁result', '▁명령', '▁시험', '▁업데이트', '▁Added', '▁로그인', 
    '▁클라이언트', '▁편집', '▁mark', '▁전파','▁다이얼로그', '▁디스플레이', '▁사무실', '▁오퍼레이션', '▁로그아웃', '▁유닉스', 
    '▁Soft', '▁관측', '▁윈도우즈', '▁시그널'
]

In [9]:
CLStokenid = tokenizer.convert_tokens_to_ids('[CLS]')
SEPtokenid = tokenizer.convert_tokens_to_ids('[SEP]')
UNKtokenid = tokenizer.convert_tokens_to_ids('<UNK>')
PADtokenid = tokenizer.convert_tokens_to_ids('<pad>')
MASKtokenid = tokenizer.convert_tokens_to_ids('[MASK]')

maskvocablist = []
for vocab in Maskvocab_list:
    print(vocab)
    token = tokenizer.convert_tokens_to_ids(vocab)
    print(token)
    
    if token is not UNKtokenid:
        maskvocablist.append(token)
    
    #tokens = tokenizer.tokenize(vocab)
    #token_ids = tokenizer.convert_tokens_to_ids(tokens)
    #maskvocablist.append(token_ids[0])
    


▁정보
30024
▁데이터
30027
▁서비스
30036
▁인터페이스
30098
▁환경
30099
▁통합
30100
▁이름
30178
▁저장
30184
▁성능
30187
▁연결
30203
▁테이블
30204
▁웹
30230
▁Application
30245
▁소프트웨어
30246
▁관리자
30247
▁제품
30253
▁기간
30254
▁모듈
30335
▁구조
30336
▁네트워크
30337
▁호스트
30365
▁정책
30366
▁software
2306
▁클라우드
30376
▁노드
30378
▁result
829
▁명령
30495
▁시험
30496
▁업데이트
30653
▁Added
30654
▁로그인
30655
▁클라이언트
30666
▁편집
30667
▁mark
943
▁전파
33244
▁다이얼로그
34251
▁디스플레이
34890
▁사무실
35464
▁오퍼레이션
36038
▁로그아웃
36047
▁유닉스
36841
▁Soft
37251
▁관측
37252
▁윈도우즈
37253
▁시그널
37782


In [None]:
print(maskvocablist)

In [None]:
import torch
import numpy as np

vocab = [44, 222]

data = torch.tensor(
    [[1,2,3,4,5,
    11,22,33,44,55,
    111,222,333,444,555]]
)

print(data)

In [None]:
mask = torch.zeros(data.shape, dtype=torch.bool)
for vocabidx in vocab:
    mask += (data == vocabidx)
 
print(mask)

In [None]:
# mask 할 위치 찾음.
selection = torch.flatten((mask[0]).nonzero()).tolist()
print(len(selection))
print(selection)

In [None]:
# mask 값 출력
data[0, selection] = 103

In [None]:
print(data)