In [21]:
# transformer 패키지 설치
# !pip install transformers

# 필요한 패키지 가져오기
from transformers import AutoModel, AutoTokenizer, BertTokenizer
# 사용할 모델 이름
MODEL_NAME = "bert-base-multilingual-cased" # 원하는 모델 이름은 사이트에서 검색
model = AutoModel.from_pretrained(MODEL_NAME)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [None]:
text = "아라시는 쟈니스 소속 아이돌이다."

tokenized_input_text = tokenizer(text, return_tensors="pt")
# return_tensors="pt" -> pytorch tensor 형태로 변환
for key, value in tokenized_input_text.items ():
	print("{}: \n\t{}".format(key, value))

input_ids: 
	tensor([[   101,   9519,  17342,  14040,  11018,   9662,  25503,  12605,  96770,
           9519,  10739, 118794,  11925,    119,    102]])
token_type_ids: 
	tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
attention_mask: 
	tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])


In [None]:
# Single segment input
single_seg_input = tokenizer("아라시는 쟈니스 소속 아이돌이다.")

# Multiple segment input
multi_seg_input = tokenizer("아라시는 쟈니스 소속 아이돌이다.", "그들은 활동중단 상태에 있다.")

print("Single segment token (str) : {}".format(tokenizer.convert_ids_to_tokens(single_seg_input['input_ids'])))
print("Single segment token (int) : {}".format(single_seg_input['input_ids']))
print("Single segment type : {}".format(single_seg_input['token_type_ids']))

# Segments are concatened in the input to the model, with
print()
print("Multi segment token (str) : {}".format(tokenizer.convert_ids_to_tokens(multi_seg_input['input_ids'])))
print("Multi segment token (int) : {}".format(multi_seg_input['input_ids']))
print("Multi segment type : {}".format(multi_seg_input['token_type_ids']))

Single segment token (str) : ['[CLS]', '아', '##라', '##시', '##는', '쟈', '##니', '##스', '소속', '아', '##이', '##돌', '##이다', '.', '[SEP]']
Single segment token (int) : [101, 9519, 17342, 14040, 11018, 9662, 25503, 12605, 96770, 9519, 10739, 118794, 11925, 119, 102]
Single segment type : [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Multi segment token (str) : ['[CLS]', '아', '##라', '##시', '##는', '쟈', '##니', '##스', '소속', '아', '##이', '##돌', '##이다', '.', '[SEP]', '그들은', '활', '##동', '##중', '##단', '상', '##태', '##에', '있다', '.', '[SEP]']
Multi segment token (int) : [101, 9519, 17342, 14040, 11018, 9662, 25503, 12605, 96770, 9519, 10739, 118794, 11925, 119, 102, 103087, 9996, 18778, 41693, 24989, 9414, 83616, 10530, 11506, 119, 102]
Multi segment type : [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [None]:
# Dictionary 값을 불러오면 끝!
print(tokenized_input_text['input_ids']) # input text를 tokenizing한 후 vocab의 id
print(tokenized_input_text.input_ids)
print(tokenized_input_text['token_type_ids']) # segment id (sentA or sentB)
print(tokenized_input_text['attention_mask']) # special token (pad, cls, sep) or not
print(tokenized_input_text.attention_mask)

tensor([[   101,   9519,  17342,  14040,  11018,   9662,  25503,  12605,  96770,
           9519,  10739, 118794,  11925,    119,    102]])
tensor([[   101,   9519,  17342,  14040,  11018,   9662,  25503,  12605,  96770,
           9519,  10739, 118794,  11925,    119,    102]])
tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])


In [None]:
tokenized_text = tokenizer.tokenize(text)
print(tokenized_text)
input_ids = tokenizer.encode(text)
print(input_ids)
decoded_ids = tokenizer.decode(input_ids)
print(decoded_ids)

['아', '##라', '##시', '##는', '쟈', '##니', '##스', '소속', '아', '##이', '##돌', '##이다', '.']
[101, 9519, 17342, 14040, 11018, 9662, 25503, 12605, 96770, 9519, 10739, 118794, 11925, 119, 102]
[CLS] 아라시는 쟈니스 소속 아이돌이다. [SEP]


In [None]:
tokenized_text = tokenizer.tokenize(text, add_special_tokens = False)
print(tokenized_text)
input_ids = tokenizer.encode(text, add_special_tokens= False)
print(input_ids)
decoded_ids = tokenizer.decode(input_ids)
print(decoded_ids)

['아', '##라', '##시', '##는', '쟈', '##니', '##스', '소속', '아', '##이', '##돌', '##이다', '.']
[9519, 17342, 14040, 11018, 9662, 25503, 12605, 96770, 9519, 10739, 118794, 11925, 119]
아라시는 쟈니스 소속 아이돌이다.


In [None]:
tokenized_text = tokenizer.tokenize(
text,
add_special_tokens= False,
max_length = 5,
truncation=True # 5개의 token만 살리고 뒤는 자르기
)
print(tokenized_text)

input_ids = tokenizer.encode(
text,
add_special_tokens=False,
max_length=5,
truncation=True
)
print(input_ids)
decoded_ids = tokenizer.decode(input_ids)
print(decoded_ids)

['아', '##라', '##시', '##는', '쟈']
[9519, 17342, 14040, 11018, 9662]
아라시는 쟈


In [None]:
print(tokenizer.pad_token)
print(tokenizer.pad_token_id)

tokenized_text = tokenizer.tokenize(
	text,
	add_special_tokens=False,
	max_length=20,
	padding="max_length"
	)
print(tokenized_text)

input_ids = tokenizer.encode(
	text,
	add_special_tokens = False,
	max_length =20,
	padding = "max_length"
	)
print(input_ids)

decoded_ids = tokenizer.decode(input_ids)
print(decoded_ids)


[PAD]
0
['아', '##라', '##시', '##는', '쟈', '##니', '##스', '소속', '아', '##이', '##돌', '##이다', '.', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]']
[9519, 17342, 14040, 11018, 9662, 25503, 12605, 96770, 9519, 10739, 118794, 11925, 119, 0, 0, 0, 0, 0, 0, 0]
아라시는 쟈니스 소속 아이돌이다. [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]


In [23]:
text = "안녕하세요. 저는 지금 카페에 있습니다."

tokenized_text = tokenizer.tokenize(text, add_special_tokens =False)
print(tokenized_text)
input_ids = tokenizer.encode(text, add_special_tokens=False)
print(input_ids)
decoded_ids = tokenizer.decode(input_ids)
print(decoded_ids)

['안', '##녕', '##하', '##세', '##요', '.', '저', '##는', '지', '##금', '카', '##페', '##에', '있', '##습', '##니다', '.']
[9521, 118741, 35506, 24982, 48549, 119, 9663, 11018, 9706, 40032, 9786, 119391, 10530, 9647, 119081, 48345, 119]
안녕하세요. 저는 지금 카페에 있습니다.


In [24]:
added_token_num = tokenizer.add_tokens(["안녕", "저", "지금", "카페", "있습"])
print(added_token_num)

tokenized_text = tokenizer.tokenize(text, add_special_tokens=False)
print(tokenized_text)
input_ids = tokenizer.encode(text, add_special_tokens=False)
print(input_ids)
decoded_ids = tokenizer.decode(input_ids)
print(decoded_ids)

4
['안녕', '하', '##세', '##요', '.', '저', '##는', '지금', '카페', '에', '있습', '니', '##다', '.']
[119547, 9952, 24982, 48549, 119, 9663, 11018, 119548, 119549, 9559, 119550, 9049, 11903, 119]
안녕 하세요. 저는 지금 카페 에 있습 니다.
