## **라이브러리 호출**

In [1]:
import torch
from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

Downloading vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

## **문장 토크나이징**

In [2]:
text = "나는 파이토치를 이용한 딥러닝을 학습중이다."
marked_text = "[CLS] " + text + " [SEP]" # 문장의 시작은 [CLS], 끝은 [SEP]로 형태 맞추기
tokenized_text = tokenizer.tokenize(marked_text) # 사전 훈련된 버트 토크나이저 활용 -> 문장 to 단어
print(tokenized_text)

['[CLS]', '나는', '파', '##이', '##토', '##치를', '이', '##용한', '딥', '##러', '##닝', '##을', '학', '##습', '##중', '##이다', '.', '[SEP]']


## **데이터 준비**

### **훈련시킬 텍스트 정의**

In [3]:
text = "과수원에 사과가 많았다." \
       "친구가 나에게 사과했다."\
       "백설공주는 독이 든 사과를 먹었다."

marked_text = "[CLS] " + text + " [SEP]" 
tokenized_text = tokenizer.tokenize(marked_text) # 문장을 토큰으로 분리
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text) # 토큰 문자열에 인덱스 매핑

for tup in zip(tokenized_text, indexed_tokens): # 단어 & 인덱스 출력
    print('{:<12} {:>6,}'.format(tup[0], tup[1]))

[CLS]           101
과             8,898
##수          15,891
##원에         108,280
사             9,405
##과          11,882
##가          11,287
많             9,249
##았다         27,303
.               119
친             9,781
##구          17,196
##가          11,287
나             8,982
##에게         26,212
사             9,405
##과          11,882
##했다         12,490
.               119
백             9,331
##설          31,928
##공          28,000
##주는         100,633
독             9,088
##이          10,739
든             9,115
사             9,405
##과          11,882
##를          11,513
먹             9,266
##었다         17,706
.               119
[SEP]           102


**문장 인식 단위 지정**

In [4]:
segments_ids = [1] * len(tokenized_text)
print (segments_ids)

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


**텐서 변환**

In [5]:
tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([segments_ids])

### **모델링**

**모델 생성**

In [6]:
model = BertModel.from_pretrained('bert-base-multilingual-cased',
                                  output_hidden_states = True,)

model.eval()

Downloading model.safetensors:   0%|          | 0.00/714M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(119547, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0): BertLayer(
        (attention): BertAttention(
          (self): BertSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
         

- 12개의 계층(임베딩 계층 포함 시 13개의 계층)으로 구성되어 있음

**모델 훈련**

In [7]:
with torch.no_grad(): # 모델 평가 시에는 기울기 계산 x
    outputs = model(tokens_tensor, segments_tensors)
    hidden_states = outputs[2] # 네트워크의 은닉 상태 가져오기

**모델 정보 확인**
- 은닉 상태 확인

In [8]:
print ("계층 수:", len(hidden_states), "  (initial embeddings + 12 BERT layers)")
layer_i = 0

print ("배치 수:", len(hidden_states[layer_i]))
batch_i = 0

print ("토큰 수:", len(hidden_states[layer_i][batch_i]))
token_i = 0

print ("은닉층 유닛 수:", len(hidden_states[layer_i][batch_i][token_i]))

계층 수: 13   (initial embeddings + 12 BERT layers)
배치 수: 1
토큰 수: 33
은닉층 유닛 수: 768


In [9]:
# 4개 차원(계층, 배치, 토큰, 은닉층 유닛) -> 3개 차원(토큰, 계층, 은닉층 유닛)
 
print('은닉 상태의 유형: ', type(hidden_states))
print('각 계층에서의 텐서 형태: ', hidden_states[0].size())

은닉 상태의 유형:  <class 'tuple'>
각 계층에서의 텐서 형태:  torch.Size([1, 33, 768])


**텐서 형태 변경**

In [10]:
# 각 계층의 텐서 결합은 stack 활용
token_embeddings = torch.stack(hidden_states, dim = 0)

# 최종 텐서 형태 출력
token_embeddings.size()

torch.Size([13, 1, 33, 768])

In [11]:
## 최종 텐서에서 불필요한 '배치' 차원 제거

token_embeddings = torch.squeeze(token_embeddings, dim = 1) # 배치 차원(dim = 1) 제거
token_embeddings.size() # 배치 차원 제거 후 최종 텐서 형태 출력

torch.Size([13, 33, 768])

**텐서 차원 변경**

In [12]:
token_embeddings = token_embeddings.permute(1,0,2) # 차원 변환 시 활용
token_embeddings.size()

torch.Size([33, 13, 768])

**단어 벡터 생성**
- 쪼개진 단어에 대한 벡터 생성

In [13]:
token_vecs_cat = [] # 형태를 변경한 벡터를 저장할 리스트

for token in token_embeddings:
    cat_vec = torch.cat((token[-1], token[-2], token[-3], token[-4]), dim = 0)
    token_vecs_cat.append(cat_vec)
print ('형태는: %d x %d' % (len(token_vecs_cat), len(token_vecs_cat[0])))

형태는: 33 x 3072


**계층을 결합하여 최종 단어 벡터 생성**

In [14]:
token_vecs_sum = [] # [33, 768] 형태의 토큰을 벡터로 저장
for token in token_embeddings: # [33, 12, 768] 형태의 토큰
    sum_vec = torch.sum(token[-4:], dim = 0) # 마지막 네 개 계층의 벡터 합산
    token_vecs_sum.append(sum_vec) # 'sum_vec'을 활용하여 토큰 표현
print ('형태는: %d x %d' % (len(token_vecs_sum), len(token_vecs_sum[0])))

형태는: 33 x 768


**문장 벡터**
- 전체 문장에 대한 단일 벡터 구하기
- 전체 길이(768)의 벡터를 생성하는 각 토큰의 두 번째에서 마지막 은닉 계층을 평균화

In [15]:
token_vecs = hidden_states[-2][0] # 은닉 상태: [13,1,33,768] -> [33, 768]
sentence_embedding = torch.mean(token_vecs, dim = 0)
print ("최종 임베딩 벡터의 형태:", sentence_embedding.size())

최종 임베딩 벡터의 형태: torch.Size([768])


**토큰 & 인덱스 출력**

In [16]:
for i, token_str in enumerate(tokenized_text):
    print (i, token_str)

0 [CLS]
1 과
2 ##수
3 ##원에
4 사
5 ##과
6 ##가
7 많
8 ##았다
9 .
10 친
11 ##구
12 ##가
13 나
14 ##에게
15 사
16 ##과
17 ##했다
18 .
19 백
20 ##설
21 ##공
22 ##주는
23 독
24 ##이
25 든
26 사
27 ##과
28 ##를
29 먹
30 ##었다
31 .
32 [SEP]


**단어 벡터 확인**

In [17]:
print("사과가 많았다", str(token_vecs_sum[6][:5]))
print("나에게 사과했다", str(token_vecs_sum[10][:5]))
print("사과를 먹었다", str(token_vecs_sum[19][:5]))

사과가 많았다 tensor([-0.5844, -4.0836,  0.4906,  0.8915, -1.8054])
나에게 사과했다 tensor([-0.8631, -3.4047, -0.7351,  0.9805, -2.6700])
사과를 먹었다 tensor([ 0.6756, -0.3618,  0.0586,  2.2050, -2.4193])


**코사인 유사도 계산**

In [18]:
from scipy.spatial.distance import cosine

diff_apple = 1 - cosine(token_vecs_sum[5], token_vecs_sum[27])
same_apple = 1 - cosine(token_vecs_sum[5], token_vecs_sum[16])

print('*유사한* 의미에 대한 벡터 유사성:  %.2f' % same_apple)
print('*다른* 의미에 대한 벡터 유사성:  %.2f' % diff_apple)

*유사한* 의미에 대한 벡터 유사성:  0.86
*다른* 의미에 대한 벡터 유사성:  0.91
