### 2.2.1 토큰화

In [6]:
input_text = "나는 최근 파리 여행을 다녀왔다"
input_text_list = input_text.split()
print("input_text_list: ", input_text_list)

str2idx = {word:idx for idx, word in enumerate(input_text_list)}
idx2str = {idx:word for idx, word in enumerate(input_text_list)}
print("str2idx: ", str2idx)
print("idx2str: ", idx2str)

# token to token id
input_ids = [str2idx[word] for word in input_text_list]
print("input_ids: ", input_ids)

input_text_list:  ['나는', '최근', '파리', '여행을', '다녀왔다']
str2idx:  {'나는': 0, '최근': 1, '파리': 2, '여행을': 3, '다녀왔다': 4}
idx2str:  {0: '나는', 1: '최근', 2: '파리', 3: '여행을', 4: '다녀왔다'}
input_ids:  [0, 1, 2, 3, 4]


### 2.2.2 토큰 임베딩으로 변환하기

딥러닝 모델이 텍스트 데이터를 처리하기 위해 입력으로 들어오는 토큰과 토큰 사이의 관계를 계산해야함.<br>
즉, 토큰의 의미를 숫자로 표현해야함 <br>
ID는 하나의 숫자일 뿐 토큰의 의미를 담을 수 없음 <br>
최소 2개 이상의 숫자 집한인 vector로 표현되어야함 <br>
=> 이것이 임베딩

In [10]:
import torch
import torch.nn as nn

embedding_dim = 16 # 토큰하나를 16차원으로 변환
# embedding layer 만들기
embed_layer = nn.Embedding(len(str2idx), embedding_dim) # len(str2idx) 사전의 크기
input_embeddings = embed_layer(torch.tensor(input_ids)) # 토큰을 임베딩 층을 통해 임베딩으로 변환
input_embeddings = input_embeddings.unsqueeze(0) # 차원 확장
input_embeddings.shape

torch.Size([1, 5, 16])

- embedding layer는 토큰의 의미를 담아 벡터로 변환하는 단계가 아님
- embedding layer가 단어의 의미를 담기 위해서 딥러닝 모델이 학습 데이터로 훈련되어야 함
- 여기서 ML과 DL의 차이점
    - DL은 모델이 학습하는 과정에서 데이터의 의미를 잘 담은 embedding을 만드는 방법도 함께 학습함

### 2.2.3 위치 인코딩
#### RNN과 Transformer 의 차이
RNN은 입력을 순차적으로 처리하기 떄문에 순서 정보가 고려 <br>
Transformer는 모든 입력을 동시에 처리하는 과정에서 순서 정보가 사라짐 <br>
Text 에서는 순차 정보가 중요한데 Transformer를 사용하게 되면 이 역할을 인코딩이 담당 <br>

- Attention is All you need 에서 sine, cosine을 활용한 수식으로 위치에 대하 정보 입력
- 절대적 위치 인코딩 (Absolute position encoding)
    - 위치 인코딩도 위치에 따른 임베딩 층을 추가해 학습 데이터를 통해 학습 -> 모델로 추론을 수행
    - 수식을 통해 위치 정보를 추가하는 방식
    - 임베딩으로 위치 정보를 학습 하는 방식
    - 간단하게 구현 가능
    - 토큰과 토큰 사이의 상대적인 위치 정보는 활용하지 않음
    - 긴 텍스트를 추론하는 경우 성능이 떨어짐
- 상대적 위치 인코딩 (Relative position encoding)

In [None]:
# 위치 정보를 학습하는 방식의 절대적 위치 인코딩
embedding_dim = 16
max_position = 12 # 최대 토큰 수
embed_layer = nn.Embedding(len(str2idx), embedding_dim)
position_embed_layer = nn.Embedding(max_position, embedding_dim) # 새로운 임베딩 층 추가
# 위치 인덱스에 따라 임베딩을 더하도록 구현
position_ids = torch.arange(len(input_ids), dtype=torch.long).unsqueeze(0)
position_encodings = position_embed_layer(position_ids)
token_embeddings = embed_layer(torch.tensor(input_ids))
print(position_encodings)
print(token_embeddings)