## 2.2. 텍스트를 임베딩으로 변환하기

- 컴퓨터는 텍스트를 그대로 이해할 수 없기 때문에, 텍스트를 숫자로 변환해야 한다. 텍스트를 적잘한 단위로 잘라서 아이디로 변환하는 것을 토크나이징(tokenizing)이라고 한다.
- 토큰 아이디를 토큰 임베딩 층을 통해 여러 숫자의 집합인 토큰 임베딩으로 변환한다.
- 위치 인코딩 층을 통해 토큰의 위치 정보를 담고 있는 위치 임베딩을 추가한다.


### 2.2.1. 토큰화

토큰화란 텍스트를 적절한 단위로 나누고 숫자 아이디를 부여하는 것을 말한다.


In [7]:
# 예제 2.1 토큰화 (띄어쓰기 기준)
input_text = "나는 최근 파리 여행을 다녀왔다"

input_text_list = input_text.split()
print("토큰화 결과: ", input_text_list)

# 토큰 -> 아이디 딕셔너리 생성
str2dix = {word: i for i, word in enumerate(input_text_list)}
print("토큰 -> 아이디 딕셔너리: ", str2dix)
# 아이디 -> 토큰 딕셔너리 생성
dix2str = {i: word for i, word in enumerate(input_text_list)}
print("아이디 -> 토큰 딕셔너리: ", dix2str)

# 토큰을 토큰 아이디로 변환
input_ids = [str2dix[word] for word in input_text_list]
print("토큰을 아이디로 변환: ", input_ids)


토큰화 결과:  ['나는', '최근', '파리', '여행을', '다녀왔다']
토큰 -> 아이디 딕셔너리:  {'나는': 0, '최근': 1, '파리': 2, '여행을': 3, '다녀왔다': 4}
아이디 -> 토큰 딕셔너리:  {0: '나는', 1: '최근', 2: '파리', 3: '여행을', 4: '다녀왔다'}
토큰을 아이디로 변환:  [0, 1, 2, 3, 4]


### 2.2.2. 토큰 임페딩으로 변환하기

**임베딩이란?**

데이터를 의미를 담아 숫자 벡터로 변환하는 것을 말한다

**토큰 임베딩이란?**

...



In [None]:
# 2.2 토큰 아이디에서 벡터로 변환
import torch
import torch.nn as nn
embedding_dim = 16 # 임베딩 차원
embed_layer = nn.Embedding(len(str2dix), embedding_dim) # 임베딩 레이어 생성

input_embeddings = embed_layer(torch.tensor(input_ids)) # 토큰 아이디를 임베딩 벡터로 변환
input_embeddings = input_embeddings.unsqueeze(0) # 배치 차원 추가
print("임베딩 결과: ", input_embeddings)

임베딩 결과:  torch.Size([1, 5, 16])


### 2.2.3. 위치 인코딩

토큰 임베딩은 단어의 의미를 담고 있지만, 단어의 순서 정보는 담고 있지 않다. 따라서 위치 인코딩을 추가해야 한다.

**위치 인코딩이란?**

토큰의 위치 정보를 담고 있는 위치 임베딩을 추가하는 것을 말한다.

**위치 인코딩 방법**

**절대적 위치 인코딩(Absolute Positional Encoding)**

절대적 위치 인코딩은 토큰의 위치 정보를 나타내는 벡터를 추가하는 것이다. 이 방법은 토큰의 위치 정보가 고정되어 있다.
  
**상대적 위치 인코딩(Relative Positional Encoding)**

상대적 위치 인코딩은 토큰의 위치 정보를 나타내는 벡터를 추가하는 것이다.
  

In [11]:
# 예제 2.3 절대적 위치 인코딩

embedding_dim = 16 # 임베딩 차원
max_position = 12 # 최대 토큰 길이

embed_layer = nn.Embedding(len(str2dix), embedding_dim) # 임베딩 레이어 생성
position_embed_layer = nn.Embedding(max_position, embedding_dim) # 위치 임베딩 레이어 생성

position_ids = torch.arange(len(input_ids), dtype=torch.long).unsqueeze(0) # 토큰 길이만큼 위치 아이디 생성
position_encodings = position_embed_layer(position_ids) # 위치 아이디를 임베딩 벡터로 변환

token_embeddings = embed_layer(torch.tensor(input_ids)) # 토큰 아이디를 임베딩 벡터로 변환
token_embeddings = token_embeddings.unsqueeze(0) # 배치 차원 추가
token_embeddings = token_embeddings + position_encodings # 토큰 임베딩과 위치 임베딩을 더함
print("절대적 위치 인코딩 결과: ", token_embeddings.shape)

절대적 위치 인코딩 결과:  torch.Size([1, 5, 16])
