# **토큰화 코드**

In [None]:
# 띄어쓰기 단위로 분리
input_text = "나는 최근 파리 여행을 다녀왔다"
input_text_list = input_text.split()

print("input_text_list:", input_text_list)

# 토큰 -> 아이디 딕셔너리와 아이디 -> 토큰 딕셔너리 만들기
str2idx = {word:idx for idx , word in enumerate(input_text_list)}
idx2str = {idx:word for idx , word in enumerate(input_text_list)}

print("str2idx:", str2idx)
print("idx2str:", idx2str)

# 토큰을 토큰 아이디로 변환
input_ids = [str2idx[word] for word in input_text_list]
print("input_ids:", input_ids)

# 출력 결과
# input_text_list: ['나는', '최근', '파리', '여행을', '다녀왔다']
# str2idx: {'나는': 0, '최근': 1, '파리': 2, '여행을': 3, '다녀왔다': 4}
# idx2str: {0: '나는', 1: '최근', 2: '파리', 3: '여행을', 4: '다녀왔다'}
# input_ids: [0, 1, 2, 3, 4]

input_text_list: ['나는', '최근', '파리', '여행을', '다녀왔다']
str2idx: {'나는': 0, '최근': 1, '파리': 2, '여행을': 3, '다녀왔다': 4}
idx2str: {0: '나는', 1: '최근', 2: '파리', 3: '여행을', 4: '다녀왔다'}
input_ids: [0, 1, 2, 3, 4]


# **토큰 아이디에서 벡터로 변환**


In [None]:
import torch
import torch.nn as nn

embedding_dim = 16
# len(str2idx) = 전체 단어의 길이 추출
# str2idx: {'나는': 0, '최근': 1, '파리': 2, '여행을': 3, '다녀왔다': 4} = 길이 5

# embedding_dim = 차원 = 16

# embed_layer = 위의 설정으로 임베딩 층을 만든다
embed_layer = nn.Embedding(len(str2idx), embedding_dim)

# torch.tensor = 텐서로 변환 / 리스트나 배열은 GPU 사용이 불가능해서 모델이 이해할 수 있게 바꿈
# torch.tensor(input_ids) = 토큰 아이디를 텐서로 변환
# embed_layer(torch.tensor(input_ids)) = 토큰 아이디를 16차원의 임의의 숫자 집합의 벡터로 변환
input_embeddings = embed_layer(torch.tensor(input_ids)) #(5, 16)

# unsqueeze = 텐서에 차원을 추가
# 딥러닝 모델은 데이터를 배치로 처리하기 때문에 한개가 있더라도 배치 형태로 만들어야 모델이 처리할 수 있다
input_embeddings = input_embeddings.unsqueeze(0) # (1, 5, 16)
input_embeddings.shape

torch.Size([1, 5, 16])

# **절대적 위치 인코딩**

In [None]:
embedding_dim = 16
max_position = 12
embed_layer = nn.Embedding(len(str2idx), embedding_dim)
# 기존의 임베딩 층에 추가할 위치 임베딩 층
# 위치 인코딩을 생성하는 위치 임베딩 층
# max_position = 12 = 최대 토큰 수 -> 12개
position_embed_layer = nn.Embedding(max_position, embedding_dim)

# torch.arange = 0 부터 시작하는 1차원 텐서 생성
# dtype=torch.long = long 타입으로 생성 -> 위치 인덱스를 나타내기에 알맞은 타입
# unsqueeze = 배치 처리하기 위해 차원 추가
position_ids = torch.arange(len(input_ids), dtype=torch.long).unsqueeze(0)
# 위치 아이디를 임베딩 층에 입력해 위치 인코딩 설정 (벡터)
position_encodings = position_embed_layer(position_ids)
token_embeddings = embed_layer(torch.tensor(input_ids))
token_embeddings = token_embeddings.unsqueeze(0)

# 토큰 임베딩에 위치 인코딩을 더해 모델에 입력할 최종 입력 임베딩 준비
input_embeddings = token_embeddings + position_encodings
input_embeddings.shape

torch.Size([1, 5, 16])