In [None]:
# T5 모델을 활용한 기계 번역 학습 및 예측
# Hugging Face의 `transformers` 라이브러리
# T5 모델을 사용하여 기계 번역을 학습하고 예측

In [None]:
# 라이브러리 설치
!pip install transformers

import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer

In [None]:
# T5 모델 및 토크나이저 로드
model = T5ForConditionalGeneration.from_pretrained('t5-base')
tokenizer = T5Tokenizer.from_pretrained('t5-base')

In [None]:
# 학습 데이터 준비
source_texts = ["Hello, how are you?", "What is your name?"]
target_texts = ["안녕하세요, 어떻게 지내세요?", "당신의 이름은 무엇인가요?"]

In [None]:
# 토큰화 및 인코딩
inputs = tokenizer.prepare_seq2seq_batch(src_texts=source_texts, tgt_texts=target_texts, truncation=True, padding=True, return_tensors="pt")

In [None]:
# 입력 데이터 준비
input_ids = inputs.input_ids
attention_mask = inputs.attention_mask

In [None]:
# 모델 학습
model.train()
model.to('cuda')
input_ids = input_ids.to('cuda')
attention_mask = attention_mask.to('cuda')

outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)
loss = outputs.loss
loss.backward()

In [None]:
# 모델 예측
model.eval()

In [None]:
# 번역할 문장
input_text = "How are you doing?"

In [None]:
# 토큰화 및 인코딩
input_ids = tokenizer.encode(input_text, return_tensors="pt")

In [None]:
# 입력 데이터 준비
input_ids = input_ids.to('cuda')

In [None]:
# 번역 예측
translated_ids = model.generate(input_ids=input_ids, max_length=100)

In [None]:
# 디코딩하여 결과 출력
translated_text = tokenizer.decode(translated_ids[0], skip_special_tokens=True)
print("번역 결과:", translated_text)