In [2]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [1]:
import torch
from transformers import AutoTokenizer, Gemma3ForCausalLM # BitsAndBytesConfig 임포트 제거

# 0. 모델 ID 정의
model_id = "google/gemma-3-1b-it"

# 1. 장치 설정 및 모델 로드 시 사용할 dtype 결정
#    양자화를 사용하지 않으므로, 모델의 부동소수점 정밀도를 직접 설정합니다.
if torch.cuda.is_available():
    device = torch.device("cuda")
    # CUDA에서는 bfloat16이 Gemma 모델에 권장될 수 있으며, float16도 사용 가능합니다.
    # Ampere 아키텍처 이상 GPU는 bfloat16을 잘 지원합니다.
    model_dtype = torch.bfloat16
    print(f"CUDA 사용 가능. 장치: {device}, 모델 dtype: {model_dtype}")
elif torch.backends.mps.is_available():
    device = torch.device("mps")
    # MPS는 float16을 잘 지원합니다.
    model_dtype = torch.float16
    print(f"MPS 사용 가능. 장치: {device}, 모델 dtype: {model_dtype}")
else:
    device = torch.device("cpu")
    # CPU에서는 bfloat16 (최신 CPU 및 PyTorch 버전) 또는 float32를 사용합니다.
    # 안정성을 위해 float32를 기본으로 하되, bfloat16도 시도해볼 수 있습니다.
    try:
        # CPU에서 bfloat16 지원 테스트 (간단한 텐서 생성)
        _ = torch.randn(1, dtype=torch.bfloat16)
        model_dtype = torch.bfloat16
        print("CPU에서 bfloat16 지원 확인됨.")
    except RuntimeError:
        model_dtype = torch.float32
        print("CPU에서 bfloat16 미지원 또는 오류 발생. float32 사용.")
    print(f"CPU 사용. 장치: {device}, 모델 dtype: {model_dtype}")


# 2. 모델 로드 (양자화 설정 제거, torch_dtype 명시)
try:
    model = Gemma3ForCausalLM.from_pretrained(
        model_id,
        torch_dtype=model_dtype, # 결정된 dtype으로 모델 로드
        # device_map="auto" # 메모리가 매우 부족할 경우 고려해볼 수 있으나,
                           # 단일 장치 지정 시에는 보통 .to(device)를 사용합니다.
    ).eval() # 추론 모드
except Exception as e:
    print(f"모델 로딩 중 오류 발생: {e}")
    exit()

# 3. 토크나이저 로드
try:
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    if tokenizer.pad_token_id is None:
        tokenizer.pad_token_id = tokenizer.eos_token_id
        print(f"tokenizer.pad_token_id가 없어 eos_token_id({tokenizer.eos_token_id})로 설정합니다.")
except Exception as e:
    print(f"토크나이저 로딩 중 오류 발생: {e}")
    exit()

# 4. 모델을 최종 장치로 이동
#    from_pretrained에서 device_map을 사용하지 않았으므로 .to(device) 호출
model.to(device)
print(f"모델을 장치 {str(model.device)}로 이동 완료. 현재 모델 dtype: {model.dtype}")

MPS 사용 가능. 장치: mps, 모델 dtype: torch.float16
모델을 장치 mps:0로 이동 완료. 현재 모델 dtype: torch.float16


In [7]:
# 5. 번역 함수 정의
def translate_to_korean_gemma3(text_to_translate: str,
                               model: Gemma3ForCausalLM,
                               tokenizer: AutoTokenizer,
                               max_new_tokens: int = 512,
                               temperature: float = 0.05,
                               top_p: float = 0.9):
    messages = [
        # 시스템 메시지는 모델의 전반적인 역할(번역가)을 설정하는 데 도움을 줄 수 있습니다.
        # 하지만 때로는 시스템 메시지 없이 user 메시지만으로도 충분할 수 있습니다.
        # 우선은 시스템 메시지를 간결하게 유지하거나, user 메시지에 모든 것을 포함하는 것을 테스트해봅니다.
        {
            "role": "system",
            "content": "You are a translation assistant that translates user input into Korean. Provide only the Korean translation."
        },
        {
            "role": "user",
            # 사용자의 요청임을 명확히 하고, 번역할 텍스트를 명시적으로 전달합니다.
            "content": f"Please translate the following text into Korean. Do not add any explanations or introductory phrases. Just provide the Korean translation.\n\nText to translate: \"{text_to_translate}\""
        }
        # add_generation_prompt=True 옵션으로 인해 이 뒤에 모델이 응답을 시작할 부분(예: <start_of_turn>model\n)이 추가됩니다.
    ]

    try:
        prompt_text_for_model = tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
    except Exception as e:
        print(f"tokenizer.apply_chat_template 사용 중 오류 또는 미지원: {e}. 대체 프롬프트를 사용합니다.")
        # 대체 프롬프트는 Gemma의 특정 형식을 따르는 것이 좋습니다.
        # 예: prompt_text_for_model = f"<start_of_turn>system\nYou are a highly skilled translator...\n<end_of_turn>\n<start_of_turn>user\n{text_to_translate}<end_of_turn>\n<start_of_turn>model\n"
        # 여기서는 apply_chat_template이 성공했다고 가정하고 단순화합니다.
        # 실제로는 Gemma 모델 카드에서 권장하는 정확한 수동 프롬프트 형식을 사용해야 합니다.
        prompt_text_for_model = f"System: You are a highly skilled translator... Stop generating text immediately after the Korean translation is complete.\nUser: {text_to_translate}\nAssistant:"

    print(f"  프롬프트 (모델 입력): {prompt_text_for_model[:300]}...")
    inputs = tokenizer(prompt_text_for_model, return_tensors="pt", truncation=True, padding="longest", return_attention_mask=True).to(model.device)

    try:
        with torch.inference_mode():
            eos_token_ids_list = [tokenizer.eos_token_id]
            try:
                eot_id = tokenizer.convert_tokens_to_ids("<end_of_turn>")
                if isinstance(eot_id, int) and eot_id != tokenizer.unk_token_id: # 유효한 ID이고 UNK 토큰이 아니면
                    if eot_id not in eos_token_ids_list: # 중복 방지
                         eos_token_ids_list.append(eot_id)
                print(f"  사용할 EOS 토큰 ID(들): {eos_token_ids_list}")
            except Exception as e_eot:
                 print(f"  <end_of_turn> 토큰 ID 확인 중 오류 (무시하고 기본 EOS 사용): {e_eot}")


            outputs = model.generate(
                **inputs,
                max_new_tokens=max_new_tokens,
                eos_token_id=eos_token_ids_list, # 단일 ID 또는 ID 리스트
                pad_token_id=tokenizer.pad_token_id,
                temperature=temperature,
                top_p=top_p,
                do_sample=True,
            )

        output_tokens = outputs[0]
        input_length = inputs['input_ids'].shape[1]
        
        translated_text = ""
        if output_tokens.shape[0] > input_length:
            generated_tokens = output_tokens[input_length:]
            # special_tokens=False로 먼저 디코딩하여 EOS 문자열을 찾기 위함이 아닙니다.
            # EOS를 포함하여 디코딩 후 자르는 것이 더 정확합니다.
            # 하지만, generate 함수가 eos_token_id를 만나면 그 이후는 생성하지 않아야 합니다.
            # 그럼에도 불구하고 추가 생성이 있다면, 디코딩 후 처리해야 합니다.
            
            # skip_special_tokens=True로 디코딩 (일반적인 경우)
            translated_text = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
            print(f"  모델 생성 부분 (special tokens 스킵 후 첫 150자): {translated_text[:150]}...")

            # 만약 skip_special_tokens=True로도 이상한 것이 붙는다면,
            # skip_special_tokens=False로 디코딩하여 실제 EOS 토큰 문자열을 기준으로 잘라내야 합니다.
            # 이 부분은 실험을 통해 어떤 방식이 더 나은지 결정해야 합니다.
            # 예시:
            # raw_decoded_text = tokenizer.decode(generated_tokens, skip_special_tokens=False).strip()
            # eos_str_candidates = [tokenizer.eos_token]
            # if "<end_of_turn>" in tokenizer.vocab and tokenizer.convert_tokens_to_ids("<end_of_turn>") != tokenizer.unk_token_id:
            #     eos_str_candidates.append("<end_of_turn>")
            #
            # for eos_candidate in eos_str_candidates:
            #     if eos_candidate in raw_decoded_text:
            #         translated_text = raw_decoded_text.split(eos_candidate)[0].strip()
            #         break # 첫 번째 발견된 EOS에서 자름
            # else: # EOS가 명시적으로 발견되지 않으면, 일단 skip_special_tokens=True 결과 사용
            #     translated_text = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()

        else: # 생성이 없거나 입력과 길이가 같은 경우
            translated_text = ""


        # 추가적인 휴리스틱 정제 (임시방편, 최후의 수단)
        # 알려진 이상한 외국어 패턴의 시작 부분을 기준으로 자르기
        # 이 패턴들은 실제 결과에 따라 계속 추가/수정해야 합니다.
        artifacts_to_check = [
            "Ьaino", "יו", "tained", " कदाचित", "Ь অনুসরণ করেছেন", "سلم", "pengguna",
            "Climbs to the top", "Note:", "Please ensure", "Okay, let's get started",
            "Alright, let me see", "Translation note:", "Also, the translation uses"
        ]
        # 정규 표현식을 사용하여 한국어 블록 이후의 외국어를 제거하는 것이 더 나을 수 있습니다.
        # 예: import re; translated_text = re.split(r'[^\uAC00-\uD7A3\u3131-\u3163\u1100-\u11FFa-zA-Z0-9\s.,!?\'"]+', translated_text)[0]
        
        original_length = len(translated_text)
        for artifact in artifacts_to_check:
            if artifact.lower() in translated_text.lower(): # 대소문자 무시하고 체크
                # translated_text = translated_text.split(artifact)[0].strip() # 대소문자 구분하여 자름
                # 대소문자 무시하고 자르려면 정규식 필요
                import re
                # 패턴을 찾아서 그 이전까지만 남김
                match = re.search(re.escape(artifact), translated_text, re.IGNORECASE)
                if match:
                    translated_text = translated_text[:match.start()].strip()
        
        if len(translated_text) < original_length:
            print(f"  후처리로 일부 아티팩트 제거됨. (원래 길이: {original_length}, 수정 후: {len(translated_text)})")


        # 번역 결과가 비어있거나 너무 짧으면 원본 텍스트와 비교하여 로깅
        if not translated_text or len(translated_text) < 5:
            print(f"⚠️ 번역 결과가 매우 짧거나 비어있음: '{translated_text}'. 원본: '{text_to_translate}'")


        return translated_text

    except Exception as e:
        print(f"번역 생성 중 오류 발생: {e}")
        return f"번역 오류: {e}"

# 6. 다양한 언어 텍스트 예시 및 번역 실행 (이전과 동일)
texts_to_translate = {
    "english": "Hi are you good at translating?",
    "japanese": "こんにちは。あなたは翻訳が上手ですか？",
    "chinese_simplified": "你好，你翻译得好吗？",
    "spanish": "Hola. ¿Eres bueno traduciendo?",
    "korean_input": "안녕 너는 번역을 잘하니?"
}

if __name__ == "__main__":
    if 'model' not in locals() or 'tokenizer' not in locals():
        print("모델 또는 토크나이저가 성공적으로 로드되지 않았습니다.")
    else:
        print(f"\n--- Gemma-3 번역 테스트 (양자화 없음) 시작 ---")
        for lang, text in texts_to_translate.items():
            print(f"\n[원본 ({lang.capitalize()})]")
            print(text)

            translated = translate_to_korean_gemma3(text, model, tokenizer)

            print(f"[번역 결과 (Korean)]")
            print(translated)
            print("-" * 30)


--- Gemma-3 번역 테스트 (양자화 없음) 시작 ---

[원본 (English)]
Hi are you good at translating?
  프롬프트 (모델 입력): <bos><start_of_turn>user
You are a translation assistant that translates user input into Korean. Provide only the Korean translation.

Please translate the following text into Korean. Do not add any explanations or introductory phrases. Just provide the Korean translation.

Text to translate: "Hi ar...
  사용할 EOS 토큰 ID(들): [1, 106]
  모델 생성 부분 (special tokens 스킵 후 첫 150자): 안녕하세요, 번역 잘 하세요?...
[번역 결과 (Korean)]
안녕하세요, 번역 잘 하세요?
------------------------------

[원본 (Japanese)]
こんにちは。あなたは翻訳が上手ですか？
  프롬프트 (모델 입력): <bos><start_of_turn>user
You are a translation assistant that translates user input into Korean. Provide only the Korean translation.

Please translate the following text into Korean. Do not add any explanations or introductory phrases. Just provide the Korean translation.

Text to translate: "こんにちは...
  사용할 EOS 토큰 ID(들): [1, 106]
  모델 생성 부분 (special tokens 스킵 후 첫 150자): 안녕하세요. 당신은 번역이