<a href="https://colab.research.google.com/github/seongmin-mun/AjouUniversityCourse/blob/master/2024/Machine Translation/code/Code_SMT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 통계기반 기계번역
- 대량의 병렬 코퍼스(번역된 문장 쌍 데이터)를 통해 단어 또는 구문 간의 통계적 확률을 학습하여 번역하는 방식입니다. 주로 입력 문장에서 목표 문장으로 변환될 확률이 가장 높은 번역을 선택하는 방법이다(Peter et al., 1990; Philipp, 2010).

In [None]:
import random

# 단어별 번역 확률 모델 (번역 모델)
translation_model = {
    "나는": {"I": 0.8, "Me": 0.2},
    "사과를": {"an apple": 0.7, "apple": 0.3},
    "먹는다.": {"eat": 0.6, "am eating": 0.4}
}

# 언어 모델로 확률에 따라 번역 선택
def translate_word(word):
    if word in translation_model:
        # 해당 단어의 번역 후보 중 확률에 따라 선택
        translations = translation_model[word]
        return random.choices(list(translations.keys()), weights=translations.values(), k=1)[0]
    else:
        return word  # 번역 모델에 없는 단어는 그대로 반환

# 문장 단위 번역
def translate_sentence(sentence):
    words = sentence.split()
    translated_words = [translate_word(word) for word in words]

    # 한국어는 SOV 구조, 영어는 SVO 구조이므로 순서 변환 (주어-동사-목적어)
    if len(translated_words) == 3:
        subject, object_, verb = translated_words  # "나는 사과를 먹었다"
        return f"{subject} {verb} {object_}"      # "I ate an apple"

    return " ".join(translated_words)

# 테스트
korean_sentence = "나는 사과를 먹는다."
english_translation = translate_sentence(korean_sentence)
print("Translated Sentence:", english_translation)


Translated Sentence: I am eating apple
