# 한영 번역기 만들기


### step1 데이터 다운로드

In [9]:
import tensorflow as tf

# 데이터 다운로드
path_to_file = tf.keras.utils.get_file(
    fname="korean-english-park.train.tar.gz",
    origin="https://github.com/jungyeul/korean-parallel-corpora/raw/master/korean-english-news-v1/korean-english-park.train.tar.gz"
)

In [10]:
# 압축 파일을 풀기 위한 코드
import os
import tarfile

extract_path = os.path.splitext(path_to_file)[0]

with tarfile.open(path_to_file, "r:gz") as tar:
    tar.extractall(path=extract_path)

# 파일 경로 설정
ko_file = os.path.join(extract_path, "korean-english-park.train.ko")
en_file = os.path.join(extract_path, "korean-english-park.train.en")

In [11]:
# 데이터 로드 함수
def load_data(ko_path, en_path, num_samples=30000):
    with open(ko_path, "r", encoding="utf-8") as f_ko, open(en_path, "r", encoding="utf-8") as f_en:
        ko_sentences = f_ko.readlines()
        en_sentences = f_en.readlines()

    # 데이터 샘플 개수 제한
    ko_sentences = [line.strip() for line in ko_sentences[:num_samples]]
    en_sentences = [line.strip() for line in en_sentences[:num_samples]]

    return ko_sentences, en_sentences

ko_sentences, en_sentences = load_data(ko_file, en_file)

### step2 : 데이터 전처리

In [12]:
import re

# 데이터 정제 함수 (한국어에 맞는 정규식 추가)
def clean_text(text, lang="ko"):
    text = text.lower().strip()  # 공백 제거 및 소문자 변환 (영어만 해당)

    # 기본 특수문자 제거 (언어별 정제)
    if lang == "en":
        text = re.sub(r"[^a-zA-Z?.!,¿]+", " ", text)  # 영어에서 한글, 숫자 등 제거
    else:
        text = re.sub(r"[^가-힣ㄱ-ㅎㅏ-ㅣ?.!,¿]+", " ", text)  # 한국어에서 영어, 숫자 등 제거

    text = re.sub(r"\s+", " ", text)  # 연속된 공백 제거
    return text.strip()


In [13]:
from konlpy.tag import Mecab
# 한국어 토큰화 (MeCab)
mecab = Mecab()

def tokenize_ko(sentences):
    return [" ".join(mecab.morphs(sentence)) for sentence in sentences]

ko_cleaned = [clean_text(sent, lang="ko") for sent in ko_sentences]
en_cleaned = [clean_text(sent, lang="en") for sent in en_sentences]


ModuleNotFoundError: No module named 'konlpy'

In [14]:
# <start>와 <end> 토큰을 영어 문장에 추가하고 split() 함수를 이용해 토큰화
en_cleaned_with_tokens = ["<start> " + sentence + " <end>" for sentence in en_cleaned]
en_tokenized = [sentence.split() for sentence in en_cleaned_with_tokens]

NameError: name 'en_cleaned' is not defined

In [15]:
# 데이터 중복 제거
def remove_duplicates(ko_sentences, en_sentences):
    unique_data = set(zip(ko_sentences, en_sentences))  # 중복 제거
    return zip(*unique_data)

ko_cleaned, en_tokenized = remove_duplicates(ko_cleaned, en_tokenized)

NameError: name 'ko_cleaned' is not defined

In [16]:
# 40 이하의 길이를 가지는 문장만 필터링
def filter_data(ko_sentences, en_sentences, max_length=40):
    filtered_ko = [sent for sent in ko_sentences if len(sent.split()) <= max_length]
    filtered_en = [sent for sent, kor_sent in zip(en_sentences, ko_sentences) if len(kor_sent.split()) <= max_length]
    return filtered_ko, filtered_en

ko_filtered, en_filtered = filter_data(ko_cleaned, en_tokenized)

NameError: name 'ko_cleaned' is not defined

In [17]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 한국어 및 영어 토큰화 함수 정의
def tokenize_data(corpus, num_words=10000):
    tokenizer = Tokenizer(num_words=num_words, filters='')
    tokenizer.fit_on_texts(corpus)
    tensor = tokenizer.texts_to_sequences(corpus)
    tensor = pad_sequences(tensor, padding='post')
    return tensor, tokenizer

# 한국어 및 영어 텐서 변환
ko_tensor, ko_tokenizer = tokenize_data(ko_filtered, num_words=10000)
en_tensor, en_tokenizer = tokenize_data(en_filtered, num_words=10000)

# 텐서의 샘플 출력
print(f"Sample Korean Tensor: {ko_tensor[0]}")
print(f"Sample English Tensor: {en_tensor[0]}")


NameError: name 'ko_filtered' is not defined

### step3: 모델 설계

In [18]:
from tensorflow.keras import layers, Model

# Seq2Seq 모델 설계 (Attention 포함)
def create_seq2seq_model(vocab_size_ko, vocab_size_en, embedding_dim=256, hidden_units=512):
    # 인코더
    encoder_input = layers.Input(shape=(None,))
    encoder_embedding = layers.Embedding(input_dim=vocab_size_ko, output_dim=embedding_dim)(encoder_input)
    encoder_lstm = layers.LSTM(hidden_units, return_state=True)
    encoder_outputs, encoder_state_h, encoder_state_c = encoder_lstm(encoder_embedding)
    encoder_states = [encoder_state_h, encoder_state_c]

    # 디코더
    decoder_input = layers.Input(shape=(None,))
    decoder_embedding = layers.Embedding(input_dim=vocab_size_en, output_dim=embedding_dim)(decoder_input)
    decoder_lstm = layers.LSTM(hidden_units, return_sequences=True, return_state=True)
    decoder_outputs, _, _ = decoder_lstm(decoder_embedding, initial_state=encoder_states)

    # Attention
    attention = layers.AdditiveAttention(use_scale=True)([decoder_outputs, encoder_outputs])
    attention_output = layers.Concatenate()([decoder_outputs, attention])

    decoder_dense = layers.Dense(vocab_size_en, activation='softmax')
    output = decoder_dense(attention_output)

    model = Model([encoder_input, decoder_input], output)
    return model

# 모델 컴파일
vocab_size_ko = len(ko_tokenizer.word_index) + 1
vocab_size_en = len(en_tokenizer.word_index) + 1
model = create_seq2seq_model(vocab_size_ko, vocab_size_en)

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 모델 구조 확인
model.summary()


NameError: name 'ko_tokenizer' is not defined

### step4: 모델 훈련

In [19]:
import tensorflow as tf

# train_step 함수 정의
@tf.function
def train_step(model, encoder_input, decoder_input, decoder_target, optimizer):
    with tf.GradientTape() as tape:
        predictions = model([encoder_input, decoder_input], training=True)
        loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(labels=decoder_target, logits=predictions))

    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))

    return loss

# 훈련 시작
epochs = 10
batch_size = 64
optimizer = tf.keras.optimizers.Adam()

for epoch in range(epochs):
    total_loss = 0
    for batch_start in range(0, len(ko_tensor), batch_size):
        batch_end = min(batch_start + batch_size, len(ko_tensor))
        encoder_input_batch = ko_tensor[batch_start:batch_end]
        decoder_input_batch = en_tensor[batch_start:batch_end, :-1]  # 디코더는 끝을 제외한 시퀀스
        decoder_target_batch = en_tensor[batch_start:batch_end, 1:]  # 목표 값은 디코더의 shifted 버전

        loss = train_step(model, encoder_input_batch, decoder_input_batch, decoder_target_batch, optimizer)
        total_loss += loss

    print(f"Epoch {epoch + 1}/{epochs} - Loss: {total_loss / (len(ko_tensor) // batch_size)}")


NameError: name 'ko_tensor' is not defined

### step5: 번역 함수 구현

In [None]:
import numpy as np

# 번역 함수 (입력된 한국어 문장을 영어로 번역)
def translate_sentence(sentence, model, ko_tokenizer, en_tokenizer, max_length=40):
    # 한국어 문장 토큰화
    sentence_seq = ko_tokenizer.texts_to_sequences([sentence])
    sentence_seq = pad_sequences(sentence_seq, maxlen=max_length, padding='post')

    # 디코더 입력 초기화
    start_token = en_tokenizer.texts_to_sequences(["<start>"])[0][0]
    end_token = en_tokenizer.texts_to_sequences(["<end>"])[0][0]

    decoder_input = np.array([[start_token]])  # 디코더는 <start> 토큰으로 시작
    decoded_sentence = ""

    for _ in range(max_length):
        # 예측 (디코더 입력과 인코더 출력을 기반으로)
        pred = model.predict([sentence_seq, decoder_input])
        pred_token = np.argmax(pred[0, -1, :])  # 가장 높은 확률을 가지는 단어 선택

        # 종료 조건 (예측이 <end> 토큰인 경우)
        if pred_token == end_token:
            break

        # 예측된 단어를 디코더 입력으로 추가
        decoded_sentence += en_tokenizer.index_word[pred_token] + " "
        decoder_input = np.array([[pred_token]])

    return decoded_sentence.strip()

# 예시 문장 번역
examples = [
    "오바마는 대통령이다.",
    "시민들은 도시 속에 산다.",
    "커피는 필요 없다.",
    "일곱 명의 사망자가 발생했다."
]

# 번역 결과 출력
for example in examples:
    translated = translate_sentence(example, model, ko_tokenizer, en_tokenizer)
    print(f"Input (Korean): {example}")
    print(f"Translated (English): {translated}\n")


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

def plot_attention_map(attention_weights, input_sentence, output_sentence, num_heads=1):
    """
    attention_weights: Attention weights (shape: (num_heads, input_len, output_len))
    input_sentence: 한국어 입력 문장 (단어 순으로)
    output_sentence: 영어 출력 문장 (단어 순으로)
    num_heads: Attention 헤드의 수 (기본값 1)
    """
    fig, axes = plt.subplots(1, num_heads, figsize=(15, 10))

    if num_heads == 1:
        axes = [axes]

    for i in range(num_heads):
        sns.heatmap(attention_weights[i], annot=True, fmt=".2f", cmap="Blues",
                    xticklabels=output_sentence, yticklabels=input_sentence,
                    cbar=True, ax=axes[i])
        axes[i].set_title(f'Attention Head {i + 1}')
        axes[i].set_xlabel('Output Sequence')
        axes[i].set_ylabel('Input Sequence')

    plt.tight_layout()
    plt.show()


In [None]:
# 모델에서 Attention 출력을 함께 반환하는 예시 (모델 구조에 맞게 조정)
def attention_model_predict(model, sentence, ko_tokenizer, en_tokenizer, max_length=40):
    # 한국어 문장 토큰화
    sentence_seq = ko_tokenizer.texts_to_sequences([sentence])
    sentence_seq = pad_sequences(sentence_seq, maxlen=max_length, padding='post')

    # 디코더 입력 초기화
    start_token = en_tokenizer.texts_to_sequences(["<start>"])[0][0]
    end_token = en_tokenizer.texts_to_sequences(["<end>"])[0][0]

    decoder_input = np.array([[start_token]])  # 디코더는 <start> 토큰으로 시작
    decoded_sentence = ""
    attention_weights = []

    for _ in range(max_length):
        # 예측 (디코더 입력과 인코더 출력을 기반으로)
        pred, attention_map = model.predict([sentence_seq, decoder_input])
        attention_weights.append(attention_map)

        pred_token = np.argmax(pred[0, -1, :])  # 가장 높은 확률을 가지는 단어 선택

        # 종료 조건 (예측이 <end> 토큰인 경우)
        if pred_token == end_token:
            break

        # 예측된 단어를 디코더 입력으로 추가
        decoded_sentence += en_tokenizer.index_word[pred_token] + " "
        decoder_input = np.array([[pred_token]])

    return decoded_sentence.strip(), np.array(attention_weights)

# 예시 문장 번역 및 Attention Map 출력
example_sentence = "오바마는 대통령이다."
translated_sentence, attention_weights = attention_model_predict(model, example_sentence, ko_tokenizer, en_tokenizer)

# Attention Map 시각화
input_sentence = example_sentence.split()  # 한국어 입력 문장 (공백 기준으로 토큰화)
output_sentence = translated_sentence.split()  # 번역된 출력 문장 (공백 기준으로 토큰화)

plot_attention_map(attention_weights, input_sentence, output_sentence)
