In [42]:
# encoder

def encode(input_sequence, embedding_matrix):
    ''' 
    입력 시퀀스 컨텍스트 벡터로 인코딩하는 간소화된 함수입니다.
    
    Args
    ----
    - input_sequence : 문장 내 단어들을 대표하는 정수의 리스트
    - embedding_matrix : 단어 인덱스를 임베딩으로 변환하는 행렬
    
    Returns
    -------
    - 입력 시퀀스 전체의 정보를 담은 단일 벡터를 반환
    '''
    
    # step 1. word embedding
    # transforms input word into high dimension vector
    embedded_sequence = [embedding_matrix[word] for word in input_sequence]
    print(embedded_sequence)
    
    # step 2. self-attention : calculation interaction between words
    # 여기서는 모든 임베딩의 합을 임베딩의 수로 나누어 평균 벡터를 생성합니다.
    # 2차원 리스트의 합 
    attention_output = sum(sum(embedded_sequence, [])) / len(embedded_sequence)
    
    # step 3. position-wise feedforwad network : 각 위치의 출력을 독립적으로 변환하는 과정을 단순화
    # 여기서는 결과 벡터에 고정된 스칼라(1.5)를 곱합니다.
    context_vector = attention_output * 1.5
    
    return context_vector

In [47]:
a = [[0.1, 0.2], [0.4, 0.5], [0.6, 0.7], [0.8, 0.9]]
print(sum(a, []))
print(sum(sum(a, [])))

[0.1, 0.2, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]
4.2


In [45]:
# examples
input_sequence = [3, 14, 15, 92]        # 단어 인덱스로 표현된 예제 문장
embedding_matrix = {
    3: [0.1, 0.2],
    14: [0.4, 0.5],
    15: [0.6, 0.7],
    92: [0.8, 0.9]
}   # 간소화된 임베딩 행렬

context_vector = encode(input_sequence, embedding_matrix)
print("context vector: ", context_vector)

[[0.1, 0.2], [0.4, 0.5], [0.6, 0.7], [0.8, 0.9]]
context vector:  1.5750000000000002


In [None]:
# 예를 들어, 문장을 입력으로 받았다면, 이 컨텍스트 벡터는 해당 문장의 전반적인 의미, 중요 단어나 구, 문맥 등을 모델이 이해한 바를 요약하여 담고 있습니다. 
# 따라서, 컨텍스트 벡터는 후속 처리 과정(예: 번역, 요약, 감성 분석 등)에서 매우 중요한 역할을 합니다.

In [8]:
# decoder

import random

def simple_decoder(encoded_text, start_token, vocabulary, embedding_matrix, max_length):
    """ 
    간소화된 디코더 함수, 인코딩된 컨텍스트 벡터를 사용하여 새로운 시퀀스를 생성합니다.
    Args
    ----
    - encoded_context : 인코더로부터 넘어온 컨텍스트 벡터
    - start_token : 출력 시퀀스 생성을 시작하는 토큰
    - vocabulary : 가능한 모든 출력 토큰의 집합
    - embedding_matrix : 단어 임베딩을 위한 행렬
    - max_length : 생성할 시퀀스의 최대 길이
    
    Returns
    -------
    - 생성한 시퀀스의 단어 인덱스 리스트
    """
    output_sequence = [start_token]
    
    for _ in range(max_length):
        # 현재까지의 출력 시퀀스를 기반으로 다음 토큰 예측 (단순화를 예시로, 무작위 선택을 사용)
        next_token = random.choice(list(vocabulary))
        output_sequence.append(next_token)
        
        # 'end' 토큰을 만나면 시퀀스 생성 종료
        if next_token == 'end':
            break
        
    return output_sequence

In [23]:
# example
encoded_context = [0.5, -1]     # 인코더로부터의 컨텍스트 벡터 예시
start_token = 'hello'           # 시퀀스 생성을 위한 시작 토큰
vocabulary = {'start', 'hello', 'world', 'end'}     # 가능한 단어 집합
max_length = 5          # 생성할 시퀀스의 최대 길이

# execute decoder
ouput_sentence = simple_decoder(encoded_context, start_token, vocabulary, embedding_matrix, max_length)
print("Generated Sequence: ", ouput_sentence)

Generated Sequence:  ['hello', 'start', 'start', 'world', 'end']
