<a href="https://colab.research.google.com/github/peony1217-ctrl/first-repository/blob/master/AIFFEL_QUEST_Avengers_vocab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [15]:
import re
from collections import Counter

def preprocess_text(file_path):
    """
    텍스트 파일을 읽어 모두 소문자로 변환하고,
    문장 부호를 제거한 뒤 단어 단위로 나눕니다.

    Args:
        file_path (str): 텍스트 파일 경로

    Returns:
        list: 전처리된 단어들의 리스트
    """
    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read()
    text = text.lower()
    text = re.sub(r'[^a-z\s]', ' ', text)
    words = text.split()
    return words

def build_vocab(words):
    """
    단어의 빈도수를 기반으로 단어장 딕셔너리를 생성합니다.
    빈도수 내림차순, 동률 시 등장 순서 기준으로 정렬합니다.

    Args:
        words (list): 텍스트에서 추출한 단어 리스트

    Returns:
        dict: 단어(key)와 정수 인덱스(value) 매핑 딕셔너리
    """
    word_counts = Counter(words)
    unique_words = []
    seen = set()
    for w in words:
        if w not in seen:
            unique_words.append(w)
            seen.add(w)

    vocab_sorted = sorted(unique_words, key=lambda w: (-word_counts[w], unique_words.index(w)))
    vocab = {word: idx for idx, word in enumerate(vocab_sorted)}
    return vocab

def encoder(sentence, vocab):
    """
    문장을 입력받아 단어장 기준으로 정수 인덱스 리스트로 변환합니다.

    Args:
        sentence (str): 변환할 문장
        vocab (dict): 단어-인덱스 매핑 딕셔너리

    Returns:
        list: 문장의 단어를 정수 인덱스로 변환한 리스트
    """
    sentence = sentence.lower()
    sentence = re.sub(r'[^a-z\s]', ' ', sentence)
    tokens = sentence.split()
    return [vocab[token] for token in tokens if token in vocab]

# -------------------------------
# 사용 예시
# 재사용 할 수 있는 단어장 생성
# -------------------------------
file_path = '/content/Avengers.txt'
words = preprocess_text(file_path)
vocab = build_vocab(words)

print("단어장:", dict(list(vocab.items())[:10]))

test_sentence = "i am a boy"
encoded = encoder(test_sentence, vocab)
print("인코딩 결과:", encoded)  # [2, 131, 3, 541]


  # --------------------------------------------------------------------------
  # 회고 : 김지수
  # 기화님과 코드를 만들어나가면서 초반에는 파일 불러오기부터 오류가 떴습니다.
  # 하지만 기화님께서 차분히 해결 방법을 찾아주셨고,
  # 오류원인을 해결해 프로그래밍을 완성할 수 있었습니다.
  # 이 프로그래밍에서 저희가 직접 단어장을 만들어서 다른 텍스트 파일을 넣었을 때,
  # 이 코드를 사용할 수 있다는 점이 뿌듯하고 신기했습니다.
  # --------------------------------------------------------------------------
  # 회고 : 이기화
  # 이번 미션에서 주어진 Avengers 텍스트 파일을 기반으로 단어장(vocabulary)과
  # 인코더 관련 함수를 사용하여 코드를 작성하였다.
  # 함수를 사용하여 텍스트 전처리, 단어장 생성, 인코딩 기능을 넣었고,
  # 사용예시부를 구분하여 함수 자체는 재사용 가능하도록 하고,
  # 다른 입력값에도 쉽게 적용할 수 있도록 만들었다.
  # --------------------------------------------------------------------------




단어장: {'you': 0, 'the': 1, 'i': 2, 'a': 3, 'to': 4, 's': 5, 'it': 6, 'we': 7, 'that': 8, 't': 9}
인코딩 결과: [2, 121, 3, 541]


In [None]:
from google.colab import drive
drive.mount('/content/drive')