<a href="https://colab.research.google.com/github/shualoalumin/AIFFEL_quest_cr/blob/main/Avengersvocab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# [QUEST] Avengers vocab 만들기!
# Vocabulary란
# 단어가 특정 정수와 매칭되어 있는 딕셔너리 형태의 단어장 퀘스트: 문장을 입력받아서 정수로 리턴해주는 함수를 만들자!
# 조건

# 1. 텍스트 전처리를 수행한다.
#   - Avengers.txt 파일을 불러온다.
#   모든 문자는 소문자로 변환한다.
#   모든 기호는 제거한다.
#   단어 단위로 분리한다.
#   결과:
#   "I am hungry. very much..." -> ['i', 'am', 'hungry', 'very', 'much']
# 2. 각 단어 별 빈도수를 딕셔너리 형태로 저장한다.
# 3. 딕셔너리를 빈도수순으로 내림차순 정렬하고, 정렬 순서대로 정수 인덱스를 부여한다.
# 4. 텍스트를 input()으로 입력받아서 정수를 return하는 함수를 만든다.

# 텍스트 전처리 수행
import re  # 정규 표현식을 사용하기 위한 모듈을 가져옵니다.
from collections import Counter  # 단어 빈도수 계산을 위한 Counter 클래스를 가져옵니다.

def preprocess_text(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as file:  # 지정된 파일을 UTF-8 인코딩으로 읽기 모드로 엽니다. 인코딩 지정으로 읽기 오류 방지
            text = file.read().lower()  # 파일의 모든 내용을 읽고 소문자로 변환합니다.
        words = re.findall(r'\b\w+\b', text)  # 정규 표현식을 사용하여 텍스트에서 단어만 추출합니다.
        return text, words
    except FileNotFoundError:
        print(f"파일을 찾을 수 없습니다: {file_path}")  # 파일이 없을 경우 에러 메시지를 출력합니다.
        return None, []  # 파일이 없을 경우 None과 빈 리스트를 반환합니다.

def create_word_frequency(words):
    return dict(Counter(words))  # Counter를 사용하여 단어 빈도수를 계산하고 딕셔너리로 변환합니다.

def create_vocabulary(word_freq):
    sorted_words = sorted(word_freq, key=word_freq.get, reverse=True)  # 단어를 빈도수 기준으로 내림차순 정렬합니다.
    return {word: idx for idx, word in enumerate(sorted_words)}  # 정렬된 단어에 인덱스를 부여하여 딕셔너리를 생성합니다.

def text_to_integers(text, vocab):
    words = re.findall(r'\b\w+\b', text.lower())  # 입력 텍스트를 소문자로 변환하고 단어로 분리합니다.
    return [vocab.get(word, len(vocab)) for word in words]  # 각 단어를 vocabulary의 인덱스로 변환합니다. 없는 단어는 vocabulary의 길이(OOV 토큰)를 사용합니다.

# 메인 실행 부분
file_path = 'Avengers.txt'  # 처리할 파일의 경로를 지정합니다.
preprocessed_text, words = preprocess_text(file_path)  # 파일에서 텍스트를 읽고 전처리합니다.

# 전처리된 텍스트 출력
print("전처리된 텍스트:")
print(preprocessed_text[:500] + "..." if preprocessed_text else "텍스트를 불러오지 못했습니다.")  # 전처리된 텍스트의 처음 500자를 출력합니다.
print()

# 1. 각 단어별 빈도수를 딕셔너리 형태로 저장하고 보여주기
word_frequency = create_word_frequency(words)  # 단어 빈도수를 계산합니다.
print("1. 단어별 빈도수:")
print(dict(list(word_frequency.items())[:20]))  # 상위 20개 단어의 빈도수를 출력합니다.
print()

# 2. 딕셔너리를 빈도수순으로 내림차순 정렬하고, 정렬 순서대로 인덱스 부여
vocabulary = create_vocabulary(word_frequency)  # 빈도수 기반으로 vocabulary를 생성합니다.
print("2. 빈도수 기반 정렬 및 인덱스 부여:")
print(dict(list(vocabulary.items())[:20]))  # 상위 20개 단어와 그 인덱스를 출력합니다.
print()

# 3. 텍스트를 입력받아 정수로 변환하는 함수
def convert_input_to_integers(vocab):
    input_text = input("텍스트를 입력하세요: ")  # 사용자로부터 텍스트를 입력받습니다.
    result = text_to_integers(input_text, vocab)  # 입력받은 텍스트를 정수로 변환합니다.
    return result

print("3. 입력 텍스트를 정수로 변환:")
print(convert_input_to_integers(vocabulary))  # 사용자 입력을 정수로 변환하여 출력합니다.

전처리된 텍스트:
the tesseract has awakened.
it is on a neutral world, a human world.
they wield its power,
but our ally knows it's working, so that they never will learn.
he's ready to lead, and our force, our chitauri will follow.
the world will be his and the universe yours.
and the humans, what can they do, but burn.
how bad is it?
that's the problem, sir. we don't know.
dr. selvig read an energy surge from the tesseract four hour ago.
nasa didn't authorize selvig to pull the test phase.
he wasn't testing it...

1. 단어별 빈도수:
{'the': 367, 'tesseract': 35, 'has': 19, 'awakened': 1, 'it': 181, 'is': 124, 'on': 96, 'a': 227, 'neutral': 1, 'world': 23, 'human': 3, 'they': 45, 'wield': 2, 'its': 5, 'power': 16, 'but': 40, 'our': 20, 'ally': 1, 'knows': 8, 's': 208}

2. 빈도수 기반 정렬 및 인덱스 부여:
{'you': 0, 'the': 1, 'i': 2, 'a': 3, 'to': 4, 's': 5, 'it': 6, 'we': 7, 'that': 8, 't': 9, 'of': 10, 'is': 11, 'and': 12, 'he': 13, 'this': 14, 'on': 15, 'in': 16, 'not': 17, 'what': 18, 'me': 19}

3. 입력 텍스트를 정