### 정수 인코딩(Integer Encoding)

- 자연어 처리는 텍스트 데이터를 숫자로 변환하여 컴퓨터가 이해할 수 있도록 만드는 것이 핵심.
- 정수 인코딩을 수행하여 텍스트 데이터에 고유한 인덱스를 부여.
- 이러한 인코딩 과정은 전처리 과정에서 필수적이며 각 단어의 등장 빈도에 따라 인덱스를 부여하는 것이 일반적.
- 단어 수를 5,000개로 제한하는 것은 모델 학습에 필요한 메모리와 계산 자원(리소스, 메모리 등)을 줄이기 위함.  
    => 등장 빈도가 낮은 단어는 제외하고 상위 5,000개 단어만 선택하는 것이 일반적.

In [1]:
raw_text = """The Little Prince, written by Antoine de Saint-Exupéry, is a poetic tale about a young prince who travels from his home planet to Earth. The story begins with a pilot stranded in the Sahara Desert after his plane crashes. While trying to fix his plane, he meets a mysterious young boy, the Little Prince.

The Little Prince comes from a small asteroid called B-612, where he lives alone with a rose that he loves deeply. He recounts his journey to the pilot, describing his visits to several other planets. Each planet is inhabited by a different character, such as a king, a vain man, a drunkard, a businessman, a geographer, and a fox. Through these encounters, the Prince learns valuable lessons about love, responsibility, and the nature of adult behavior.

On Earth, the Little Prince meets various creatures, including a fox, who teaches him about relationships and the importance of taming, which means building ties with others. The fox's famous line, "You become responsible, forever, for what you have tamed," resonates with the Prince's feelings for his rose.

Ultimately, the Little Prince realizes that the essence of life is often invisible and can only be seen with the heart. After sharing his wisdom with the pilot, he prepares to return to his asteroid and his beloved rose. The story concludes with the pilot reflecting on the lessons learned from the Little Prince and the enduring impact of their friendship.

The narrative is a beautifully simple yet profound exploration of love, loss, and the importance of seeing beyond the surface of things."""

In [None]:
#### 1. 인코딩 처리 ####

In [None]:
#### 2. 인코딩 처리 ####

In [2]:


from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

# 문장 토큰화
# sent_tokenize() : 문장 단위로 토큰화
sentences = sent_tokenize(raw_text)

# 영어 불용어 리스트
stop_words = set(stopwords.words('english'))

# 단어 사전(key=단어, value=빈도수)
vocab = {}

# 토큰화/정제/정규화 처리 결과
preprocessed_sentences = []

# 토큰 만큼 반복
for sent in sentences:
    sent = sent.lower()  # 대소문자 정규화(소문자 변환)
    words = word_tokenize(sent)  # 단어 토큰화
    # 불용어 제거
    words = [word for word in words if word not in stop_words] 
    # 단어 길이가 2 이하면 제거 (필터링)
    filtered_tokens = [word for word in words if len(word) > 2]
    
    # vocab 사전에 단어가 없으면 추가, 있으면 빈도수 증가
    for word in filtered_tokens:
        if word not in vocab:
            vocab[word] = 1
        else:
            vocab[word] += 1
            
    preprocessed_sentences.append(filtered_tokens)
    


In [3]:
def preprocess_text_for_encoding(text, min_word_length=2, language='english'):
    """
    텍스트를 정수 인코딩을 위해 전처리하는 함수
    
    Parameters:
    - text (str): 원본 텍스트
    - min_word_length (int): 최소 단어 길이 (기본값: 2)
    - language (str): 불용어 언어 (기본값: 'english')
    
    Returns:
    - vocab (dict): 단어별 빈도수 딕셔너리
    - preprocessed_sentences (list): 전처리된 문장들의 리스트
    """
    from nltk.tokenize import sent_tokenize, word_tokenize
    from nltk.corpus import stopwords
    
    # 문장 토큰화
    sentences = sent_tokenize(text)
    
    # 불용어 리스트
    stop_words = set(stopwords.words(language))
    
    # 단어 사전(key=단어, value=빈도수)
    vocab = {}
    
    # 토큰화/정제/정규화 처리 결과
    preprocessed_sentences = []
    
    # 각 문장을 처리
    for sent in sentences:
        sent = sent.lower()  # 대소문자 정규화(소문자 변환)
        words = word_tokenize(sent)  # 단어 토큰화
        
        # 불용어 제거 및 단어 길이 필터링
        filtered_tokens = [
            word for word in words 
            if word not in stop_words and len(word) > min_word_length
        ]
        
        # vocab 사전에 단어 빈도수 추가
        for word in filtered_tokens:
            vocab[word] = vocab.get(word, 0) + 1
            
        preprocessed_sentences.append(filtered_tokens)
    
    return vocab, preprocessed_sentences

In [4]:
# 함수를 사용하여 전처리 수행
vocab, preprocessed_sentences = preprocess_text_for_encoding(raw_text)

# 결과 확인
print("📊 단어 사전 크기:", len(vocab))
print("\n🔤 상위 10개 빈도수 단어:")
sorted_vocab = sorted(vocab.items(), key=lambda x: x[1], reverse=True)
for word, freq in sorted_vocab[:10]:
    print(f"  {word}: {freq}회")

print(f"\n📄 전처리된 문장 수: {len(preprocessed_sentences)}")
print(f"📝 첫 번째 문장 예시: {preprocessed_sentences[0][:10]}...")

📊 단어 사전 크기: 109

🔤 상위 10개 빈도수 단어:
  prince: 9회
  little: 6회
  pilot: 4회
  rose: 3회
  fox: 3회
  young: 2회
  planet: 2회
  earth: 2회
  story: 2회
  plane: 2회

📄 전처리된 문장 수: 13
📝 첫 번째 문장 예시: ['little', 'prince', 'written', 'antoine', 'saint-exupéry', 'poetic', 'tale', 'young', 'prince', 'travels']...
