In [1]:
!pip install nltk



In [8]:
import nltk

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [5]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

# 영어 불용어 목록을 로드합니다. (set이 list보다 검색 속도가 빠릅니다)
stop_words = set(stopwords.words('english'))

# Porter 어간 추출기를 초기화합니다.
stemmer = PorterStemmer()

In [6]:

def preprocess_text_pipeline(text):
  """
  NLTK를 사용한 텍스트 전처리 파이프라인 함수

  파이프라인 단계:
  1. 소문자화 (Normalization)
  2. 토큰화 (Tokenization)
  3. 불용어 제거 (Stopword Removal) + 구두점/숫자 제거
  4. 어간 추출 (Stemming)
  """

  # 1. 소문자화
  # 텍스트를 모두 소문자로 변경하여 일관성을 유지합니다.
  lower_text = text.lower()

  # 2. 토큰화
  # 문장을 개별 단어(토큰)로 분리합니다.
  # "Hello world!" -> ["Hello", "world", "!"]
  tokens = word_tokenize(lower_text)

  # 3. & 4. 불용어, 구두점 제거 및 어간 추출
  processed_tokens = []
  for token in tokens:
    # 3a. 알파벳이 아닌 토큰(숫자, 구두점 등)을 제거합니다.
    if token.isalpha():
      # 3b. 불용어(stopwords)를 제거합니다.
      if token not in stop_words:
        # 4. 어간 추출
        # 단어를 기본 형태로 변환합니다. (예: 'running' -> 'run')
        stemmed_token = stemmer.stem(token)
        processed_tokens.append(stemmed_token)

  return processed_tokens


In [10]:

# --- 3. 파이프라인 테스트 ---
example_text = """The quick brown fox jumps over the lazy dog. NLTK is a powerful library for natural language processing. Dr. Smith accepted the position on June 1st. This thing seemed to overpower and astonish the little dark-brown dog, and wounded him to the heart. He sank down in despair at the child's feet."""

print(f"--- 원본 텍스트 ---")
print(example_text)
print("-" * 30)

processed_result = preprocess_text_pipeline(example_text)

print(f"--- 전처리 후 토큰 ---")
print(processed_result)

--- 원본 텍스트 ---
The quick brown fox jumps over the lazy dog. NLTK is a powerful library for natural language processing. Dr. Smith accepted the position on June 1st. This thing seemed to overpower and astonish the little dark-brown dog, and wounded him to the heart. He sank down in despair at the child's feet.
------------------------------
--- 전처리 후 토큰 ---
['quick', 'brown', 'fox', 'jump', 'lazi', 'dog', 'nltk', 'power', 'librari', 'natur', 'languag', 'process', 'smith', 'accept', 'posit', 'june', 'thing', 'seem', 'overpow', 'astonish', 'littl', 'dog', 'wound', 'heart', 'sank', 'despair', 'child', 'feet']
