In [1]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import string

In [2]:
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [3]:
# --- 2. 불용어 제거 "도구" (함수) 구현 ---

def remove_stopwords_tool(text, stop_words_set):
  """
  주어진 'stop_words_set'을 기준으로 텍스트에서 불용어를 제거합니다.

  Args:
    text (str): 원본 텍스트
    stop_words_set (set): 제거할 불용어 집합 (set)

  Returns:
    list: 불용어가 제거된 토큰 리스트
  """
  # 1. 소문자화 및 토큰화
  tokens = word_tokenize(text.lower())

  # 2. 불용어 및 구두점 제거
  #
  filtered_tokens = []
  for token in tokens:
    # 알파벳이 아니거나 (구두점, 숫자)
    # 불용어 셋(set)에 포함되어 있으면 제거합니다.
    if token.isalpha() and token not in stop_words_set:
      filtered_tokens.append(token)

  return filtered_tokens

In [4]:

# --- 3. 테스트용 텍스트 ---
example_text = (
    "This is a sample sentence, showing off the stop word filtration. "
    "We will also add some custom words like 'data' and 'science' to the list. "
    "NLTK is a powerful tool for NLP."
)


In [5]:

print("--- 원본 텍스트 ---")
print(example_text)
print("-" * 30)


--- 원본 텍스트 ---
This is a sample sentence, showing off the stop word filtration. We will also add some custom words like 'data' and 'science' to the list. NLTK is a powerful tool for NLP.
------------------------------


In [6]:
# --- 4. 시나리오별 불용어 리스트 활용 ---

# 시나리오 1: NLTK의 기본 불용어 리스트 활용
print("\n--- 1. NLTK 기본 불용어 리스트 사용 ---")
nltk_stop_words = set(stopwords.words('english'))
print(f"NLTK 불용어 (일부): {list(nltk_stop_words)[:10]}")

result_nltk = remove_stopwords_tool(example_text, nltk_stop_words)
print(f"결과: {result_nltk}")



--- 1. NLTK 기본 불용어 리스트 사용 ---
NLTK 불용어 (일부): ['of', 'when', "it'll", 's', 'so', 'both', 'about', 'couldn', 't', 'this']
결과: ['sample', 'sentence', 'showing', 'stop', 'word', 'filtration', 'also', 'add', 'custom', 'words', 'like', 'list', 'nltk', 'powerful', 'tool', 'nlp']


In [7]:

# 시나리오 2: 사용자 정의 불용어 리스트만 활용
print("\n--- 2. 사용자 정의 불용어 리스트만 사용 ---")
# (NLTK 리스트를 사용하지 않고, 나만의 최소 리스트를 만듦)
my_custom_list = set(['this', 'is', 'a', 'to', 'for', 'the'])
print(f"사용자 정의 리스트: {my_custom_list}")

result_custom = remove_stopwords_tool(example_text, my_custom_list)
print(f"결과: {result_custom}")



--- 2. 사용자 정의 불용어 리스트만 사용 ---
사용자 정의 리스트: {'this', 'the', 'a', 'for', 'is', 'to'}
결과: ['sample', 'sentence', 'showing', 'off', 'stop', 'word', 'filtration', 'we', 'will', 'also', 'add', 'some', 'custom', 'words', 'like', 'and', 'list', 'nltk', 'powerful', 'tool', 'nlp']


In [8]:

# 시나리오 3: NLTK 리스트 + 사용자 정의 리스트 (가장 실용적인 방법)
print("\n--- 3. NLTK 리스트 + 사용자 정의 리스트 (결합) ---")

# 프로젝트 도메인(예: NLP)과 관련된 단어를 추가
domain_specific_stops = set(['data', 'science', 'nlp', 'tool'])

# set의 .union() 메서드로 두 리스트를 효율적으로 합침
combined_stop_words = nltk_stop_words.union(domain_specific_stops)

print(f"NLTK 리스트에 추가된 단어: {domain_specific_stops}")

result_combined = remove_stopwords_tool(example_text, combined_stop_words)
print(f"결과: {result_combined}")


--- 3. NLTK 리스트 + 사용자 정의 리스트 (결합) ---
NLTK 리스트에 추가된 단어: {'nlp', 'tool', 'science', 'data'}
결과: ['sample', 'sentence', 'showing', 'stop', 'word', 'filtration', 'also', 'add', 'custom', 'words', 'like', 'list', 'nltk', 'powerful']
