# 어간/표제어 추출

**어간 (Stem)**
- 단어의 의미를 담고 있는 단어의 핵심 부분

**표제어 (Lemma)**
- 단어의 사전적 형태 (단어의 기본형)
- 언어의 문법적 규칙에 따라 변형된 단어를 원래 형태로 돌려놓는 것

**왜 추출할까?**
1. 의미 일괄성
2. 데이터 차원 감소
3. 노이즈 감소
4. 정확성 향상

In [3]:
# 어간 추출
from nltk.stem import PorterStemmer     # 어간 추출을 위해 가져온 라이브러리
from nltk.tokenize import word_tokenize

text = "The runners were running swiftly and easily. They ran past the finish line."

# 토큰화
tokens = word_tokenize(text)

# PorterStemmer 객체 생성
stemmer = PorterStemmer()

# 어간 추출
stemmed_tokens = [stemmer.stem(token) for token in tokens]

print("Original Tokens:", tokens)
print("Stemmed Words:", stemmed_tokens)

Original Tokens: ['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'They', 'ran', 'past', 'the', 'finish', 'line', '.']
Stemmed Words: ['the', 'runner', 'were', 'run', 'swiftli', 'and', 'easili', '.', 'they', 'ran', 'past', 'the', 'finish', 'line', '.']


In [4]:
# 표제어 추출
from nltk.stem import WordNetLemmatizer

tokens = word_tokenize(text)

lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(token, pos='v') for token in tokens]

print(tokens)
print(lemmatized_tokens)

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'They', 'ran', 'past', 'the', 'finish', 'line', '.']
['The', 'runners', 'be', 'run', 'swiftly', 'and', 'easily', '.', 'They', 'run', 'past', 'the', 'finish', 'line', '.']
