# 어간/표제어 추출

**어간 (Stem)**
- 단어의 의미를 담고 있는 단어의 핵심 부분

**표제어(Lemma)**
- 단어의 사전적 형태 (단어의 기본형)
- 언어의 문법적 규칙에 따라 변형된 단어를 원래 형태로 돌려놓은 것

**왜 추출할까?**
1. 의미 일관성
2. 데이터 차원 축소
3. 노이즈 감소
4. 정확성 향상

In [1]:
# 어간 추출
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

text = "The runners were running swiftly and easily. They ran past the finish line."

tokens = word_tokenize(text)

stemmer = PorterStemmer()
stemmed_tokens = [stemmer.stem(token) for token in tokens]

print(tokens)
print(stemmed_tokens)

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'They', 'ran', 'past', 'the', 'finish', 'line', '.']
['the', 'runner', 'were', 'run', 'swiftli', 'and', 'easili', '.', 'they', 'ran', 'past', 'the', 'finish', 'line', '.']


In [6]:
# 표제어 추출
from nltk.stem import WordNetLemmatizer

tokens = word_tokenize(text)

lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(token, pos='v') for token in tokens]

print(tokens)
print(lemmatized_tokens)

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'They', 'ran', 'past', 'the', 'finish', 'line', '.']
['The', 'runners', 'be', 'run', 'swiftly', 'and', 'easily', '.', 'They', 'run', 'past', 'the', 'finish', 'line', '.']
