# 어간/표제어 추출

**어간 (Stem)**
- 규칙 기반으로 단어 끝을 잘라서 어간(stem)을 만듦
- 사전에 없는 형태가 나와도 그냥 잘라버릴 수 있음
- 빠르고 단순하지만 결과가 “단어”라기보다 “줄기”에 가까움
- 예:
	- studies → studi
  - universal → univers

**표제어 (Lemma)**
- 사전(WordNet) + 품사(pos) 를 이용해 사전 기본형(lemma) 으로 변환
- 보통 의미적으로 더 자연스러운 실제 단어가 나옴
- 품사를 잘못 주면(예: 명사를 동사로) 변환이 덜 되거나 이상해질 수 있음
- 예:
	- running (pos='v') → run
	- better (pos='a') → good (가능한 경우)

**왜 추출할까?**
1. 의미 일관성
- run / running / ran 같이 같은 의미 계열을 하나로 묶어줘서 표현이 통일
2. 데이터 차원 축소
- 서로 다른 표면형(surface form)을 합치면 단어 종류가 줄어서 BoW/TF-IDF 차원이 감소
3. 노이즈 감소
- 활용/시제/복수 같은 형태 차이로 생기는 분산을 줄여서 “희소성”을 완화
4. 정확성 향상
- 분류/검색/군집에서 도움이 되는 경우가 많지만, 형태 차이가 의미 차이인 경우(예: “good” vs “better”, “organ” vs “organization”처럼)나
잘못된 품사로 표제어 처리(pos를 전부 v로 주는 등)하면 오히려 성능이 떨어질 수도 있음

**사용 시기**
- 단순 전처리/속도 중요/대충 형태 통일 → Stemming
- 의미 유지/해석 가능한 단어 형태가 중요 → Lemmatization(품사 태깅 함께)

In [3]:
# PorterStemmer로 어간 추출
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

text = "The runners were running swiftly and easily. Then ran past the finish line."

tokens = word_tokenize(text)         # 단어 토큰화

stemmer = PorterStemmer()
stemmed_tokens = [stemmer.stem(token) for token in tokens]    # 각 토큰을 어간으로 변환

print(tokens)
print(stemmed_tokens)

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'Then', 'ran', 'past', 'the', 'finish', 'line', '.']
['the', 'runner', 'were', 'run', 'swiftli', 'and', 'easili', '.', 'then', 'ran', 'past', 'the', 'finish', 'line', '.']


In [4]:
# WordNetLemmatizer로 표제어 추출
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(token, pos='v') for token in tokens]    # 동사 기준 표제어 추출

print(tokens)
print(lemmatized_tokens)

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'Then', 'ran', 'past', 'the', 'finish', 'line', '.']
['The', 'runners', 'be', 'run', 'swiftly', 'and', 'easily', '.', 'Then', 'run', 'past', 'the', 'finish', 'line', '.']
