### 어간/표제어 추출

**어간(Stem)**
- 단어의 의미를 담고 있는 단어의 핵심 부분

**표제어(Lemma)**
- 단어의 사전적 형태(단어의 기본형)
- 언어의 문법적 규칙에 따라 변형된 단어르르 원래 형태로 돌려놓은 것

**왜 추출할까?**
1. 의미 일관성
2. 데이터 차원 축소
3. 노이즈 감소
4. 정확성 향상


In [2]:
#### 어간 추출 ####
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

text = "The runners were running swiftly and easily. They ran past the finish line."

# 토큰화
tokens = word_tokenize(text)
print(tokens)

# 어간 추출
# PorterStemmer : 가장 널리 사용되는 어간 추출 알고리즘 중 하나 
# 어근을 추출하여 단어의 변형된 형태를 기본 형태로 변환
stemmer = PorterStemmer()

# 각 토큰에 대해 어간 추출 수행
# 의미를 갖는 최소 단위로 변환
stemmed_tokens = [stemmer.stem(token) for token in tokens]
print(stemmed_tokens)  # 소문자로만 변경되서 출력됨.

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'They', 'ran', 'past', 'the', 'finish', 'line', '.']
['the', 'runner', 'were', 'run', 'swiftli', 'and', 'easili', '.', 'they', 'ran', 'past', 'the', 'finish', 'line', '.']


In [3]:
#### 표제어 추출 ####
from nltk.stem import WordNetLemmatizer

# WordNetLemmatizer : 표제어 추출을 위한 클래스
# - 표제어 추출은 단어의 품사를 고려하여 원형 단어로 변환 
lemmatizer = WordNetLemmatizer()

# 각 토큰에 대해 표제어 추출 수행
# 동사 형태로 표제어 추출
lemmatized_tokens = [lemmatizer.lemmatize(token, pos='v') for token in tokens]

print(tokens)
print(lemmatized_tokens)  # 원형 단어로 변환되어 출력됨.

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'They', 'ran', 'past', 'the', 'finish', 'line', '.']
['The', 'runners', 'be', 'run', 'swiftly', 'and', 'easily', '.', 'They', 'run', 'past', 'the', 'finish', 'line', '.']
