# 어간/표제어 추출

**어간 (Stem)**
- 단어의 의미를 담고 있는 단어의 핵심 부분

**표제어 (Lemma)**
- 단어의 사전적 형태 (단어의 기본형)
- 언어의 문법적 규칙에 따라 변형된 단어를 원래 형태로 돌려놓는 것

**왜 추출할까?**
1. 의미 일괄성
2. 데이터 차원 감소
3. 노이즈 감소
4. 정확성 향상

In [11]:
# 어간 추출
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

text = "The runners were running swiftly and easily. They ran past the finish line."

tokens=word_tokenize(text)

stemmer=PorterStemmer()
stemmer_tokens=[stemmer.stem(token) for token in tokens]

print(tokens)
print(stemmer_tokens)

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'They', 'ran', 'past', 'the', 'finish', 'line', '.']
['the', 'runner', 'were', 'run', 'swiftli', 'and', 'easili', '.', 'they', 'ran', 'past', 'the', 'finish', 'line', '.']


In [13]:
# 표제어 표출
from nltk.stem import WordNetLemmatizer

tokens= word_tokenize(text)

lemmatizer=WordNetLemmatizer()
lemmatizer_tokens=[lemmatizer.lemmatize(token,pos='v') for token in tokens]

print(tokens)
print(lemmatizer_tokens)

['The', 'runners', 'were', 'running', 'swiftly', 'and', 'easily', '.', 'They', 'ran', 'past', 'the', 'finish', 'line', '.']
['The', 'runners', 'be', 'run', 'swiftly', 'and', 'easily', '.', 'They', 'run', 'past', 'the', 'finish', 'line', '.']


# 정규표현식 (Regular Expression)

- 특정한 규칙을 가진 문자열을 찾기 위한 패턴
- 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴을 효율적으로 추출, 삭제, 대체 가능

In [14]:
import re

##### 임의의 한 글자 .

In [22]:
reg_exp=re.compile('a.c')

print(reg_exp.search('abc'))
print(reg_exp.search('fdsafdsabcfdsafdsa'))
print(reg_exp.findall('afdsaabcfdsjkebcabc'))
print(reg_exp.search('aXc'))
print(reg_exp.search('a c'))
print(reg_exp.search('ac'))
print(reg_exp.search('bc'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(7, 10), match='abc'>
['abc', 'abc']
<re.Match object; span=(0, 3), match='aXc'>
<re.Match object; span=(0, 3), match='a c'>
None
None


##### 수량자 *

In [None]:
reg_exp=re.compile('ab*c')      # a로 시작 + b가 0개 이상 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbc'))

<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 12), match='abbbbbbbbbbc'>


##### 수량자 ? : 0개 또는 1개

In [None]:
reg_exp=re.compile('ab?c')  # a로 시작 + b가 0개 또는 1개 + c로 끝

print(reg_exp.search('ac'))
print(reg_exp.search('ab'))
print(reg_exp.search('abc'))
print(reg_exp.search('adc'))
print(reg_exp.search('abbbbbbbbbbc'))

##### 수량자 {n}

##### 수량자 {min,max}