1. 문장 토큰화 sent_tokenize
    - 기본 로직
        - 마침표, 느낌표, 물음표를 문장 끝 후보로 인식
        - 약어 패턴 학습 (Dr, Mr, U.S.A 등)
        - 대문자로 시작하는지
    -  통계적 모델을 사용해 진짜 문장 경계인지 판단
    - 다국어 지원
    - 약어와 실제 문장끝을 구분하는 기게학습 모델 내장

2. 단어 토큰화 word_tokenize
    - 기본 로직
        - 규칙 기준
        - 공백기준으로 단어분리
        - 구두점을 별도 토큰으로 분리
        - 축약형 처리 (it's --> it, s 로 구분)
        - 소유격 처리 (Let's --> let, s 로 구분)
        - 구두점 기반 WordPunctTokenizer
        - It's ---> It, ' , s 로 구분

3. 정규 표현식을 이용한 토큰화 regex / regexp

4. 노이즈와 불용어 제거
    - set자료구조를 사용 : 중복제거
    - List Comprehension : 필터링
    - NLTK 불용어 사전

In [4]:
%pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [13]:
from nltk.tokenize import sent_tokenize
import nltk

In [14]:
nltk.download('wordnet')
nltk.download('webtext')
nltk.download('stopwords')
nltk.download('punkt_tab')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\SAMSUNG\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\SAMSUNG\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\SAMSUNG\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\SAMSUNG\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [None]:
# 문장분류 -> 리스트 형태로 출력
    # 마침표는 문장을 끝으로 인식
    # 대문자로 시작하면 문장의 시작으로 인식
sentence = "Hello everyone. It's good to see to you. Let's start out text mining class"
sent_tokenize(sentence)

['Hello everyone.',
 "It's good to see to you.",
 "Let's start out text mining class"]

In [20]:
# 한글
sentence_kor = "안녕하세요, 여러분. 만나서 반갑습니다. 이제 학습을 시작해 볼까요?"
sent_tokenize(sentence_kor)

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 학습을 시작해 볼까요?']

In [None]:
# 단어단위 구분 -> 공백을 기준을 나뉨
from nltk.tokenize import word_tokenize
word_tokenize(sentence_kor)

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '학습을', '시작해', '볼까요', '?']

In [None]:
#
from nltk.tokenize import WordPunctTokenizer
WordPunctTokenizer().tokenize(sentence)

['Hello',
 'everyone',
 '.',
 'It',
 "'",
 's',
 'good',
 'to',
 'see',
 'to',
 'you',
 '.',
 'Let',
 "'",
 's',
 'start',
 'out',
 'text',
 'mining',
 'class']

In [23]:
# 정규식 토큰화
import re
re.findall("[abc]", "how are you, boy")

['a', 'b']

In [33]:
# 노이즈와 불용어 제거
from nltk.corpus import stopwords
english_stops = stopwords.words('english')
test1 = "Sorry, I couldn't go to movie yesterday"

tokens = word_tokenize(test1)
[token for token in tokens if token not in english_stops]

['Sorry', ',', 'I', 'could', "n't", 'go', 'movie', 'yesterday']

In [None]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\\w]+")
tokens = tokenizer.tokenize(test1.lower())

In [None]:
# 소문자 a~z로 이루어진 문자열에서 4글자이상
RegexpTokenizer("[a~z]{4,}")
RegexpTokenizer("[\\w']{3,}") # 3글자 이상
RegexpTokenizer("[a~z]")    # 어포스트로피를 패턴에서 제외 can't can t 


RegexpTokenizer(pattern='[a~z]', gaps=False, discard_empty=True, flags=re.UNICODE|re.MULTILINE|re.DOTALL)

---

<span style="color: Gold">어간추출 (stemming)  
- 줄기 stem ->  단어에서 불필요한 요소를 제거하고 남는 핵심형태
- 단어는 다양한 형태... 복수형 과거형과 같은 시제변환, 복수형
- 단어를 통일
    - walk(걷다)    walks/ walking/ walked  -> 어간 walk로 통일
    - 먹는다       -> '먹-'으로 묶어서 컴퓨터가 같은 단어로 인식

1. PorterStemmer

In [38]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks')

# => Porterstemmer 규칙기반이라서 완벽하지 못함 -> 속도가 빠름, 의미가 달라질 수도 있음


('cook', 'cookeri', 'cookbook')

2. LancasterStemmer

In [None]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks')
# => 더 많은 규칙이 적용 -> 과도한 츅약 위험

('cook', 'cookery', 'cookbook')

---

1. 표제어 추출 Lemmatization
    - Lemma 단어의 사전 기본형
    - 단어의 변형 (시제, 복수, 비교급) 제거하고 사전(headword)에 나오는 <span style="color: yellow;">정확한 원형으로 바꾸는 과정<span>
    - 어간처럼 단어줄기가 아니라, 맥락과 품사를 고려한 올바른 형태
    - better(더 좋은) -> 표제어 good
    - 먹었다 -> 먹다 (동사원형)
    - 알고리즘 : 형태소 분석기(<span style="color: yellow;">konlpy</span>)를 사용해 품사(명사, 동사)를 보고 정확히 변환


2.  주요 목적
    - 어간추출처럼 대충 줄이지 않고 맥락에 맞는 정확한 단어로 만들어서 NLP 품질 향상
    - 단점 사전에 의존해서 언어/ 맥락 제한

3. 형태 설정  
    - n (명사)
    - v (동사)
    - a (형용사)
    - r (부사)
    - lemmatizer.lemmatize('cooking',pos = 'v')     # 품사를 동사(v)


In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('cooking')     # 기본이 명사로 인식
lemmatizer.lemmatize('cooking',pos = 'v')     # 품사를 동사(v)

'cook'

In [43]:
#  품사태깅
import nltk
from nltk.tokenize import word_tokenize
tokens = "hello everyone. It's good to see you. Let's start out text mining class!"
tokens = word_tokenize(tokens)
nltk.pos_tag(tokens)

[('hello', 'NN'),
 ('everyone', 'NN'),
 ('.', '.'),
 ('It', 'PRP'),
 ("'s", 'VBZ'),
 ('good', 'JJ'),
 ('to', 'TO'),
 ('see', 'VB'),
 ('you', 'PRP'),
 ('.', '.'),
 ('Let', 'VB'),
 ("'s", 'POS'),
 ('start', 'VB'),
 ('out', 'RP'),
 ('text', 'NN'),
 ('mining', 'NN'),
 ('class', 'NN'),
 ('!', '.')]

In [None]:
# 품사 태그 정보 확인
nltk.download('tagsets_json')
nltk.help.upenn_tagset('VB') # 명사 동사 형용사 NN VB JJ

[nltk_data] Downloading package tagsets_json to
[nltk_data]     C:\Users\SAMSUNG\AppData\Roaming\nltk_data...


VB: verb, base form
    ask assemble assess assign assume atone attention avoid bake balkanize
    bank begin behold believe bend benefit bevel beware bless boil bomb
    boost brace break bring broil brush build ...


[nltk_data]   Unzipping help\tagsets_json.zip.
