# 2.1 말뭉치, 토큰, 타입

고전이나 현대 모든 NLP 작업은 '말뭉치'라 부르는 텍스트 데이터로 시작합니다.

원시 텍스트는 문자 시퀸스지만 일반적으로 문자를 "토큰"이라는 연속된 단위로 묶었을 때 유용합니다.

머신러닝 분야에서는 메타데이터가 붙은 텍스트를 "샘플" 혹은 "데이터 포인트"라고 부릅니다. 

샘플의 모음인 말뭉치(아래 그림)은 "데이터셋" 이라고 부릅니다.

<img src = "2-1.jpg" width = "300px" height = "300px"></img>

"토큰화"는 텍스트를 토큰으로 나누는 과정을 의미합니다.

In [3]:
# 코드 2-1 텍스트 토큰화

import spacy
nlp = spacy.load('en_core_web_sm')
text = "Mary, don't slap the green witch"
print([str(token) for token in nlp(text.lower())])

['mary', ',', 'do', "n't", 'slap', 'the', 'green', 'witch']


In [5]:
from nltk.tokenize import TweetTokenizer
tweet = u"Snow White and the Seven Degress #MakeAMovieCold@midnight:-)"
tokenizer = TweetTokenizer()
print(tokenizer.tokenize(tweet.lower()))

['snow', 'white', 'and', 'the', 'seven', 'degress', '#makeamoviecold', '@midnight', ':-)']


타입은 말뭉치에 등장하는 고유한 토큰입니다. 말뭉치에 있는 모든 타입의 집합이 어휘 사전 또는 어휘입니다.  
단어는 "내용어"와 "불용어"로 구분됩니다. 관사와 전치사 같은 불용어는 대부분 내용어를 보충하는 문법적인 용도로 사용합니다.

# 2.2 유니그램, 바이그램, 트라이그램, ... , n-그램

n-그램은 텍스트에 있는 고정길이(n)의 연속된 토큰 시퀀스입니다.  
바이그램은 토큰 두개, 유니그램은 토큰 한개로 이루어집니다.  

In [11]:
# 코드 2-2 텍스트에서 n-그램 만들기
def n_grams(text, n):
    '''
    takes tokens or text, return a list of n-grams
    '''
    return [text[i:i+n] for i in range(len(text)-n+1)]

cleaned = ['marry', ',', "n't", 'slap', 'green', 'witch', '.']
print(n_grams(cleaned, 3))

[['marry', ',', "n't"], [',', "n't", 'slap'], ["n't", 'slap', 'green'], ['slap', 'green', 'witch'], ['green', 'witch', '.']]


# 표제어와 어간

표제어(lemma)는 단어의 기본형입니다.  
ex) flow, flew, flies, flown, flowing등 어미가 바뀌면서 여러 단어로 변형됩니다. 이런 모든 단어의 표제어는 fly입니다.  
표제어 추출 -> 토큰을 표제어로 바꾸어 벡터 표현의 차원을 줄이는 방법.

In [14]:
# 코드 2-3 표제어 추출: 단어를 표제어로 바꿉니다.

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(u"he was running late") # 왜 u를 앞에 붙이는지 의문..
for token in doc:
    print('{} --> {}'.format(token, token.lemma_))

he --> he
was --> be
running --> run
late --> late


In [22]:
# u 제거 버젼
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp("he was running late") # 왜 u를 앞에 붙이는지 의문..
for token in doc:
    print('{} --> {}'.format(token, token.lemma_))

he --> he
was --> be
running --> run
late --> late


token.lemma_ : 표제어 추출

어간 추출은 표제어 추출 대신에 사용하는 축소 기법입니다. 수동으로 만든 규칙을 사용해 단어의 끝을 잘라 어간이라는 공통 형태로 축소합니다. 

In [16]:
from nltk.stem import PorterStemmer
s=PorterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [17]:
from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


어떤 규칙을 가진 어간 추출기를 사용하냐에 따라 어간추출 방법이 달라집니다.

# 2.4 문장과 문서 분류하기

TF와 TF-IDF 표현이 문서나 문장같은 긴 텍스트 뭉치를 분류하는 데 유용합니다.  
토픽 레이블 할당, 리뷰의 감성 에측, 스팸 이메일 필터링, 언어 식별, 이메일 분류 같은 작업은 지도 학습 기반의 문서 분류 문제입니다.

# 2.5 단어 분류하기: 품사 태깅

문서에 레이블을 할당하는 개념을 단어나 토큰으로 확장할 수 있습니다.  
단어 분류 작업의 에로는 품사(pos)태깅이 있습니다.

In [20]:
# 코드 2-4 품사 태깅
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(u"Mary slapped the green witch.")
for token in doc:
    print("{} --> {}".format(token, token.pos_))

Mary --> PROPN
slapped --> VERB
the --> DET
green --> PROPN
witch --> NOUN
. --> PUNCT


In [21]:
# u 제거 버전
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(u"Mary slapped the green witch.")
for token in doc:
    print("{} --> {}".format(token, token.pos_))

Mary --> PROPN
slapped --> VERB
the --> DET
green --> PROPN
witch --> NOUN
. --> PUNCT


token.pos_ : 품사 태깅

# 2.6 청크 나누기와 개체명 인식

명사, 동사. 형용사 같은 문법 요소를 구성된 고차원의 단위를 유도하는 것 -> 청크 나누기, 부분 구문 분석

In [24]:
# 코드 2-5 명사구(NP) 부분 구문 분석
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(u"Mary slapped the green witch.")
for chunk in doc.noun_chunks:
    print("{} --> {}".format(chunk, chunk.label_))

Mary --> NP
the green witch --> NP


또 다른 유용한 단위는 개체명 입니다.  
개체명은 사람, 장소, 회사, 약 이름과 같은 실제 세상의 개념을 의미하는 문자열 입니다.

# 2.7 문장 구조  

구 사이의 관계를 파악하는 작업

구성 구문 분석

<img src = "2-3.jpg" width = "400px" height = "400px"></img>

의존 구문 분석

<img src = "2-4.jpg" width = "400px" height = "400px"></img>