# Chapter 2. NLP 기술 빠르게 훑어보기
> "NLP"

- toc:true
- branch: master
- badges: true
- comments: true
- author: 이강철
- categories: [python]

# 말뭉치, 토큰, 타입

## 말뭉치

* 고전이나 현대의 모든 NLP 작업에서 쓰이는 text data
    * 샘플 : metadata + text
    * 위 같은 샘플들이 모인 데이터 셋을 `말뭉치`라고 표현한다,

## 토큰화 (Tokenization)

* 토큰 : 문법적으로 더 이상 나눌 수 없는 언어 요소

 * 텍스트를 토큰으로 나누는 과정

### 코드 2-1

* 아래의 코드는 텍스트 처리 분야에 널리 사용되는 패키지인 `spacy`, `NLTK` 의 예시이다.

In [7]:
import spacy

In [8]:
nlp = spacy.load("en_core_web_sm")

text = "Mary, don't slap the green witch"

print( [str(token) for token in nlp(text.lower())] )

['mary', ',', 'do', "n't", 'slap', 'the', 'green', 'witch']


In [9]:
from nltk.tokenize import TweetTokenizer

In [10]:
tweet = u"Snow White and the Seven Degrees #MakeaMoviecold@midnight:-)"

In [11]:
tokenizer = TweetTokenizer()

* `spacy` 와 `nltk` 비교

In [14]:
print( tokenizer.tokenize(tweet.lower()))

['snow', 'white', 'and', 'the', 'seven', 'degrees', '#makeamoviecold', '@midnight', ':-)']


In [15]:
print( [str(token) for token in nlp(tweet.lower())] )

['snow', 'white', 'and', 'the', 'seven', 'degrees', '#', 'makeamoviecold@midnight:-', ')']


## 타입

* 말뭉치에 등장하는 고유한 토큰

* 말뭉치에 있는 모든 타입의 집합이 어휘 사전 또는 어휘(lexicon)이다.

$\divideontimes$ 특성 공학 : 언어학을 이해하고 NLP 문제 해결에 적용하는 과정

# N-gram

* 텍스트에 있는 고정 길이 (n)의 연속된 토큰 시퀀스이다.

## 코드 2-2

In [16]:
def n_gram(text,n) : 
    return [ text [i:i+n] for i in range(len(text)-n+1)]

In [17]:
cleaned = ["marry", ",","n't", "slap", "green", "witch",","]

In [18]:
print(n_gram(cleaned,3))

[['marry', ',', "n't"], [',', "n't", 'slap'], ["n't", 'slap', 'green'], ['slap', 'green', 'witch'], ['green', 'witch', ',']]


* 부분 단어 자체가 유용한 정보를 전달한다면 문자 $n-gram$을 생성할 수 있음

> example : `methanol`의 `methan` 탄소 화합물,  접미사  `-ol` 은 알코올 종류를 나타낸다. 이 같은 경우 2-gram 으로 생각할 수 있지만 유기 화합물 이름을 구분하는 작업에서는 토큰 하나로 취급할 수 있다.

# 표제어와 어간

## 표제어

* 표제어 : 단어의 기본형 또는 사전에 등재된 단어
    * fly : flow, flew, flies, flown, flowing 의 표제어
    * 토큰을 표제어로 바꾸어 벡터 표현의 차원을 줄이는 방법도 종종 도움이 된다.

* `spacy`는 사전에 정의된 `WordNet` 사전을 이용해 표제어를 추출한다.

In [24]:
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("he was running late")

for token in doc :
    print ("{} --> {}".format(token, token.lemma_))

he --> -PRON-
was --> be
running --> run
late --> late


## 어간(Stemming)

* 어형변화의 기초가 되는 부분

* `Porter`와 `Snowball`어간 추출기가 유명하다.

### 코드 2-3

In [25]:
import nltk

from nltk.stem.porter import *

In [26]:
stemmer = PorterStemmer()

tokens = ['compute', 'computer', 'computed', 'computing']

for token in tokens:
    print(token + ' --> ' + stemmer.stem(token))

compute --> comput
computer --> comput
computed --> comput
computing --> comput


# 품사 태깅

## 코드 2-4

In [27]:
import spacy

nlp = spacy.load("en_core_web_sm")

doc = nlp(u"Mary, don't slap the green witch")

for token in doc :
    print ("{} --> {}".format(token, token.pos_))

Mary --> PROPN
, --> PUNCT
do --> VERB
n't --> ADV
slap --> VERB
the --> DET
green --> ADJ
witch --> NOUN


# 청크나누기 = 부분 구문 분석

* Chunking, shallow parsing

* 청크 : 하나의 의미가 있는 말 덩어리 (여러 토큰들이 모여 청크가 될 수 있다고 생각하자)

* 연속된 여러 토큰으로 구분되는 텍스트 구에 레이블을 할당하는 작업

* 다음은 명사구(NP) 부분 구문 분석결과이다.

## 코드 2-5

In [53]:
import spacy
nlp = spacy.load("en_core_web_sm")

doc = nlp(u"Marry slapped the green witch.")

for chunk in doc.noun_chunks :
    print ("{} --> {}".format(chunk, chunk.label_))

Marry --> NP
the green witch --> NP
