# NLP 전처리에 관하여
[자연어 처리 쿡북 with 파이썬을 정리한 자료입니다.](https://book.naver.com/bookdb/book_detail.nhn?bid=14451255)

# Tokenizer
- 문서 또는 긴 문자열을 다루거나 처리하려는 경우, 가장 먼저 할 일은 단어와 구두점으로 구분하는 것이다. 이를 토큰화라고 한다.
- 언어 처리 작업에서 처리할 수 있는 최소 단위는 토큰이다.

In [9]:
from nltk.tokenize import word_tokenize
raw = 'My name is Maximus Decimus Meridius, commader od the Armies of the North, General of the Felix Legions and loyal servant to the true emperor, Marcus Aurelius, Father to a murdered son, husband to a murdered wife. And I will have my vengeance, in this life or the next'

tokenizer = word_tokenize(raw)
print(tokenizer)

['My', 'name', 'is', 'Maximus', 'Decimus', 'Meridius', ',', 'commader', 'od', 'the', 'Armies', 'of', 'the', 'North', ',', 'General', 'of', 'the', 'Felix', 'Legions', 'and', 'loyal', 'servant', 'to', 'the', 'true', 'emperor', ',', 'Marcus', 'Aurelius', ',', 'Father', 'to', 'a', 'murdered', 'son', ',', 'husband', 'to', 'a', 'murdered', 'wife', '.', 'And', 'I', 'will', 'have', 'my', 'vengeance', ',', 'in', 'this', 'life', 'or', 'the', 'next']


- nltk모듈의 word_tokenize는 토큰화의 정의를 따르기 때문에 널리 쓰인다.
- 이 외에도 여러 Tokenizer가 있다.
    - LineTokenizer, SpaceTokenizer, Tweettokenizer 등

# Stammer
> Stemming이란 어간을 추출하는 것이다. 어간이란 접미사가 없는 단어의 기본형이다.

### 1) Porter Stemmer
1. 객체를 초기화한다.
2. 어간을 입력 테스트의 모든 토큰에 적용한 다음 결과를 출력한다.

In [14]:
from nltk import PorterStemmer, LancasterStemmer

tokens = word_tokenize(raw)

porter = PorterStemmer()
pStems = [porter.stem(t) for t in tokens]
print(pStems)

['My', 'name', 'is', 'maximu', 'decimu', 'meridiu', ',', 'commad', 'od', 'the', 'armi', 'of', 'the', 'north', ',', 'gener', 'of', 'the', 'felix', 'legion', 'and', 'loyal', 'servant', 'to', 'the', 'true', 'emperor', ',', 'marcu', 'aureliu', ',', 'father', 'to', 'a', 'murder', 'son', ',', 'husband', 'to', 'a', 'murder', 'wife', '.', 'and', 'I', 'will', 'have', 'my', 'vengeanc', ',', 'in', 'thi', 'life', 'or', 'the', 'next']


어간을 삭제하다보니 명사 뒤의 s도 삭제해 버린 것을 확인할 수 있다.

### 2) Lancaster Stemmer
- 포터 스테머보다 제거할 접미사가 더 많이 포함되어 있으므로 오류가 발생하기 쉽다.

In [11]:
lancaster = LancasterStemmer()
lStems = [lancaster.stem(t) for t in tokens]
print(lStems)

['my', 'nam', 'is', 'maxim', 'decim', 'meridi', ',', 'commad', 'od', 'the', 'army', 'of', 'the', 'nor', ',', 'gen', 'of', 'the', 'felix', 'leg', 'and', 'loy', 'serv', 'to', 'the', 'tru', 'emp', ',', 'marc', 'aureli', ',', 'fath', 'to', 'a', 'murd', 'son', ',', 'husband', 'to', 'a', 'murd', 'wif', '.', 'and', 'i', 'wil', 'hav', 'my', 'veng', ',', 'in', 'thi', 'lif', 'or', 'the', 'next']


위 두 스태머를 비교해보면 Lancaster stemmer가 더 greedy 한 것을 확인할 수 있다.

# Lemmatizer
> lemma란 어휘 목록 표제어를 의미한다. 즉, 단어의 기본형이다.

Stemmer와 달리 접미사를 제거하거나 대체함으로써 얻는 어간과 달리 사전과 일치하는 형태이다. 사전과 매칭하기 때문에, Stemming보다 느리다.

In [13]:
from nltk import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(t) for t in tokens]
print(lemmas)

['My', 'name', 'is', 'Maximus', 'Decimus', 'Meridius', ',', 'commader', 'od', 'the', 'Armies', 'of', 'the', 'North', ',', 'General', 'of', 'the', 'Felix', 'Legions', 'and', 'loyal', 'servant', 'to', 'the', 'true', 'emperor', ',', 'Marcus', 'Aurelius', ',', 'Father', 'to', 'a', 'murdered', 'son', ',', 'husband', 'to', 'a', 'murdered', 'wife', '.', 'And', 'I', 'will', 'have', 'my', 'vengeance', ',', 'in', 'this', 'life', 'or', 'the', 'next']


- stemmer와 달리, 명사 끝의 s를 제거하지 않았다. 그러나 명사가 아닌 단어(legions, armies 등)에 대해서는 제거하고 대치했다.
- 'murdered'와 같이 아무 작업도 하지 않는데서 기인한 오류가 있는것을 확인할 수 있다. 완벽하지는 않더라도, Stemmer보다는 기본형을 얻는데 훨씬 뛰어나다.

- WordNetLemmatizer는 사전에서 결과 단어를 찾을 수 있는 경우에만 접미사를 제거한다. 따라서 속도가 느리다.
- 대문자로 시작하는 단어를 대명사로 인식해 처리하지 않는다.
    - 이 경우, 입력 문자열을 소문자로 변환한 뒤 시행하면 해결된다.

7.15

## nltk.ConditionalFreqDist

>빈도수를 시각화해주는 함수

In [3]:
import nltk

celebrity = [ ('Madonna','Singer'),('Brad Pitt','Actor'), ('Rain','Singer'), ('Gisele Bundchen','Model'), ('Rain','Actor'), ('Yun ju,Jang','Model'),('Yun ju,Jang', 'Actor') ]
  
cf = nltk.ConditionalFreqDist(celebrity)
cf

<ConditionalFreqDist with 5 conditions>

In [4]:
cf.tabulate()

                 Actor  Model Singer 
      Brad Pitt      1      0      0 
Gisele Bundchen      0      1      0 
        Madonna      0      0      1 
           Rain      1      0      1 
    Yun ju,Jang      1      1      0 


## nltk.FreqDist 

[데이터사이언스스쿨](https://datascienceschool.net/view-notebook/8895b16a141749a9bb381007d52721c1/), [위키독스](https://wikidocs.net/31766)

>FreqDist클래스는 문서에 사용된 토큰의 사용빈도 정보를 담는 클래스이다. 
>
>Text클래스의 vocab메서드로 추출할 수 있다.

- 단어를 key, 출현 빈도를 value로 가지는 사전 자료형과 유사하다. 

- most_common()은 상위 빈도수를 가진 단어만을 **튜플**로 리턴한다. 리턴된 값은 value를 기준으로 내림차순 정렬되어있다.


In [8]:
# 사용 예시
vocab_size = 5
vocab = vocab.most_common(vocab_size)
vocab

NameError: name 'vocab' is not defined