# 1. NLTK 패키지가 제공하는 주요 기능은 다음과 같다.

    샘플 corpus 및 사전
    토큰 생성(tokenizing)
    형태소 분석(stemming/lemmatizing)
    품사 태깅(part-of-speech tagging)
    구문 분석(syntax parsing)
    

In [28]:
import nltk


    Accessing corpora          nltk.corpus                   Standardized interfaces to corpora and lexicons

    String processing          nltk.tokenize, nltk.stem      Tokenizers, sentence tokenizers, stemmers

    Collocation discovery      nltk.collocations             t-test, chi-squared, point-wise mutual information

    Part-of-speech tagging     nltk.tag                      n-gram, backoff, Brill, HMM, TnT

    Classification             nltk.classify, nltk.cluster   Decision tree, maximum entropy, naive Bayes, EM, k-means

    Chunking                   nltk.chunk                    Regular expression, n-gram, named entity

    Parsing                    nltk.parse                    Chart, feature-based, unification, probabilistic,         dependency

    Semantic interpretation    nltk.sem, nltk.inference      Lambda calculus, first-order logic, model checking

    Evaluation metrics         nltk.metrics                  Precision, recall, agreement coefficients

    Probability and estimation nltk.probability              Frequency distributions, smoothed probability distributions

    Applications               nltk.app, nltk.chat           Graphical concordancer, parsers, WordNet browser, chatbots

    Linguistic fieldwork       nltk.toolbox                  Manipulate data in SIL Toolbox format


## 토근화 모듈 

In [29]:
import nltk.tokenize 

print(nltk.tokenize)
print(dir(nltk.tokenize))



<module 'nltk.tokenize' from '/Users/dahlmoon/anaconda/lib/python3.6/site-packages/nltk/tokenize/__init__.py'>
['BlanklineTokenizer', 'LineTokenizer', 'MWETokenizer', 'PunktSentenceTokenizer', 'RegexpTokenizer', 'ReppTokenizer', 'SExprTokenizer', 'SpaceTokenizer', 'StanfordSegmenter', 'StanfordTokenizer', 'TabTokenizer', 'TextTilingTokenizer', 'ToktokTokenizer', 'TreebankWordTokenizer', 'TweetTokenizer', 'WhitespaceTokenizer', 'WordPunctTokenizer', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '_treebank_word_tokenizer', 'api', 'blankline_tokenize', 'casual', 'casual_tokenize', 'improved_close_quote_regex', 'improved_open_quote_regex', 'improved_punct_regex', 'line_tokenize', 'load', 'mwe', 'punkt', 're', 'regexp', 'regexp_span_tokenize', 'regexp_tokenize', 'repp', 'sent_tokenize', 'sexpr', 'sexpr_tokenize', 'simple', 'stanford', 'stanford_segmenter', 'string_span_tokenize', 'texttiling', 'toktok', 'treebank', 'uti

# 토근화 하는 이유

    긴 문자열을 처리하기 위해서는 작은 단위로 분리해야 한다.  일단 문장과 단어 등의 단위로 세분화할 수 있다.
    
    

##  단어별로 토큰을 분리하기


In [3]:
sentence = """At eight o'clock on Thursday morning, Arthur didn't feel very good."""
tokens = nltk.word_tokenize(sentence)
print(tokens)

['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', ',', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']


# 2. 토근화 이해하기 nltk.tokenize



#  단어별 토큰화 방식

    TreebankWordTokenizer, PunktWordTokenizer, WordPunctTokenizer 방식
    
    

### 단어에 대한 토큰화 클래스 상속관계 : RegexpTokenizer 

In [22]:
print(nltk.tokenize.WordPunctTokenizer.__bases__)
print(nltk.tokenize.WhitespaceTokenizer.__bases__)
print(nltk.tokenize.RegexpTokenizer.__bases__)
print(nltk.tokenize.api.TokenizerI.__bases__)

(<class 'nltk.tokenize.regexp.RegexpTokenizer'>,)
(<class 'nltk.tokenize.regexp.RegexpTokenizer'>,)
(<class 'nltk.tokenize.api.TokenizerI'>,)
(<class 'object'>,)


### TreebankWordTokenizer

In [21]:
print(nltk.tokenize.TreebankWordTokenizer.__bases__)

(<class 'nltk.tokenize.api.TokenizerI'>,)


### TweetTokenizer

In [32]:
print(nltk.tokenize.TweetTokenizer.__bases__)

(<class 'object'>,)


In [3]:
text = """this’s a sent tokenize test. this is sent two. is this sent three? sent 4 is cool! Now it’s your turn."""

## 2.1 분리된 축약형으로 토근화 : TreebankWordTokenizer

    축약형에 대한 단어를 분리할 때  don't 일 경우는 do 와 n't으로 분리
    this's는 this, ' , s로 분리한다.
    
    그리고 문장에서 마지막 마침표는 별도로 분리한다.
    
    

In [33]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()

print(tokenizer.tokenize(text))

['this', '’', 's', 'a', 'sent', 'tokenize', 'test.', 'this', 'is', 'sent', 'two.', 'is', 'this', 'sent', 'three', '?', 'sent', '4', 'is', 'cool', '!', 'Now', 'it', '’', 's', 'your', 'turn', '.']


In [27]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()

print(tokenizer.tokenize("Don't hesitate to ask questions"))

['Do', "n't", 'hesitate', 'to', 'ask', 'questions']


### 분리된 문장부호로 토근화

   사실, word_tokenize는 TreebankWordTokenizer에 의해 tokenize를 호출하는 래퍼 함수입니다. 

In [30]:
from nltk.tokenize import word_tokenize

help(word_tokenize)

Help on function word_tokenize in module nltk.tokenize:

word_tokenize(text, language='english', preserve_line=False)
    Return a tokenized copy of *text*,
    using NLTK's recommended word tokenizer
    (currently an improved :class:`.TreebankWordTokenizer`
    along with :class:`.PunktSentenceTokenizer`
    for the specified language).
    
    :param text: text to split into words
    :param text: str
    :param language: the model name in the Punkt corpus
    :type language: str
    :param preserve_line: An option to keep the preserve the sentence and not sentence tokenize it.
    :type preserver_line: bool



In [32]:
from nltk.tokenize import word_tokenize
print(word_tokenize(text))

['this', '’', 's', 'a', 'sent', 'tokenize', 'test', '.', 'this', 'is', 'sent', 'two', '.', 'is', 'this', 'sent', 'three', '?', 'sent', '4', 'is', 'cool', '!', 'Now', 'it', '’', 's', 'your', 'turn', '.']


In [10]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't hesitate to ask questions"))

['Do', "n't", 'hesitate', 'to', 'ask', 'questions']


In [24]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Do not hesitate to ask questions"))

['Do', 'not', 'hesitate', 'to', 'ask', 'questions']


## RegexpTokenizer

    정규 표현식 토근화는 문자로 매칭하거나 스페이스로 매칭하는 것을 사용한다.
    
    regexp_tokenize 함수를 제공해서 결과를 리스트로 처리해 준다. 
    
    하위 클래스로 WordPunctTokenizer 와 WhitespaceTokenizer가 있다. 

### 워드 문서로만 분리하기 

In [39]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w]+")

print(tokenizer.tokenize("Do not hesitate to ask questions"))

['Do', 'not', 'hesitate', 'to', 'ask', 'questions']


### 공백[\s] 으로 정규표현식을 처리할 때는 gaps=True를 지정해야 실제 문자들이 출력된다.

In [43]:
from nltk.tokenize import RegexpTokenizer


tokenizer = RegexpTokenizer("[\s]+")
print(tokenizer.tokenize("Do not hesitate to ask questions"))

tokenizer = RegexpTokenizer("[\s]+",gaps=True)
print(tokenizer.tokenize("Do not hesitate to ask questions"))

[' ', ' ', ' ', ' ', ' ']
['Do', 'not', 'hesitate', 'to', 'ask', 'questions']


### 함수를 이용해서 분리할 경우에는 텍스트와 패턴을 넣어야 한다. 특히 스페이스일 경우는 gaps=True를 사용해야 문자를 출력한다.

In [35]:
help(regexp_tokenize)

Help on function regexp_tokenize in module nltk.tokenize.regexp:

regexp_tokenize(text, pattern, gaps=False, discard_empty=True, flags=<RegexFlag.UNICODE|DOTALL|MULTILINE: 56>)
    Return a tokenized copy of *text*.  See :class:`.RegexpTokenizer`
    for descriptions of the arguments.



In [36]:
from nltk.tokenize import regexp_tokenize
print(regexp_tokenize("Do not hesitate to ask questions","[\w]+"))

['Do', 'not', 'hesitate', 'to', 'ask', 'questions']


In [45]:
from nltk.tokenize import regexp_tokenize
print(regexp_tokenize("Do not hesitate to ask questions","[\s]+"))

print(regexp_tokenize("Do not hesitate to ask questions","[\s]+",gaps=True))

[' ', ' ', ' ', ' ', ' ']
['Do', 'not', 'hesitate', 'to', 'ask', 'questions']


##  문장 부호를 완전히 새로운 토큰화 : WordPunctTokenizer

   \w+|[^\w\s]+ 이 정규 표현식을 이용해서 알파벳과 알파벳이 아닌 문자로 토큰화 처리한다.

In [13]:
text = '''this’s a sent tokenize test. this is sent two. is this sent three? sent 4 is cool! Now it’s your turn.'''

In [18]:
from nltk.tokenize import regexp_tokenize

print(regexp_tokenize(text,"\w+"))


['this', 's', 'a', 'sent', 'tokenize', 'test', 'this', 'is', 'sent', 'two', 'is', 'this', 'sent', 'three', 'sent', '4', 'is', 'cool', 'Now', 'it', 's', 'your', 'turn']


#### 워드 다음에 붙여서 사용하는 마침표 쉼표 등을 구분하기 위해서는 [^\w\s]+로 확인한다

In [19]:
from nltk.tokenize import regexp_tokenize

print(regexp_tokenize(text,"[^\w\s]+"))


['’', '.', '.', '?', '!', '’', '.']


####  실제 문자와 문장에 대한 기호를 처리해서 두가지 전부를 토근화한다.

In [20]:
from nltk.tokenize import regexp_tokenize

print(regexp_tokenize(text,"\w+|[^\w\s]+"))


['this', '’', 's', 'a', 'sent', 'tokenize', 'test', '.', 'this', 'is', 'sent', 'two', '.', 'is', 'this', 'sent', 'three', '?', 'sent', '4', 'is', 'cool', '!', 'Now', 'it', '’', 's', 'your', 'turn', '.']


In [14]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()

print(tokenizer.tokenize(text))

['this', '’', 's', 'a', 'sent', 'tokenize', 'test', '.', 'this', 'is', 'sent', 'two', '.', 'is', 'this', 'sent', 'three', '?', 'sent', '4', 'is', 'cool', '!', 'Now', 'it', '’', 's', 'your', 'turn', '.']


In [11]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()

print(tokenizer.tokenize("Don't hesitate to ask questions"))

['Don', "'", 't', 'hesitate', 'to', 'ask', 'questions']


In [25]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()

print(word_tokenize("Do not hesitate to ask questions"))

['Do', 'not', 'hesitate', 'to', 'ask', 'questions']


In [26]:
from nltk.tokenize import wordpunct_tokenize
print(wordpunct_tokenize("Don't hesitate to ask questions"))

['Don', "'", 't', 'hesitate', 'to', 'ask', 'questions']


## WhitespaceTokenizer 

    화이트스페잇에는 tab, space, newline 등이 있고 이를 기준으로 토큰화 처리를 한다.
    
    

In [33]:
from nltk.tokenize import WhitespaceTokenizer
tokenizer = WhitespaceTokenizer()

print(tokenizer.tokenize(text))

['this’s', 'a', 'sent', 'tokenize', 'test.', 'this', 'is', 'sent', 'two.', 'is', 'this', 'sent', 'three?', 'sent', '4', 'is', 'cool!', 'Now', 'it’s', 'your', 'turn.']


#### 토큰이 분리된 시작점과 끝점을 표시해서 출력한다 : span_tokenize 메소드

In [24]:

print(list(tokenizer.span_tokenize(text)))

[(0, 6), (7, 8), (9, 13), (14, 22), (23, 28), (29, 33), (34, 36), (37, 41), (42, 46), (47, 49), (50, 54), (55, 59), (60, 66), (67, 71), (72, 73), (74, 76), (77, 82), (83, 86), (87, 91), (92, 96), (97, 102)]


## SpaceTokenizer  

    파이썬 문자열의 split 메소드에서 인자로 " "를 받아서 처리하는 것과 동일하다.
    

In [22]:
from nltk.tokenize import SpaceTokenizer
tokenizer = SpaceTokenizer()

print(tokenizer.tokenize(text))

['this’s', 'a', 'sent', 'tokenize', 'test.', 'this', 'is', 'sent', 'two.', 'is', 'this', 'sent', 'three?', 'sent', '4', 'is', 'cool!', 'Now', 'it’s', 'your', 'turn.']


### split 메소드에 블랭크로 분리하는 것도 동일한 결과를 가진다.

In [26]:
print(text.split(" "))

['this’s', 'a', 'sent', 'tokenize', 'test.', 'this', 'is', 'sent', 'two.', 'is', 'this', 'sent', 'three?', 'sent', '4', 'is', 'cool!', 'Now', 'it’s', 'your', 'turn.']


## 2.2  문장 단위로 토근화 


## BlanklineTokenizer 



In [21]:
from nltk.tokenize import BlanklineTokenizer
tokenizer = BlanklineTokenizer()

test = '''
 this’s a sent tokenize test. 
this is sent two. 
is this sent three? 


 sent 4 is cool! 
Now it’s your turn.

'''

print(tokenizer.tokenize(text))
for i in tokenizer.span_tokenize(text) :
    print(i)

['this’s a sent tokenize test. this is sent two. is this sent three? sent 4 is cool! Now it’s your turn.']
(0, 102)


## sent_tokenize 함수를 이용해서 처리하기

In [3]:
text = """this’s a sent tokenize test. this is sent two. is this sent three? sent 4 is cool! Now it’s your turn."""
from nltk.tokenize import sent_tokenize
sent_tokenize_list = sent_tokenize(text)
print(len(sent_tokenize_list))
print(sent_tokenize_list)


5
['this’s a sent tokenize test.', 'this is sent two.', 'is this sent three?', 'sent 4 is cool!', 'Now it’s your turn.']


## 2.3 정규화 : 문장 부호 없애기 

In [40]:
import nltk.tokenize as tok

In [36]:
import string

print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [38]:
import re

print(re.escape(string.punctuation))

\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\=\>\?\@\[\\\]\^_\`\{\|\}\~


In [48]:
text1 = ["IT is a pleasant evening.", "Guests, who came from US arrived at the venue", "Food was tasty."]

tokenized_doc = [tok.word_tokenize(doc) for doc in text1]

print(tokenized_doc)


[['IT', 'is', 'a', 'pleasant', 'evening', '.'], ['Guests', ',', 'who', 'came', 'from', 'US', 'arrived', 'at', 'the', 'venue'], ['Food', 'was', 'tasty', '.']]


In [49]:
x = re.compile('[%s]' % re.escape(string.punctuation))
print(x)

re.compile('[\\!\\"\\#\\$\\%\\&\\\'\\(\\)\\*\\+\\,\\-\\.\\/\\:\\;\\<\\=\\>\\?\\@\\[\\\\\\]\\^_\\`\\{\\|\\}\\~]')


### x에 등록된 구둣점을 빈공칸으로 변경한다. 

In [54]:
b = []
for i in tokenized_doc :
    a = [x.sub(" ", token) for token in i]
    a.remove(" ")
    b.append(a)
print(b)

[['IT', 'is', 'a', 'pleasant', 'evening'], ['Guests', 'who', 'came', 'from', 'US', 'arrived', 'at', 'the', 'venue'], ['Food', 'was', 'tasty']]


## 불용어 처리  : stop words

    문장의 전체적인 의미에 크게 기여하지 않는 단어를 필터링해서 처리한다.
    

### 불용어를 지원하는 언어들

In [62]:
from nltk.corpus import stopwords

stopwords.fileids()

['danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'kazakh',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

### 영어에 대한 불용어 출력 

In [55]:
from nltk.corpus import stopwords

stops = set(stopwords.words('english'))

print(stops)

{'himself', 'he', 'i', 'don', 'in', 'off', 'down', 'its', 'were', 'mightn', 'theirs', 'is', 'on', 'couldn', 'while', 'here', 'll', 'm', 'few', 'again', 'can', 'under', 'shouldn', 'had', 'more', 'so', 'for', 'wouldn', 'your', 'not', 'should', 're', 'been', 'what', 'o', 'or', 'each', 'isn', 'doing', 'these', 'd', 'hadn', 's', 'our', 'hasn', 'into', 've', 'does', 'themselves', 'will', 'am', 'same', 'both', 'ain', 'those', 'herself', 'no', 'you', 'there', 'if', 'nor', 'because', 'their', 'didn', 'was', 'but', 'than', 'they', 'y', 'before', 'any', 'be', 'an', 'at', 'doesn', 'very', 'all', 'from', 'needn', 'ourselves', 'her', 'we', 'with', 'during', 'some', 'only', 'has', 'out', 'by', 'until', 'against', 't', 'about', 'of', 'it', 'above', 'mustn', 'and', 'my', 'why', 'yourselves', 'are', 'such', 'yours', 'them', 'how', 'own', 'having', 'this', 'the', 'up', 'weren', 'other', 'him', 'a', 'too', 'hers', 'me', 'wasn', 'now', 'further', 'when', 'where', 'won', 'yourself', 'below', 'just', 'shan',

In [64]:
b = [['IT', 'is', 'a', 'pleasant', 'evening'],
 ['Guests', 'who', 'came', 'from', 'US', 'arrived', 'at', 'the', 'venue'],
 ['Food', 'was', 'tasty']]

In [65]:
d = []
for i in b :
    c = []
    for  j in range(len(i)) :
        if i[j] in stops :
            print(i[j])
        else :
            c.append(i[j])
    d.append(c)

print(d)

is
a
who
from
at
the
was
[['IT', 'pleasant', 'evening'], ['Guests', 'came', 'US', 'arrived', 'venue'], ['Food', 'tasty']]


In [68]:
import  nltk.corpus as corpus

len(corpus.reuters.words())

1720901

In [69]:
len(corpus.inaugural.words())

145735