In [13]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.Container {width:85% !important;}
div.CodeMirror {font-family:나눔바른펜; font-size:13pt; line-height : 140%;}
div.output_area pre {font-family:나눔바른펜; font-size:13pt; line-height : 140%; font-weight : bold;}
div.output_wrapper pre {font-family:나눔바른펜; font-size:13pt; line-height : 140%;}
div.input {font-family:나눔바른펜; font-size:13pt;}
</style>
"""))

<b><font color = "red" size = "6">ch01. NLTK 자연어 처리 패키지</font></b>

# 1절. NLTK 패키지

In [3]:
import nltk

In [4]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [8]:
from nltk.book import *

In [9]:
# 말뭉치 리스트
nltk.corpus.gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

In [11]:
emma = nltk.corpus.gutenberg.raw('austen-emma.txt')

print(emma[:40])

[Emma by Jane Austen 1816]

VOLUME I

CH


In [16]:
# 문장 단위로 나눠보기 - sent_tokenize() : list로 반환
from nltk.tokenize import sent_tokenize
sent_tokens = sent_tokenize(emma)

print('문장 수 :', len(sent_tokens))
print("%r" % (sent_tokens[10]) )

문장 수 : 7493
'It was on the wedding-day\nof this beloved friend that Emma first sat in mournful thought\nof any continuance.'


In [18]:
# 단어 단위로 쪼갠 list 반환 - word_tokenize()
from nltk.tokenize import word_tokenize
print( word_tokenize(sent_tokens[0]) )

['[', 'Emma', 'by', 'Jane', 'Austen', '1816', ']', 'VOLUME', 'I', 'CHAPTER', 'I', 'Emma', 'Woodhouse', ',', 'handsome', ',', 'clever', ',', 'and', 'rich', ',', 'with', 'a', 'comfortable', 'home', 'and', 'happy', 'disposition', ',', 'seemed', 'to', 'unite', 'some', 'of', 'the', 'best', 'blessings', 'of', 'existence', ';', 'and', 'had', 'lived', 'nearly', 'twenty-one', 'years', 'in', 'the', 'world', 'with', 'very', 'little', 'to', 'distress', 'or', 'vex', 'her', '.']


In [19]:
# regexpTokenizer 클래스 - 토큰화할 때 정규표현식을 이용할 수 있다.
from nltk.tokenize import RegexpTokenizer
ret = RegexpTokenizer('[\w]+')

print(ret.tokenize(sent_tokens[0]))

['Emma', 'by', 'Jane', 'Austen', '1816', 'VOLUME', 'I', 'CHAPTER', 'I', 'Emma', 'Woodhouse', 'handsome', 'clever', 'and', 'rich', 'with', 'a', 'comfortable', 'home', 'and', 'happy', 'disposition', 'seemed', 'to', 'unite', 'some', 'of', 'the', 'best', 'blessings', 'of', 'existence', 'and', 'had', 'lived', 'nearly', 'twenty', 'one', 'years', 'in', 'the', 'world', 'with', 'very', 'little', 'to', 'distress', 'or', 'vex', 'her']


# 2절. 형태소 분석
-  형태소 : 의미가 있는 가장 작은 말의 단위<br><br>
- cf. 자연어 처리의 기본은 형태소 분석과 품사 태깅
    - 어간 추출(Stemming)
    - 원형 복원(Lemmatizing)
    - 품사 태깅(Part of Speech Tagging)

In [20]:
words = [ 'sending', 'cooking', 'files', 'lives', 'crying', 'dying' ]

# 어간 추출(1) : PorterStemmer
from nltk.stem import PorterStemmer
pst = PorterStemmer()
pst.stem(words[0]), pst.stem(words[1]), pst.stem(words[2])

('send', 'cook', 'file')

In [21]:
[ pst.stem(w) for w in words ]

['send', 'cook', 'file', 'live', 'cri', 'die']

In [22]:
# 어간 추출(2) : LanscasterStemmer
# 어간 추출 기능 중 제일 많이 쓰임
from nltk.stem import LancasterStemmer
lst = LancasterStemmer()
[ lst.stem(w) for w in words ]

['send', 'cook', 'fil', 'liv', 'cry', 'dying']

In [23]:
# 어간 추출(3) : RegexpStemmer
from nltk.stem import RegexpStemmer
rst = RegexpStemmer('ing')
[ rst.stem(w) for w in words ]

['send', 'cook', 'files', 'lives', 'cry', 'dy']

In [25]:
# 어간 추출을 할 경우 의미가 달라질 수 있어 원형복원을 한다.
word2 = [ 'belives', 'cooking' ]
[lst.stem(w) for w in word2]

['bel', 'cook']

In [28]:
# 원형 복원
from nltk.stem.wordnet import WordNetLemmatizer
wl = WordNetLemmatizer()
[ wl.lemmatize(w) for w in word2 ]

['belives', 'cooking']

## 품사 태깅

In [31]:
from nltk.tag import pos_tag
taged_list = pos_tag(word_tokenize(sent_tokens[10]))

print(word_tokenize(sent_tokens[10]))
print('\n품사 태깅 결과\n', taged_list)

['It', 'was', 'on', 'the', 'wedding-day', 'of', 'this', 'beloved', 'friend', 'that', 'Emma', 'first', 'sat', 'in', 'mournful', 'thought', 'of', 'any', 'continuance', '.']

품사 태깅 결과
 [('It', 'PRP'), ('was', 'VBD'), ('on', 'IN'), ('the', 'DT'), ('wedding-day', 'NN'), ('of', 'IN'), ('this', 'DT'), ('beloved', 'VBN'), ('friend', 'NN'), ('that', 'WDT'), ('Emma', 'NNP'), ('first', 'RB'), ('sat', 'VBD'), ('in', 'IN'), ('mournful', 'JJ'), ('thought', 'NN'), ('of', 'IN'), ('any', 'DT'), ('continuance', 'NN'), ('.', '.')]


# 퀴즈 : emma 소설안에서
<pre>
1. 특수문자가 들어가지 않은 3글자이상의 단어만 추출해서 품사 태깅
2. "Emma" 단어가 몇 번 등장하는지, 품사 태깅이 어떤 품사들도 되어 있는지 모두 출력
3. 내가 원하는 품사(명사)의 단어만 뽑아 등장하는 명사의 종류 개수를 출력
</pre>

## 1번문제