# Ch5. Web Page Mining : 자연어 처리, 블로그 요약 

### 작성자 : 김성동 

## 5.3.1 자연어 처리의 파이프라인

1. 문장의 끝 탐지(End of Sentence(EOS) Detection)
2. 토큰화(Tokenization)
3. 품사 태깅(Part-of-Speech Tagging)
4. 군집화(Chunking)
5. 추출(Extraction)

### 문장 끝 탐지

이 단계는 텍스트를 의미 있는 문장의 모음으로 나눈다. NLTK 를 이용하자

In [8]:
import nltk

In [9]:
txt = "Mr. Green killed Colonel Mustard in the study with the candlestick. Mr. Green is not a very nice fellow."

문장 단위로 토큰화 시키기 ( 문장 끝 탐지 !)

In [10]:
sentences = nltk.tokenize.sent_tokenize(txt)

In [11]:
sentences

['Mr. Green killed Colonel Mustard in the study with the candlestick.',
 'Mr. Green is not a very nice fellow.']

### 토큰화 

이 단계는 각각의 문장을 토큰으로 분리한다.

In [12]:
tokens = [nltk.tokenize.word_tokenize(s) for s in sentences]

In [13]:
tokens

[['Mr.',
  'Green',
  'killed',
  'Colonel',
  'Mustard',
  'in',
  'the',
  'study',
  'with',
  'the',
  'candlestick',
  '.'],
 ['Mr.', 'Green', 'is', 'not', 'a', 'very', 'nice', 'fellow', '.']]

In [14]:
token_with_split = [s.split(' ') for s in sentences]

In [15]:
token_with_split

[['Mr.',
  'Green',
  'killed',
  'Colonel',
  'Mustard',
  'in',
  'the',
  'study',
  'with',
  'the',
  'candlestick.'],
 ['Mr.', 'Green', 'is', 'not', 'a', 'very', 'nice', 'fellow.']]

nltk의 토큰화는 split이 뛰어쓰기 기준으로 쪼갠 것과는 다르게 마침표까지 따로 토큰화 시켰다. 이 토큰화는 이전의 여백에 따라 분리하는 것과 똑같은 일을 하는 것으로 나타났다. 우리가 다음의 절에서 볼 것이지만, 이러한 토큰화는 좀더 많은 일을 할 수 있게 한다. 그리고 우리는 마침표가 문장의 끝을 나타내는 표시인지 또는 약어의 부분인지 구별하는 것이 항상 간단한 것이 아니라는 것을 이미 알고 있다.

### 품사 태깅 

이 단계는 각각의 토큰에 품사 정보를 지정한다. 

In [16]:
pos_tagged_tokens = [nltk.pos_tag(t) for t in tokens]

In [18]:
pos_tagged_tokens

[[('Mr.', 'NNP'),
  ('Green', 'NNP'),
  ('killed', 'VBD'),
  ('Colonel', 'NNP'),
  ('Mustard', 'NNP'),
  ('in', 'IN'),
  ('the', 'DT'),
  ('study', 'NN'),
  ('with', 'IN'),
  ('the', 'DT'),
  ('candlestick', 'NN'),
  ('.', '.')],
 [('Mr.', 'NNP'),
  ('Green', 'NNP'),
  ('is', 'VBZ'),
  ('not', 'RB'),
  ('a', 'DT'),
  ('very', 'RB'),
  ('nice', 'JJ'),
  ('fellow', 'NN'),
  ('.', '.')]]

In [21]:
type(pos_tagged_tokens)

list

* NNP : 그 토큰이 명사구의 일부분이면서 명사
* VBD : 과거 시제 동사
* JJ : 형용사

... 품사 태그에 대한 정보 http://bit.ly/1a1n05o 

### 군집화 

이 단계는 문장에 있는 각각의 태그된 토큰을 분석하고, 논리적인 개념을 표현하는 토큰 집합을 모은다. 이는 통계적으로 연어를 분석하는 것과는 완전히 다른 방법이다. NLTK의 chunk.RegexpParser를 통해 직접 문법을 정의할 수 있으나 이 장의 범위를 넘어서므로, NLP with Python 9장(Building Feature Based Grammars)의 내용을 살펴보자.

### 추출 

이 단계는 각각의 집합을 분석하여 실체정보에 대해 이름(사람, 회사, 장소 등)을 붙여 집합들을 태깅한다.

In [22]:
ne_chunks = nltk.ne_chunk_sents(pos_tagged_tokens)

In [24]:
for chunk in ne_chunks:
    print(chunk)

(S
  (PERSON Mr./NNP)
  (PERSON Green/NNP)
  killed/VBD
  (ORGANIZATION Colonel/NNP Mustard/NNP)
  in/IN
  the/DT
  study/NN
  with/IN
  the/DT
  candlestick/NN
  ./.)
(S
  (PERSON Mr./NNP)
  (ORGANIZATION Green/NNP)
  is/VBZ
  not/RB
  a/DT
  very/RB
  nice/JJ
  fellow/NN
  ./.)


이러한 출력이 무엇을 의미하는지 해독하기 위해 아직은 너무 몰입하지 마라. 요약하면 여기에서는 토큰들을 모아서 집합을 만들고, 그것들을 특정 형태의 실체정보로 분류하고자 했다. "Mr. Green"은 사람으로 분류되었으나, 불행히도 "Colonel Mustard"는 회사로 분류된 것을 볼 수 있다. NLTK를 가지고 자연 언어를 계속해서 탐구하는 것이 가치가 있더라도, 이러한 수준의 개입은 여기서 우리의 진정한 목적은 아니다~

## 5.3.2 인간 언어 데이터에서 문장 탐지 

문장 탐지가 NLP 스택을 만들 때 여러분이 생각하는 첫 번째 작업이라는 것을 고려하여 문장 탐지부터 해보자!
O'Reilly의 Radar 블로그에서 포스트를 수집하기 위해 "feedparser" 모듈을 사용하자.

피드를 파싱하여 블로그 데이터 수집하기

In [33]:
import os
import sys
import json
import feedparser
from bs4 import BeautifulStoneSoup
from nltk import clean_html

In [34]:
FEED_URL = 'http://feeds.feedburner.com/oreilly/radar/atom'

In [47]:
# clean_html은 태그를 제거하고 
# BeautifulStoneSoup은 HTML 엔티티를 변환한다. ex. I&#39;ve 나 <br/> 같은 것들 제거
def cleanHtml(html):
    return BeautifulSoup(html, 'lxml').get_text()

In [37]:
fp = feedparser.parse(FEED_URL)

In [38]:
print("Fetched %s entries from '%s'" % (len(fp.entries[0].title), fp.feed.title))

Fetched 32 entries from 'All - O'Reilly Media'


In [48]:
blog_posts = []
for e in fp.entries:
    blog_posts.append({'title' : e.title, 'content' : cleanHtml(e.content[0].value), 
                       'link' : e.links[0].href})

In [53]:
f = open('feed.json', 'w')
f.write(json.dumps(blog_posts, indent=1))
f.close()

블로그 데이터의 언어 처리를 위해 NLTK의 NLP 툴 사용하기

In [54]:
import json
import nltk

In [56]:
BLOG_DATA = "feed.json"
blog_data = json.loads(open(BLOG_DATA).read())

In [57]:
# 필요한 대로 불용어 리스트를 변경한다.
# 여기서는 일반적인 구두점과 축약 구무을 추가했다.
stop_words = nltk.corpus.stopwords.words('english') + ['.',
                                                      ',',
                                                      '--',
                                                      '\'s',
                                                      '?',
                                                      ')',
                                                      '(',
                                                      ':',
                                                      '\'',
                                                      '\'re',
                                                      '"',
                                                      '-',
                                                      '}',
                                                      '{',
                                                      u'-',]

In [59]:
for post in blog_data:
    sentences = nltk.tokenize.sent_tokenize(post['content'])
    
    words = [w.lower() for sentence in sentences for w in nltk.tokenize.word_tokenize(sentence)]
    
    fdist = nltk.FreqDist(words)

먼저 문장 단위로 쪼개고 그 다음 하나씩 가져와서 토큰화 시키고 소문자화 해서 words에 다 담고, freqdist도 생성

In [60]:
# 기초적인 상태값

num_words = sum([i[1] for i in fdist.items()]) # key-value pair를 하나씩 받아와서 value들만 합침. 즉 토큰의 갯수
num_unique_words = len(fdist.keys()) # key들 즉 token의 중복 제거한 갯수

In [61]:
# Hapaxes는 단 한 번만 나타나는 단어들

num_hapaxes = len(fdist.hapaxes())

In [63]:
print(num_words, num_unique_words, num_hapaxes)

193 113 85


In [64]:
top_10_words_sans_stop_words = [w for w in fdist.items() if w[0] not in stop_words][:10]

In [65]:
top_10_words_sans_stop_words

[('helped', 1),
 ('report', 1),
 ('lore', 1),
 ('google', 2),
 ('business', 1),
 ('work', 2),
 ('create', 1),
 ('worked', 1),
 ('behind', 1),
 ('best', 1)]

In [67]:
print(post['title'])
print('\tNum Sentences:'.ljust(25), len(sentences))
print('\tNum Words:'.ljust(25), num_words)
print('\tNum Unique Words:'.ljust(25), num_unique_words)
print('\tNum Hapaxes:'.ljust(25), num_hapaxes)
print('\tTop 10 Most Frequent Words (sans stop words):\n\t\t',
      '\n\t\t'.join(['%s (%s)' % (w[0], w[1]) for w in top_10_words_sans_stop_words]))

Introduction to OKRs
	Num Sentences:           11
	Num Words:               193
	Num Unique Words:        113
	Num Hapaxes:             85
	Top 10 Most Frequent Words (sans stop words):
		 helped (1)
		report (1)
		lore (1)
		google (2)
		business (1)
		work (2)
		create (1)
		worked (1)
		behind (1)
		best (1)


NLTK는 토큰화를 위해 여러 개의 옵션을 제공하지만, 가장 유용한 것에 대한 추천을 하지 않고 있다. 이 책이 쓰여진 시점에 있어서 문장 탐지도구는 "PunktSentenceTokenizer"이고, 단어 토큰화 도구는 "TreebankWordTokenizer"다. 이들 각각에 대해 간단히 살펴보자. 

내부적으로, PunktSentenceTokenizer는 연어 패턴의 부분으로서 약어를 탐지할 수 있는 것에 주로 의존하고, 구두점 사용의 패턴을 고려하여 문장을 지능적으로 분석하기 위해 일부 정규표현을 사용한다. PunkSentenceTokenizer 로직 내부에 대한 완벽한 설명은 이 책의 범위를 넘어선다. ... 이 알고리즘은 텍스트를 문장으로 분리하기 위한 적절한 변수를 찾기 위해 텍스트에 나타난 대문자 사용, 토큰의 중복 발생 등과 같은 특정 형태를 검사한다.

텍스트를 여백 기준으로 분리함으로써 토큰을 생성하는 NLTK의 WhitespaceTokenizer는 가장 간단한 단어 토큰화 도구인데, 여러분은 이미 여백을 기준으로 분리하는 것의 단점에 대해 알고 있다. 대신 NLTK는 현재 "TreebankWordTokenizer를 추천한다. ...


## 5.3.3 문서 요약

문장들 내에서 문장 탐지와 빈도 분석에 기반을 둔 문서 요약 알고리즘

In [68]:
import json
import nltk
import numpy

In [69]:
BLOG_DATA = 'feed.json'

N = 100 # 처리할 단어들의 개수
CLUSTER_THRESHOLD = 5 # 처리할 단어들 간의 거리
TOP_SENTENCES = 5 # 상위 n개 요약을 리턴할 문장들의 개수

# H.P. Luhn의 "The Automatic Creation of Literature Abstracts"에서 가져온 접근 방법

In [71]:
# 문장의 토큰이 중요단어 리스트에 있는 토큰을 얼마나 포함하는지에 따라 스코어를 계산한다.
def _score_sentences(sentences, important_words):
    scores = []
    sentence_idx = -1
    
    for s in [nltk.tokenize.word_tokenize(s) for s in sentences]:
        sentence_idx += 1
        word_idx = []
        
        for w in important_words:
            try:
                # 문장에서 임의의 중요 단어가 나타난 곳에 대한 인덱스를 계산한다.
                
                word_idx.append(s.index(w))
            
            except: # w는 이런 특정한 문장에 없음
                pass
            
        word_idx.sort()
            
        # 일부 문장들은 중요한 단어를 포함하고 있지 않을 수도 있다.
        if len(word_idx) == 0: continue
        
        # 단어의 인덱스를 이용하고 최대 거리 임계치를 활용하여 
        # 두 연속된 단어들에 대한 클러스터를 계산한다.
        
        clusters = []
        cluster = [word_idx[0]]
        i = 1
        while i < len(word_idx):
            if word_idx[i] - word_idx[i-1] < CLUSTER_THRESHOLD:
                cluster.append(word_idx[i])
            else:
                clusters.append(cluster[:])
                cluster = [word_idx[i]]
            i += 1
        clusters.append(cluster)
        
        # 각각의 클러스터에 대한 점수를 계산한다.
        # 클러스터에 대한 최대 점수가 문장의 점수다.
        
        max_cluster_score = 0
        for c in clusters:
            significant_words_in_cluster = len(c)
            total_words_in_cluster = c[-1] - c[0] + 1
            score = 1.0 * significant_words_in_cluster*significant_words_in_cluster / total_words_in_cluster
            
            if score > max_cluster_score:
                max_cluster_score = score
        
        scores.append((sentence_idx, score))
    
    return scores

In [73]:
def summarize(txt):
    sentences = [s for s in nltk.tokenize.sent_tokenize(txt)]
    normalized_sentences = [s.lower() for s in sentences]
    
    words = [w.lower() for sentence in normalized_sentences for w in nltk.tokenize.word_tokenize(sentence)]
    
    fdist = nltk.FreqDist(words)
    
    top_n_words = [w[0] for w in fdist.items() if w[0] not in nltk.corpus.stopwords.words('english')][:N]
    
    scored_sentences = _score_sentences(normalized_sentences, top_n_words)
    
    # 요약 접근 방법 1:
    # 평균 점수에 표준편차(std dev)를 더한 것을 필터로 하여
    # 중요하지 않은 문장들을 필터링한다.

    avg = numpy.mean([s[1] for s in scored_sentences])
    std = numpy.std([s[1] for s in scored_sentences])
    mean_scored = [(sent_idx, score) for (sent_idx, score) in scored_sentences if score > avg + 0.5*std]
    
    # 요약 접근 방법 2:
    # 또 다른 접근은 문장에서 상위 N개만 리턴하는 것이다.
    
    top_n_scored = sorted(scored_sentences, key=lambda s: s[1])[-TOP_SENTENCES:]
    top_n_scored = sorted(top_n_scored, key=lambda s: s[0])
    
    # post 객체에 요약한 내용을 추가한다.
    return dict(top_n_summary=[sentences[idx] for (idx, score) in top_n_scored],
               mean_scored_summary=[sentences[idx] for (idx, score) in mean_scored])

In [74]:
blog_data = json.loads(open(BLOG_DATA).read())

In [75]:
for post in blog_data:
    
    post.update(summarize(post['content']))
    
    print(post['title'])
    print('='*len(post['title']))
    print()
    print('TOP N summary')
    print('-------------')
    print(' '.join(post['top_n_summary']))
    print()
    print('Mean Scored Summary')
    print('-------------------')
    print(' '.join(post['mean_scored_summary']))
    print()

Four short links: 19 August 2016

TOP N summary
-------------
Machine Learning Unconference, Sgt Augmento, TCP Puzzles, and Open Source PowerShell

OpenAI's Machine Learning Unconference -- Oct 7-8 in SF. Sgt Augmento -- Bruce Sterling's new story about robots taking our jobs. (via Cory Doctorow)

TCP Puzzlers -- good stuff! PowerShell Open Sourced -- it's somewhat a shell, but mostly a scripting language for automation. Continue reading Four short links: 19 August 2016.

Mean Scored Summary
-------------------
Machine Learning Unconference, Sgt Augmento, TCP Puzzles, and Open Source PowerShell

OpenAI's Machine Learning Unconference -- Oct 7-8 in SF. (via Cory Doctorow)

TCP Puzzlers -- good stuff!

What would Alexa do?

TOP N summary
-------------
From now on, I'm expected to interact with the app by touching the screen. I'm forced to switch modes unnecessarily between voice and touch. There's real evidence of clear and consistent human design anticipation throughout the product. I c