# Week 8 - Text Analysis Using NLTK & KoNLPy

# NLTK를 이용한 영문 분석

* NLTK를 사용하기 위해서는 터미널에서 **```pip install nltk```** 를 수행한다.
* NLTK는 다수의 샘플데이터와 tagger를 위한 모듈이 포함되어 있다.
* 해당 모듈을 다운로드 하기 위해서는 **```nltk.download()```** 를 수행한다.

In [None]:
import nltk
# 특정 모듈을 다운로드 하기 위해서는 다음과 같이 해당 모듈의 이름을 패러미터로 제공한다.
# nltk.download('gutenberg')  
# nltk.download('maxent_treebank_pos_tagger')

## 1. Reading Sample Data

In [None]:
from nltk.corpus import gutenberg
gutenberg_files = gutenberg.fileids()
gutenberg_files

In [None]:
gutenberg_doc = gutenberg.open('austen-emma.txt').read()
gutenberg_doc

## 2. Tokenize the Text

### Example from http://www.nltk.org

In [None]:
sentence = """At eight o'clock on Thursday morning
... Arthur didn't feel very good."""
tokens = nltk.word_tokenize(sentence)
tokens

In [None]:
tagged = nltk.pos_tag(tokens)
tagged

### Alphabetical list of part-of-speech tags used in the Penn Treebank Project:
https://www.cis.upenn.edu/~treebank/

```
CC Coordinating conjunction
CD Cardinal number
DT Determiner
EX Existential there
FW Foreign word
IN Preposition or subordinating conjunction
JJ Adjective
JJR Adjective, comparative
JJS Adjective, superlative
LS List item marker
MD Modal
NN Noun, singular or mass
NNS Noun, plural
NNP Proper noun, singular
NNPS Proper noun, plural
PDT Predeterminer
POS Possessive ending
PRP Personal pronoun
PRP$ Possessive pronoun
RB Adverb
RBR Adverb, comparative
RBS Adverb, superlative
RP Particle
SYM Symbol
TO to
UH Interjection
VB Verb, base form
VBD Verb, past tense
VBG Verb, gerund or present participle
VBN Verb, past participle
VBP Verb, non­3rd person singular present
VBZ Verb, 3rd person singular present
WDT Wh­determiner
WP Wh­pronoun
WP$ Possessive wh­pronoun
WRB Wh­adverb
```

In [None]:
gutenberg_tokens = nltk.word_tokenize(gutenberg_doc)
gutenberg_tagged = nltk.pos_tag(gutenberg_tokens)

In [None]:
gutenberg_tokens

In [None]:
gutenberg_tagged

## 3. Stemming (or lemmatizing) the Words

단어의 어근을 추출하기 위해 stemming 작업을 한다.
* NLTK는 stemming과 lemmatizing을 제공하는데, stemming보다는 lemmatazing이 보다 원하는 결과를 얻을 수 있다.
https://en.wikipedia.org/wiki/Lemmatisation#Description

**Lemmatisation** is closely related to **stemming**. The difference is that a stemmer operates on a single word without knowledge of the context, and therefore cannot discriminate between words which have different meanings depending on part of speech. However, stemmers are typically easier to implement and run faster, and the reduced accuracy may not matter for some applications.

For instance:

1. The word "better" has "good" as its lemma. This link is missed by stemming, as it requires a dictionary look-up.
2. The word "walk" is the base form for word "walking", and hence this is matched in both stemming and lemmatisation.
3. The word "meeting" can be either the base form of a noun or a form of a verb ("to meet") depending on the context, e.g., "in our last meeting" or "We are meeting again tomorrow". Unlike stemming, lemmatisation can in principle select the appropriate lemma depending on the context.

### Lemmatization

In [None]:
lemma = nltk.wordnet.WordNetLemmatizer()
gutenberg_lemma = []
for token in gutenberg_tokens:
    gutenberg_lemma.append(lemma.lemmatize(token))

gutenberg_lemma

In [None]:
gutenberg_lemma_tagged = nltk.pos_tag(gutenberg_lemma)
gutenberg_lemma_tagged

### Stemming

In [None]:
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
gutenberg_stemmed = []
for token in gutenberg_tokens:
    gutenberg_stemmed.append(porter_stemmer.stem(token))

gutenberg_stemmed

In [None]:
gutenberg_stemmed_tagged = nltk.pos_tag(gutenberg_stemmed)
gutenberg_stemmed_tagged

### Compare Stemming and Lemmatization

http://stackoverflow.com/questions/17317418/stemmers-vs-lemmatizers

In [None]:
porter_stemmer.stem('running')

In [None]:
lemma.lemmatize('running')

## 실습 1

* 단어별로 카운트를 하여 가장 많이 사용된 순서로 정렬하자.
* (참고) https://docs.python.org/3/library/collections.html#collections.Counter.most_common

## 4. Removing Stopwords

In [None]:
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
stop_words

In [None]:
stop_words.update(['.', ',', '"', "'", '?', '!', ':', ';', '(', ')', '[', ']', '{', '}'])
filtered_words = [word for word in gutenberg_lemma if word not in stop_words]
filtered_words # i와 I는 다르게 처리된다. 맨 앞에서 .lower() 를 사용하여 모두 소문자로 변환시키면 문제를 해결할 수 있다.

## 실습 2
* 명사의 유니크리스트를 만들어 보자.

# KoNLPy 를 이용한 한글 분석

* KoNLPy를 이용하여 한글 형태소 분석을 한다.
* KoNLPy는 다음과 같은 형태소 분석기를 파이썬에서 사용할 수 있게 한다.
    * 한나눔(카이스트, 1999)
    * 꼬꼬마(서울대, 2004)
    * 코모란(Shineware, 2014)
    * 은전한닢 프로젝트 
    * Twitter Korean Text
* 다음의 주소를 참고하여 KoNLPy를 설치하자.
    * http://konlpy.org/en/v0.4.4/

### KoNLPy의 기초 (from the website)

In [None]:
from konlpy.tag import Kkma  # 꼬꼬마 형태소 분석기 사용

kkma = Kkma()
text = "오늘 서울의 날씨는 추워질 전망입니다. 오후 한때 소나기가 올 예정입니다."
sentences = kkma.sentences(text)
sentences[1]

In [None]:
kkma.nouns(text)

In [None]:
kkma.pos(text)

In [None]:
from konlpy.corpus import kolaw
fids = kolaw.fileids()
fids

In [None]:
ko_data = kolaw.open('constitution.txt').read()
ko_data

## 1. Reading Data & Clean Up

### 파일 불러오기
* data/moon-memorial-day.txt 데이터 로드

In [None]:
with open('data/moon-memorial-day.txt', 'r') as f:
    lines = f.read().splitlines()
lines

### 빈 문장 정리

In [None]:
sentences = [line for line in lines if line != '']
sentences

## 2. 형태소 분석

### 형태소 분석 테스트

첫번째 문장을 가져와 코모란 형태소 분석기로 분석해보자.

In [None]:
sent = sentences[0]
sent

In [None]:
from konlpy.tag import Komoran
tagger = Komoran()
tags = tagger.pos(sent)
tags

### 각 문장의 형태소를 분석하자.

In [None]:
tagged_sentences = [tagger.pos(sent) for sent in sentences]
tagged_sentences

## 3. 명사의 리스트 만들기

각 문장의 형태소 중 일반명사(NNG)또는 고유명사(NNP)를 수집하고 카운트를 세어 보자.

In [None]:
noun_list = []
for sent in tagged_sentences:    
    for word, tag in sent:
        if tag in ['NNP', 'NNG']:
            noun_list.append(word)
            
noun_list

In [None]:
from collections import Counter
noun_counts = Counter(noun_list)
noun_counts.most_common()

## 4. Visualization

### Word Cloud 그리기
* pip install wordcloud
* pip install Pillow (PIL)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
from wordcloud import WordCloud

In [None]:
cloud = WordCloud(width=900, height=600, 
                  font_path='data/08서울남산체 B.ttf',
                  background_color='white')

In [None]:
cloud = cloud.fit_words(noun_counts)

In [None]:
plt.figure(figsize=(15, 20))
plt.axis('off')
plt.imshow(cloud)
plt.show()

## 5. 같은 문장에 등장하는 단어의 관계도 그리기

같은 문장에 등장하는 단어는 서로 연관성이 높을 가능성이 있다.
* 예: '돌이켜 보면, 글로벌 경제위기에다 장기 경기 침체로 연속되는 위기에서 벗어나기 위해 매 순간마다 마음을 놓을 수 없었던 순간들이 많았던 것 같습니다.'
* '글로벌' '경제위기' '경기' '침체' '위기' -> 서로 연관성이 있는 단어들.

### 명사의 unique list 만들기

* enumerate() 사용법

```
choices = ['pizza', 'pasta', 'salad', 'nachos']
list(enumerate(choices))
=> [(0, 'pizza'), (1, 'pasta'), (2, 'salad'), (3, 'nachos')]
```

In [None]:
unique_nouns = set()
for sent in tagged_sentences:    
    for word, tag in sent:
        if tag in ['NNP', 'NNG']:
            unique_nouns.add(word)

unique_nouns = list(unique_nouns)
noun_index = {noun: i for i, noun in enumerate(unique_nouns)}
noun_index

In [None]:
noun_index['한국전쟁']

### 문장-단어 행렬 계산

In [None]:
import numpy as np
occurs = np.zeros([len(tagged_sentences), len(unique_nouns)])
np.shape(occurs)

In [None]:
for i, sent in enumerate(tagged_sentences):
    for word, tag in sent:
        if tag in ['NNP', 'NNG']:
            index = noun_index[word]  # 명사가 있으면, 그 명사의 인덱스를 index에 저정
            occurs[i][index] = 1  # 문장 i의 index 자리에 1을 채워 넣는다.
            
occurs[0]

### 공존 단어 행렬 계산

In [None]:
co_occurs = occurs.T.dot(occurs)

In [None]:
co_occurs[0]

### 연관 단어의 network graph 그리기

* pip install networkx

In [None]:
import networkx as nx
graph = nx.Graph()

for i in range(len(unique_nouns)):
    for j in range(i + 1, len(unique_nouns)):
        if co_occurs[i][j] > 4:
            graph.add_edge(unique_nouns[i], unique_nouns[j])

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

In [None]:
plt.figure(figsize=(15, 15))
layout = nx.spring_layout(graph, k=.5)
nx.draw(graph, pos=layout, with_labels=True,
        font_size=20, font_family="AppleGothic",
        alpha=0.3, node_size=3000)
plt.show()