# 파이썬을 이용한 자연어 처리 기초

* 참고 : https://www.lucypark.kr/courses/2015-dm/text-mining.html

## 패키지 임포트 

In [97]:
# coding=utf-8
from __future__ import unicode_literals
from konlpy.utils import pprint
%matplotlib inline

## NLP 용어 정리 

* Document : 문서
* Copus : 말뭉치(문서들의 집합)
* Token : 토큰(단어, 어절, 상징과 같은 텍스트의 의미있는 원소)
* Morphemes : 형태소 (언어의 가장 작으면서 의미있는 단위)
* Phoneme : 음소/음절
* Syntax : 구문론(문법)
* Semantic : 의미론
* POS : 품사 (Part-Of-Speech) ex. Noun/명사

## 리스트 자료구조

### 선언 및 초기화 

In [15]:
myList = [1,2,3,4]
print myList

[1, 2, 3, 4]


### 인덱싱 

In [14]:
print myList[0] # indexing
print myList[0:3]
print myList[:-1]

1
[1, 2, 3]
[1, 2, 3, 4]


### 관련 함수 

https://wikidocs.net/14  # 더 자세한 내용은 링크 참고

In [17]:
myList.append(5) # 리스트에 element 추가
print myList

[1, 2, 3, 4, 5]


In [18]:
myList.pop() # 해당 위치의 element 꺼내기(default = -1)

5

In [19]:
len(myList) # 리스트의 element 갯수 

4

### List Comprehension

파이썬은 "list comprehensions"이라는 기능을 제공한다. list 전 element에 공통적 연산을 수행하는 것을 한 줄로 표현 가능

In [22]:
S = [x**2 for x in range(10)]
print S

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


In [23]:
V = [2**i for i in range(13)]
print V

[1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096]


In [24]:
M = [x for x in S if x % 2 == 0]
print M

[0, 4, 16, 36, 64]


## Sentence as List

자연어처리를 할 때는 문장을 리스트로 표현하여 처리한다.

In [27]:
s1 = "나는 파이썬을 공부합니다."

### Tokenize 

문장을 리스트로 표현하기 위해서는 의미있는 단위인 토큰으로 나눠줘야 한다. 토큰을 어떤 단위로 할 것인가는 분석의 목적에 따라 달라지지만 보통 __어절(띄워쓰기 기준)__ 혹은 __형태소__를 기준으로 토큰화를 수행한다. <br>
<br>
형태소 기준 토큰화는 뒤에서 설명하겠음.

In [31]:
s2 = s1.split(' ') #띄워쓰기 기준으로 토큰화하기
pprint(s2)

[나는,
 파이썬을,
 공부합니다.]


# Text exploration 

## 1. Read document 

이 튜토리얼에서는 NLTK, KoNLPy에서 제공하는 문서들을 사용합니다.
* 한국어 : 대한민국 국회 제 1809890호 의안

In [41]:
from konlpy.corpus import kobill    # Docs from pokr.kr/bill
files_ko = kobill.fileids()         # Get file ids
doc_ko = kobill.open('1809890.txt').read()

In [44]:
pprint(doc_ko[:100])

지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호

9890

발의연월일 : 2010.  11.  12.  

발  의  자 : 정의화․이명수․김을동 

이


## 2. Tokenize 

형태소를 이용한 토큰화 

In [49]:
from konlpy.tag import Twitter; t = Twitter()
tokens_ko = t.morphs(doc_ko)

In [52]:
pprint(tokens_ko[:10])

[지방공무원법,
 일부,
 개정,
 법률,
 안,
 (,
 정의화,
 의원,
 대표,
 발의]


## 3. Load tokens with nltk.Text() 

In [56]:
import nltk
ko = nltk.Text(tokens_ko, name='대한민국 국회 의안 제 1809890호')

In [58]:
print(len(ko.tokens))       # returns number of tokens (document length)
print(len(set(ko.tokens)))  # returns number of unique tokens
#ko.vocab()                  # returns frequency distribution

1707
476


In [65]:
ko.plot(50)     # Plot sorted frequency of top 50 tokens

In [64]:
from matplotlib import pylab
pylab.show = lambda: pylab.savefig('some_filename.png')

In [78]:
ko.count('초등학교') # 단어의 등장 횟수 카운트

6

In [77]:
ko.concordance('초등학교') # 용어 색인

Displaying 6 of 6 matches:
 ․ 김정훈 김학송 의원 ( 10 인 ) 제안 이유 및 주요 내용 초등학교 저학년 의 경우 에도 부모 의 따뜻한 사랑 과 보살핌 이 필요 한
 을 할 수 있는 자녀 의 나이 는 만 6 세 이하 로 되어 있어 초등학교 저학년 인 자녀 를 돌보기 위해서 는 해당 부모님 은 일자리 를 
 다 . 제 63 조제 2 항제 4 호 중 “ 만 6 세 이하 의 초등학교 취학 전 자녀 를 ” 을 “ 만 8 세 이하 ( 취학 중인 경우 
 전 자녀 를 ” 을 “ 만 8 세 이하 ( 취학 중인 경우 에는 초등학교 2 학년 이하 를 말한 다 ) 의 자녀 를 ” 로 한 다 . 부 
 . ∼ 3 . ( 현행 과 같 음 ) 4 . 만 6 세 이하 의 초등학교 취 4 . 만 8 세 이하 ( 취학 중인 경우 학 전 자녀 를 양
세 이하 ( 취학 중인 경우 학 전 자녀 를 양육 하기 위하 에는 초등학교 2 학년 이하 를 여 필요하거 나 여자 공무원 이 말한 다 ) 의


In [76]:
ko.similar('자녀') # 비슷한 맥락에서 쓰인 단어

논의


In [75]:
ko.collocations() # 연어(함께 자주 등장하는 단어)

초등학교 저학년; 육아휴직 대상자


# Tagging and chunking

## 1. POS tagging 

텍스트에 태깅하는 방법에는 여러가지가 있지만 POS(품사) 태깅을 통해 분석을 해보겠다. 문서 전체에 태깅을 하면 오래 걸리니 하나의 문장에 대해서 진행하겠음!

In [79]:
from konlpy.tag import Twitter; t = Twitter()
tags_ko = t.pos("작고 노란 강아지가 페르시안 고양이에게 짖었다")

In [80]:
pprint(tags_ko)

[(작고, Noun),
 (노란, Adjective),
 (강아지, Noun),
 (가, Josa),
 (페르시안, Noun),
 (고양이, Noun),
 (에게, Josa),
 (짖었, Noun),
 (다, Josa)]


## 2. Noun phrase chunking 

구절을 덩어리로 뽑아내는 것. (ex> 형용사 + 명사) 예쁜 얼굴

__nlitk.RegexpParser()__를 이용해 청킹을 해보겠다..!

In [99]:
parser_ko = nltk.RegexpParser("NP: {<Adjective>*<Noun>*}")
chunks_ko = parser_ko.parse(tags_ko)
#chunks_ko.draw()

In [110]:
for i in range(len(tags_ko)-1):
    w,t = tags_ko[i]
    wn,tn = tags_ko[i+1]
    result = ""
    if (t=="Adjective") & (tn =="Noun"):
        result = w + " " + wn
        pprint(result)

노란 강아지


# Named Entity Recognition

from nltk.tag import StanfordNERTagger
st = StanfordNERTagger('english.all.3class.distsim.crf.ser.gz') 
st.tag('Rami Eid is studying at Stony Brook University in NY'.split()) 

In [122]:
[('Rami', 'PERSON'), ('Eid', 'PERSON'), ('is', 'O'), ('studying', 'O'),
 ('at', 'O'), ('Stony', 'ORGANIZATION'), ('Brook', 'ORGANIZATION'),
 ('University', 'ORGANIZATION'), ('in', 'O'), ('NY', 'LOCATION')]

[(u'Rami', u'PERSON'),
 (u'Eid', u'PERSON'),
 (u'is', u'O'),
 (u'studying', u'O'),
 (u'at', u'O'),
 (u'Stony', u'ORGANIZATION'),
 (u'Brook', u'ORGANIZATION'),
 (u'University', u'ORGANIZATION'),
 (u'in', u'O'),
 (u'NY', u'LOCATION')]

https://ko.wikipedia.org/wiki/%EC%A1%B0%EA%B1%B4%EB%B6%80_%EB%AC%B4%EC%9E%91%EC%9C%84%EC%9E%A5