# KoNLPy : 한국어 정보 처리 패키지
<br> <br>


###### Reference: 
KoNLPy 홈페이지: https://konlpy-ko.readthedocs.io/ko/v0.5.1/#
<br>
12기 사이언스팀 하지윤님의 KoNLPy 튜토리얼



##  KoNLPy의 기능 : 형태소 분석 및 품사 태깅

형태소 분석 : 형태소를 비롯하여 어근, 접두사/접미사, 품사(Part of Speech) 등 다양한 언어적 속성의 구조를 파악 (형태소 : 뜻을 가진 가장 작은 말의 단위)

품사 태깅 : 형태소의 뜻과 문맥을 고려하여 품사를 마크업 하는 것

가방에 들어가신다 -> 가방/NNG + 에/JKM + 들어가/VV + 시/EPH + ㄴ다/EFN


## KoNLPy로 형태소 분석하기


http://konlpy.org/ko/v0.4.3/morph/

KoNLPy는 다섯 가지의 분석기들을 내장하고 있습니다:
Hannanum, Kkma, Komoran, Mecab, Okt(Twitter)

같은 문장을 입력하더라도 각 분석기가 태깅해서 내는 결과가 다르게 나옵니다.

konlpy의 여러 분석기 클래스 중 자신이 쓸 것을 불러와 사용 가능한 인스턴스로 만들어 주어야 합니다. (인스턴스 : 클래스의 정의를 통해 만들어진 객체 - 즉 클래스가 메모리에 할당되어 사용되는 실제의 것)

In [1]:
import konlpy

In [2]:
#실제로 문장들을 입력해서 형태소(morpheme) 분석을 해봅시다. 
sen= "아버지가 방에 들어가신다"

In [4]:
#분석기를 선택하여 인스턴스로 만들어주기

kkma=konlpy.tag.Kkma()
okt=konlpy.tag.Twitter()
han=konlpy.tag.Hannanum()

In [6]:
#입력한 문장에 대하여 형태소 분석

print("kkma :", kkma.morphs(sen)) 
print("okt :", okt.morphs(sen))
print("hannanum :",  han.morphs(sen))

kkma : ['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']
okt : ['아버지', '가', '방', '에', '들어가신', '다']
hannanum : ['아버지', '가', '방', '에', '들', '어', '가', '시ㄴ다']


## 형태소 분석기 비교

같은 문장을 입력해도 형태소, 품사 태깅의 결과가 다르게 나타납니다. 각 분석기가 품사를 어떻게 태깅하는 지를 확인하기 위해서는 

https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0 을 확인하면 됩니다.

In [7]:
# 입력한 문장에 대하여 품사 태깅
print(kkma.pos(sen))
print(okt.pos(sen))
print(han.pos(sen))

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신', 'Verb'), ('다', 'Eomi')]
[('아버지', 'N'), ('가', 'J'), ('방', 'N'), ('에', 'J'), ('들', 'P'), ('어', 'E'), ('가', 'P'), ('시ㄴ다', 'E')]


## KoNLPy 활용하기 

In [8]:
#입력한 문장의 명사를 리스트로 반환
print(kkma.nouns(sen))
print(okt.nouns(sen))
print(han.nouns(sen))

['아버지', '방']
['아버지', '방']
['아버지', '방']


In [1]:
text=open("korcon.txt", encoding="utf-8").read()

In [2]:
okt.pos(text) #품사 태깅

In [13]:
#문장 단위로 tokenizing 가능
#token: 긴 문자열을 분석을 위해 나눈 단위
sentences=kkma.sentences(text) #Kkma 클래스에만 존재하는 토크나이저

In [21]:
sentences[0]

'대한민국 헌법 유구한 역사와 전통에 빛나는 우리 대한 국민은 3·1 운동으로 건립된 대한민국 임시정부의 법통과 불의에 항거한 4·19 민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의· 인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바탕으로 자유 민주적 기본질서를 더욱 확고히 하여 정치· 경제· 사회· 문화의 모든 영역에 있어서 각인의 기회를 균등 히 하고, 능력을 최고도로 발휘하게 하며, 자유와 권리에 따르는 책임과 의무를 완수하게 하여, 안으로는 국민생활의 균등한 향상을 기하고 밖으로는 항구적인 세계평화와 인류 공영에 이바지함으로써 우리들과 우리들의 자손의 안전과 자유와 행복을 영원히 확보할 것을 다짐하면서 1948년 7월 12일에 제정되고 8차에 걸쳐 개정된 헌법을 이제 국회의 의결을 거쳐 국민투표에 의하여 개정한다.'

In [15]:
result=list()

for sentence in sentences:
    tokens=okt.pos(sentence)
    result.append(tokens)

In [17]:
#품사가 명사인 단어들만 추리기

nouns=[]

for each_list in result:
    for each_tuple in each_list:
        if each_tuple[1]=="Noun":
            nouns.append(each_tuple[0])

In [18]:
#명사 빈도수 확인하기

import collections
from collections import Counter

In [19]:
Counter(nouns).most_common(100)

[('제', 178),
 ('조', 136),
 ('법률', 127),
 ('수', 88),
 ('대통령', 84),
 ('국가', 73),
 ('국회', 68),
 ('국민', 62),
 ('헌법', 55),
 ('때', 55),
 ('그', 47),
 ('이', 38),
 ('모든', 37),
 ('바', 37),
 ('기타', 26),
 ('및', 25),
 ('사항', 23),
 ('자유', 21),
 ('권리', 21),
 ('안', 21),
 ('선거', 21),
 ('의원', 21),
 ('경제', 20),
 ('일', 20),
 ('정부', 20),
 ('임명', 20),
 ('직무', 19),
 ('의무', 18),
 ('정당', 18),
 ('조직', 18),
 ('국회의원', 18),
 ('임기', 18),
 ('공무원', 17),
 ('경우', 17),
 ('이상', 17),
 ('국무위원', 17),
 ('대법원', 17),
 ('의결', 16),
 ('범위', 16),
 ('장', 15),
 ('항의', 15),
 ('정책', 14),
 ('헌법재판소', 14),
 ('재적', 14),
 ('회의', 14),
 ('진', 13),
 ('법원', 13),
 ('재판', 13),
 ('국무총리', 13),
 ('년', 12),
 ('심판', 12),
 ('집회', 12),
 ('시행', 12),
 ('인', 12),
 ('찬성', 12),
 ('행정', 12),
 ('자문', 12),
 ('대한민국', 11),
 ('대한', 11),
 ('공포', 11),
 ('조약', 11),
 ('법관', 11),
 ('다만', 11),
 ('동의', 11),
 ('관리', 11),
 ('탄핵', 11),
 ('권한', 11),
 ('안전보장', 10),
 ('처분', 10),
 ('중', 10),
 ('과반수', 10),
 ('민주', 9),
 ('기본', 9),
 ('정치', 9),
 ('개정', 9),
 ('효력', 9),
 ('보호', 9),
