In [1]:
txt = 'KoNLPy는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가볍게 기본 지식을 습득할 수 있습니다.'

In [2]:
import nltk
word_list = nltk.word_tokenize(txt)
word_list

['KoNLPy는',
 '한국어',
 '정보처리를',
 '위한',
 '파이썬',
 '패키지입니다',
 '.',
 '설치법은',
 '이',
 '곳을',
 '참고해주세요',
 '.',
 'NLP를',
 '처음',
 '시작하시는',
 '분들은',
 '시작하기',
 '에서',
 '가볍게',
 '기본',
 '지식을',
 '습득할',
 '수',
 '있습니다',
 '.']

In [3]:
from nltk import PorterStemmer
stemmer = PorterStemmer()
[stemmer.stem(word) for word in word_list]

['konlpy는',
 '한국어',
 '정보처리를',
 '위한',
 '파이썬',
 '패키지입니다',
 '.',
 '설치법은',
 '이',
 '곳을',
 '참고해주세요',
 '.',
 'nlp를',
 '처음',
 '시작하시는',
 '분들은',
 '시작하기',
 '에서',
 '가볍게',
 '기본',
 '지식을',
 '습득할',
 '수',
 '있습니다',
 '.']

In [4]:
from nltk.tag import pos_tag
pos_tag(word_list)

[('KoNLPy는', 'NNP'),
 ('한국어', 'NNP'),
 ('정보처리를', 'NNP'),
 ('위한', 'NNP'),
 ('파이썬', 'NNP'),
 ('패키지입니다', 'NNP'),
 ('.', '.'),
 ('설치법은', 'VB'),
 ('이', 'JJ'),
 ('곳을', 'NNP'),
 ('참고해주세요', 'NNP'),
 ('.', '.'),
 ('NLP를', 'NNP'),
 ('처음', 'NNP'),
 ('시작하시는', 'NNP'),
 ('분들은', 'NNP'),
 ('시작하기', 'NNP'),
 ('에서', 'NNP'),
 ('가볍게', 'NNP'),
 ('기본', 'NNP'),
 ('지식을', 'NNP'),
 ('습득할', 'NNP'),
 ('수', 'NNP'),
 ('있습니다', 'NNP'),
 ('.', '.')]

# KoNLPy(코엔엘파이)
- KoNLPY는 한국어 자연어 처리(Natural Language Processing) 파이썬 라이브러리이다.  한국어 처리를 위한 tokenize, 형태소 분석, 어간추출, 품사부착(POS Tagging) 등의 기능을 제공한다. 
- http://KoNLPy.org/ko/latest/
- 기존의 개발된 다양한 형태소 분석기를 통합해서 동일한 interface로 호출 할 수 있게 해준다.

## KoNLPy 설치 순서
1. Java 실행환경 설치
2. JPype1 설치
3. koNLPy 설치

### 1. Java설치
- https://www.oracle.com/java/technologies/downloads/
- OS에 맞게 다운로드 한다.
- 시스템 환경변수 설정
    - `JAVA_HOME` : 설치 경로 지정
    - `Path` : `설치경로\bin` 경로 지정

### 2. JPype1 설치

- 파이썬에서 자바 모듈을 호출하기 위한 연동 패키지
- 설치: `!pip install JPype1`

### 3. KoNLPy 설치
- `pip install konlpy`

In [None]:
import konlpy

## 형태소 분석기/사전
- 형태소 사전을 내장하고 있으며 형태소 분석 함수들을 제공하는 모듈

### KoNLPy 제공 형태소 분석기
- Open Korean Text
    - 트위터에서 개발
    - https://github.com/open-korean-text/open-korean-text
- Hannanum(한나눔)
    - KAIST Semantic Web Research Center 에서 개발
    - http://semanticweb.kaist.ac.kr/hannanum/
- Kkma(꼬꼬마)
    - 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.
    - http://kkma.snu.ac.kr/
- Komoran(코모란)
    - Shineware에서 개발.
    - 오픈소스버전과 유료버전이 있음
    - https://github.com/shin285/KOMORAN
- Mecab(메카브) 
    - 일본어용 형태소 분석기를 한국에서 사용할 수 있도록 수정
    - windows에서는 설치가 안됨
    - https://bitbucket.org/eunjeon/mecab-ko


## 형태소 분석기 공통 메소드
- `morphs(string)` : 형태소 단위로 토큰화(tokenize)
- `nouns(string)` : 명사만 추출하여 토큰화(tokenize)    
- `pos(string)`: 품사 부착
    - 형태소 분석기 마다 사용하는 품사태그가 다르다.
        - https://konlpy-ko.readthedocs.io/ko/v0.5.2/morph/
- `tagset`: 형태소 분석기가 사용하는 품사태그 설명하는 속성. 

## KoNLPy 제공 말뭉치
1. kolaw: 대한민국 헌법 말뭉치
    - constitution.txt
2. kobill: 대한민국 국회 의안(국회에서 심의하는 안건-법률, 예산등) 말뭉치
    -1809890.txt ~ 1809899.txt

In [7]:
from konlpy.corpus import kolaw, kobill

kolaw.fileids(), kobill.fileids()

(['constitution.txt'],
 ['1809890.txt',
  '1809891.txt',
  '1809892.txt',
  '1809893.txt',
  '1809894.txt',
  '1809895.txt',
  '1809896.txt',
  '1809897.txt',
  '1809898.txt',
  '1809899.txt'])

In [8]:
with kolaw.open("constitution.txt") as f:
    txt = f.read()

In [None]:
print(txt[:200])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바탕으로 자유민주적 기본질서를 더욱 확고히 하여 정치·경제


In [None]:
with kobill.open("1809890.txt") as f:
    txt = f.read()

print(txt[:100])

지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호

9890

발의연월일 : 2010.  11.  12.  

발  의  자 : 정의화․이명수․김을동 

이


# Konlpy와 nltk를 이용해 헌법 text 분석하기

In [12]:
# 형태소 분석기 객체 생성. 종류별로 클래스가 제공
from konlpy.tag import Okt, Kkma

okt = Okt() # 형태소 분석기 생성
# 형태소 단위 토큰화
tokens = okt.morphs(txt)

print("토큰수:", len(tokens))

토큰수: 1777


In [13]:
tokens[:10]

['지방공무원법', '일부', '개정', '법률', '안', '\n\n', '(', '정의화', '의원', '대표']

In [14]:
tokens2 = okt.morphs(txt, stem=True) # stem=True: 원형복원 - Okt의 기능

In [16]:
tokens2[:20]

['지방공무원법',
 '일부',
 '개정',
 '법률',
 '안',
 '\n\n',
 '(',
 '정의화',
 '의원',
 '대표',
 '발의',
 ')',
 '\n\n ',
 '의',
 '안',
 '\n ',
 '번',
 '호',
 '\n\n',
 '9890']

In [17]:
nouns = okt.nouns(txt)
len(nouns)
nouns[:10]

['지방공무원법', '일부', '개정', '법률', '안', '정의화', '의원', '대표', '발의', '의']

In [None]:
# 품사 부착
pos_tag = okt.pos(txt)
pos_tag[:10]

In [18]:
# 헌법 corpus 분석
from nltk import Text, FreqDist
from konlpy.tag import Okt
from konlpy.corpus import kolaw
from wordcloud import WordCloud

In [None]:
# 1. 데이터 로딩
with kolaw.open("constitution.txt") as fr:
    txt = fr.read()
txt[:50]

'대한민국헌법\n\n유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임'

In [23]:
okt = Okt()

# 2. 전처리 + 토큰화
## 전처리: 명사, 동사만 추출
pos_tag = okt.pos(txt)
pos_tag[:5]

tokens = [token for token, pos in pos_tag if pos in ["Noun", "Verb"]]
print(len(tokens), tokens[:5])

4661 ['대한민국', '헌법', '유구', '역사', '전통']
