In [1]:
txt = 'KoNLPy는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치법은 이 곳을 참고해주세요. NLP를 처음 시작하시는 분들은 시작하기 에서 가볍게 기본 지식을 습득할 수 있습니다.'

In [2]:
import nltk
word_list = nltk.word_tokenize(txt)
word_list

['KoNLPy는',
 '한국어',
 '정보처리를',
 '위한',
 '파이썬',
 '패키지입니다',
 '.',
 '설치법은',
 '이',
 '곳을',
 '참고해주세요',
 '.',
 'NLP를',
 '처음',
 '시작하시는',
 '분들은',
 '시작하기',
 '에서',
 '가볍게',
 '기본',
 '지식을',
 '습득할',
 '수',
 '있습니다',
 '.']

In [3]:
from nltk import PorterStemmer
stemmer = PorterStemmer()
[stemmer.stem(word) for word in word_list]

['konlpy는',
 '한국어',
 '정보처리를',
 '위한',
 '파이썬',
 '패키지입니다',
 '.',
 '설치법은',
 '이',
 '곳을',
 '참고해주세요',
 '.',
 'nlp를',
 '처음',
 '시작하시는',
 '분들은',
 '시작하기',
 '에서',
 '가볍게',
 '기본',
 '지식을',
 '습득할',
 '수',
 '있습니다',
 '.']

In [4]:
from nltk.tag import pos_tag
pos_tag(word_list)

[('KoNLPy는', 'NNP'),
 ('한국어', 'NNP'),
 ('정보처리를', 'NNP'),
 ('위한', 'NNP'),
 ('파이썬', 'NNP'),
 ('패키지입니다', 'NNP'),
 ('.', '.'),
 ('설치법은', 'VB'),
 ('이', 'JJ'),
 ('곳을', 'NNP'),
 ('참고해주세요', 'NNP'),
 ('.', '.'),
 ('NLP를', 'NNP'),
 ('처음', 'NNP'),
 ('시작하시는', 'NNP'),
 ('분들은', 'NNP'),
 ('시작하기', 'NNP'),
 ('에서', 'NNP'),
 ('가볍게', 'NNP'),
 ('기본', 'NNP'),
 ('지식을', 'NNP'),
 ('습득할', 'NNP'),
 ('수', 'NNP'),
 ('있습니다', 'NNP'),
 ('.', '.')]

# KoNLPy(코엔엘파이)
- KoNLPY는 한국어 자연어 처리(Natural Language Processing) 파이썬 라이브러리이다.  한국어 처리를 위한 tokenize, 형태소 분석, 어간추출, 품사부착(POS Tagging) 등의 기능을 제공한다. 
- http://KoNLPy.org/ko/latest/
- 기존의 개발된 다양한 형태소 분석기를 통합해서 동일한 interface로 호출 할 수 있게 해준다.

## KoNLPy 설치 순서
1. Java 실행환경 설치
2. JPype1 설치
3. koNLPy 설치

### 1. Java설치
- https://www.oracle.com/java/technologies/downloads/
- OS에 맞게 다운로드 한다.
- 시스템 환경변수 설정
    - `JAVA_HOME` : 설치 경로 지정
    - `Path` : `설치경로\bin` 경로 지정

### 2. JPype1 설치

- 파이썬에서 자바 모듈을 호출하기 위한 연동 패키지
- 설치: `!pip install JPype1`

### 3. KoNLPy 설치
- `pip install konlpy`

In [1]:
import konlpy

## 형태소 분석기/사전
- 형태소 사전을 내장하고 있으며 형태소 분석 함수들을 제공하는 모듈

### KoNLPy 제공 형태소 분석기
- Open Korean Text
    - 트위터에서 개발
    - https://github.com/open-korean-text/open-korean-text
- Hannanum(한나눔)
    - KAIST Semantic Web Research Center 에서 개발
    - http://semanticweb.kaist.ac.kr/hannanum/
- Kkma(꼬꼬마)
    - 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.
    - http://kkma.snu.ac.kr/
- Komoran(코모란)
    - Shineware에서 개발.
    - 오픈소스버전과 유료버전이 있음
    - https://github.com/shin285/KOMORAN
- Mecab(메카브) 
    - 일본어용 형태소 분석기를 한국에서 사용할 수 있도록 수정
    - windows에서는 설치가 안됨
    - https://bitbucket.org/eunjeon/mecab-ko


## 형태소 분석기 공통 메소드
- `morphs(string)` : 형태소 단위로 토큰화(tokenize)
- `nouns(string)` : 명사만 추출하여 토큰화(tokenize)    
- `pos(string)`: 품사 부착
    - 형태소 분석기 마다 사용하는 품사태그가 다르다.
        - https://konlpy-ko.readthedocs.io/ko/v0.5.2/morph/
- `tagset`: 형태소 분석기가 사용하는 품사태그 설명하는 속성. 

## KoNLPy 제공 말뭉치
1. kolaw: 대한민국 헌법 말뭉치
    - constitution.txt
2. kobill: 대한민국 국회 의안(국회에서 심의하는 안건-법률, 예산등) 말뭉치
    -1809890.txt ~ 1809899.txt

In [1]:
from konlpy.corpus import kolaw, kobill
kolaw.fileids(), kobill.fileids()

(['constitution.txt'],
 ['1809896.txt',
  '1809897.txt',
  '1809895.txt',
  '1809894.txt',
  '1809890.txt',
  '1809891.txt',
  '1809893.txt',
  '1809892.txt',
  '1809899.txt',
  '1809898.txt'])

In [2]:
with kolaw.open("constitution.txt") as f:
    txt = f.read()

In [3]:
print(txt[:200])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바탕으로 자유민주적 기본질서를 더욱 확고히 하여 정치·경제


In [4]:
with kobill.open("1809899.txt") as f:
    print(f.read())

결혼중개업의 관리에 관한 법률 일부개정법률안

(한선교의원 대표발의 )

 의 안
 번 호

9899

발의연월일 : 2010.  11.  15.

발  의  자 : 한선교․손범규․이인기 

유성엽․이애주․이한성 

안홍준․김태원․안형환 

정갑윤 의원(10인)

제안이유

  최근 국제결혼의 상당수가 국제결혼중개업체를 통해 이루어지고 있

으나, 일부 국제결혼중개업자가 이윤만을 추구하기 위하여 사실과 다

른 정보나 거짓 정보를 제공하여 속성으로 성사된 국제결혼이 상대국

과의 외교적 마찰이나 결혼생활의 조기 파탄을 야기하는 등 많은 문

제가 발생하고 있음.

  이에 따라 건전한 국제결혼문화를 정착하고 결혼중개업에 의한 피해

사례를 최소화하기 위해 국제결혼중개업의 등록기준을 강화하고 국제

결혼중개업자의 인권침해적․불법적인 결혼중개행위에 대한 처벌규정을 

보다 강화하고자 함.

  또한 국제결혼중개업자가 이용자와 상대방에게 제공하는 신상정보에 

- 1 -

- 2 -

결혼생활 유지에 중대한 지장을 초래하는 정신질환 병력과 최근 10년간 

금고 이상의 범죄경력을 포함하고, 신상정보(상대방 언어 번역본 포함)의 

내용을 보존토록 하는 등 현행법의 운영상 나타나는 일부 미비점을 

개선․보완함으로써 국제결혼중개업체의 건전한 영업을 유도하여 국제

결혼 가정이 행복하게 생활하고 안정적으로 사회에 정착할 수 있도록 

하려는 것임. 

주요내용

  가. 국제결혼중개업 등록시 의무교육, 보증보험 가입 이외에 자본금 

1억원 이상의 요건을 충족하도록 함(안 제4조제1항).

  나. 이용자와 상대방에게 제공하여야 하는 신상정보에 정신질환의 

병력 여부와 최근 10년 간의 금고 이상의 형의 범죄경력 등을 추

가하고자 함(안 제10조의2제1항제2호 및 제4호).

  다. 국제결혼중개업자에게 이용자와 상대방에게 제공한 신상정보(상

대방 언어 번역본 포함)의 내용 및 이를 입증하는 서류의 보존을 

의무화하고, 보존하지 아니한 경우 3년 이하의 징역 

# Konlpy와 nltk를 이용해 헌법 text 분석하기

In [7]:
# 형태소 분석기 객체를 생성, 종류별로 클래스 제공
from konlpy.tag import Okt, Kkma, Mecab
okt = Okt()                     # 형태소 분석기 객체 생성
# 형태소 단위 토큰화
tokens = okt.morphs(txt)

print("토큰수:",len(tokens))

TypeError: argument should be integer or bytes-like object, not 'str'

In [14]:
tokens2 = okt.morphs(txt, stem=True)            # stem=True를 통해 원형복원

NameError: name 'okt' is not defined

In [16]:
nouns = okt.nouns(txt)
len(nouns)

NameError: name 'okt' is not defined

In [17]:
# 품사부착
pos_tag = okt.pos(txt)
pos_tag[:10]

NameError: name 'okt' is not defined

In [18]:
okt.tagset

NameError: name 'okt' is not defined

In [19]:
# OKT 기능 - 비속어 처리
sample_txt = "반갑습니당."
okt.morphs(sample_txt, norm=True)

NameError: name 'okt' is not defined

In [20]:
okt.normalize(sample_txt)

NameError: name 'okt' is not defined

In [5]:
# 헌법 corpus를 분석
from nltk import Text, FreqDist
from konlpy.tag import Okt
from konlpy.corpus import kolaw
from wordcloud import WordCloud

In [2]:
# 1.데이터 로딩
with kolaw.open("constitution.txt") as fr:
    txt = fr.read()
txt[:50]

'대한민국헌법\n\n유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임'

In [8]:
import os
os.environ['JAVA_HOME'] = '/Library/Java/JavaVirtualMachines/adoptopenjdk-8.jdk/Contents/Home'


In [9]:
## 형태소 분석기 생성
okt = Okt()
# 2. 전처리 + 토큰화
# 전처리 : 명사, 동사만 추출
pos_tag = okt.pos(txt)
# pos_tag[:5]

tokens = [token for token, pos in pos_tag if pos in ["Noun", "Verb"] and len(token) > 1]
print(tokens[:5], len(tokens))

TypeError: argument should be integer or bytes-like object, not 'str'

In [27]:
# import jpype
# jpype.getDefaultJVMPath()

In [30]:
text = Text(tokens, name="헌법")
text

NameError: name 'tokens' is not defined

In [None]:
# 빈도수 그래프
text.plot(30)

In [29]:
print("법률:", text.count("법률"))
print("대통령:", text.count("대통령"))

NameError: name 'text' is not defined

In [None]:
# 특정 단어들의 문서내 분포
text.dispersion_plot(['법률', '대통령', '국가', '국회', '국민', '헌법']);

In [None]:
freq = text.vocab()
print("총 단어수:", freq.N())
print("고유 단어의 개수:", freq.B())

In [None]:
print("가장 많이 나온 단어:", freq.max())
print("'헌법'의 빈도수, 비율:", freq.get('헌볍'), freq.freq('헌법'))

print(f"가장 많이 나온 단어: {freq.max()}")

In [None]:
freq.most_common(10)

In [17]:
# 폰트 파일 경로 조회
import matplotlib.font_manager as fm
# 폰트 이름, 폰트 경로
fm.fontManager.ttflist[0].name, fm.fontManager.ttflist[0].fname

[(f.name, f.fname) for f in fm.fontManager.ttflist if "nanum" in f.name.lower()]

[('Nanum Gothic',
  '/System/Library/AssetsV2/com_apple_MobileAsset_Font7/bad9b4bf17cf1669dde54184ba4431c22dcad27b.asset/AssetData/NanumGothic.ttc'),
 ('Nanum Myeongjo',
  '/System/Library/AssetsV2/com_apple_MobileAsset_Font7/70816a43827731d40efe234b94feba96db91024f.asset/AssetData/NanumMyeongjo.ttc'),
 ('Nanum Brush Script',
  '/System/Library/AssetsV2/com_apple_MobileAsset_Font7/6f4c91728bb824d6960725ec479c355eab7eeba8.asset/AssetData/NanumScript.ttc')]

In [11]:
wc = WordCloud(
    font_path="/System/Library/AssetsV2/com_apple_MobileAsset_Font7/bad9b4bf17cf1669dde54184ba4431c22dcad27b.asset/AssetData/NanumGothic.ttc"
    max_words=200,              # 최대 몇 단어를 사용해서 그릴지 선택 / 입력 단어(토큰)이 지정한 개수보다 많을 경우 빈도수 많은 순서로 선택
    prefer_horizontal=0.5,      # 가로 방향으로 쓴 단어의 비율
    min_font_size=1,            # 시작 폰트 크기
    relative_scaling=0.5,       # 빈도수가 증가할 때마다 폰트 크기를 얼만큼씩 키울지 비율
    width=400,
    height=300
)
wc_img = wc.generate_from_frequencies(freq)
wc_img.to_file("constitution_wc.png")

NameError: name 'freq' is not defined

In [18]:
import matplotlib.pyplot as plt
plt.imshow(wc_img)
plt.axis("off");

NameError: name 'wc_img' is not defined