In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:99% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:24pt;}
div.text_cell_render.rendered_html{font-size:20pt;}
div.text_cell_render ul li, div.text_cell_render ol li p, code{font-size:22pt; line-height:30px;}
div.output {font-size:24pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:24pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:24pt;padding:5px;}
table.dataframe{font-size:24px;}
</style>
"""))

# <span style="color:red">ch2. 한글 형태소 분석</span>
# 1. 자연어처리
- 자연어 : 일상적인 언어
- 자연어 처리 분야
    * 자연어 이해 : 형태소분석 -> pos tagging(품사태깅) -> 의미분석(빈도분석, 연관분석)
    * 자연어 이해&생성 : RNN/LSTM/GRU -> seq2seq -> 트랜스포머
- 활용분야 : 트랜드분석, 탐색적 분석, 맞춤법검사, 번역기, 쳇봇
# 2. 자연어 이해/생성 처리 절차
- 전처리 : 단어/어절 추출 (특수문자 ㅎㅎ 제외)
- 분석 후보 생성 : 형태소분리, 품사태깅
- 제약 조건 : 불용어 처리, 규칙 확인
- 분석 : 시각화(워드클라우드, Text), 유사성 분석, 연관분석, RNN/LSTM/GUR, ....
# 3. 형태소 분석 엔진
- Konlpy (pip install konlpy)
    * HanNanum : java로 만든 형태소 분석기(JAVA_HOME환경변수, Path설정)
    * Kkma     : java로 만든 형태소 분석기(JAVA_HOME환경변수, Path설정)
    * Komoran  : java로 만든 형태소 분석기(JAVA_HOME환경변수, Path설정)
    * Okt      : java로 만든 형태소 분석기(JAVA_HOME환경변수, Path설정)
- Mecab (pip install python-mecab-ko)
    * Mecab : C++로 만든 형태소 분석기. 저사양환경에서 사용 가능
- 공통기능 : morphs(형태소 나누기), nouns(명사추출), pos(형태소로 나누어 품사태그)

- pos tagging chat 다운로드
    * 구글에서 konlpy docs -> https://konlpy.org/en/latest/
    * api 메뉴 -> "Comparison between POS tagging classes" 클릭 -> 
    * "Korean POS tags comparison chart 다운로드

In [None]:
%pip show konlpy

In [None]:
%pip show python-mecab-ko

In [None]:
%pip show wordcloud

In [None]:
%pip show gensim

In [11]:
import os
os.environ.get('JAVA_HOME')

'C:\\Program Files\\Java\\jdk-17'

In [12]:
import konlpy
konlpy.__version__ # 에러나는 경우 jpype1라이브러리를 수동 설치(현버전에서는 X)

'0.6.0'

In [2]:
text = """아름답지만 다소 복잡하기도 한 한국어는 전세계에서 
13번째로 많이 사용되는 언어입니다"""

## 3.1 HanNanum

In [3]:
from konlpy.tag import Hannanum
hannanum = Hannanum(jvmpath=None #, max_heap_size=
                   ) # 기본값:1024 '1g' '10m'
# 입력된 텍스트를 가장 세밀하게 분석해서 형태소, 품사, 원형등의 후보군을 모두 반환
hannanum.analyze(text)

[[[('아름답', 'paa'), ('지만', 'ecs')],
  [('아름답', 'paa'), ('지', 'ecs'), ('만', 'jxc')],
  [('아름답', 'paa'), ('지', 'ecx'), ('말', 'px'), ('ㄴ', 'etm')]],
 [[('다소', 'mag')], [('다소', 'ncn')]],
 [[('복잡', 'ncn'), ('하기', 'ncn'), ('도', 'jxc')],
  [('복잡', 'ncn'), ('하기', 'ncn'), ('도', 'ncn')],
  [('복잡', 'ncps'), ('하기', 'ncn'), ('도', 'jxc')],
  [('복잡', 'ncps'), ('하기', 'ncn'), ('도', 'ncn')],
  [('복잡', 'ncps'), ('하', 'xsms'), ('기', 'etn'), ('도', 'jxc')]],
 [[('하', 'pvg'), ('ㄴ', 'etm')],
  [('한', 'nnc')],
  [('한', 'ncn')],
  [('한', 'nbn')],
  [('하', 'px'), ('ㄴ', 'etm')]],
 [[('한국어', 'ncn'), ('는', 'jxc')]],
 [[('전세계', 'ncn'), ('에서', 'jca')],
  [('전세', 'ncn'), ('계', 'ncn'), ('에서', 'jca')],
  [('전', 'xp'), ('세계', 'ncn'), ('에서', 'jca')]],
 [],
 [[('13', 'nnc'), ('번', 'nbu'), ('째', 'xsnu'), ('로', 'jca')]],
 [[('많', 'paa'), ('이', 'xsa')], [('많이', 'mag')]],
 [[('사용', 'ncpa'), ('되', 'xsvn'), ('는', 'etm')]],
 [[('언어', 'ncn'), ('이', 'jp'), ('ㅂ니다', 'ef')]]]

In [3]:
# 형태소 분석 : morphs
print(hannanum.morphs(text))

['아름답', '지만', '다소', '복잡', '하', '기', '도', '하', 'ㄴ', '한국어', '는', '전세계', '에서', '13번', '째', '로', '많', '이', '사용', '되', '는', '언어', '이', 'ㅂ니다']


In [4]:
# 명사만 추출 : nouns
print(hannanum.nouns(text))

['복잡', '한국어', '전세계', '13번', '사용', '언어']


In [6]:
# 품사태그 : pos
print(hannanum.pos(text, ntags=9)) # 품사 갯수 기본값 : ntags=9

[('아름답', 'P'), ('지만', 'E'), ('다소', 'M'), ('복잡', 'N'), ('하', 'X'), ('기', 'E'), ('도', 'J'), ('하', 'P'), ('ㄴ', 'E'), ('한국어', 'N'), ('는', 'J'), ('전세계', 'N'), ('에서', 'J'), ('13번', 'N'), ('째', 'X'), ('로', 'J'), ('많', 'P'), ('이', 'X'), ('사용', 'N'), ('되', 'X'), ('는', 'E'), ('언어', 'N'), ('이', 'J'), ('ㅂ니다', 'E')]


In [7]:
print(hannanum.pos(text, ntags=22)) 

[('아름답', 'PA'), ('지만', 'EC'), ('다소', 'MA'), ('복잡', 'NC'), ('하', 'XS'), ('기', 'ET'), ('도', 'JX'), ('하', 'PV'), ('ㄴ', 'ET'), ('한국어', 'NC'), ('는', 'JX'), ('전세계', 'NC'), ('에서', 'JC'), ('13', 'NN'), ('번', 'NB'), ('째', 'XS'), ('로', 'JC'), ('많', 'PA'), ('이', 'XS'), ('사용', 'NC'), ('되', 'XS'), ('는', 'ET'), ('언어', 'NC'), ('이', 'JP'), ('ㅂ니다', 'EF')]


In [6]:
%%time
# 퀴즈1. pos tag 결과에서 명사(NC, NQ, NB, NN)만 추출하기
tagged_text = hannanum.pos(text, ntags=22)
[token for token, tag in tagged_text if tag in ('NC', 'NQ', 'NB', 'NN')]

CPU times: total: 46.9 ms
Wall time: 7.98 ms


['복잡', '한국어', '전세계', '13', '번', '사용', '언어']

In [7]:
# 퀴즈2. text에서 보통명사(NC)만 추출하기
[token for token, tag in tagged_text if tag =='NC']

['복잡', '한국어', '전세계', '사용', '언어']

In [8]:
# 퀴즈3. text에서 형용사(PA)만 추출하기
[token for token, tag in tagged_text if tag =='PA']

['아름답', '많']