In [5]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:100% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:22pt;}
div.text_cell_render.rendered_html{font-size:18pt;}
div.text_cell_render.rendered_html{font-size:15pt;}
div.output {font-size:18pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:18pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:18pt;padding:5px;}
table.dataframe{font-size:18px;}
</style>
"""))

<font size="6" color="red">**CH02. 한글 형태소 분석**</font>
# 1.자연어 처리
- 자연어 : 일상적인 언어
- 자연어 처리 분야 : 
    * 자연어 이해 :
    * 자연어 생성 : RNN, LSTM, GRU, ..., encoder-decoder알고리즘 -> 트랜스포머알고리즘
- 활용분야 : 트렌드 분석, 맞춤법 검사, 번역기, 챗봇

# 2. 자연어 이해 처리 절차 
- 전처리 : 단어, 어절 추출
- 분석 후보 생성 : 형태소 분리, 품사태깅(pos tagging)
- 제약조건(불용어 처리) : 규칙 확인
- 분석 : 시각화(워드클라우드), 연관분석, RNN, LSTM, GRU, ...

# 3. 한글형태소 분석 엔진(Konlpy,...)
- 공통기능 : morphs(형태소 나누기), nouns(명사추출), pos(형태소로 나눠서 품사 태그)
- konlpy (pip install konlpy)
    * HanNanum : 자바로 만든 형태소 분석기(JAVA_HOME 시스템환경변수 & path설정)
    * Kkma     : 자바로 만든 형태소 분석기(JAVA_HOME 시스템환경변수 & path설정)
    * Komoran  : 자바로 만든 형태소 분석기(JAVA_HOME 시스템환경변수 & path설정)
    * Okt      : 
- Mecab (pip install python-mecab-ko)
    * Mecab    : C++로 만든 형태소 분석기 / 저사양환경에서 사용 가능, 다국어 바인딩 지원

In [4]:
import os
os.environ.get('JAVA_HOME')

'C:\\Program Files\\Java\\jdk-17'

In [7]:
text = '''아름답지만 다소 복잡하기도한 한국어는 
전세계에서 13번째로 많이 사용되는 언어입니다.'''

## 3.1 HanNanum

In [8]:
from konlpy.tag import Hannanum
hannanum = Hannanum(jvmpath=None,
                    max_heap_size=1024)   # 기본값:1024
hannanum.analyze(text)

[[[('아름답', 'paa'), ('지만', 'ecs')],
  [('아름답', 'paa'), ('지', 'ecs'), ('만', 'jxc')],
  [('아름답', 'paa'), ('지', 'ecx'), ('말', 'px'), ('ㄴ', 'etm')]],
 [[('다소', 'mag')], [('다소', 'ncn')]],
 [[('복잡하기도한', 'ncn')], [('복잡하기도한', 'nqq')]],
 [[('한국어', 'ncn'), ('는', 'jxc')]],
 [],
 [[('전세계', 'ncn'), ('에서', 'jca')],
  [('전세', 'ncn'), ('계', 'ncn'), ('에서', 'jca')],
  [('전', 'xp'), ('세계', 'ncn'), ('에서', 'jca')]],
 [[('13', 'nnc'), ('번', 'nbu'), ('째', 'xsnu'), ('로', 'jca')]],
 [[('많', 'paa'), ('이', 'xsa')], [('많이', 'mag')]],
 [[('사용', 'ncpa'), ('되', 'xsvn'), ('는', 'etm')]],
 [[('언어', 'ncn'), ('이', 'jp'), ('ㅂ니다', 'ef')]],
 [[('.', 'sf')], [('.', 'sy')]]]

- 구글에서 konlpy docs 검색 후 : https://konlpy.org/en/latest/
    manu -> Comparison between POS tagging classes -> Korean POS tags comparison chart

In [9]:
# 형태소 분석 : morphs
print(hannanum.morphs(text))

['아름답', '지만', '다소', '복잡하기도한', '한국어', '는', '전세계', '에서', '13번', '째', '로', '많', '이', '사용', '되', '는', '언어', '이', 'ㅂ니다', '.']


In [10]:
# 명사만 추출 : nouns
print(hannanum.nouns(text))

['복잡하기도한', '한국어', '전세계', '13번', '사용', '언어']


In [11]:
# 품사 태깅
print(hannanum.pos(text, ntags=9))       # 품사갯수 기본값

[('아름답', 'P'), ('지만', 'E'), ('다소', 'M'), ('복잡하기도한', 'N'), ('한국어', 'N'), ('는', 'J'), ('전세계', 'N'), ('에서', 'J'), ('13번', 'N'), ('째', 'X'), ('로', 'J'), ('많', 'P'), ('이', 'X'), ('사용', 'N'), ('되', 'X'), ('는', 'E'), ('언어', 'N'), ('이', 'J'), ('ㅂ니다', 'E'), ('.', 'S')]


In [21]:
print(hannanum.pos(text, ntags=22))

[('아름답', 'PA'), ('지만', 'EC'), ('다소', 'MA'), ('복잡하기도한', 'NC'), ('한국어', 'NC'), ('는', 'JX'), ('전세계', 'NC'), ('에서', 'JC'), ('13', 'NN'), ('번', 'NB'), ('째', 'XS'), ('로', 'JC'), ('많', 'PA'), ('이', 'XS'), ('사용', 'NC'), ('되', 'XS'), ('는', 'ET'), ('언어', 'NC'), ('이', 'JP'), ('ㅂ니다', 'EF'), ('.', 'SF')]
