# 파이썬으로 데이터 주무르기

## 8. 자연어 처리 시작하기

* 자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다.
* 자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다.
* 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다.
* 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어 지고 있다.
* 참고 : [위키백과 자연어처리](https://ko.wikipedia.org/wiki/%EC%9E%90%EC%97%B0%EC%96%B4_%EC%B2%98%EB%A6%AC)

### 8-1. 한글 자연어 처리 기초 -KoNLPy 및 필요 모듈의 설치   287p

* 설치 목록
    * JDK (Java SE Downloads)
    * JAVA_HOME 설정
    * JPype 설치
    * KoNLPy 설치
    * Word Cloud 설치
    
* KoNLPy : pip install konlpy
* JPype1 : conda install -c conda-forge jpype1  이후 Jupyter Notebook 재실행 필요
* JDK 설치 : Java JDK로 검색해서 OS에 맞춰 설치
* JAVA_HOME 설정 : 교재내용 참조

### 8-2. 한글 자연어 처리 기초   295p

In [2]:
# KoNLPy는 꼬꼬마, 한나눔 등의 엔진을 사용할 수 있게 함
# 꼬꼬마 import

from konlpy.tag import Kkma
kkma = Kkma()

In [3]:
# 문장(sentences) 분석

kkma.sentences('한국어 분석을 시작합니다 재미있어요~~')

['한국어 분석을 시작합니다', '재미있어요~~']

In [4]:
# 명사(nouns) 분석

kkma.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석']

In [5]:
# 형태소(pos) 분석

kkma.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'NNG'),
 ('분석', 'NNG'),
 ('을', 'JKO'),
 ('시작하', 'VV'),
 ('ㅂ니다', 'EFN'),
 ('재미있', 'VA'),
 ('어요', 'EFN'),
 ('~~', 'SW')]

In [6]:
# 한나눔 import

from konlpy.tag import Hannanum
hannanum = Hannanum()

In [7]:
# 한나눔 명사 분석

hannanum.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '시작']

* 꼬꼬마 명사 분석과 한나눔 명사 분석의 결과가 조금 다르다
* 문장 : '한국어 분석을 시작합니다 재미있어요~~'
* kkm = ['한국어', '분석']
* hannanum = ['한국어', '분석', '시작']

In [8]:
# 한나눔의 형태소 분석

hannanum.morphs('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '을', '시작', '하', 'ㅂ니다', '재미있', '어요', '~~']

In [9]:
# 한나눔의 형태소 분석

hannanum.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'N'),
 ('분석', 'N'),
 ('을', 'J'),
 ('시작', 'N'),
 ('하', 'X'),
 ('ㅂ니다', 'E'),
 ('재미있', 'P'),
 ('어요', 'E'),
 ('~~', 'S')]

In [15]:
# 트위터 분석

from konlpy.tag import Twitter
t = Twitter()

In [12]:
t.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '시작']

In [13]:
t.morphs('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '을', '시작', '합니다', '재미있어요', '~~']

In [17]:
t.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('재미있어요', 'Adjective'),
 ('~~', 'Punctuation')]

### 8-3. 워드 클라우드   297p