# KoNLPy _ "코엔엘파이"  _  파이썬 한국어 NLP

- 우리는 KoNLPy의 설치 방법과 간단한 예를 남겨보려 한다.


- NLP란? (Natural Language Processing, 자연어처리)의 준말이며, 텍스트레서 의미있는 정보를 분석, 추출, 이해 하는 기술집합.
- 우리 일상에서도 쉽게 응용사례를 볼 수 있다.
    - 대화 시스템(Apple Siri) 기계 번역(Google Translate)
    - 대통령연설 내용 분석 또한 텍스트마이닝..

##### KoNLPy (코엔엘파이) : 대표적인 한국어 형태소 분석기 [자연어처리]

크롤링하여 간단한 정규 표현식으로 필터링 한 데이터를 어떻게 처리해서 사용할까? (BeautifulSoup 모듈을 통해 웹 페이지 크롤링 하는 방법이 있다.) 수 많은 데이터를 공백이나 엔터를 기준으로 여러 개의 토큰으로 나누고, 필요 없는 데이터를 제거하고, 필요한 데이터들을 추출해내는 행위를 데이터 전처리 (Data Processing)이라고 하는데, 데이터를 가공하는 과정중에 하나이다. 데이터를 전처리하는 단계 중 자연어를 처리하는 것은 기본적이고 필수사항이다.

KoNLPy는 파이썬 프로그래밍 언어로 사용할 수 있도록 만들어졌는데, 그것은 파이썬이 간결하고 우아한 문법구조, 강력한 스트링 연산 기능을 가지고 있을 뿐 아니라 크롤링, 웹프로그래밍, 그리고 데이터 분석을 수행할 수 있는 다양한 패키지를 사용할 수 있는 언어이기 때문이다.

- 자연어 처리 방법 중 데이터의 형태소를 분석하고 추출해내고자 한다.
    - 형태소로 나눈다면 크게 명사, 동사, 형용사, 부사, 조사, 접사, 관형사, 어미 ... 등등으로 나뉜다.
    - 한국어를 처리 할때는 대체로 KoNLPy(코엔엘파이) 라이브러리를 많이 사용한다.
    - Korean Natural Language Processing in Python의 준말.



- 단점: 
    - 자바 기반으로 python 개발자의 경우 설치시 jdk 설치, visual studio설치, wheel 설정 등의 에러 발생 가능성이 높다.
    - 사용자 사전 등록시 형태소 분석이 될 때가 있고 아닐 때도 있다고함.
- 장점:
    - 내부에 twitter, Kkma, hannanum, komaran 형태소 분석기 사용 가능

### 설치하기 (with 우분투)

- 명령 프롬프트로 KoNLPy 설치하기


<center>
<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcbaV3t%2Fbtq40Q8eUQD%2FnwGGpwvSjiz0DZJRMlP8c0%2Fimg.png" width="600" height="350"><br>
</center>




In [13]:
# $ sudo apt-get install g++ openjdk-7-jdk    # Install Java 1.7+
# $ sudo apt-get install python-dev; pip install konlpy       # Python 2.x
# $ sudo apt-get install python3-dev; pip3 install konlpy     # Python 3.x

### 간단한 예

In [29]:
from konlpy.tag import Kkma
from konlpy.utils import pprint

In [30]:
kkma = Kkma()
pprint(kkma.sentences(u'네, 안녕하세요. 반갑습니다.'))

['네, 안녕하세요.', '반갑습니다.']


In [41]:
pprint(kkma.nouns(u'질문이나 건의사항은 블로그에 남겨주세요.'))

['질문', '건의', '건의사항', '사항', '로그']


In [36]:
resume = "코로나 이후에 세상은 급격하게 변하고있으며, 대면 시스템에서 비대면 시스템으로 변화하고 있으며 IT의 중요성이 점차 커지고 있다."

In [37]:
pprint(kkma.nouns(resume))

['코로나', '이후', '세상', '대면', '시스템', '변화', '중요성']


In [38]:
 pprint(kkma.pos(resume))

[('코로나', 'NNG'),
 ('이후', 'NNG'),
 ('에', 'JKM'),
 ('세상', 'NNG'),
 ('은', 'JX'),
 ('급격', 'XR'),
 ('하', 'XSA'),
 ('게', 'ECD'),
 ('변하', 'VV'),
 ('고', 'ECE'),
 ('있', 'VXV'),
 ('으며', 'ECE'),
 (',', 'SP'),
 ('대면', 'NNG'),
 ('시스템', 'NNG'),
 ('에서', 'JKM'),
 ('비', 'XPN'),
 ('대면', 'NNG'),
 ('시스템', 'NNG'),
 ('으로', 'JKM'),
 ('변화', 'NNG'),
 ('하', 'XSV'),
 ('고', 'ECE'),
 ('있', 'VXV'),
 ('으며', 'ECE'),
 ('IT', 'OL'),
 ('의', 'JKG'),
 ('중요성', 'NNG'),
 ('이', 'JKS'),
 ('점차', 'MAG'),
 ('커지', 'VV'),
 ('고', 'ECE'),
 ('있', 'VXV'),
 ('다', 'EFN'),
 ('.', 'SF')]


- 출처:
    - [(깃헙_konlpy)](https://github.com/konlpy/konlpy)
    - [(KoNLPy: 파이썬 한국어 NLP)](https://konlpy-ko.readthedocs.io/ko/v0.4.3/#)