# 자연어 처리, NLP(Natural Language Processing) 


> **설치 목록**

> - JDK (Java SE Downloads)
- JAVA_HOME 설정
- NLP Package 설치 
    - JPype 설치 
    - KoNLPy 설치 
    - Word Cloud 설치

In [1]:
import platform

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# sns.set()

from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
    rc('font', family=font_name)
else:
    print("It's unknown system. Hangul fonts are not supported!")
    
# plt.rcParams['axes.unicode_minus'] = False
plt.rcParams["figure.figsize"] = [12,6]

%matplotlib inline

## 한글 자연어 처리 기초

In [1]:
! pip install konlpy

# 오류 시
# https://www.microsoft.com/ko-kr/download/confirmation.aspx?id=48159 
# 다운로드 후 쥬피터 끄고 다시 킨 다음 실행해볼 것.



In [1]:
from konlpy.tag import Kkma
kkma = Kkma()

# 서울대에서 만든 꼬꼬마 패키지

In [15]:
kkma.sentences('한국어 분석을 시작합니다 재미있어요~~')

['한국어 분석을 시작합니다', '재미있어요~~']

In [18]:
kkma.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석']

In [19]:
kkma.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'NNG'),
 ('분석', 'NNG'),
 ('을', 'JKO'),
 ('시작하', 'VV'),
 ('ㅂ니다', 'EFN'),
 ('재미있', 'VA'),
 ('어요', 'EFN'),
 ('~~', 'SW')]

In [None]:
# morphs : 형태소 / nouns : 명사 / sentense : 문장 / pos : 종류구분 /

In [6]:
from konlpy.tag import Hannanum
hannanum = Hannanum()

In [20]:
hannanum.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '시작']

In [21]:
hannanum.morphs('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '을', '시작', '하', 'ㅂ니다', '재미있', '어요', '~~']

In [22]:
hannanum.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'N'),
 ('분석', 'N'),
 ('을', 'J'),
 ('시작', 'N'),
 ('하', 'X'),
 ('ㅂ니다', 'E'),
 ('재미있', 'P'),
 ('어요', 'E'),
 ('~~', 'S')]

In [None]:
# morphs : 형태소 / nouns : 명사 / sentense : 문장 / pos : 종류구분 /

In [10]:
from konlpy.tag import Twitter
t = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [23]:
t.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '시작']

In [24]:
t.morphs('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '을', '시작', '합니다', '재미있어요', '~~']

In [25]:
t.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('재미있어요', 'Adjective'),
 ('~~', 'Punctuation')]

In [14]:
# morphs : 형태소 / nouns : 명사 / sentense : 문장 / pos : 종류구분 /