# Konlpy
- 여러 한글 형태소 분석기를 이용할 수 있다.

## 1. 설치

### konlpy 설치
- 별도로 JDK, JPype 등 설치 작업이 필요하다.

In [1]:
#!pip install konlpy

### 은전한닢 설치
- Mecab을 사용하기 위해 필요하다.

In [2]:
#!pip install eunjeon

## 2. 기본적인 함수 이용

In [3]:
from konlpy.tag import Hannanum
from konlpy.tag import Okt
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from eunjeon import Mecab 

- Hannannum(한나눔) KAIST 말뭉치, KAIST Semantic Web Research Center 개발
- Okt(Open Korean Text) - 오픈소스 한국어 분석기, (Twitter)
- Kkma(꼬꼬마): 세종 말뭉치를 이용해 생성된 사전, 서울대 연구실에서 개발.
- Komoran : Java로 쓰여진 오픈 소스 한글 형태소 분석기
- Mecab : 일본어 형태소 분석기를 한국어에 맞도록 수정함.

In [4]:
# 함수를 변수에 저장
han = Hannanum()
okt =  Okt()
kkma = Kkma()
kom = Komoran()
mecab = Mecab()

In [5]:
# 예시 문장
sentence = "구글 뉴스는 자동 집계 알고리즘에 의해 수천 곳의 발행사로부터 최신의 정보를 선별한다."

### 형태소 추출

- 텍스트에서 형태소를 추출해 반환한다.

- .morphs

In [6]:
#Hannanum 사용.
han.morphs(sentence)

['구글',
 '뉴스',
 '는',
 '자동',
 '집계',
 '알고리즘',
 '에',
 '의하',
 '어',
 '수천',
 '곳',
 '의',
 '발행사로부터',
 '최신',
 '의',
 '정보',
 '를',
 '선별',
 '하',
 'ㄴ다',
 '.']

In [7]:
#Komoran사용.
kom.morphs(sentence)

['구글 뉴스',
 '는',
 '자동',
 '집계',
 '알고리즘',
 '에',
 '의하',
 '아',
 '수천',
 '곳',
 '의',
 '발',
 '행사',
 '로부터',
 '최신',
 '의',
 '정보',
 '를',
 '선별',
 '하',
 'ㄴ다',
 '.']

### 명사 추출

- 텍스트에서 명사를 추출해 반환한다.

- .nouns()

In [8]:
han.nouns(sentence)

['구글', '뉴스', '자동', '집계', '알고리즘', '수천', '곳', '발행사로부터', '최신', '정보', '선별']

In [9]:
okt.nouns(sentence)

['구글', '뉴스', '자동', '집계', '알고리즘', '수천', '곳', '발행', '로부터', '최신', '정보', '선별']

In [10]:
kkma.nouns(sentence)

['구',
 '구글',
 '글',
 '뉴스',
 '자동',
 '집계',
 '알고리즘',
 '수천',
 '곳',
 '발',
 '발행사',
 '행사',
 '최신',
 '정보',
 '선별']

### 품사 부착

- 텍스트에서 품사를 부착해 반환한다.

- .pos()

In [11]:
kom.pos(sentence)

[('구글 뉴스', 'NNP'),
 ('는', 'JX'),
 ('자동', 'NNG'),
 ('집계', 'NNG'),
 ('알고리즘', 'NNP'),
 ('에', 'JKB'),
 ('의하', 'VV'),
 ('아', 'EC'),
 ('수천', 'NR'),
 ('곳', 'NNG'),
 ('의', 'JKG'),
 ('발', 'NNG'),
 ('행사', 'NNG'),
 ('로부터', 'JKB'),
 ('최신', 'NNG'),
 ('의', 'JKG'),
 ('정보', 'NNG'),
 ('를', 'JKO'),
 ('선별', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ다', 'EF'),
 ('.', 'SF')]

In [12]:
mecab.pos(sentence)

[('구글', 'NNG'),
 ('뉴스', 'NNG'),
 ('는', 'JX'),
 ('자동', 'NNG'),
 ('집계', 'NNG'),
 ('알고리즘', 'NNG'),
 ('에', 'JKB'),
 ('의해', 'VV+EC'),
 ('수천', 'NR'),
 ('곳', 'NNG'),
 ('의', 'JKG'),
 ('발', 'NNG'),
 ('행사', 'NNG'),
 ('로부터', 'JKB'),
 ('최신', 'NNG'),
 ('의', 'JKG'),
 ('정보', 'NNG'),
 ('를', 'JKO'),
 ('선별', 'NNG'),
 ('한다', 'XSV+EF'),
 ('.', 'SF')]

- 품사 태그의 의미 확인

In [13]:
mecab.tagset

{'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ETM': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JKB': '부사격 조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JKV': '호격 조사',
 'JX': '보조사',
 'MAG': '일반 부사',
 'MAJ': '접속 부사',
 'MM': '관형사',
 'NNB': '의존 명사',
 'NNBC': '단위를 나타내는 명사',
 'NNG': '일반 명사',
 'NNP': '고유 명사',
 'NP': '대명사',
 'NR': '수사',
 'SC': '구분자 , · / :',
 'SE': '줄임표 …',
 'SF': '마침표, 물음표, 느낌표',
 'SH': '한자',
 'SL': '외국어',
 'SN': '숫자',
 'SSC': '닫는 괄호 ), ]',
 'SSO': '여는 괄호 (, [',
 'SY': '기타 기호',
 'VA': '형용사',
 'VCN': '부정 지정사',
 'VCP': '긍정 지정사',
 'VV': '동사',
 'VX': '보조 용언',
 'XPN': '체언 접두사',
 'XR': '어근',
 'XSA': '형용사 파생 접미사',
 'XSN': '명사파생 접미사',
 'XSV': '동사 파생 접미사'}

## 3. 연습

### 뉴스 크롤링

In [14]:
from bs4 import BeautifulSoup
from urllib import request, parse

In [15]:
url = "https://news.v.daum.net/v/20200926215958649"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")
a_list = soup.select("#harmonyContainer > section > p")

In [16]:
# list 형태로 기사 변환해 저장.
x = []
for a in a_list:
    name = a.string
    x.append(name)

In [17]:
#list 형태 하나로 합치기.
news = ""
for i in range(1,21): news += x[i]

In [21]:
news

'추석 연휴를 앞둔 첫 주말 오늘 하루 제주에는 3만 명에 육박하는 관광객이 몰려들었는데요.제주도는 특별행정조치까지 발동해 코로나19 방역에 고삐를 죄고 있습니다.박천수 기자입니다.[리포트] 제주국제공항이 관광객들로 북적거립니다.공항 한쪽에선 손 소독제를 바를 수 있도록 했고 마스크도 나눠줍니다.["손 소독하고 가세요."]오늘 하루 제주를 찾은 관광객만 2만 7천여 명.추석 연휴가 끝나는 다음 달 4일까지 30만 명이 제주를 찾을 것으로 보이자, 공항만에 특별 방역 부스까지 마련됐습니다.[한윤정/제주도 관광정책과 : "제주공항이 입도객들의 첫 입구이기 때문에 방역 수칙 준수를 강조하고자 홍보 활동을 진행하고 있습니다."]하지만, 관광지에선 마스크를 쓰지 않은 사람들이 눈에 띄고, 실내에서도 사회적 거리 두기를 지키지 않고 붙어있기도 합니다.[관광객/음성변조 : "불편하죠. (마스크를) 쓰고 있는 사람들이 피해를 보고 있는 거죠."]제주도가 오늘부터 비상대응 체제에 돌입했습니다.공항만에서 모든 입도객의 마스크 착용을 의무화하고, 체온이 37.5도 이상이면 코로나 진단검사를 받아 결과가 나올 때까지 격리하기로 했습니다.유흥주점과 PC방 등 다중이용시설에도 집합 제한 명령을 내리는 등 제주도는 위반 사항이 적발될 경우 최대 3백만 원의 벌금도 부과할 방침입니다.[정인보/제주도 보건건강위생과장 : "확진자가 발생하면 구상권 청구 등 이번에 방역 관련 사항은 적극적으로 강화하는 쪽으로."]추석에 개천절 연휴가 끝나기까지 앞으로 8일이 방역에 최대 고비가 될 것으로 보입니다.KBS 뉴스 박천수입니다.촬영기자:고성호박천수 기자 (parkcs@kbs.co.kr)'

### konlpy로 분석

In [18]:
han.morphs(news)

['추석',
 '연휴',
 '를',
 '앞두',
 'ㄴ',
 '첫',
 '주말',
 '오늘',
 '하루',
 '제주',
 '에는',
 '3',
 '만',
 '명',
 '에',
 '육박',
 '하',
 '는',
 '관광객',
 '이',
 '몰려들',
 '었는데',
 '요',
 '.',
 '제주',
 '도는',
 '특별행정조치',
 '까지',
 '발동',
 '하',
 '어',
 '코로나19',
 '방역',
 '에',
 '고삐',
 '를',
 '죄',
 '이',
 '고',
 '있',
 '습니다',
 '.',
 '박천수',
 '기자',
 '이',
 'ㅂ니다',
 '.',
 '[',
 '리포트',
 ']',
 '제주국제공항',
 '이',
 '관광객들',
 '로',
 '북적거리',
 'ㅂ니다',
 '.',
 '공항',
 '하',
 'ㄴ',
 '쪽',
 '에선',
 '손',
 '소독제',
 '를',
 '바르',
 'ㄹ',
 '수',
 '있',
 '도록',
 '하',
 '었고',
 '마스크',
 '도',
 '나누',
 '어',
 '주',
 'ㅂ니다',
 '.',
 '["',
 '손',
 '소독',
 '하고',
 '가',
 '세',
 '요',
 '."]',
 '오늘',
 '하루',
 '제주',
 '를',
 '찾',
 '은',
 '관광객',
 '만',
 '2',
 '만',
 '7천여',
 '명.추석',
 '연휴',
 '가',
 '끝나',
 '는',
 '다음',
 '달',
 '4일',
 '까지',
 '30',
 '만',
 '명',
 '이',
 '제주',
 '를',
 '찾',
 '을',
 '것',
 '으로',
 '보이',
 '자',
 ',',
 '공항만',
 '에',
 '특별',
 '방역',
 '부스',
 '까지',
 '마련',
 '되',
 '었습니다',
 '.',
 '[한윤정',
 '/N+도',
 '관광정책',
 '과',
 ':',
 '"',
 '제주공항',
 '이',
 '입도객',
 '들',
 '의',
 '첫',
 '입구',
 '이',
 '기',
 '때문',
 '에',
 '방역

In [19]:
mecab.nouns(news)

['추석',
 '연휴',
 '주말',
 '오늘',
 '하루',
 '제주',
 '만',
 '명',
 '육박',
 '관광객',
 '제주도',
 '특별',
 '행정',
 '조치',
 '발동',
 '코로나',
 '방역',
 '고삐',
 '박천수',
 '기자',
 '리포트',
 '제주',
 '국제공항',
 '관광객',
 '거립니다',
 '공항',
 '한쪽',
 '손',
 '소독',
 '수',
 '마스크',
 '손',
 '소독',
 '오늘',
 '하루',
 '제주',
 '관광객',
 '만',
 '천',
 '명',
 '추석',
 '연휴',
 '끝',
 '나',
 '다음',
 '달',
 '일',
 '만',
 '명',
 '제주',
 '것',
 '공항',
 '만',
 '특별',
 '방역',
 '부스',
 '마련',
 '한윤정',
 '제주도',
 '관광',
 '정책',
 '제주',
 '공항',
 '입',
 '객',
 '입구',
 '때문',
 '방역',
 '수칙',
 '준수',
 '강조',
 '홍보',
 '활동',
 '진행',
 '관광지',
 '마스크',
 '사람',
 '눈',
 '실내',
 '사회',
 '거리',
 '두기',
 '관광객',
 '음성',
 '변조',
 '불편',
 '마스크',
 '사람',
 '피해',
 '거',
 '제주도',
 '오늘',
 '비상',
 '대응',
 '체제',
 '돌입',
 '공항',
 '입',
 '객',
 '마스크',
 '착용',
 '의무',
 '체온',
 '도',
 '이상',
 '코로나',
 '진단',
 '검사',
 '결과',
 '때',
 '격리',
 '유흥',
 '주점',
 '방',
 '등',
 '다중',
 '이용',
 '시설',
 '집합',
 '제한',
 '명령',
 '등',
 '제주도',
 '위반',
 '사항',
 '적발',
 '경우',
 '최대',
 '백만',
 '원',
 '벌금',
 '부과',
 '방침',
 '정인보',
 '제주도',
 '보건',
 '건강',
 '위생',
 '과장',
 '확진',
 '발생',
 '구상권',
 '청구',
 '

In [20]:
mecab.pos(news)

[('추석', 'NNG'),
 ('연휴', 'NNG'),
 ('를', 'JKO'),
 ('앞둔', 'VV+ETM'),
 ('첫', 'MM'),
 ('주말', 'NNG'),
 ('오늘', 'NNG'),
 ('하루', 'NNG'),
 ('제주', 'NNP'),
 ('에', 'JKB'),
 ('는', 'JX'),
 ('3', 'SN'),
 ('만', 'NR'),
 ('명', 'NNBC'),
 ('에', 'JKB'),
 ('육박', 'NNG'),
 ('하', 'XSV'),
 ('는', 'ETM'),
 ('관광객', 'NNG'),
 ('이', 'JKS'),
 ('몰려들', 'VV'),
 ('었', 'EP'),
 ('는데요', 'EF'),
 ('.', 'SF'),
 ('제주도', 'NNP'),
 ('는', 'JX'),
 ('특별', 'NNG'),
 ('행정', 'NNG'),
 ('조치', 'NNG'),
 ('까지', 'JX'),
 ('발동', 'NNG'),
 ('해', 'XSV+EC'),
 ('코로나', 'NNG'),
 ('19', 'SN'),
 ('방역', 'NNG'),
 ('에', 'JKB'),
 ('고삐', 'NNG'),
 ('를', 'JKO'),
 ('죄', 'VV'),
 ('고', 'EC'),
 ('있', 'VX'),
 ('습니다', 'EF'),
 ('.', 'SF'),
 ('박천수', 'NNP'),
 ('기자', 'NNG'),
 ('입니다', 'VCP+EF'),
 ('.', 'SF'),
 ('[', 'SSO'),
 ('리포트', 'NNG'),
 (']', 'SSC'),
 ('제주', 'NNP'),
 ('국제공항', 'NNG'),
 ('이', 'JKS'),
 ('관광객', 'NNG'),
 ('들', 'XSN'),
 ('로', 'JKB'),
 ('북적', 'MAG'),
 ('거립니다', 'NNG+VCP+EF'),
 ('.', 'SF'),
 ('공항', 'NNG'),
 ('한쪽', 'NNG'),
 ('에선', 'JKB+JX'),
 ('손', 'NNG'),
 ('소독