# KoNLPy 라이브러리
형태소 분석(morphological Analysis)은 자연 언어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업이다.
영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본이기 때문에 크게 여럽지 않으나 아시아 계열의 언어 분석에는 나름 노력이 필요하다.
대표적으로 문법 규칙에 의한 방법과 확률적 언어 모델을 사용하는 방법이 있는데 최근에는 확률적 언어 모델을 사용한 형태소 분석이 많아서 정밀도가 높아졌다.
두가지 품사 사전과 문법 사전 기반을 대조하면서 형태소를 분석한다.

한국어 형태소 분석 라이브러리 => koNLPy => pip install konlpy => java 1.7 이상의 버전이 미리 설치되어 있어야 한다.
KoNLPy에서는 대한민국 헌법 말뭉치 kolaw와 국회 법안 말뭉치 kobill을 제공한다.

In [2]:
from konlpy.corpus import kolaw, kobill
# 각 말뭉치가 포함하고있는 파일 이름은 fileids() 함수로 확인할 수 있다.
print(kolaw.fileids(),kobill.fileids())

['constitution.txt'] ['1809896.txt', '1809897.txt', '1809895.txt', '1809894.txt', '1809890.txt', '1809891.txt', '1809893.txt', '1809892.txt', '1809899.txt', '1809898.txt']


In [3]:
# 말뭉치 파일을 읽어들이려면 말뭉치에 포함된 텍스트 파일을 open() 함수로 열고 read() 함수로 읽는다.
c = kolaw.open('constitution.txt').read()
print(c[:40])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로


In [4]:
d = kobill.open('1809890.txt').read()
print(d[:40])

지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호


# 형태소 분석
KoNLPy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다.
- Hannanum: 한나눔. KAIST Semantic Web Research Center 개발.
https://semanticweb.kaist.ac.kr/hannanum/
- Kkma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.
https://kkma.snu.ac.kr/
- Komoran: 코모란. Shineware에서 개발.
https://github.com/shin285/KOMORAN
- Mecab: 메카브. 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정.
https://bitbucket.org/eunjeon/mecab-ko
- Open Korean Text: 오픈 소스 한국어 분석기. 과거 트위터 형태소 분석기.
https://github.com/open-korean-text/open-korean-text

다운그레이드: pip install "jpype1<1"
윈도우에서 하는 경우 pip install konlpy 바로하지 마시고
1. java_home 환경변수 설정하고
2. JPype 검색해서 파이썬버전과 윈도우 32/64bit 에 맞는 버전 설치
3. pip install konlpy

https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 접속 버전에 맞는 JPype 다운로드
JPype1-1.2.0-cp36-cp36m-win_amd64.whl 파일이 위치한 폴더에서 cmd 창을 띄우고 아래의 문장을 실행한다.
python -m pip install --user JPype1-1.2.0-cp36-cp36m-win_amd64.whl

In [5]:
from konlpy.tag import *

In [6]:
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()

# 이 클래스들은 다음과 같은 함수를 공통적으로 제공한다.
# nouns: 명사 추출
# morphs: 형태소 추출
# pos: 품사 부착

In [7]:
# 문자열에서 명사만 추출하려면 nouns() 함수를 사용한다.
hannanum.nouns(c)

['대한민국헌법',
 '유구',
 '역사',
 '전통',
 '빛',
 '우리',
 '대한국민',
 '3·1운동',
 '건립',
 '대한민국임시정부',
 '법통',
 '불의',
 '항거',
 '4·19민주이념',
 '계승',
 '조국',
 '민주개혁',
 '평화적',
 '통일',
 '사명',
 '입각',
 '정의·인도',
 '동포애',
 '민족',
 '단결',
 '사회적',
 '폐습',
 '불의',
 '타파',
 '자율',
 '조화',
 '바탕',
 '자유민주적',
 '기본질서',
 '정치·경제·사회·문화',
 '영역',
 '각인',
 '기회',
 '능력',
 '최고도',
 '발휘',
 '자유',
 '권리',
 '책',
 '의무',
 '완수',
 '안',
 '국민생활',
 '균등',
 '향상',
 '기',
 '밖',
 '항구적',
 '세계평화',
 '인류공영',
 '이바',
 '우리들',
 '우리들',
 '자손',
 '전',
 '자유',
 '행복',
 '확보',
 '것',
 '다짐',
 '1948년',
 '7월',
 '12일',
 '제정',
 '8차',
 '개정',
 '헌법',
 '국회',
 '의결',
 '국민투표',
 '개정',
 '제1장',
 '총강',
 '제1조',
 '①',
 '대한민국',
 '민주공화국',
 '②대한민국',
 '주권',
 '국민',
 '권력',
 '국민',
 '제2조',
 '①',
 '대한민국',
 '국민',
 '요건',
 '법률',
 '②국가',
 '법률',
 '바',
 '재외국민',
 '보호',
 '의무',
 '제3조',
 '대한민국',
 '영토',
 '한반도',
 '부속도서',
 '제4조',
 '대한민국',
 '통일',
 '지향',
 '자유민주적',
 '기본질서',
 '입각',
 '평화적',
 '통',
 '정책',
 '수립',
 '이',
 '추진',
 '제5조',
 '①',
 '대한민국',
 '국제평화',
 '유지',
 '노력',
 '침략적',
 '전쟁',
 '부인',
 '②국군',
 '국가',
 '안전보장',
 '국토방위',
 '

In [8]:
kkma.nouns(c)

['대한',
 '대한민국',
 '대한민국헌법',
 '민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '국민',
 '3',
 '1',
 '1운동',
 '운동',
 '건립',
 '대한민국임시정부',
 '임시',
 '정부',
 '법통',
 '불의',
 '항거',
 '4',
 '19',
 '19민주이념',
 '민주',
 '이념',
 '계승',
 '조국',
 '민주개혁',
 '개혁',
 '평화적',
 '통일',
 '사명',
 '입각',
 '정의',
 '인도',
 '동포애',
 '민족',
 '단결',
 '사회적',
 '폐습',
 '타파',
 '자율',
 '조화',
 '바탕',
 '자유',
 '자유민주적',
 '민주적',
 '기본',
 '기본질서',
 '질서',
 '정치',
 '경제',
 '사회',
 '문화',
 '영역',
 '각인',
 '기회',
 '균등',
 '균등히',
 '히',
 '능력',
 '최고',
 '최고도로',
 '도로',
 '발휘',
 '권리',
 '책임',
 '의무',
 '완수',
 '안',
 '국민생활',
 '생활',
 '향상',
 '밖',
 '항구적',
 '세계',
 '세계평화',
 '평화',
 '인류',
 '인류공영',
 '공영',
 '이바지',
 '우리',
 '자손',
 '안전',
 '행복',
 '확보',
 '다짐',
 '1948',
 '1948년',
 '년',
 '7',
 '7월',
 '월',
 '12',
 '12일',
 '일',
 '제정',
 '8',
 '8차',
 '차',
 '개정',
 '이제',
 '국회',
 '의결',
 '국민투표',
 '투표',
 '저',
 '1장',
 '장',
 '강',
 '제',
 '제1조',
 '조',
 '민주공화국',
 '공화국',
 '주권',
 '권력',
 '2',
 '2조',
 '요건',
 '법률',
 '국가',
 '바',
 '재외',
 '재외국민',
 '보호',
 '3조',
 '조',
 '영토',
 '한반도',
 '부속',
 '4조',
 '지향',
 '정책',
 '수립',
 '추진',

In [9]:
komoran.nouns(c)
# komoran에서 빈 줄 때문에 에러가 발생되면 아래의 식으로 실행한다.
# komoran.nouns('\n'.join([s for s in c.split('\n') if s]))

['대한민국',
 '헌법',
 '역사',
 '전통',
 '국민',
 '운동',
 '건립',
 '대한민국',
 '임시',
 '정부',
 '법통',
 '불의',
 '항거',
 '민주',
 '이념',
 '계승',
 '조국',
 '민주개혁',
 '평화',
 '통일',
 '사명',
 '입각',
 '정의',
 '인도',
 '동포애',
 '민족',
 '단결',
 '사회',
 '폐습',
 '불의',
 '타파',
 '자율',
 '조화',
 '바탕',
 '자유',
 '민주',
 '기본',
 '질서',
 '정치',
 '경제',
 '사회',
 '문화',
 '영역',
 '각인',
 '기회',
 '능력',
 '최고',
 '도로',
 '발휘',
 '자유',
 '권리',
 '책임',
 '의무',
 '완수',
 '안',
 '국민',
 '생활',
 '균등',
 '향상',
 '밖',
 '항구',
 '세계',
 '평화',
 '인류',
 '공영',
 '이바지',
 '우리들의',
 '자손',
 '안전',
 '자유',
 '행복',
 '확보',
 '것',
 '다짐',
 '년',
 '7월 12일',
 '제정',
 '차',
 '개정',
 '헌법',
 '국회',
 '의결',
 '국민',
 '투표',
 '개정',
 '장',
 '강',
 '대한민국',
 '민주공화국',
 '대한민국',
 '주권',
 '국민',
 '권력',
 '국민',
 '대한민국',
 '국민',
 '요건',
 '법률',
 '국가',
 '법률',
 '바',
 '재외국민',
 '보호',
 '의무',
 '대한민국',
 '영토',
 '한반도',
 '부속',
 '도서',
 '대한민국',
 '통일',
 '지향',
 '자유',
 '민주',
 '기본',
 '질서',
 '입각',
 '평화',
 '통일',
 '정책',
 '수립',
 '추진',
 '대한민국',
 '국제',
 '평화',
 '유지',
 '노력',
 '침략',
 '전쟁',
 '부인',
 '국군',
 '국가',
 '안전',
 '보장',
 '국토방위',
 '신성',
 '의무',
 '수행',
 '사명',
 

In [10]:
okt.nouns(c)

['대한민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '국민',
 '운동',
 '건립',
 '대한민국',
 '임시정부',
 '법',
 '통과',
 '불의',
 '항거',
 '민주',
 '이념',
 '계승',
 '조국',
 '민주',
 '개혁',
 '평화',
 '통일',
 '사명',
 '입',
 '각하',
 '정의',
 '인도',
 '동포',
 '애',
 '로써',
 '민족',
 '단결',
 '공고',
 '모든',
 '사회',
 '폐습',
 '불의',
 '타파',
 '자율',
 '조화',
 '바탕',
 '자유민주',
 '질서',
 '더욱',
 '정치',
 '경제',
 '사회',
 '문화',
 '모든',
 '영역',
 '각인',
 '기회',
 '능력',
 '최고',
 '도로',
 '발휘',
 '자유',
 '권리',
 '책임',
 '의무',
 '완수',
 '안',
 '국민',
 '생활',
 '향상',
 '기하',
 '밖',
 '항구',
 '세계',
 '평화',
 '인류',
 '공영',
 '이바지',
 '함',
 '우리',
 '우리',
 '자손',
 '안전',
 '자유',
 '행복',
 '확보',
 '것',
 '다짐',
 '제정',
 '차',
 '개정',
 '헌법',
 '이제',
 '국회',
 '의결',
 '국민투표',
 '개정',
 '제',
 '장',
 '강',
 '제',
 '대한민국',
 '민주공화국',
 '대한민국',
 '주권',
 '국민',
 '모든',
 '권력',
 '국민',
 '제',
 '대한민국',
 '국민',
 '요건',
 '법률',
 '정',
 '국가',
 '법률',
 '정',
 '바',
 '재외국민',
 '보호',
 '의무',
 '제',
 '대한민국',
 '영토',
 '한반도',
 '그',
 '부속',
 '도서',
 '제',
 '대한민국',
 '통일',
 '지향',
 '자유민주',
 '질서',
 '입각',
 '평화',
 '통일',
 '정책',
 '수립',
 '추진',
 '제',
 '대한민국',
 '국제',
 '평화',
 '

형태소 추출

In [11]:
hannanum.morphs(c)

['대한민국헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛',
 '나는',
 '우리',
 '대한국민',
 '은',
 '3·1운동',
 '으로',
 '건립',
 '되',
 'ㄴ',
 '대한민국임시정부',
 '의',
 '법통',
 '과',
 '불의',
 '에',
 '항거',
 '하',
 'ㄴ',
 '4·19민주이념',
 '을',
 '계승',
 '하고',
 ',',
 '조국',
 '의',
 '민주개혁',
 '과',
 '평화적',
 '통일',
 '의',
 '사명',
 '에',
 '입각',
 '하',
 '어',
 '정의·인도',
 '와',
 '동포애',
 '로써',
 '민족',
 '의',
 '단결',
 '을',
 '공고히',
 '하',
 '고',
 ',',
 '모든',
 '사회적',
 '폐습',
 '과',
 '불의',
 '를',
 '타파',
 '하',
 '며',
 ',',
 '자율',
 '과',
 '조화',
 '를',
 '바탕',
 '으로',
 '자유민주적',
 '기본질서',
 '를',
 '더욱',
 '확고히',
 '하',
 '어',
 '정치·경제·사회·문화',
 '의',
 '모든',
 '영역',
 '에',
 '있',
 '어서',
 '각인',
 '의',
 '기회',
 '를',
 '균등히',
 '하',
 '고',
 ',',
 '능력',
 '을',
 '최고도',
 '로',
 '발휘',
 '하',
 '게',
 '하',
 '며',
 ',',
 '자유',
 '와',
 '권리',
 '에',
 '따르',
 '는',
 '책',
 '이',
 'ㅁ',
 '과',
 '의무',
 '를',
 '완수',
 '하',
 '게',
 '하',
 '어',
 ',',
 '안',
 '으로는',
 '국민생활',
 '의',
 '균등',
 '하',
 'ㄴ',
 '향상',
 '을',
 '기',
 '하고',
 '밖',
 '으로는',
 '항구적',
 '이',
 'ㄴ',
 '세계평화',
 '와',
 '인류공영',
 '에',
 '이바',
 '이',
 '지',
 '하',
 

In [12]:
kkma.morphs(c)

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로',
 '건립',
 '되',
 'ㄴ',
 '대한민국',
 '임시',
 '정부',
 '의',
 '법통',
 '과',
 '불의',
 '에',
 '항거',
 '하',
 'ㄴ',
 '4',
 '·',
 '19',
 '민주',
 '이념',
 '을',
 '계승',
 '하',
 '고',
 ',',
 '조국',
 '의',
 '민주',
 '개혁',
 '과',
 '평화적',
 '통일',
 '의',
 '사명',
 '에',
 '입각',
 '하',
 '여',
 '정의',
 '·',
 '인도',
 '와',
 '동포애',
 '로써',
 '민족',
 '의',
 '단결',
 '을',
 '공고히',
 '하',
 '고',
 ',',
 '모든',
 '사회적',
 '폐습',
 '과',
 '불의',
 '를',
 '타파',
 '하',
 '며',
 ',',
 '자율',
 '과',
 '조화',
 '를',
 '바탕',
 '으로',
 '자유',
 '민주적',
 '기본',
 '질서',
 '를',
 '더욱',
 '확고히',
 '하여',
 '정치',
 '·',
 '경제',
 '·',
 '사회',
 '·',
 '문화',
 '의',
 '모든',
 '영역',
 '에',
 '있',
 '어서',
 '각인',
 '의',
 '기회',
 '를',
 '균등',
 '히',
 '하',
 '고',
 ',',
 '능력',
 '을',
 '최고',
 '도로',
 '발휘',
 '하',
 '게',
 '하',
 '며',
 ',',
 '자유',
 '와',
 '권리',
 '에',
 '따르',
 '는',
 '책임',
 '과',
 '의무',
 '를',
 '완수',
 '하',
 '게',
 '하여',
 ',',
 '안',
 '으로',
 '는',
 '국민',
 '생활',
 '의',
 '균등',
 '하',
 'ㄴ',
 

In [13]:
komoran.morphs(c)

['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로',
 '건립',
 '되',
 'ㄴ',
 '대한민국',
 '임시',
 '정부',
 '의',
 '법통',
 '과',
 '불의',
 '에',
 '항거',
 '하',
 'ㄴ',
 '4',
 '·',
 '19',
 '민주',
 '이념',
 '을',
 '계승',
 '하',
 '고',
 ',',
 '조국',
 '의',
 '민주개혁',
 '과',
 '평화',
 '적',
 '통일',
 '의',
 '사명',
 '에',
 '입각',
 '하',
 '아',
 '정의',
 '·',
 '인도',
 '와',
 '동포애',
 '로써',
 '민족',
 '의',
 '단결',
 '을',
 '공고히',
 '하',
 '고',
 ',',
 '모든',
 '사회',
 '적',
 '폐습',
 '과',
 '불의',
 '를',
 '타파',
 '하',
 '며',
 ',',
 '자율',
 '과',
 '조화',
 '를',
 '바탕',
 '으로',
 '자유',
 '민주',
 '적',
 '기본',
 '질서',
 '를',
 '더욱',
 '확고히',
 '하',
 '아',
 '정치',
 '·',
 '경제',
 '·',
 '사회',
 '·',
 '문화',
 '의',
 '모든',
 '영역',
 '에',
 '있',
 '어서',
 '각인',
 '의',
 '기회',
 '를',
 '균등히',
 '하',
 '고',
 ',',
 '능력',
 '을',
 '최고',
 '도로',
 '발휘',
 '하',
 '게',
 '하',
 '며',
 ',',
 '자유',
 '와',
 '권리',
 '에',
 '따르',
 '는',
 '책임',
 '과',
 '의무',
 '를',
 '완수',
 '하',
 '게',
 '하',
 '아',
 ',',
 '안',
 '으로',
 '는',
 '국민',
 '생활',
 '의',
 '균등'

In [14]:
okt.morphs(c)

['대한민국',
 '헌법',
 '\n\n',
 '유구',
 '한',
 '역사',
 '와',
 '전통',
 '에',
 '빛나는',
 '우리',
 '대',
 '한',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로',
 '건립',
 '된',
 '대한민국',
 '임시정부',
 '의',
 '법',
 '통과',
 '불의',
 '에',
 '항거',
 '한',
 '4',
 '·',
 '19',
 '민주',
 '이념',
 '을',
 '계승',
 '하고',
 ',',
 '조국',
 '의',
 '민주',
 '개혁',
 '과',
 '평화',
 '적',
 '통일',
 '의',
 '사명',
 '에',
 '입',
 '각하',
 '여',
 '정의',
 '·',
 '인도',
 '와',
 '동포',
 '애',
 '로써',
 '민족',
 '의',
 '단결',
 '을',
 '공고',
 '히',
 '하고',
 ',',
 '모든',
 '사회',
 '적',
 '폐습',
 '과',
 '불의',
 '를',
 '타파',
 '하며',
 ',',
 '자율',
 '과',
 '조화',
 '를',
 '바탕',
 '으로',
 '자유민주',
 '적',
 '기',
 '본',
 '질서',
 '를',
 '더욱',
 '확고히',
 '하여',
 '정치',
 '·',
 '경제',
 '·',
 '사회',
 '·',
 '문화',
 '의',
 '모든',
 '영역',
 '에',
 '있어서',
 '각인',
 '의',
 '기회',
 '를',
 '균등히',
 '하고',
 ',',
 '능력',
 '을',
 '최고',
 '도로',
 '발휘',
 '하게',
 '하며',
 ',',
 '자유',
 '와',
 '권리',
 '에',
 '따르는',
 '책임',
 '과',
 '의무',
 '를',
 '완수',
 '하게',
 '하여',
 ',',
 '안',
 '으로는',
 '국민',
 '생활',
 '의',
 '균등한',
 '향상',
 '을',
 '기하',
 '고',
 '밖',
 '으로는',
 '항구',
 '적',
 '인',
 '세

품사 부착
형태소 분석기마다 사용하는 품사 태그가 다르므로 각 형태소 분석기에 대한 문서를 참조한다.

In [15]:
hannanum.pos(c)

[('대한민국헌법', 'N'),
 ('유구', 'N'),
 ('하', 'X'),
 ('ㄴ', 'E'),
 ('역사', 'N'),
 ('와', 'J'),
 ('전통', 'N'),
 ('에', 'J'),
 ('빛', 'N'),
 ('나는', 'J'),
 ('우리', 'N'),
 ('대한국민', 'N'),
 ('은', 'J'),
 ('3·1운동', 'N'),
 ('으로', 'J'),
 ('건립', 'N'),
 ('되', 'X'),
 ('ㄴ', 'E'),
 ('대한민국임시정부', 'N'),
 ('의', 'J'),
 ('법통', 'N'),
 ('과', 'J'),
 ('불의', 'N'),
 ('에', 'J'),
 ('항거', 'N'),
 ('하', 'X'),
 ('ㄴ', 'E'),
 ('4·19민주이념', 'N'),
 ('을', 'J'),
 ('계승', 'N'),
 ('하고', 'J'),
 (',', 'S'),
 ('조국', 'N'),
 ('의', 'J'),
 ('민주개혁', 'N'),
 ('과', 'J'),
 ('평화적', 'N'),
 ('통일', 'N'),
 ('의', 'J'),
 ('사명', 'N'),
 ('에', 'J'),
 ('입각', 'N'),
 ('하', 'X'),
 ('어', 'E'),
 ('정의·인도', 'N'),
 ('와', 'J'),
 ('동포애', 'N'),
 ('로써', 'J'),
 ('민족', 'N'),
 ('의', 'J'),
 ('단결', 'N'),
 ('을', 'J'),
 ('공고히', 'M'),
 ('하', 'P'),
 ('고', 'E'),
 (',', 'S'),
 ('모든', 'M'),
 ('사회적', 'N'),
 ('폐습', 'N'),
 ('과', 'J'),
 ('불의', 'N'),
 ('를', 'J'),
 ('타파', 'N'),
 ('하', 'X'),
 ('며', 'E'),
 (',', 'S'),
 ('자율', 'N'),
 ('과', 'J'),
 ('조화', 'N'),
 ('를', 'J'),
 ('바탕', 'N'),
 ('으로', 'J

In [16]:
kkma.pos(c)

[('대한민국', 'NNG'),
 ('헌법', 'NNG'),
 ('유구', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKM'),
 ('빛나', 'VV'),
 ('는', 'ETD'),
 ('우리', 'NNM'),
 ('대하', 'VV'),
 ('ㄴ', 'ETD'),
 ('국민', 'NNG'),
 ('은', 'JX'),
 ('3', 'NR'),
 ('·', 'SP'),
 ('1', 'NR'),
 ('운동', 'NNG'),
 ('으로', 'JKM'),
 ('건립', 'NNG'),
 ('되', 'XSV'),
 ('ㄴ', 'ETD'),
 ('대한민국', 'NNG'),
 ('임시', 'NNG'),
 ('정부', 'NNG'),
 ('의', 'JKG'),
 ('법통', 'NNG'),
 ('과', 'JC'),
 ('불의', 'NNG'),
 ('에', 'JKM'),
 ('항거', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('4', 'NR'),
 ('·', 'SP'),
 ('19', 'NR'),
 ('민주', 'NNG'),
 ('이념', 'NNG'),
 ('을', 'JKO'),
 ('계승', 'NNG'),
 ('하', 'XSV'),
 ('고', 'ECE'),
 (',', 'SP'),
 ('조국', 'NNG'),
 ('의', 'JKG'),
 ('민주', 'NNG'),
 ('개혁', 'NNG'),
 ('과', 'JKM'),
 ('평화적', 'NNG'),
 ('통일', 'NNG'),
 ('의', 'JKG'),
 ('사명', 'NNG'),
 ('에', 'JKM'),
 ('입각', 'NNG'),
 ('하', 'XSV'),
 ('여', 'ECS'),
 ('정의', 'NNG'),
 ('·', 'SP'),
 ('인도', 'NNG'),
 ('와', 'JC'),
 ('동포애', 'NNG'),
 ('로써', 'JKM'),
 ('민족', 'NNG'),

In [17]:
komoran.pos(c)

[('대한민국', 'NNP'),
 ('헌법', 'NNP'),
 ('유구', 'XR'),
 ('하', 'XSA'),
 ('ㄴ', 'ETM'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKB'),
 ('빛나', 'VV'),
 ('는', 'ETM'),
 ('우리', 'NP'),
 ('대하', 'VV'),
 ('ㄴ', 'ETM'),
 ('국민', 'NNP'),
 ('은', 'JX'),
 ('3', 'SN'),
 ('·', 'SP'),
 ('1', 'SN'),
 ('운동', 'NNP'),
 ('으로', 'JKB'),
 ('건립', 'NNG'),
 ('되', 'XSV'),
 ('ㄴ', 'ETM'),
 ('대한민국', 'NNP'),
 ('임시', 'NNG'),
 ('정부', 'NNG'),
 ('의', 'JKG'),
 ('법통', 'NNG'),
 ('과', 'JC'),
 ('불의', 'NNP'),
 ('에', 'JKB'),
 ('항거', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETM'),
 ('4', 'SN'),
 ('·', 'SP'),
 ('19', 'SN'),
 ('민주', 'NNP'),
 ('이념', 'NNG'),
 ('을', 'JKO'),
 ('계승', 'NNG'),
 ('하', 'XSV'),
 ('고', 'EC'),
 (',', 'SP'),
 ('조국', 'NNP'),
 ('의', 'JKG'),
 ('민주개혁', 'NNG'),
 ('과', 'JC'),
 ('평화', 'NNG'),
 ('적', 'XSN'),
 ('통일', 'NNG'),
 ('의', 'JKG'),
 ('사명', 'NNG'),
 ('에', 'JKB'),
 ('입각', 'NNG'),
 ('하', 'XSV'),
 ('아', 'EC'),
 ('정의', 'NNG'),
 ('·', 'SP'),
 ('인도', 'NNP'),
 ('와', 'JC'),
 ('동포애', 'NNG'),
 ('로써', 'JKB'),
 ('민족', 'NNG'),
 ('의

In [18]:
okt.pos(c)

[('대한민국', 'Noun'),
 ('헌법', 'Noun'),
 ('\n\n', 'Foreign'),
 ('유구', 'Noun'),
 ('한', 'Josa'),
 ('역사', 'Noun'),
 ('와', 'Josa'),
 ('전통', 'Noun'),
 ('에', 'Josa'),
 ('빛나는', 'Verb'),
 ('우리', 'Noun'),
 ('대', 'Modifier'),
 ('한', 'Modifier'),
 ('국민', 'Noun'),
 ('은', 'Josa'),
 ('3', 'Number'),
 ('·', 'Punctuation'),
 ('1', 'Number'),
 ('운동', 'Noun'),
 ('으로', 'Josa'),
 ('건립', 'Noun'),
 ('된', 'Verb'),
 ('대한민국', 'Noun'),
 ('임시정부', 'Noun'),
 ('의', 'Josa'),
 ('법', 'Noun'),
 ('통과', 'Noun'),
 ('불의', 'Noun'),
 ('에', 'Josa'),
 ('항거', 'Noun'),
 ('한', 'Josa'),
 ('4', 'Number'),
 ('·', 'Punctuation'),
 ('19', 'Number'),
 ('민주', 'Noun'),
 ('이념', 'Noun'),
 ('을', 'Josa'),
 ('계승', 'Noun'),
 ('하고', 'Josa'),
 (',', 'Punctuation'),
 ('조국', 'Noun'),
 ('의', 'Josa'),
 ('민주', 'Noun'),
 ('개혁', 'Noun'),
 ('과', 'Josa'),
 ('평화', 'Noun'),
 ('적', 'Suffix'),
 ('통일', 'Noun'),
 ('의', 'Josa'),
 ('사명', 'Noun'),
 ('에', 'Josa'),
 ('입', 'Noun'),
 ('각하', 'Noun'),
 ('여', 'Josa'),
 ('정의', 'Noun'),
 ('·', 'Punctuation'),
 ('인도', 'Noun'),

부착되는 ㅜㅍㅁ사 태그의 기호와 의미는 tagset 속성으로 확인할 수 있다.

In [19]:
hannanum.tagset

{'E': '어미',
 'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ET': '전성 어미',
 'F': '외국어',
 'I': '독립언',
 'II': '감탄사',
 'J': '관계언',
 'JC': '격조사',
 'JP': '서술격 조사',
 'JX': '보조사',
 'M': '수식언',
 'MA': '부사',
 'MM': '관형사',
 'N': '체언',
 'NB': '의존명사',
 'NC': '보통명사',
 'NN': '수사',
 'NP': '대명사',
 'NQ': '고유명사',
 'P': '용언',
 'PA': '형용사',
 'PV': '동사',
 'PX': '보조 용언',
 'S': '기호',
 'X': '접사',
 'XP': '접두사',
 'XS': '접미사'}

In [20]:
kkma.tagset

{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부정 지정사, 형용사 '아니다'",
 'VC

In [21]:
komoran.tagset

{'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ETM': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JKB': '부사격 조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JKV': '호격 조사',
 'JX': '보조사',
 'MAG': '일반 부사',
 'MAJ': '접속 부사',
 'MM': '관형사',
 'NA': '분석불능범주',
 'NF': '명사추정범주',
 'NNB': '의존 명사',
 'NNG': '일반 명사',
 'NNP': '고유 명사',
 'NP': '대명사',
 'NR': '수사',
 'NV': '용언추정범주',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SH': '한자',
 'SL': '외국어',
 'SN': '숫자',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'VA': '형용사',
 'VCN': '부정 지정사',
 'VCP': '긍정 지정사',
 'VV': '동사',
 'VX': '보조 용언',
 'XPN': '체언 접두사',
 'XR': '어근',
 'XSA': '형용사 파생 접미사',
 'XSN': '명사파생 접미사',
 'XSV': '동사 파생 접미사'}

In [22]:
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

In [23]:
mecab.tagset

{'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ETM': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JKB': '부사격 조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JKV': '호격 조사',
 'JX': '보조사',
 'MAG': '일반 부사',
 'MAJ': '접속 부사',
 'MM': '관형사',
 'NNB': '의존 명사',
 'NNBC': '단위를 나타내는 명사',
 'NNG': '일반 명사',
 'NNP': '고유 명사',
 'NP': '대명사',
 'NR': '수사',
 'SC': '구분자 , · / :',
 'SE': '줄임표 …',
 'SF': '마침표, 물음표, 느낌표',
 'SH': '한자',
 'SL': '외국어',
 'SN': '숫자',
 'SSC': '닫는 괄호 ), ]',
 'SSO': '여는 괄호 (, [',
 'SY': '기타 기호',
 'VA': '형용사',
 'VCN': '부정 지정사',
 'VCP': '긍정 지정사',
 'VV': '동사',
 'VX': '보조 용언',
 'XPN': '체언 접두사',
 'XR': '어근',
 'XSA': '형용사 파생 접미사',
 'XSN': '명사파생 접미사',
 'XSV': '동사 파생 접미사'}

In [24]:
from konlpy.tag import Okt
okt=Okt()

In [25]:
txt = '아버지가방에들어가신다'
okt.pos(txt)

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]

In [26]:
okt.pos('이것도되나욬ㅋㅋㅋㅋ')

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되나', 'Verb'),
 ('욬', 'Noun'),
 ('ㅋㅋㅋㅋ', 'KoreanParticle')]

In [27]:
# norm=True: 품사 태깅(기본값은 False)
okt.pos('이것도되나욬ㅋㅋㅋㅋ',norm=True)

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되나요', 'Verb'),
 ('ㅋㅋㅋ', 'KoreanParticle')]

In [28]:
# stem=True: 원형 글자로 바꿔준다.(기본값은 False)
okt.pos('이것도되나욬ㅋㅋㅋㅋ',stem=True)

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되다', 'Verb'),
 ('욬', 'Noun'),
 ('ㅋㅋㅋㅋ', 'KoreanParticle')]

In [29]:
# 텍스트를 형태소 단위로 나눈다.
okt.morphs(txt)

['아버지', '가방', '에', '들어가신다']

In [30]:
# 텍스트에서 명사만 추출한다.
okt.nouns(txt)

['아버지', '가방']