#### 【 자연어 처리용 형태소분석 - KoNLPY 】
- 한국어 형태소분석기 중 대표적인 패키지
- Java로 개발되어서 JDK 설치 필수
- 5개의 한국어 형태소분석기 내장 ==> 자체적인 형태소분석기 없음
- 5개의 한국어 형태소분석기를 동일한 메서드로 동일한 동작 가능 => 편리함!
- Mecab : Window 지원 중단 / Linux 필수

    -> 국내 사용자의 필요성으로 다양한 방식의 Windows 사용법 존재
    
    -> 버전 및 개발환경 구축이 까다로움!

In [5]:
## 모듈 로딩
from konlpy.corpus import kolaw, kobill     ## 텍스트 데이터 관련
from konlpy.tag import *                    ## 형태소분석기 관련

In [6]:
## Corpus -> 데이터 일부 추출
##-> 파일 선택
filename = kolaw.fileids()[0]

lawData = kolaw.open(filename).read()
print(f'lawData====>\n{lawData[:300]}')

lawData====>
대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바탕으로 자유민주적 기본질서를 더욱 확고히 하여 정치·경제·사회·문화의 모든 영역에 있어서 각인의 기회를 균등히 하고, 능력을 최고도로 발휘하게 하며, 자유와 권리에 따르는 책임과 의무를 완수하게 하여, 안으로는 국민생활의 균등한 향상을


In [7]:
# import jpype
# import os

# jvm_path = r"C:\Program Files\Java\jdk-25.0.2\bin\server\jvm.dll"

# if not jpype.isJVMStarted():
#     jpype.startJVM(
#         jvm_path,
#         "-Djava.class.path=" + os.environ.get("CLASSPATH", ""),
#         convertStrings=False
#     )

# print("JVM started:", jpype.isJVMStarted())

In [8]:
## --------------------------------------------------------
## 형태소 분리 : 의미를 가진 가장 최소 단위를 형태소.토큰
## --------------------------------------------------------
## [1] Hannanum 분석기
##-> 분석기 인스턴스 생성
han = Hannanum()

##-> 명사만 추출
nounList = han.nouns(lawData)
print(f'nounList: {nounList[:10]}')

##-> 형태소 분리
morphList = han.morphs(lawData)
print(f'nounmorphListList: {morphList[:10]}')

##-> 품사태깅 추출
posList = han.pos(lawData)
print(f'posList: {posList[:10]}')

##-> 상세한 분석
analyList = han.analyze(lawData)

nounList: ['대한민국헌법', '유구', '역사', '전통', '빛', '우리', '대한국민', '3·1운동', '건립', '대한민국임시정부']
nounmorphListList: ['대한민국헌법', '유구', '하', 'ㄴ', '역사', '와', '전통', '에', '빛', '나는']
posList: [('대한민국헌법', 'N'), ('유구', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('역사', 'N'), ('와', 'J'), ('전통', 'N'), ('에', 'J'), ('빛', 'N'), ('나는', 'J')]


In [9]:
## [2] Hannanum 분석기
##-> 분석기 인스턴스 생성
kkma = Kkma()

##-> 명사만 추출
nounList = kkma.nouns(lawData)
print(f'nounList: {nounList[:10]}')

##-> 형태소 분리
morphList = kkma.morphs(lawData)
print(f'nounmorphListList: {morphList[:10]}')

##-> 품사태깅 추출
posList = kkma.pos(lawData)
print(f'posList: {posList[:10]}')

nounList: ['대한', '대한민국', '대한민국헌법', '민국', '헌법', '유구', '역사', '전통', '우리', '국민']
nounmorphListList: ['대한민국', '헌법', '유구', '하', 'ㄴ', '역사', '와', '전통', '에', '빛나']
posList: [('대한민국', 'NNG'), ('헌법', 'NNG'), ('유구', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('역사', 'NNG'), ('와', 'JC'), ('전통', 'NNG'), ('에', 'JKM'), ('빛나', 'VV')]


In [10]:
## [3] Komoran 분석기
##-> 분석기 인스턴스 생성
komo = Komoran()

##-> 명사만 추출
nounList = komo.nouns(lawData)
print(f'nounList: {nounList[:10]}')

##-> 형태소 분리
morphList = komo.morphs(lawData)
print(f'nounmorphListList: {morphList[:10]}')

##-> 품사태깅 추출
posList = komo.pos(lawData)
print(f'posList: {posList[:10]}')


nounList: ['대한민국', '헌법', '역사', '전통', '국민', '운동', '건립', '대한민국', '임시', '정부']
nounmorphListList: ['대한민국', '헌법', '유구', '하', 'ㄴ', '역사', '와', '전통', '에', '빛나']
posList: [('대한민국', 'NNP'), ('헌법', 'NNP'), ('유구', 'XR'), ('하', 'XSA'), ('ㄴ', 'ETM'), ('역사', 'NNG'), ('와', 'JC'), ('전통', 'NNG'), ('에', 'JKB'), ('빛나', 'VV')]


In [11]:
## [4] Okt 분석기
##-> 분석기 인스턴스 생성
okt = Okt()

##-> 명사만 추출
nounList = okt.nouns(lawData)
print(f'nounList: {nounList[:10]}')

##-> 형태소 분리
morphList = okt.morphs(lawData)
print(f'nounmorphListList: {morphList[:10]}')

##-> 품사태깅 추출
posList = okt.pos(lawData)
print(f'posList: {posList[:10]}')

##-> 데이터 그대로 추출
normList = okt.normalize(lawData)
print(f'normList: {normList[:100]}')

##-> 파싱/분해 추출
phraseList = okt.phrases(lawData)
print(f'phraseList: {phraseList[:100]}')

nounList: ['대한민국', '헌법', '유구', '역사', '전통', '우리', '국민', '운동', '건립', '대한민국']
nounmorphListList: ['대한민국', '헌법', '\n\n', '유구', '한', '역사', '와', '전통', '에', '빛나는']
posList: [('대한민국', 'Noun'), ('헌법', 'Noun'), ('\n\n', 'Foreign'), ('유구', 'Noun'), ('한', 'Josa'), ('역사', 'Noun'), ('와', 'Josa'), ('전통', 'Noun'), ('에', 'Josa'), ('빛나는', 'Verb')]
normList: 대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의
phraseList: ['대한민국헌법', '유구', '역사', '역사와 전통', '우리', '우리 대한국민', '1운동', '건립', '건립된 대한민국임시정부', '건립된 대한민국임시정부의 법통과', '건립된 대한민국임시정부의 법통과 불의', '항거', '19민주이념', '계승', '조국', '조국의 민주개혁', '조국의 민주개혁과 평화적 통일', '조국의 민주개혁과 평화적 통일의 사명', '입각하', '정의', '인도', '인도와 동포애로써', '인도와 동포애로써 민족', '인도와 동포애로써 민족의 단결', '공고', '모든', '모든 사회적 폐습', '모든 사회적 폐습과 불의', '타파', '자율', '자율과 조화', '바탕', '자유민주적 기본질서', '더욱', '정치', '경제', '사회', '문화', '문화의 모든', '문화의 모든 영역', '각인', '각인의 기회', '능력', '최고도로', '최고도로 발휘', '자유', '자유와 권리', '책임', '책임과 의무', '완수', '국민생활', '국민생활의 균등한 향상', '기하', '세계평화', '세계평화와 인류공영', '

In [None]:
#%pip install python-mecab-ko

Note: you may need to restart the kernel to use updated packages.


In [17]:
from mecab import MeCab

In [18]:
## [5] MeCab 분석기
##-> 분석기 인스턴스 생성
mecabObj = Mecab()

##-> 명사만 추출
nounList = mecabObj.nouns(lawData)
print(f'nounList: {nounList[:10]}')

##-> 형태소 분리
morphList = mecabObj.morphs(lawData)
print(f'nounmorphListList: {morphList[:10]}')

##-> 품사태깅 추출
posList = mecabObj.pos(lawData)
print(f'posList: {posList[:10]}')

# ##-> 데이터 그대로 추출
# normList = mecabObj.normalize(lawData)
# print(f'normList: {normList[:100]}')

# ##-> 파싱/분해 추출
# phraseList = mecabObj.phrases(lawData)
# print(f'phraseList: {phraseList[:100]}')

Exception: Install MeCab in order to use it: http://konlpy.org/en/latest/install/