In [None]:
# 형태소분석기 관련 설치
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip install JPype1==0.7.4
!pip install rhinoMorph

In [1]:
import rhinoMorph

rn = rhinoMorph.startRhino()
text = "한글로 된 한글텍스트를 분석하는 것은 즐겁다."

# 사용 1 : 모든 형태소 보이기
text_analyzed = rhinoMorph.onlyMorph_list(rn, text)
print('\n1. 형태소 분석 결과: ', text_analyzed)

filepath:  C:\Users\jye12\anaconda\lib\site-packages
classpath:  C:\Users\jye12\anaconda\lib\site-packages\rhinoMorph/lib/rhino.jar
RHINO started!

1. 형태소 분석 결과:  ['한글', '로', '되', 'ㄴ', '한글', '텍스트', '를', '분석', '하', '는', '것', '은', '즐겁', '다', '.']


In [2]:
# 사용 2 : 실질형태소만, 동사의 어말어미 제외
text_analyzed = rhinoMorph.onlyMorph_list(rn, text, pos=['NNG', 'NNP', 'NP', 'VV', 'VA', 'XR', 'IC', 'MM', 'MAG', 'MAJ'])
print('\n2. 형태소 분석 결과: ', text_analyzed)


2. 형태소 분석 결과:  ['한글', '되', '한글', '텍스트', '분석', '즐겁']


In [9]:
# 사용 3 : 실질형태소만, 동사의 어말어미 포함
text_analyzed = rhinoMorph.onlyMorph_list(rn, text, pos=['NNG', 'NNP', 'NP', 'VV', 'VA',
                                                         'XR', 'IC', 'MM', 
                                                         'MAG', 'MAJ'], eomi=True)
print('\n3. 형태소 분석 결과: ', text_analyzed)


3. 형태소 분석 결과:  ['한글', '되다', '한글', '텍스트', '분석', '즐겁다']


In [8]:
# 사용 4 : 전체형태소, 품사정보도 가져오기
morphs, poses = rhinoMorph.wholeResult_list(rn, text)
print('\n4. 형태소 분석 결과: ')
print('morphs: ', morphs)
print('poses: ', poses)


4. 형태소 분석 결과: 
morphs:  ['한글', '로', '되', 'ㄴ', '한글', '텍스트', '를', '분석', '하', '는', '것', '은', '즐겁', '다', '.']
poses:  ['NNG', 'JKB', 'VV', 'ETM', 'NNG', 'NNG', 'JKO', 'XR', 'VX', 'ETM', 'NNB', 'JX', 'VA', 'EF', 'SF']


In [5]:
# 사용 5 : 원문의 어절 정보를 같이 가져오기
text_analyzed = rhinoMorph.wholeResult_text(rn, text)
print('\n5. 형태소 분석 결과:\n', text_analyzed)


5. 형태소 분석 결과:
 한글로	한글/NNG + 로/JKB
된	되/VV + ㄴ/ETM
한글텍스트를	한글/NNG + 텍스트/NNG + 를/JKO
분석하는	분석/XR + 하/VX + 는/ETM
것은	것/NNB + 은/JX
즐겁다	즐겁/VA + 다/EF
.	./SF



# 추가 옵션

In [6]:
# 사용 6,7 : 한 어절에서 연결된 명사를 하나의 명사로 결합하기
# onlyMorph_list와 wholeResult_list에서 사용 가능하다

text_analyzed = rhinoMorph.onlyMorph_list(rn, text, pos=['NNG', 'NNP', 'NP', 'VV', 'VA', 'XR', 'IC', 'MM', 'MAG', 'MAJ'], combineN=True)
print('\n6. 형태소 분석 결과:\n', text_analyzed)

morphs, poses = rhinoMorph.wholeResult_list(rn, text, combineN=True)
print('\n7. 형태소 분석 결과: ')
print('morphs: ', morphs)
print('poses: ', poses)


6. 형태소 분석 결과:
 ['한글', '되', '한글텍스트', '분석', '즐겁']

7. 형태소 분석 결과: 
morphs:  ['한글', '로', '되', 'ㄴ', '한글텍스트', '를', '분석', '하', '는', '것', '은', '즐겁', '다', '.']
poses:  ['NNG', 'JKB', 'VV', 'ETM', 'NNG', 'JKO', 'XR', 'VX', 'ETM', 'NNB', 'JX', 'VA', 'EF', 'SF']


In [7]:
# 사용 8, 9 : 어근 + 하 형태를 하나의 동사로 출력하기
# xrVv 아규먼트가 담당하며, 기본값은 False로서 둘을 분리하여 출력한다
# 분리된 어근이 명사인 경우, 명사로 출력된다
# onlyMorph_list, wholeResult_list, wholeResult_text 등 모든 함수에서 사용 가능하다

text_analyzed = rhinoMorph.wholeResult_list(rn, '사랑합니다')
print('\n8. 형태소 분석 결과: ', text_analyzed)

text_analyzed = rhinoMorph.wholeResult_list(rn, '사랑합니다', xrVv=True)
print('\n9. 형태소 분석 결과: ', text_analyzed)


8. 형태소 분석 결과:  (['사랑', '하', 'ㅂ니다'], ['XR', 'VX', 'EF'])

9. 형태소 분석 결과:  (['사랑하', 'ㅂ니다'], ['VV', 'EF'])
