### 환경 세팅

In [None]:
# 1. OS 업데이트 및 Java 설치
!apt-get update
!apt-get install g++ openjdk-8-jdk

In [None]:
# 2. JPype 설치
!pip install JPype1

In [None]:
#3. RHINO설치
!pip install rhinoMorph

In [None]:
#4. RHINO 시작
import rhinoMorph
rn = rhinoMorph.startRhino() # 사전을 메모리에 로딩. 처음 한 번만 필요. 형태소분석기 객체를 rn 이라는 이름으로 생성

filepath:  /usr/local/lib/python3.7/dist-packages
classpath:  /usr/local/lib/python3.7/dist-packages/rhinoMorph/lib/rhino.jar
JVM is already started~
RHINO started!


### Rhino 사용

In [None]:
#1. 모든 형태소 보이기
text = '한글로 된 한글텍스트를 분석하는 것은 즐겁다.'
text_analyzed = rhinoMorph.onlyMorph_list(rn, text)
print('1. 형태소 분석 결과:', text_analyzed)
print(len(text_analyzed))

1. 형태소 분석 결과: ['한글', '로', '되', 'ㄴ', '한글', '텍스트', '를', '분석', '하', '는', '것', '은', '즐겁', '다', '.']
15


![image](https://user-images.githubusercontent.com/59672592/126590143-e009469b-18cb-424a-815e-3748c7cf2928.png)


In [None]:
# 2. 실질형태소만, 동사의 어말어미는 제외
#pos = part of speech
text_analyzed = rhinoMorph.onlyMorph_list(rn, text, pos = ['NNG','NNP','NP',
                                                  'VV', 'VA', 'XR', 
                                                  'IC', 'MM', 'MAG', 
                                                  'MAJ'])
print('2. 형태소 분석 결과:' ,text_analyzed)
print(len(text_analyzed))

2. 형태소 분석 결과: ['한글', '되', '한글', '텍스트', '분석', '즐겁']
6


In [None]:
# 3. 실질형태소만, 동사의 어말어미 포함
text_analyzed = rhinoMorph.onlyMorph_list(rn, text, pos = ['NNG', 'NNP', 'NP',
                                                       'VV', 'VA', 'XR', 'IC', 
                                                       'MM', 'MAG', 'MAJ'],
                                        eomi = True)
print('3. 형태소 분석 결과:' ,text_analyzed)
print(len(text_analyzed))

3. 형태소 분석 결과: ['한글', '되다', '한글', '텍스트', '분석', '즐겁다']
6


In [None]:
#4. 전체형태소, 품사정보도 가져 오기
morphs, poses = rhinoMorph.wholeResult_list(rn, text)
print('4. 형태소 분석 결과:')
print('morphs:', morphs)
print('poses:', poses)

4. 형태소 분석 결과:
morphs: ['한글', '로', '되', 'ㄴ', '한글', '텍스트', '를', '분석', '하', '는', '것', '은', '즐겁', '다', '.']
poses: ['NNG', 'JKB', 'VV', 'ETM', 'NNG', 'NNG', 'JKO', 'XR', 'XSV', 'ETM', 'NNB', 'JX', 'VA', 'EF', 'SF']


In [None]:
#5. 원문의 어절 정보를 같이 가져 오기
text_analyzed = rhinoMorph.wholeResult_text(rn, text)
print("5. 형태소 분석 결과:", text_analyzed)

5. 형태소 분석 결과: 한글로	한글/NNG + 로/JKB
된	되/VV + ㄴ/ETM
한글텍스트를	한글/NNG + 텍스트/NNG + 를/JKO
분석하는	분석/XR + 하/XSV + 는/ETM
것은	것/NNB + 은/JX
즐겁다	즐겁/VA + 다/EF
.	./SF



### 불용어 목록  
- 불용어 목록은 정해진 것이 없고, 과제의 성격에 따라 자유롭게 정의됨
1. 형식형태소 - 품사 태그를 이용하여 일괄 지정가능
  - 주격조사(JKS), 보격조사(JKC), 관형격조사(JKG), 목적격조사(JKO), 부사격조사(JKB), 
사(JKV), 인용격조사(JKQ), 보조사(JX), ... 
1. 기호류 형태 - 기호류 태그로 지정 가능하나, 직접 일부분을 선택할 경우
1. 실질형태소 중 불용어
  - 품사태그: 수사(NR), 숫자(SN), 명사추정범주(NF), 기타기호(논리수학기호, 화폐기호) SW, 
용언추정범주(NV), 의존명사(NNB), 보조용언(VX), 긍정지정사(VCP), 부정지정사(VCN)
  - 형태: "하", "있", "되", "않", "없", "사람", "지", "보", "때", "같", "년", "대하", "주", "말", "일", "
위하", "때문", "말하", "가", "받", "그렇", "알"
1. 영어 불용어 - 구글에서 지정
  - "a", "about", "above", "after", "again", "against", "all", "am", ...