##### 한국어 형태소 분석기 Spacy
- 빠른 속도와 정확도가 높은 형태소 분석기
- 설치 2단계
    * 형태소 분석기 설치
    * 언어별 모델 설치


In [1]:
### 모듈 로딩
import spacy

In [4]:
### 한국어 모델 설정
LANG_MODEL = 'ko_core_news_lg'

In [5]:
### 한국어 분석기 생성
nlp = spacy.load(LANG_MODEL)

In [15]:
text = "일만 하고 놀지 않으면 바보가 된다."
doc = nlp(text)

print(f'[doc] {type(doc)}\n{doc}\n')

for token in doc:
    # 표제어, 단어 품사, 자세한 품사, 불용어 여부
    # lemma : _(언더바)가 없으면 실제 속성값을 보여줌 (숫자)
    print(f'{token.text:6} {token.lemma_:6} {token.pos_:6} {token.tag_:6} {token.is_stop}')

    # text     : 토큰에 저장된 텍스트 속성
    # lemma_   : 토큰의 표제어 속성
    # pos_     : 토큰의 품사 속성
    # tag_     : 토큰의 상세 품사 속성
    # is_stop  : 토큰의 불용어 여부 속성
    # is_punct : 토큰의 구두점 여부 속성

[doc] <class 'spacy.tokens.doc.Doc'>
일만 하고 놀지 않으면 바보가 된다.

일만     일+만    ADV    ncpa+jxc False
하고     하+고    SCONJ  pvg+ecs False
놀지     놀+지    VERB   pvg+ecx False
않으면    않+으면   SCONJ  px+ecs False
바보가    바보+가   NOUN   ncpa+jcc False
된다     되+ㄴ다   VERB   pvg+ef False
.      .      PUNCT  sf     False


In [16]:
myTokens = []
for token in doc:
    if (not token.is_stop) or (not token.is_punct):
        myTokens.append(token)

In [17]:
myTokens

[일만, 하고, 놀지, 않으면, 바보가, 된다, .]

In [18]:
from IPython.display import SVG
import spacy.displacy
SVG(spacy.displacy.render(doc))

<IPython.core.display.SVG object>