#### 한국어 형태소 분석기 Spacy
- 빠른 속도와 정확도가 높은 형태소 분석기
- 설계 2단계
    - 형태소 분석기 설치
    - 언어별 분섞기 설치
    

In [1]:
### 모듈 로딩
import spacy

In [2]:
# 언어 모델 설정 < == 설치한 모델 이름
LANG_MODEL = 'ko_core_news_sm'

In [3]:
# 한국어 분석기 생성
nlp = spacy.load(LANG_MODEL)

In [13]:
text = '일만 하고 놀지 않으면 바보가 된다.'
doc = nlp(text) # >> 객체 생성됨

print(f'[doc] {type(doc)}\n{doc}')

[doc] <class 'spacy.tokens.doc.Doc'>
일만 하고 놀지 않으면 바보가 된다.


In [9]:
for token in doc:
    # 표제어, 단어 품사, 자세한 품사, 불용어 여부 등등
    print(f'{token.text:4}, {token.lemma_:6}, {token.pos_:6}, {token.tag_:6}, {token.is_stop}, {token.is_punct}')

일만  , 일+만   , ADV   , ncpa+jxc, False, False
하고  , 하+고   , CCONJ , pvg+ecc, False, False
놀지  , 놀+지   , VERB  , pvg+ecx, False, False
않으면 , 않+으면  , SCONJ , px+ecs, False, False
바보가 , 바보+가  , VERB  , pvg+ecx, False, False
된다  , 되+ㄴ다  , AUX   , px+ef , False, False
.   , .     , PUNCT , sf    , False, True


In [10]:
my_tokens = []
for token in doc:
    # print(f'{token.text:4},   # 토큰에 저장된 텍스트 속성
    # {token.lemma_:6},         # 토큰의 표제어 속성
    # {token.pos_:6},           # 토큰의 품사 속성
    # {token.tag_:6},           # 토큰의 상세품사 속성
    # {token.is_stop},          # 토큰의 불용어 여부 속성
    # {token.is_punct}')        # 토큰의 구두점 여부 속성

    if (not token.is_punct) or (not token.is_stop) :      # 구둑점 또는 불용어가 아니면 my_tokens[]안에 담아라
        my_tokens.append(token)
    

In [11]:
my_tokens

[일만, 하고, 놀지, 않으면, 바보가, 된다]

In [14]:
from IPython.display import SVG
SVG(spacy.displacy.render(doc))

<IPython.core.display.SVG object>