#### 한국어 형태소 분석기 spacy
 - 빠른 속도와 정확도가 높은 형태소 분석기
 - 설치 2단계
    * 형태소 분석기 설치
    * 언어별 모델 설치

In [34]:
# 모듈 로딩
import spacy

In [35]:
### 언어 모델 설정 <= 본인 설치 한 것
LANG_MODEL = 'ko_core_news_lg'
# ko_core_news_sm

In [36]:
### 한국어 분석기 생성
nlp = spacy.load(LANG_MODEL)

In [37]:
text = "일만 하고 놀지 않으면 바보가 된다."
doc = nlp(text)

print(f'[doc] \n {doc}')

[doc] 
 일만 하고 놀지 않으면 바보가 된다.


In [38]:
text = "일만 하고 놀지 않으면 바보가 된다."
doc = nlp(text)

for token in doc:
    # 표제어, 단어 품사, 자세한 품사, 불용어 여부
    print(f'{token.text:6} {token.lemma_:6} {token.tag_:6} {token.is_stop}')

일만     일+만    ncpa+jxc False
하고     하+고    pvg+ecs False
놀지     놀+지    pvg+ecx False
않으면    않+으면   px+ecs False
바보가    바보+가   ncpa+jcc False
된다     되+ㄴ다   pvg+ef False
.      .      sf     False


In [39]:
my_token = []
for token in doc:
    print(token.text)       # 토큰에 저장된 텍스트 속성
    print(token.lemma_)     # 토큰의 표제어 속성
    print(token.pos_)       # 토큰의 품사 속성
    print(token.tag_)       # 토큰의 상세품사 속성
    print(token.is_stop)    # 토큰의 불용어 여부 속성
    print(token.is_punct)   # 토큰의 구두점 여부 속성
    print()

일만
일+만
ADV
ncpa+jxc
False
False

하고
하+고
SCONJ
pvg+ecs
False
False

놀지
놀+지
VERB
pvg+ecx
False
False

않으면
않+으면
SCONJ
px+ecs
False
False

바보가
바보+가
NOUN
ncpa+jcc
False
False

된다
되+ㄴ다
VERB
pvg+ef
False
False

.
.
PUNCT
sf
False
True



In [40]:
my_token = []
for token in doc:

    if (not token.is_punct) or (not token.is_stop):
        my_token.append(token)

my_token

[일만, 하고, 놀지, 않으면, 바보가, 된다, .]

In [41]:
# text = "마춤뻡."
# doc = nlp(text)
# my_token = []
# for token in doc:
#     print(token.text)
#     print(token.lemma_)
#     print(token.pos_)
#     print(token.tag_)
#     print(token.is_stop)
#     print(token.is_punct)
#     print()

In [42]:
from IPython.display import SVG
SVG(spacy.displacy.render(doc))

<IPython.core.display.SVG object>

In [44]:
# 데이터 파일 다운로드
from urllib.request import urlretrieve
data_url = 'https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt'
data_filename='../data/2016-10-20.txt'
urlretrieve(data_url, data_filename)

('../data/2016-10-20.txt', <http.client.HTTPMessage at 0x15a985fa7c0>)