# 한국어 형태소 분석기 Spacy
- 빠른 속도와 정확도가 높은 형태소 분석기
- 설치 2단계
    - 형태소 분석기 설치 
    - 언어별 모델 설치

In [3]:
# 모듈 로딩 
import spacy

In [4]:
# 언어 모델 모델 설정 
LANG_MODEL = 'ko_core_news_lg'

In [5]:
# 한국어 분석기 생성 
nlp = spacy.load(LANG_MODEL)

In [24]:
text = '일만 하고 놀지 않으면 바보가 된다.'
doc = nlp(text)

print(doc, type(doc)) # 속성 
print()

for token in doc:
    # 표제어, 단어 품사, 자세한 품사, 불용어 여부
    # pipeline 형식 
    print(f'{token.text:6} {token.lemma_:6} {token.pos_:6} {token.tag_:6} {token.is_stop}')
    #          단어 쪼갬         표제어            품사       한 번 더 쪼갬    불용어 체크 
    # -> 위의 속성 순서로 진행 

일만 하고 놀지 않으면 바보가 된다. <class 'spacy.tokens.doc.Doc'>

일만     일+만    ADV    ncpa+jxc False
하고     하+고    SCONJ  pvg+ecs False
놀지     놀+지    VERB   pvg+ecx False
않으면    않+으면   SCONJ  px+ecs False
바보가    바보+가   NOUN   ncpa+jcc False
된다     되+ㄴ다   VERB   pvg+ef False
.      .      PUNCT  sf     False


. . 은 구두점

In [20]:
for token in doc:
    print(token.text)       # token.text : 단어 쪼갬 - 토큰에 저장된 텍스트 속성 
    print(token.lemma_)     # 앞에서 쪼갠 단어로 어간 분리 - 토큰의 표제어 속성 
    print(token.lemma)      # 숫자값 출력 -> _ 사용해야 속성으로 됨 
    print(token.pos_)       # 토큰의 품사 속성 
    print(token.tag_)       # 토큰의 상세 품사 속성 
    print(token.is_stop)    # 토큰의 불용어 확인 
    print(token.is_punct)   # 토큰의 구두점 확인 
    print()

일만
일+만
3296783020634672728
ADV
ncpa+jxc
False
False

하고
하+고
5109693939794860690
SCONJ
pvg+ecs
False
False

놀지
놀+지
13603540033425479070
VERB
pvg+ecx
False
False

않으면
않+으면
6658458842456189901
SCONJ
px+ecs
False
False

바보가
바보+가
14858449515077134486
NOUN
ncpa+jcc
False
False

된다
되+ㄴ다
1162892835358851790
VERB
pvg+ef
False
False

.
.
12646065887601541794
PUNCT
sf
False
True



.. 은 구두점이라서 마지막은 True

In [27]:
my_tokens = []

for token in doc:
    if (not token.is_punct) and (not token.is_stop):
        my_tokens.append(token)
        # 구두점과 불용어 아닌 것들은 다 넣음 

In [28]:
my_tokens

[일만, 하고, 놀지, 않으면, 바보가, 된다]