---
# spacy를 이용한 구문 분석
- 한국어를 분석하는 라이브러리도 다양하구나, 생각이 들었다
- 특히 displacy는 시각화로 보여줘서 편하다
---

### (간략) 구문 분석

1. spacy 구문분석

In [2]:
# !pip install spacy
!python -m spacy download ko_core_news_sm

Defaulting to user installation because normal site-packages is not writeable
Collecting ko-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ko_core_news_sm-3.7.0/ko_core_news_sm-3.7.0-py3-none-any.whl (14.7 MB)
     ---------------------------------------- 0.0/14.7 MB ? eta -:--:--
     ---------------------------------------- 0.0/14.7 MB ? eta -:--:--
     --------------------------------------- 0.0/14.7 MB 330.3 kB/s eta 0:00:45
     --------------------------------------- 0.1/14.7 MB 901.1 kB/s eta 0:00:17
     ----- ---------------------------------- 2.0/14.7 MB 11.9 MB/s eta 0:00:02
     -------- ------------------------------- 3.2/14.7 MB 14.7 MB/s eta 0:00:01
     ---------- ----------------------------- 4.0/14.7 MB 16.0 MB/s eta 0:00:01
     ------------------- -------------------- 7.3/14.7 MB 23.3 MB/s eta 0:00:01
     ----------------------------- --------- 11.0/14.7 MB 50.4 MB/s eta 0:00:01
     ----------------------------------

In [3]:
import spacy

In [4]:
# 한국어 모델 로드 # "ko_core_news_sm"
nlp = spacy.load("ko_core_news_sm")

In [5]:
# 구문트리
doc = nlp("이것은 한국어로 된 문장입니다.")

In [6]:
# 구문트리 출력하기 
# dep : 관계
for token in doc:
    print(f"token : {token.text} || token.dep_ : {token.dep_} || token.head.text: {token.head.text}")

token : 이것은 || token.dep_ : dislocated || token.head.text: 문장입니다
token : 한국어로 || token.dep_ : nsubj || token.head.text: 된
token : 된 || token.dep_ : ccomp || token.head.text: 문장입니다
token : 문장입니다 || token.dep_ : ROOT || token.head.text: 문장입니다
token : . || token.dep_ : punct || token.head.text: 문장입니다


In [None]:
# displacy 시각화

In [7]:
from spacy import displacy
displacy.render(doc, style='dep', jupyter= True)

In [8]:
import pandas as pd

In [20]:
# 데이터 가져와서 구문 분석
train_data = pd.read_csv('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', sep='\t', encoding='utf-8')
train_data2 = train_data['document'][99]
train_data2
train_data2 = nlp(train_data2)
# 출력
displacy.render(train_data2, style='dep', jupyter= True)

2. NLTK 구문분석

In [21]:
import konlpy
import nltk
from ckonlpy.tag import Twitter

In [22]:
# 형태소 분석기
okt = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [23]:
train_data3 = train_data['document'][100]

# 사용자 사전 추가
okt.add_dictionary('미유와', 'Noun')
okt.add_dictionary('하나카나', 'Noun')


In [32]:
# twitter 형태소 분석
words = okt.pos(train_data3)

In [33]:
grammar = """
NP: {<N.*>*<Suffix>?} # Noun pharase
VP: {<V.*>*} # Verb pharase
AP: {<A.*>*} # Adjective pharase
"""
parser = nltk.RegexpParser(grammar=grammar)
chunks = parser.parse(words)
print(chunks.pprint())

(S
  (NP 신카이/Noun 마코토/Noun)
  의/Josa
  (NP 작화/Noun)
  와/Josa
  ,/Punctuation
  (NP 미유와/Noun 하나카나/Noun)
  가/Josa
  (NP 연기/Noun)
  를/Josa
  (VP 잘/VerbPrefix 해줘서/Verb)
  (NP 더/Noun 대박/Noun)
  이/Josa
  (VP 였다/Verb)
  ./Punctuation)
None


In [34]:
# 시각화
chunks.draw()