# nltk를 이용해서 영문 parsing하기 (NER, tagging도 같은 방식)

## Parsing을 하기 위한 준비
> ### parser의 종류 및 성능
>> * 유명한 parser: stanford, berkeley, SyntaxNet(Google), pattern, ... 영문 parser는 정말 많이 있음
>> * 성능 면에서는 **SyntaxNet**이 가장 좋지만, 쉽게 사용 가능한 것은 **stanford**의 parser임
>> * SyntaxNet(Google) 성능 비교: https://research.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.html
>> * 위 논문: https://arxiv.org/pdf/1603.06042v2.pdf

- - -

> ### stanford parser 사용하기
>> * nltk 정식 document(https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software)를 참고
>>> 1. java가 설치되어 있고, 환경변수가 설정되있어야 함
>>> 2. parser package 다운로드(http://nlp.stanford.edu/software/lex-parser.shtml)
>>> 3. parser package 압축 해제
>>> 4. CLASSPATH 라는 환경변수를 생성하여 stanford-parser.jar가 있는 디렉토리를 추가
>>> 5. STANFORD_MODELS 라는 환경변수를 생성하여 stanford-parser-x.x.x-models.jar가 있는 디렉토리를 추가
>>> 6. englishPCFG.ser.gz를 경로에 넣어주기

>> * Tokenizer, NER, POS-tagger도 위와 유사한 방식으로 사용할 수 있으며, 아래 사이트에서 패키지를 다운받을수 있다.
>>>  tokenizer package(http://nlp.stanford.edu/software/lex-parser.shtml)
>>>  NER package(http://nlp.stanford.edu/software/CRF-NER.shtml)
>>>  POS tagger package(http://nlp.stanford.edu/software/tagger.shtml)

>> * 참고한 사이트
>>> * nltk document
>>>> https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
>>> * 그림 설명이 잘 되어있는 블로그
>>>> https://blog.manash.me/configuring-stanford-parser-and-stanford-ner-tagger-with-nltk-in-python-on-windows-f685483c374a
>>> * 예시 코드까지 포함되있는 사이트
>>>> https://gist.github.com/alvations/e1df0ba227e542955a8a

- - -

> ### 여러가지 parser
>> * malt parser, dependency 같은 개념을 가진 parser도 공부해야 사용할 때 이해가 잘 될듯함
>>> * nltk에서 malt parser 사용하는 방법
>>>> https://stackoverflow.com/questions/14009330/how-to-use-malt-parser-in-python-nltk
>>> * nltk에서 SyntaxNet 사용하는 방법
>>>> http://www.davidsbatista.net/blog/2017/03/25/syntaxnet/


# 예시 코드 

In [1]:
#예문
sentence = "The pedal is not wide enough"

In [2]:
#parsing tree 만들기
from nltk.parse.stanford import StanfordParser
parser = StanfordParser(model_path="C:\\Users\\DeokseongSeo\\Anaconda3\\Lib\\site-packages\\stanford_tools\\stanford-parser-full-2017-06-09\\englishPCFG.ser.gz")
parsed_tree = list(parser.raw_parse(sentence))
print(parsed_tree)

[Tree('ROOT', [Tree('S', [Tree('NP', [Tree('DT', ['The']), Tree('NN', ['pedal'])]), Tree('VP', [Tree('VBZ', ['is']), Tree('RB', ['not']), Tree('ADJP', [Tree('RB', ['wide']), Tree('JJ', ['enough'])])])])])]


In [3]:
#parsing tree 시각화
for line in parsed_tree:
    for sentence in line:
        sentence.draw()