In [1]:
import os
from nltk.tag import StanfordPOSTagger
from nltk.tag import StanfordNERTagger
from nltk.parse.stanford import StanfordParser
from nltk.tokenize import StanfordSegmenter
from nltk import word_tokenize

### 詞性標注 (POS)

In [2]:
model = './StanfordNLP/models/english-left3words-distsim.tagger'
jar = './StanfordNLP/jars/stanford-postagger.jar'

pos_tagger = StanfordPOSTagger(model,jar,encoding='utf8')
text = pos_tagger.tag(word_tokenize("美國 總統 川普 再度 突襲 全球 金融 市場"))
print(text)

[('美國', 'SYM'), ('總統', 'SYM'), ('川普', 'SYM'), ('再度', 'SYM'), ('突襲', 'SYM'), ('全球', 'SYM'), ('金融', 'SYM'), ('市場', 'SYM')]


### 命名實體辨識 (NER)

In [3]:
model = './StanfordNLP/models/chinese.misc.distsim.crf.ser.gz'
jar = './StanfordNLP/jars/stanford-ner.jar'

ner_tagger = StanfordNERTagger(model,jar)
list1 = list(ner_tagger.tag('美國 總統 川普 再度 突襲 全球 金融 市場'.split()))
print(list1)

[('美國', 'FACILITY'), ('總統', 'FACILITY'), ('川普', 'FACILITY'), ('再度', 'O'), ('突襲', 'O'), ('全球', 'O'), ('金融', 'O'), ('市場', 'O')]


### 句法分析 (Parser)
- 下載檔案 https://nlp.stanford.edu/software/stanford-parser-full-2018-10-17.zip
- 將zip移至/Users/alexis，解壓並更改資料夾名稱為stanford-parser，即為CLASSPATH：/Users/alexis/stanford-parser
- 進入上述路徑，以指令jar tvf stanford-parser-3.9.2-models.jar查看model路徑，即為model_path：edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz

In [4]:
#os.environ["JAVA_HOME"] = "/Library/Java/JavaVirtualMachines/jdk-12.0.1.jdk"
os.environ["CLASSPATH"] = "/Users/alexis/stanford-parser"
os.environ["STANFORD_PARSER"] ="/Users/alexis/stanford-parser/stanford-parser.jar"
os.environ["STANFORD_MODELS"] = "/Users/alexis/stanford-parser/stanford-parser-3.9.2-models.jar"

parser = StanfordParser(model_path = "edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz")
tree1 = list(parser.parse("美國 總統 川普 再度 突襲 全球 金融 市場".split()))
tree1[0].draw()

Please use [91mnltk.parse.corenlp.CoreNLPParser[0m instead.
  
