# 自然語言處理套件 SpaCy
SpaCy 被廣泛應用在詞性標記, 文章分類, 語法為基礎之斷句, 相依關係分析, 相似度與詞彙嵌入 (word embedded) 計算等應用, 而且支援深度學習, 透過其 Thinc 函式庫可連接 TensorFlow 與 PyTorch 等框架所訓練出來的多語言統計模型, 是研究語言學與機器學習的上好工具

In [None]:
!pip install -U spacy

In [None]:
!pip install -U spacy-lookups-data

In [None]:
# 安裝中文模型
!python -m spacy download zh_core_web_sm

-------------------------------------------
# Part-of-speech tagging 詞性標記

In [1]:
import spacy
import zh_core_web_sm

#my_text = "今年夏天礁溪老爺酒店設計了一系列精彩活動，除了大獲好評的夏日探險季闖關活動，為了吸引民眾振興旅遊市場，更攜手MINI打造夏日暢遊主題房，不但享房型升等「洋式蘭陽平原景觀套房」，入住可免費試駕MINI CooperCountryman運動休旅，預訂平日當季尊榮三天兩夜專案，加購第三晚只需紙本振興三倍券3000元就能再住一晚。"
my_text = "三倍券還可以買公益彩券及買黃金，業者也會推出相關的優惠活動。"


nlp = zh_core_web_sm.load()
# nlp = spacy.load("zh_core_web_sm")

doc = nlp(my_text)

#詞性標註
for token in doc:
            # 分詞        詞性         
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, token.shape_, token.is_alpha, token.is_stop)

三  NUM CD dep x True True
倍  NUM M mark:clf x True False
券還  VERB VV ROOT xx True False
可以  VERB VV aux:modal xx True True
買  VERB VV ccomp x True False
公益  NOUN NN compound:nn xx True False
彩券  NOUN NN conj xx True False
及  CCONJ CC cc x True True
買黃金  NOUN NN dobj xxx True False
，  PUNCT PU punct ， False True
業者  VERB VV conj xx True False
也  ADV AD advmod x True True
會  ADV AD advmod x True False
推出  VERB VV conj xx True False
相關  VERB VV acl xx True False
的  PART DEC mark x True True
優惠  NOUN NN compound:nn xx True False
活動  NOUN NN dobj xx True False
。  PUNCT PU punct 。 False True


# 視覺化句子中文字的相依

In [2]:
from spacy import displacy

#nlp = spacy.load("zh_core_web_sm")
nlp = zh_core_web_sm.load()

doc = nlp(my_text)

displacy.render(doc, style="dep")

### Dependency Parsing 相依

In [None]:
#nlp = spacy.load("zh_core_web_sm")
nlp = zh_core_web_sm.load()

doc = nlp(my_text)

for chunk in doc.noun_chunks:
    print(chunk.text, chunk.root.text, chunk.root.dep_, chunk.root.head.text)

# 實體命名辨識

In [3]:
displacy.render(doc, style="ent")

In [4]:
text2 = "銀河系其實滿是外星人？NASA爆銀河奧秘：大多數都死了"
nlp = zh_core_web_sm.load()
doc2 = nlp(text2)

In [5]:
doc2.vector

array([ 0.16723259, -0.6700667 ,  0.97925323, -0.51825786,  0.31154615,
        0.5469232 , -0.06836909, -0.24315631,  0.17094064,  0.05445863,
        0.4444161 , -0.5943327 , -0.62821436, -0.49415278, -0.00581951,
        0.05655156, -0.20414378,  0.00221996,  0.13637055,  0.19772285,
        0.01026848, -0.00603558, -0.54161227, -0.44664335, -0.32252198,
        0.07145989, -0.03847126, -0.25116184, -0.01609054, -0.12755124,
       -0.13498253,  0.6028678 , -0.82629657, -0.13215956,  0.22498178,
       -0.08991627, -0.27909178, -0.25237194,  0.2723955 ,  0.969721  ,
       -0.6090539 ,  0.0369646 ,  0.18440229, -0.5436306 ,  0.6924165 ,
        0.47033   ,  0.05933892,  0.11893684,  0.27713415, -0.3006593 ,
       -0.08915594,  0.706766  , -0.5574853 , -0.0230346 ,  0.03670768,
        0.59210813, -0.00830769, -0.48893183, -0.08817853, -0.10035253,
        0.66523   ,  0.08886814,  0.17716011, -0.2878304 , -0.17199862,
       -0.5939613 , -0.5822407 , -0.08819171, -0.5936948 , -0.38

In [6]:
for token in doc2:
    print('{}, {}'.format(token.text, token.pos_))

銀河, NOUN
系, NOUN
其, PRON
實滿, NOUN
是, VERB
外星人, NOUN
？, PUNCT
NASA, PROPN
爆銀河, NOUN
奧秘, VERB
：, PUNCT
大多, ADV
數, ADV
都, ADV
死, VERB
了, PART


In [7]:
for token in doc2:
    print('{}'.format(token.text))

銀河
系
其
實滿
是
外星人
？
NASA
爆銀河
奧秘
：
大多
數
都
死
了


In [8]:
doc2.similarity(doc)

  doc2.similarity(doc)


0.3872648407501347

In [9]:
suffixes = list(nlp.Defaults.suffixes)
suffixes

['…',
 '……',
 ',',
 ':',
 ';',
 '\\!',
 '\\?',
 '¿',
 '؟',
 '¡',
 '\\(',
 '\\)',
 '\\[',
 '\\]',
 '\\{',
 '\\}',
 '<',
 '>',
 '_',
 '#',
 '\\*',
 '&',
 '。',
 '？',
 '！',
 '，',
 '、',
 '；',
 '：',
 '～',
 '·',
 '।',
 '،',
 '۔',
 '؛',
 '٪',
 '\\.\\.+',
 '…',
 "\\'",
 '"',
 '”',
 '“',
 '`',
 '‘',
 '´',
 '’',
 '‚',
 ',',
 '„',
 '»',
 '«',
 '「',
 '」',
 '『',
 '』',
 '（',
 '）',
 '〔',
 '〕',
 '【',
 '】',
 '《',
 '》',
 '〈',
 '〉',
 '[\\u00A6\\u00A9\\u00AE\\u00B0\\u0482\\u058D\\u058E\\u060E\\u060F\\u06DE\\u06E9\\u06FD\\u06FE\\u07F6\\u09FA\\u0B70\\u0BF3-\\u0BF8\\u0BFA\\u0C7F\\u0D4F\\u0D79\\u0F01-\\u0F03\\u0F13\\u0F15-\\u0F17\\u0F1A-\\u0F1F\\u0F34\\u0F36\\u0F38\\u0FBE-\\u0FC5\\u0FC7-\\u0FCC\\u0FCE\\u0FCF\\u0FD5-\\u0FD8\\u109E\\u109F\\u1390-\\u1399\\u1940\\u19DE-\\u19FF\\u1B61-\\u1B6A\\u1B74-\\u1B7C\\u2100\\u2101\\u2103-\\u2106\\u2108\\u2109\\u2114\\u2116\\u2117\\u211E-\\u2123\\u2125\\u2127\\u2129\\u212E\\u213A\\u213B\\u214A\\u214C\\u214D\\u214F\\u218A\\u218B\\u2195-\\u2199\\u219C-\\u219F\\u21A1\\u21A2\\u21

In [10]:
print(nlp.Defaults.stop_words)

{'几时', '凭借', '另行', '一边', '而又', '接连不断', '不可', '进步', '突然', '所', '我们', '及至', '蛮', '方才', '至', '一直', 'ａ］', '处理', '穷年累月', '［③ａ］', '显然', '对方', 'A', '恰似', '通常', '从而', '＞', '屡次三番', '同', 'μ', '总之', '不得了', '当', '如次', '可', '并没', '＋ξ', '因而', '；', '.一', '嘿嘿', '来得及', '还', '抽冷子', '那般', '成心', '切切', '切勿', '敢于', '强烈', '一片', '尔后', '亲手', '左右', '另', '传闻', '非徒', '转变', '迄', '请勿', '［①③］', '清楚', '大多', '分期', '某个', '此后', '直接', '千', '是', '全然', '二话没说', '像', '逐渐', '果真', '连日来', '哪', '看到', '来说', '再次', '梆', '那么些', '』', '［①ｃ］', '相同', '除了', '历', '类如', '喏', '或者', '将近', '@', '莫不', '鉴于', '［①ｇ］', '打从', '大举', '从无到有', '比较', '公然', '并排', '单', '不论', '不外乎', '她的', '［②⑧］', '用', '使得', '不经意', '平素', '绝', '为什么', '尽如人意', '比起', '嗡', '?', '怎', '简直', '甚且', '她是', '过', '”', '7', '或曰', '偏偏', '2', '那会儿', '更加', '理该', '真是', '只怕', '啷当', '＝″', '共同', '朝着', '使用', '加以', '碰巧', '依', '哪边', '不定', '维持', '恰巧', '两者', '为此', '彼此', '直到', '二来', '彻底', '难道', '既', '不仅仅是', '不胜', '几', '这就是说', '全部', '极大', '就地', '不得', '属于', '［④ａ］', '①', '转贴', 'ｅ］', '按照', '＄', '等到', '到底

In [11]:
text3 = "跨年玩很大"
doc3 = nlp(text3)

In [12]:
displacy.render(doc3)