<a href="https://colab.research.google.com/github/howard-haowen/NLP-demos/blob/main/spacy-playground.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from traitlets.config.manager import BaseJSONConfigManager
from pathlib import Path

In [None]:
path = Path.home() / ".jupyter" / "nbconfig"
cm = BaseJSONConfigManager(config_dir=str(path))
cm.update(
    "rise",
    {
        "autolaunch": False,
        "enable_chalkboard": True,
        "scroll": True,
        "slideNumber": True,
        "controls": True,
        "progress": True,
        "history": True,
        "center": True,
        "width": "100%",
        "height": "100%",
        "theme": "beige",
        "transition": "concave",
        "start_slideshow_at": "selected"
     }
)

# Download a model

In [None]:
!pip install -U pip setuptools wheel
!pip install -U spacy
!python -m spacy download zh_core_web_md

In [4]:
!pip show spacy

Name: spacy
Version: 3.2.4
Summary: Industrial-strength Natural Language Processing (NLP) in Python
Home-page: https://spacy.io
Author: Explosion
Author-email: contact@explosion.ai
License: MIT
Location: /usr/local/lib/python3.7/dist-packages
Requires: blis, catalogue, click, cymem, jinja2, langcodes, murmurhash, numpy, packaging, pathy, preshed, pydantic, requests, setuptools, spacy-legacy, spacy-loggers, srsly, thinc, tqdm, typer, typing-extensions, wasabi
Required-by: en-core-web-sm, fastai, zh-core-web-md


# Import a model

In [6]:
import spacy

# Load a model

In [7]:
nlp = spacy.load("zh_core_web_md")
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'ner']

# Convert a raw text to a Doc object

In [27]:
text = """隨著金融科技發展與數位化浪潮，許多金融機構積極推動數位轉型，發展數位支付、網路銀行和智能客服等服務。新光產物保險(新光產險)以智能客服、核保與理賠三大系統導入保險客戶服務，榮獲第九屆臺灣保險卓越獎「保戶服務」金質獎。其中，智能客服採用由經濟部技術處科技專案支持、財團法人資訊工業策進會數位轉型研究所(資策會數位所)所開發的「文字對話虛擬助理」技術，成功將AI人工智慧技術應用於產險業，提昇客戶服務品質與效率。"""
doc = nlp(text)

# Sentences

In [28]:
for sentence in doc.sents:
    print(sentence.text)

隨著金融科技發展與數位化浪潮，許多金融機構積極推動數位轉型，發展數位支付、網路銀行和智能客服等服務。
新光產物保險(新光產險)以智能客服、核保與理賠三大系統導入保險客戶服務，榮獲第九屆臺灣保險卓越獎「保戶服務」金質獎。
其中，智能客服採用由經濟部技術處科技專案支持、財團法人資訊工業策進會數位轉型研究所(資策會數位所)所開發的「文字對話虛擬助理」技術，成功將AI人工智慧技術應用於產險業，提昇客戶服務品質與效率。


# Token texts

In [29]:
for token in doc:
    print(token.text, end="|")

隨著|金融|科技|發展|與數|位化|浪潮|，|許多|金融|機構|積極|推動|數位|轉型|，|發展|數位|支付|、|網路|銀行|和|智能|客服|等|服務|。|新光|產物|保險|(新|光產|險)|以|智能|客服|、|核保與|理賠|三大|系統|導入|保險|客戶|服務|，|榮獲|第九|屆|臺灣|保險|卓越|獎|「|保戶|服務|」|金質獎|。|其中|，|智能|客服|採用|由|經濟部|技術|處|科技|專案|支持|、|財團|法人|資|訊工|業策|進會|數位|轉型|研究所|(資|策會|數位|所|)|所|開發|的|「|文字|對話|虛擬|助理|」|技術|，|成功|將A|I|人工|智慧|技術|應用|於產|險業|，|提昇|客|戶服|務品|質與|效率|。|

# Parts of speech (POS)

In [30]:
for token in doc:
    print(token.text, token.pos_, sep=">>>")

隨著>>>VERB
金融>>>NOUN
科技>>>NOUN
發展>>>NOUN
與數>>>ADJ
位化>>>NOUN
浪潮>>>NOUN
，>>>PUNCT
許多>>>NUM
金融>>>NOUN
機構>>>NOUN
積極>>>ADV
推動>>>VERB
數位>>>PROPN
轉型>>>NOUN
，>>>PUNCT
發展>>>VERB
數位>>>PROPN
支付>>>VERB
、>>>PUNCT
網路>>>NOUN
銀行>>>NOUN
和>>>CCONJ
智能>>>NOUN
客服>>>NOUN
等>>>PART
服務>>>NOUN
。>>>PUNCT
新光>>>PROPN
產物>>>NOUN
保險>>>NOUN
(新>>>VERB
光產>>>NOUN
險)>>>PUNCT
以>>>ADP
智能>>>NOUN
客服>>>NOUN
、>>>PUNCT
核保與>>>NOUN
理賠>>>VERB
三大>>>PART
系統>>>NOUN
導入>>>VERB
保險>>>NOUN
客戶>>>NOUN
服務>>>VERB
，>>>PUNCT
榮獲>>>ADP
第九>>>NUM
屆>>>NUM
臺灣>>>PROPN
保險>>>NOUN
卓越>>>ADJ
獎>>>PROPN
「>>>PUNCT
保戶>>>NOUN
服務>>>NOUN
」>>>PUNCT
金質獎>>>NOUN
。>>>PUNCT
其中>>>NOUN
，>>>PUNCT
智能>>>NOUN
客服>>>NOUN
採用>>>VERB
由>>>ADP
經濟部>>>PROPN
技術>>>NOUN
處>>>PROPN
科技>>>NOUN
專案>>>ADJ
支持>>>NOUN
、>>>PUNCT
財團>>>ADJ
法人>>>NOUN
資>>>NOUN
訊工>>>NOUN
業策>>>NOUN
進會>>>NOUN
數位>>>PROPN
轉型>>>NOUN
研究所>>>NOUN
(資>>>NOUN
策會>>>NOUN
數位>>>PROPN
所>>>VERB
)>>>PROPN
所>>>PART
開發>>>VERB
的>>>PART
「>>>PUNCT
文字>>>NOUN
對話>>>VERB
虛擬>>>ADJ
助理>>>NOUN
」>>>PUNCT
技術>>>NOUN
，>>>PUNCT
成功>>>ADV
將A>>>NOUN
I>>>PRON


In [31]:
for token in doc:
    print(token.text, token.tag_, spacy.explain(token.tag_), sep=">>>")

隨著>>>VV>>>other verb
金融>>>NN>>>noun, singular or mass
科技>>>NN>>>noun, singular or mass
發展>>>NN>>>noun, singular or mass
與數>>>JJ>>>adjective (English), other noun-modifier (Chinese)
位化>>>NN>>>noun, singular or mass
浪潮>>>NN>>>noun, singular or mass
，>>>PU>>>punctuation
許多>>>CD>>>cardinal number
金融>>>NN>>>noun, singular or mass
機構>>>NN>>>noun, singular or mass
積極>>>AD>>>adverb
推動>>>VV>>>other verb
數位>>>NR>>>proper noun
轉型>>>NN>>>noun, singular or mass
，>>>PU>>>punctuation
發展>>>VV>>>other verb
數位>>>NR>>>proper noun
支付>>>VV>>>other verb
、>>>PU>>>punctuation
網路>>>NN>>>noun, singular or mass
銀行>>>NN>>>noun, singular or mass
和>>>CC>>>conjunction, coordinating
智能>>>NN>>>noun, singular or mass
客服>>>NN>>>noun, singular or mass
等>>>ETC>>>for words 等, 等等
服務>>>NN>>>noun, singular or mass
。>>>PU>>>punctuation
新光>>>NR>>>proper noun
產物>>>NN>>>noun, singular or mass
保險>>>NN>>>noun, singular or mass
(新>>>VV>>>other verb
光產>>>NN>>>noun, singular or mass
險)>>>PU>>>punctuation
以>>>P>>>preposition excluding 

# Dependency tags (DEP)

In [34]:
for token in doc:
    print(token.text, token.dep_, token.head.text, sep=">>>")

隨著>>>ROOT>>>隨著
金融>>>compound:nn>>>發展
科技>>>compound:nn>>>發展
發展>>>compound:nn>>>浪潮
與數>>>amod>>>浪潮
位化>>>compound:nn>>>浪潮
浪潮>>>dobj>>>隨著
，>>>punct>>>隨著
許多>>>dep>>>推動
金融>>>compound:nn>>>機構
機構>>>nsubj>>>推動
積極>>>advmod>>>推動
推動>>>conj>>>隨著
數位>>>nmod:assmod>>>轉型
轉型>>>dobj>>>推動
，>>>punct>>>推動
發展>>>conj>>>推動
數位>>>nsubj>>>支付
支付>>>acl>>>服務
、>>>punct>>>客服
網路>>>compound:nn>>>客服
銀行>>>conj>>>客服
和>>>cc>>>客服
智能>>>compound:nn>>>客服
客服>>>dobj>>>支付
等>>>etc>>>客服
服務>>>dobj>>>發展
。>>>punct>>>隨著
新光>>>compound:nn>>>保險
產物>>>compound:nn>>>保險
保險>>>nsubj>>>(新
(新>>>nmod:prep>>>服務
光產>>>dobj>>>(新
險)>>>punct>>>(新
以>>>case>>>理賠
智能>>>compound:nn>>>客服
客服>>>conj>>>理賠
、>>>punct>>>理賠
核保與>>>nsubj>>>理賠
理賠>>>nmod:prep>>>導入
三大>>>etc>>>理賠
系統>>>nsubj>>>導入
導入>>>conj>>>(新
保險>>>compound:nn>>>客戶
客戶>>>nsubj>>>服務
服務>>>ROOT>>>服務
，>>>punct>>>服務
榮獲>>>case>>>保險
第九>>>nummod>>>保險
屆>>>mark:clf>>>第九
臺灣>>>compound:nn>>>保險
保險>>>nsubj>>>獎
卓越>>>amod>>>獎
獎>>>nsubj>>>金質獎
「>>>punct>>>服務
保戶>>>compound:nn>>>服務
服務>>>compound:nn>>>金質獎
」>>>punct>>>服務
金質獎>>>co

# Named entities (NER)

In [32]:
for entity in doc.ents:
    print(entity.text, entity.label_, sep=">>>")

新光產物保險(新光產>>>ORG
三大>>>CARDINAL
第九>>>ORDINAL
經濟部>>>ORG
訊工業策進會>>>ORG
數位轉型研究所>>>ORG
