# 使用BertViz觀察過去訓練的模型
https://github.com/dmmiller612/bert-extractive-summarizer

## 安裝套件

In [None]:
#安裝需要的套件
!pip install bert-extractive-summarizer
!pip install spacy==2.3.1
!pip install transformers
!pip install neuralcoref

#下載中文的spacy model
!python -m spacy download zh_core_web_lg

## 載入模型

In [2]:
# spaCy 載入中文模型
import spacy
import zh_core_web_lg
import neuralcoref

nlp = zh_core_web_lg.load()
neuralcoref.add_to_pipe(nlp)

# summarizer 載入中文模型
from summarizer import Summarizer
from summarizer.text_processors.sentence_handler import SentenceHandler
from spacy.lang.zh import Chinese

from transformers import *

# Load model, model config and tokenizer via Transformers
modelName = "bert-base-chinese" # 可以換成自己常用的
custom_config = AutoConfig.from_pretrained(modelName)
custom_config.output_hidden_states=True
custom_tokenizer = AutoTokenizer.from_pretrained(modelName)
custom_model = AutoModel.from_pretrained(modelName, config=custom_config)

model = Summarizer(
    custom_model=custom_model,
    custom_tokenizer=custom_tokenizer,
    sentence_handler = SentenceHandler(language=Chinese)
    )

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40155833/40155833 [00:09<00:00, 4040888.57B/s]
Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.820 seconds.
Prefix dict has been built successfully.
  from .autonotebook import tqdm as notebook_tqdm
https://huggingface.co/bert-base-chinese/resolve/main/config.json not found in cache or force_download set to True, downloading to /root/.cache/huggingface/transformers/tmpz1a6e7js
Downloading config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624/624 [00:00<00:00, 186kB/s]
storing https://huggingface.co/bert-base-chinese/resolve/main/config.json in cache at /root/.cache/huggingface/transformers/6cc404ca8136bc87bae0fb24f2259904943d776a6c5ddc26598bbdc319476f42.0f9bcd8314d841c06633e

## 使用模型
model(
    body: str # The string body that you want to summarize
    ratio: float # The ratio of sentences that you want for the final summary
    min_length: int # Parameter to specify to remove sentences that are less than 40 characters
    max_length: int # Parameter to specify to remove sentences greater than the max length,
    num_sentences: Number of sentences to use. Overrides ratio if supplied.
)

In [None]:
body = """給定在一個「單一選區」(single-member district)的選舉中,兩位主要候選
人的看好度有明顯差距,這項差距無法透過競選活動大幅將其縮小,看好度較低
的一方最後如何能夠勝出?這樣的條件設定對看好度較低的一方要贏得選舉,相
對較不容易,但是如果加入第三位競爭者,吸走部份的選票,使得前兩位的競爭
呈現勢均力敵的態勢,則原先看好度較低的一方就有可能贏得選舉。這位「第三
位競爭者」的角色,可以稱為三人競選中的「槓桿者」(leverage person),也就
是平衡了前兩位候選人的競選情境。那麼這位「槓桿者」應該具備什麼條件,可
以穩穩地吸走一部份的選票?或者說選民為什麼會投票給這位「槓桿者」,即使
他的勝算相對的較低?這是本論文試圖回答的問題。
為了回答此一問題,本論文發現新竹市最近三次的選舉有上述的現象存在,
是很好的實證分析素材。回顧新竹市 2009 年及 2014 年的市長選舉,以及最近剛
舉行過的 2016 年立法委員選舉,都只有一個當選名額,也就是所謂的「單一選
區」。在最初的 2009 年市長選舉,國民黨所推出的候選人 B 獲得 55.63%的選票,
而民進黨的候選人劉俊秀僅獲得 41.32%的選票,兩者的看好度有明顯的差距。
2014的市長選舉民進黨推出A,獲得38.36%的選票;2016的立委選舉民進黨提名
柯建銘,獲得 41.33%的選票。這三次的選舉顯示,民進黨在新竹市的選票基礎僅
四成左右,並未過半。2009 市長選舉民進黨落敗,但是 2014 市長選舉及 2016 立
委選舉皆由民進黨候選人勝出,其中的關鍵是 2014 年有「第三位競爭者」C 拿走
的 20.28%的選票,2016 年有「第三位競爭者」邱顯智獲得 16.55%的選票支持,這
兩成左右的選票沒有倒向國民黨,是不是民進黨勝出的原因?(詳見表 1-1)本論
文:三人競選中的「槓桿者」角色,就非常有研究的意義,希望能夠進一步予以
解答,並與國內外相關理論和案例,做深入的討論。"""

result = model(body)
full = ''.join(result)
print(full) # 摘要出來的句子