<a href="https://colab.research.google.com/github/howard-haowen/NLP-demos/blob/main/NQU_text_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 中文分詞與分析應用

講者: [江豪文](howard-haowen.github.io)

![](https://github.com/howard-haowen/NLP-demos/raw/main/img/NQU_applications_of_tokens.png)

### 目標

- <font size="8">學習大量分析中文文本的工具與方法</font>
- <font size="8">了解用程式解決問題的基本方法</font>
- <font size="8">培養人文觀點的數據思維</font>

## 大綱

- <font size="10">什麼是分詞</font>
- <font size="10">如何使用程式分詞</font>
- <font size="10">大量文本分析與應用</font>


## 什麼是分詞

- 三種常見的分詞顆粒度

![](https://www.freecodecamp.org/news/content/images/size/w2000/2021/10/IMG_0079.jpg)

## 如何使用程式分詞

### 代表性的中文分詞模型

- <font size="8">結巴 jieba</font>
- <font size="8">北大分詞 PKUSeg </font>
- <font size="8">[中研院 CKIP Transformers](https://ckip.iis.sinica.edu.tw/service/transformers/)</font>

### NLP框架

- 使用NLP框架`spaCy`整合各種模型的使用

![](https://d33wubrfki0l68.cloudfront.net/3ad0582d97663a1272ffc4ccf09f1c5b335b17e9/7f49c/pipeline-fde48da9b43661abcdf62ab70a546d71.svg)

In [1]:
#@title
!pip install -q -U pip setuptools wheel
!pip install -q -U spacy
!python -m spacy download zh_core_web_sm

[K     |████████████████████████████████| 2.1 MB 32.6 MB/s 
[K     |████████████████████████████████| 1.2 MB 55.9 MB/s 
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
ipython 7.9.0 requires jedi>=0.10, which is not installed.[0m
[0m2022-11-23 14:32:00.220191: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting zh-core-web-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.4.0/zh_core_web_sm-3.4.0-py3-none-any.whl (48.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.4/48.4 MB[0m [31m16.2 MB/s[0m eta [36m0:00:00[0m
Collecting spacy-pkuseg<0.1.0,>=0.0.27
  Downloading spacy_pkuseg-0.0.32-

In [2]:
#@title
!git clone -l -s https://github.com/L706077/jieba-zh_TW.git jieba_tw
%cd jieba_tw
import jieba
%cd ../

Cloning into 'jieba_tw'...
remote: Enumerating objects: 2320, done.[K
remote: Total 2320 (delta 0), reused 0 (delta 0), pack-reused 2320[K
Receiving objects: 100% (2320/2320), 36.07 MiB | 20.89 MiB/s, done.
Resolving deltas: 100% (1498/1498), done.
/content/jieba_tw
/content


In [3]:
#@title
import spacy
from spacy.tokens import Doc

nlp = spacy.load("zh_core_web_sm")

class TwTokenizer:
    def __init__(self, vocab):
        self.vocab = vocab

    def __call__(self, text):
        words =  jieba.lcut(text)
        spaces = [False] * len(words)        
        return Doc(self.vocab, words=words, spaces=spaces)

nlp.tokenizer = TwTokenizer(nlp.vocab)

In [5]:
!pip install icecream

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting icecream
  Downloading icecream-2.1.3-py2.py3-none-any.whl (8.4 kB)
Collecting executing>=0.3.1
  Downloading executing-1.2.0-py2.py3-none-any.whl (24 kB)
Collecting asttokens>=2.0.1
  Downloading asttokens-2.1.0-py2.py3-none-any.whl (26 kB)
Collecting colorama>=0.3.9
  Downloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)
Installing collected packages: executing, colorama, asttokens, icecream
Successfully installed asttokens-2.1.0 colorama-0.4.6 executing-1.2.0 icecream-2.1.3
[0m

In [6]:
#@title
from icecream import ic

def show_tokens(text, seperator="|"):
    tokens = [token.text for token in nlp(text)]
    tokenized_result =  f"{seperator}".join(tokens)
    ic(tokenized_result)

In [7]:
TEXT = """
國立金門大學今天舉行建校26周年校慶典禮，校慶主題呼應26諧音「二樂」，設定為「樂觀樂群快樂前行」，包括總統與副總統都特頒賀電祝福，金門縣長楊鎮浯則是表示，金門大學從分校、學院到改制大學，一路走來，已經成為金門重要智庫，以及人才培育的搖籃，誠摯祝福金大的發展越來越好，前景越來越璀璨。
"""
show_tokens(TEXT)

Building prefix dict from the default dictionary ...
DEBUG:jieba:Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
DEBUG:jieba:Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.929 seconds.
DEBUG:jieba:Loading model cost 0.929 seconds.
Prefix dict has been built succesfully.
DEBUG:jieba:Prefix dict has been built succesfully.
ic| tokenized_result: ('
                      '
                       '|國立|金門|大學|今天|舉行|建校|26|周年|校慶|典禮|，|校慶|主題|呼應|26|諧音|「|二樂|」|，|設定為|「|樂觀|樂群|快樂|前行|」|，|包括|總統|與|副總統|都|特頒|賀電|祝福|，|金門|縣長|楊鎮浯|則|是|表示|，|金門|大學|從|分校|、|學院|到|改制|大學|，|一路|走來|，|已經|成為|金門|重要|智庫|，|以及|人才|培育|的|搖籃|，|誠摯|祝福|金大|的|發展|越來越|好|，|前景|越來越|璀璨|。|
                      ')


In [8]:
#@title
!pip -q install pytextrank

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m47.0/47.0 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m42.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.2/11.2 MB[0m [31m73.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m965.4/965.4 kB[0m [31m49.0 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
ipython 7.9.0 requires jedi>=0.10, which is not installed.[0m[31m
[0m

In [9]:
import pytextrank
nlp.add_pipe("textrank")

<pytextrank.base.BaseTextRankFactory at 0x7f278662a490>

In [10]:
nlp.analyze_pipes(pretty=True)

[1m

#   Component         Assigns               Requires   Scores             Retokenizes
-   ---------------   -------------------   --------   ----------------   -----------
0   tok2vec           doc.tensor                                          False      
                                                                                     
1   tagger            token.tag                        tag_acc            False      
                                                                                     
2   parser            token.dep                        dep_uas            False      
                      token.head                       dep_las                       
                      token.is_sent_start              dep_las_per_type              
                      doc.sents                        sents_p                       
                                                       sents_r                       
                                                

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'tagger': {'assigns': ['token.tag'],
   'requires': [],
   'scores': ['tag_acc'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'textrank': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False}},
 'problems': {'tok2vec': [],
  'tagger': [],
  'parser': [],
  'attribute_ruler': [],
  'ner': [],
  'textrank': []},
 'attrs': {'token.tag': {'assigns

## 大量文本分析與應用

- <font size="8">準備文本</font>
- <font size="8">文本前處理 </font>
- <font size="8">文本類別統計</font>
- <font size="8">topK高頻詞</font>
    - <font size="8">依關鍵詞過濾</font>
    - <font size="8">依詞類過濾</font>
    - <font size="8">依命名實體類別過濾</font>

### 準備文本

In [11]:
#@title
import requests
import pandas as pd
pd.options.plotting.backend = "plotly"

def fetch_data(keyword, limit='100'):
    payload = {'limit': limit, 
               'offset': '0',
               'keyword': keyword}
    url = f"https://api10.daoyidh.com/yhl/zh-tw/search/keyword/1.0"
    resp = requests.get(url, params=payload)
    data = resp.json().get("data")
    df = pd.DataFrame(data)
    return df

In [12]:
KEYWORD = "金門大學"
df = fetch_data(KEYWORD)
df

Unnamed: 0,date,artId,author,label,dataset,content
0,2022-06-11,ART34335,陳長慶,珍惜活在當下的每一個時光 ──《浯鄉縮影：陳長慶散文集2014~2021》自序,副刊文學,《浯鄉縮影》是我從2014至2021年，陸續在報刊發表的散文作品。即使只有少數的二十三篇，然...
1,2022-05-18,ART34425,魏千宸,首次訪金，首次穿梭特色金大校園,副刊文學,首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表上漸漸清晰之際，首先映入眼簾的是...
2,2022-05-18,ART34424,洪春柳,認識自我 有取有捨 ──訪金中輔導老師李瓊芳談生活小道,副刊文學,輔導的精義：在一段時間裡，陪伴一個人，盡力地幫一個人認識自己。輔導學生認識自我，肯定自我。輔...
3,2022-05-06,ART34478,陳為學,金嶝親橋一線牽,副刊文學,金門大學前院長陳益源教授於2018年4月29日，在金門日報的「浯江夜話」發表他借調金門後的第...
4,2022-03-29,ART34641,黃克全,知人論世和以意逆志——談楊樹清、陳慶瀚與吳鈞堯,副刊文學,楊樹清竟是一個不折不扣的阜內思。我閱讀波赫士這篇小說時有兩張臉重疊著，意思是以下的敘述主體可...
...,...,...,...,...,...,...
95,2015-05-21,ART45069,陳麗玉,話說后宅洋樓,副刊文學,洋樓的滄桑與興修_x000D_\n 「王金城洋樓」於民國21年興建完工，當時因王金鎖等兄弟...
96,2015-05-09,ART45110,蔡宜庭,DOBGFamily,副刊文學,對我們身邊很多人來說，金門離島亂遠的，到底是國內還是國外傻傻分不清楚，十分不解大部分的我們怎...
97,2015-05-08,ART45112,李金振,眾志成城共創金大奇蹟（下）,副刊文學,五、從落榜生到榜首_x000D_\n辦學的最終目的是得天下英才而教育之。本校創設之單純目的，...
98,2015-05-08,ART45113,莊舒惠,建立和諧的人際關係──非暴力溝通,副刊文學,在我們的日常生活中難免會與他人發生爭執，歸究其原因，也許是我們習慣以先入為主的觀念做比較與批...


In [13]:
sample_text = df.at[1, 'content']
sample_text

'首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表上漸漸清晰之際，首先映入眼簾的是行駛在海上的一艘艘貨船，宛若風中小筏，乘風而前欲往之處。飛機隨一秒秒的時間靠近金門島上，一幢幢紅屋瓦舍屋頂漸現，空中彷彿流竄著一絲絲閩風，空中散發出與台灣不同的氣氛，像是穿越時光與空間，穿越到當年陶淵明所述的桃花源，心中滿滿是說不出的感動及雀躍，正因飛機即將降落的是我未來即將要生活多年的地方─金門。\n\xa0\xa0剛出尚義機場，薰風迎面而來，或許是風獅爺的庇佑，矗立在風頭的島鄉竟風不比號稱風城的故土新竹，浯洲的風是柔情的風、是舒適的風。在金門夏日的蒼穹湛藍無雲，透徹的天際映著蒼茫的海水，大武山特立天際，一排排蒼翠的大樹，短綴著金門獨特的紅土。讓酷熱的夏日，有可以在大樹下休憩的機會。或許是拜當年軍管之賜，雖令浯島居民曾經歷生活不自由的日子，卻意外地將金門最具價值的文化資產，原汁原味的保存下來。\n\xa0\xa0金門的王宅十八間、得月樓等建築聞名全台，位於金寧盤山的金門大學卻意外的令我驚豔，其中幢幢閩式風情的校舍，不只是照片上風格在地化特別的風味，當場觀看，龐大的建築量體，紅磚外牆，黑瓦燕脊，鑲著閩式特有的建築裝飾，富文化特色的校園建築，動人的令我無法自已，有著閩式建築小巧精緻的裝飾特色，又有建築大型量體的氣派，綜合教學大樓正立面上兩旁八角式的處理，增強正立面的氣勢。圖資大樓旁的高台讓人聯想當初聚落為海防而建的得月樓，一棟棟風格相似的校舍宛若一個小型聚落，讓我不禁讚嘆當年設計校舍的建築師是如何發揮此種巧思，也許是金門的建築特色太讓人目眩神迷了吧!\n\xa0\xa0在後現代全球國際主義風潮下的建築，大多都走向幾何建構的極簡風，大多建築乍看之下都有屬於各自的建築設計巧思，卻鮮有應屬於當地特有的建築特色，金門大學所採當地閩風建築為風格建設校舍，我個人認為是台灣各大學中最具有特色的其中之一，雖沒有台大等老校有校內古蹟加持，卻在一片追求新穎、炫麗的現代建築中走出屬於自己的一條路。\n\xa0\xa0許多現代建築師想要創造屬於東方風格建築的風氣，卻常敗筆在大量體建築物與東方傳統小巧結構風格衝突，常造成太過具象化的建築詭譎，像是只是扣著琉璃大盤帽的西方建築，我覺得有時與其將北方傳統大型建築特色硬融入當今建築，不妨參考金大校舍，將閩南地區特有的紅磚、板瓦融入建物中，配合著古代的窗櫺，在

### ✍ 練習

- 在KEYWORD的引號內輸入一段文字
- 刪除頭尾的 """ 之後執行

In [14]:
"""
KEYWORD = ""
df = fetch_data(KEYWORD)
df
"""

'\nKEYWORD = ""\ndf = fetch_data(KEYWORD)\ndf\n'

- 上面執行成功後，刪除下面頭尾的 """ 之後執行

In [15]:
"""
sample_text = df.at[1, 'content']
sample_text
"""

"\nsample_text = df.at[1, 'content']\nsample_text\n"

### 文本前處理

In [16]:
#@title
def preprocess_df(df):
    columns = ['date', 'author']
    new_df = df.copy()[columns]
    new_df['text'] = df['label'] + ' ' + df['content']
    return new_df

In [17]:
new_df = preprocess_df(df)
new_df

Unnamed: 0,date,author,text
0,2022-06-11,陳長慶,珍惜活在當下的每一個時光 ──《浯鄉縮影：陳長慶散文集2014~2021》自序 《浯鄉縮影》...
1,2022-05-18,魏千宸,首次訪金，首次穿梭特色金大校園 首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表...
2,2022-05-18,洪春柳,認識自我 有取有捨 ──訪金中輔導老師李瓊芳談生活小道 輔導的精義：在一段時間裡，陪伴一個人...
3,2022-05-06,陳為學,金嶝親橋一線牽 金門大學前院長陳益源教授於2018年4月29日，在金門日報的「浯江夜話」發表...
4,2022-03-29,黃克全,知人論世和以意逆志——談楊樹清、陳慶瀚與吳鈞堯 楊樹清竟是一個不折不扣的阜內思。我閱讀波赫士...
...,...,...,...
95,2015-05-21,陳麗玉,話說后宅洋樓 洋樓的滄桑與興修_x000D_\n 「王金城洋樓」於民國21年興建完工，當時...
96,2015-05-09,蔡宜庭,DOBGFamily 對我們身邊很多人來說，金門離島亂遠的，到底是國內還是國外傻傻分不清楚，...
97,2015-05-08,李金振,眾志成城共創金大奇蹟（下） 五、從落榜生到榜首_x000D_\n辦學的最終目的是得天下英才而...
98,2015-05-08,莊舒惠,建立和諧的人際關係──非暴力溝通 在我們的日常生活中難免會與他人發生爭執，歸究其原因，也許是...


In [18]:
#@title

def preprocess_texts(texts):
    PUNCT_SYM = ["PUNCT", "SYM"]

    clean_texts = []    
    # nlp.pipe() is more efficient than nlp()
    for doc in nlp.pipe(texts, disable=["tok2vec", "tagger", "parser", "ner", "textrank"]):
        tokens = [tok for tok in doc if tok.pos_ not in PUNCT_SYM]
        tokens = [tok.text for tok in tokens if (
                    not tok.is_stop 
                    and not tok.is_punct
                    and not tok.is_currency
                    and not tok.is_space
                    and not tok.like_num
                    and not tok.like_url
                    and not tok.like_email
                )
        ]
        clean_text = " ".join(tokens)
        clean_texts.append(clean_text)
    return clean_texts

In [19]:
clean_text = preprocess_texts([sample_text])
clean_text

['首 次 乘著 飛機 盤桓 這 座 古稱 浯洲 上空 正當 飛機 雲層 地表 漸漸 清晰 之際 映入 眼簾 行駛 海上 艘 艘 貨船 宛若 風中 小筏 乘風 前 欲 往之處 飛機 隨 一秒 秒 時間 靠近 金門島 幢幢 紅屋 瓦舍 屋頂 漸現 空中 彷彿 流竄 著 絲絲 閩 風 空中 散發出 與 台灣 氣氛 穿越 時光 與 空間 穿越 當年 陶淵明 所述 桃花源 心中 滿滿 說 不出 感動 雀躍 正 飛機 即將 降落 未來 即將 生活 多年 地方 ─ 金門 剛出 尚義 機場 薰風 迎面 來 或許 風獅爺 庇佑 矗立 風頭 島鄉 竟風 號稱 風城 故土 新竹 浯洲 風是 柔情 風 舒適 風 金門 夏日 蒼穹 湛藍 無 雲 透徹 天際 映著 蒼茫 海水 大武山 特立 天際 排排 蒼翠 大樹 短綴 著 金門 獨特 紅土 讓 酷熱 夏日 大樹 休憩 機會 或許 是拜 當年 軍管 賜 雖 令 浯島 居民 經歷 生活 自由 日子 卻 意外 將 金門 具 價值 文化 資產 原汁 原味 保存 下來 金門 王宅 十八間 月樓 建築 聞名 全台 位於 金寧 盤山 金門 大學 卻 意外 令 驚豔 中 幢幢 閩式 風情 校舍 照片 風格 地化 特別 風味 當場 觀看 龐大 建築 量體 紅磚 外牆 黑瓦 燕脊 鑲 著 閩式 特有 建築 裝飾 富 文化 特色 校園 建築 動人 令 無法自已 著 閩式 建築 小巧 精緻 裝飾 特色 建築 大型 量體 氣派 綜合 教學 大樓 正 立面 兩 旁 角式 處理 增強 正 立面 氣勢 圖資 大樓 旁 高台 讓 聯想 當初 聚落 為 海防 而建 月樓 棟 棟 風格 校舍 宛若 個 小型 聚落 讓 不禁 讚嘆 當年 設計 校舍 建築師 發揮 種 巧思 也許 金門 建築 特色 太 讓 目眩神迷 後現代 全球 國際 主義 風潮 建築 走向 幾何 建構 極簡 風 建築 乍看 之下 屬於 建築 設計 巧思 卻 鮮有 應 屬於 當地 特有 建築 特色 金門 大學 採 當地 閩 風 建築 為 風格 建設 校舍 個 認為 台灣 大學 中 特色 中 雖 沒有 台大 老校 校內 古蹟 加持 卻 追求 新穎 炫麗 現代 建築 中 走出 屬於 條路 許多 現代 建築師 想要 創造 屬於 東方 風格 建築 風氣 卻 敗筆 量體 建築物 與 東方 傳統 小巧 結構 風格 衝突 太過 

In [20]:
TEXTS = new_df['text']
new_df['clean_text'] = preprocess_texts(TEXTS)
new_df

Unnamed: 0,date,author,text,clean_text
0,2022-06-11,陳長慶,珍惜活在當下的每一個時光 ──《浯鄉縮影：陳長慶散文集2014~2021》自序 《浯鄉縮影》...,珍惜 活在 當下 個 時光 ─ ─ 浯鄉 縮影 陳 長慶 散文集 自序 浯鄉 縮影 從 年 ...
1,2022-05-18,魏千宸,首次訪金，首次穿梭特色金大校園 首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表...,首 次 訪金 首 次 穿梭 特色 金大 校園 首 次 乘著 飛機 盤桓 這 座 古稱 浯洲 ...
2,2022-05-18,洪春柳,認識自我 有取有捨 ──訪金中輔導老師李瓊芳談生活小道 輔導的精義：在一段時間裡，陪伴一個人...,認識 自我 有取 有捨 ─ ─ 訪金 中 輔導 老師 李 瓊芳 談 生活 小道 輔導 精義 ...
3,2022-05-06,陳為學,金嶝親橋一線牽 金門大學前院長陳益源教授於2018年4月29日，在金門日報的「浯江夜話」發表...,金 嶝 親 橋 一線 牽 金門 大學 前院長 陳益源 教授 於 年 月 日 金門 日報 浯江...
4,2022-03-29,黃克全,知人論世和以意逆志——談楊樹清、陳慶瀚與吳鈞堯 楊樹清竟是一個不折不扣的阜內思。我閱讀波赫士...,知人 論世 以意 逆志 談 楊 樹清 陳慶 瀚與 吳 鈞堯 楊 樹清 竟是 個 不折不扣 的...
...,...,...,...,...
95,2015-05-21,陳麗玉,話說后宅洋樓 洋樓的滄桑與興修_x000D_\n 「王金城洋樓」於民國21年興建完工，當時...,話 說 后宅 洋樓 洋樓 滄桑 與 興修 x000D 王 金城 洋樓 於 民國 年 興建 完...
96,2015-05-09,蔡宜庭,DOBGFamily 對我們身邊很多人來說，金門離島亂遠的，到底是國內還是國外傻傻分不清楚，...,DOBGFamily 對 我們 身邊 人來 說 金門 離島 亂遠 國內 還是 國外 傻傻 分...
97,2015-05-08,李金振,眾志成城共創金大奇蹟（下） 五、從落榜生到榜首_x000D_\n辦學的最終目的是得天下英才而...,眾志成城 共創 金大 奇蹟 從 落榜生 榜首 x000D 辦學 最終 目的 天下 英才 教育...
98,2015-05-08,莊舒惠,建立和諧的人際關係──非暴力溝通 在我們的日常生活中難免會與他人發生爭執，歸究其原因，也許是...,建立 和諧 人際 關係 ─ ─ 非暴力 溝通 我們 日常 生活 中 難免 會 與 發生 爭執...


### 練習 ✍

- 刪除頭尾的 """ 之後執行

In [21]:
"""
new_df = preprocess_df(df)
TEXTS = new_df['text']
new_df['clean_text'] = preprocess_texts(TEXTS)
new_df
"""

"\nnew_df = preprocess_df(df)\nTEXTS = new_df['text']\nnew_df['clean_text'] = preprocess_texts(TEXTS)\nnew_df\n"

### 文本類別統計

In [22]:
CATEGORY = 'author'
cat_counts = new_df[CATEGORY].value_counts()
cat_counts

陳長慶    8
陳慶元    5
陳為學    4
李金振    4
吳如明    3
      ..
洪明燦    1
魏千宸    1
陳秀竹    1
楊天厚    1
莊舒惠    1
Name: author, Length: 69, dtype: int64

In [23]:
cat_counts.plot.bar()

In [24]:
cat_counts.plot.area()

### 練習 ✍

- 刪除頭尾的 """ 之後執行

In [25]:
"""
CATEGORY = 'author'
cat_counts = new_df[CATEGORY].value_counts()
cat_counts.plot.bar()
"""

"\nCATEGORY = 'author'\ncat_counts = new_df[CATEGORY].value_counts()\ncat_counts.plot.bar()\n"

### topK高頻詞

In [26]:
#@title
import itertools
from collections import Counter

def count_words(df, text_col):
    nested_words = [row.split() for row in df[text_col]]
    flat_words = itertools.chain(*nested_words)
    counter = Counter(flat_words)
    return counter

In [27]:
counter = count_words(new_df, 'clean_text')

In [28]:
topK = 50
counter.most_common(topK)

[('金門', 1542),
 ('與', 726),
 ('個', 705),
 ('這', 620),
 ('大學', 465),
 ('我們', 459),
 ('x000D', 410),
 ('著', 390),
 ('說', 347),
 ('年', 338),
 ('中', 334),
 ('為', 312),
 ('讓', 282),
 ('楊', 281),
 ('還', 251),
 ('從', 250),
 ('對', 249),
 ('後', 248),
 ('來', 235),
 ('時', 235),
 ('陳', 222),
 ('會', 213),
 ('文學', 200),
 ('於', 200),
 ('老師', 197),
 ('兩', 196),
 ('次', 196),
 ('沒有', 187),
 ('卻', 181),
 ('種', 177),
 ('並', 172),
 ('位', 159),
 ('台灣', 154),
 ('將', 146),
 ('博士', 146),
 ('因為', 145),
 ('歷史', 145),
 ('月', 137),
 ('校長', 137),
 ('前', 136),
 ('─', 135),
 ('想', 134),
 ('他們', 134),
 ('教育', 124),
 ('生活', 119),
 ('忠禮', 117),
 ('民國', 111),
 ('妳', 111),
 ('歲', 109),
 ('裡', 107)]

In [29]:
#@title
def plot_topK_words(counter, topK=50):
    counter_df = pd.DataFrame(counter.most_common(topK), columns =['word', 'count'])
    plot = counter_df.set_index('word').plot.bar()
    return plot

In [30]:
plot_topK_words(counter, topK=50)

In [31]:
#@title
def show_keyterm_in_counter(counter, keyterm):
    for term, count in counter.items():
        if keyterm in term:
            ic(term, count)

In [32]:
show_keyterm_in_counter(counter, "金門")

ic| term: '金門', count: 1542
ic| term: '金門島', count: 11
ic| term: '金門縣', count: 72
ic| term: '金門人', count: 73
ic| term: '金門籍', count: 4
ic| term: '金門味', count: 1
ic| term: '金門城', count: 2
ic| term: '金門湖', count: 1
ic| term: '金門鎮', count: 4


In [33]:
#@title
def write_counter2txt(counter, filename):
    with open(f'{filename}.txt', 'w') as f:
        for term in sorted(counter, key=counter.get, reverse=True):
            f.write(f"{term}\t{counter[term]}\n")

In [34]:
write_counter2txt(counter, 'clean_text')

### 練習 ✍

- 修改`topK`的數字
- 刪除頭尾的 """ 之後執行

In [35]:
"""
topK = 50
counter = count_words(new_df, 'clean_text')
counter.most_common(topK)
"""

"\ntopK = 50\ncounter = count_words(new_df, 'clean_text')\ncounter.most_common(topK)\n"

- 上面執行成功後，刪除下面三個的#符號之後，依序執行，`金門`可以換成你感興趣的其他詞

In [36]:
#plot_topK_words(counter, topK=topK)

In [37]:
#show_keyterm_in_counter(counter, "金門")

In [38]:
#write_counter2txt(counter, 'clean_text')

### 依關鍵詞過濾

- Text Rank是常見的關鍵詞抽取演算法
![](https://upload.wikimedia.org/wikipedia/commons/1/1e/Websites_interlinking_to_illustrate_PageRank_percents.png)

In [39]:
doc = nlp(sample_text)
for phrase in doc._.phrases:
    ic(phrase)

ic| phrase: Phrase(text='北方傳統', chunks=[北方傳統], count=1, rank=0.475632100758785)
ic| phrase: Phrase(text='千年', chunks=[千年], count=1, rank=0.35672407556908875)
ic| phrase: Phrase(text='台灣', chunks=[台灣, 台灣], count=2, rank=0.35672407556908875)
ic| phrase: Phrase(text='大樓', chunks=[大樓, 大樓], count=2, rank=0.35672407556908875)
ic| phrase: Phrase(text='建築師', chunks=[建築師], count=1, rank=0.35672407556908875)
ic| phrase: Phrase(text='金門', chunks=[金門], count=1, rank=0.35672407556908875)
ic| phrase: Phrase(text='閩式', chunks=[閩式, 閩式, 閩式], count=3, rank=0.35672407556908875)
ic| phrase: Phrase(text='衝突', chunks=[衝突], count=1, rank=0.2951087819086472)
ic| phrase: Phrase(text='台大', chunks=[台大], count=1, rank=0.12640379149569736)
ic| phrase: Phrase(text='大武山', chunks=[大武山], count=1, rank=0.12640379149569736)
ic| phrase: Phrase(text='王宅', chunks=[王宅], count=1, rank=0.12640379149569736)
ic| phrase: Phrase(text='閩', chunks=[閩], count=1, rank=0.12640379149569736)
ic| phrase: Phrase(text='一秒秒', chunks=[一秒秒], 

In [40]:
tr = doc._.textrank
tr.plot_keyphrases()

In [41]:
#@title
def collect_keyterms(texts):
    all_keyterms = []    
    for doc in nlp.pipe(texts):
        phrases = [phrase.text for phrase in doc._.phrases]

        if phrases:
            keyterms = " ".join(phrases)
        else:
            keyterms = "NONE"
            
        all_keyterms.append(keyterms)
    return all_keyterms

In [42]:
new_df['keyterm'] = collect_keyterms(TEXTS)
new_df

Unnamed: 0,date,author,text,clean_text,keyterm
0,2022-06-11,陳長慶,珍惜活在當下的每一個時光 ──《浯鄉縮影：陳長慶散文集2014~2021》自序 《浯鄉縮影》...,珍惜 活在 當下 個 時光 ─ ─ 浯鄉 縮影 陳 長慶 散文集 自序 浯鄉 縮影 從 年 ...,胡志明市人文社科大學文學系 道範顏馨五桂聯芳 陳長慶短篇小說集 五位教授 凡塵悲歌 島嶼天青...
1,2022-05-18,魏千宸,首次訪金，首次穿梭特色金大校園 首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表...,首 次 訪金 首 次 穿梭 特色 金大 校園 首 次 乘著 飛機 盤桓 這 座 古稱 浯洲 ...,北方傳統 千年 台灣 大樓 建築師 金門 閩式 衝突 台大 大武山 王宅 閩 一秒秒 十八間
2,2022-05-18,洪春柳,認識自我 有取有捨 ──訪金中輔導老師李瓊芳談生活小道 輔導的精義：在一段時間裡，陪伴一個人...,認識 自我 有取 有捨 ─ ─ 訪金 中 輔導 老師 李 瓊芳 談 生活 小道 輔導 精義 ...,金門大學閩南研究所 金大研究助理 金中輔導室偏重 金中輔導室 慈橋社是高中 培育出 年齡層 ...
3,2022-05-06,陳為學,金嶝親橋一線牽 金門大學前院長陳益源教授於2018年4月29日，在金門日報的「浯江夜話」發表...,金 嶝 親 橋 一線 牽 金門 大學 前院長 陳益源 教授 於 年 月 日 金門 日報 浯江...,二話不說 今天 今日 傍晚 夏 張小燕 稟報 來自大嶝島 今年三月初 西元1989年張 過世...
4,2022-03-29,黃克全,知人論世和以意逆志——談楊樹清、陳慶瀚與吳鈞堯 楊樹清竟是一個不折不扣的阜內思。我閱讀波赫士...,知人 論世 以意 逆志 談 楊 樹清 陳慶 瀚與 吳 鈞堯 楊 樹清 竟是 個 不折不扣 的...,高雄義守大學 蜻蜓哲學家 過程中心論 工程系 幾乎 悲劇性 楊 現代性 邏輯性 立竿見影 小...
...,...,...,...,...,...
95,2015-05-21,陳麗玉,話說后宅洋樓 洋樓的滄桑與興修_x000D_\n 「王金城洋樓」於民國21年興建完工，當時...,話 說 后宅 洋樓 洋樓 滄桑 與 興修 x000D 王 金城 洋樓 於 民國 年 興建 完...,承澤祖德基業 三間 九十七 二樓 十一人 十五日 天錫借 日軍 明年 曾祖母 王仁 王金 過...
96,2015-05-09,蔡宜庭,DOBGFamily 對我們身邊很多人來說，金門離島亂遠的，到底是國內還是國外傻傻分不清楚，...,DOBGFamily 對 我們 身邊 人來 說 金門 離島 亂遠 國內 還是 國外 傻傻 分...,蔡厝古道 古戰場 台灣海峽 明天 海邊 金沙 沒關係 西門町 一 十
97,2015-05-08,李金振,眾志成城共創金大奇蹟（下） 五、從落榜生到榜首_x000D_\n辦學的最終目的是得天下英才而...,眾志成城 共創 金大 奇蹟 從 落榜生 榜首 x000D 辦學 最終 目的 天下 英才 教育...,金門分部爭取獨立 凌晨二點 南京大學 四川大學 親愛的同仁 2010 中央 八年 台灣 國際...
98,2015-05-08,莊舒惠,建立和諧的人際關係──非暴力溝通 在我們的日常生活中難免會與他人發生爭執，歸究其原因，也許是...,建立 和諧 人際 關係 ─ ─ 非暴力 溝通 我們 日常 生活 中 難免 會 與 發生 爭執...,金門大學 今天 會 沙發 衝突 Rosenberg 盧森堡 靜下心 一 二 第一步 第二步


In [43]:
counter = count_words(new_df, 'keyterm')
plot_topK_words(counter, topK=50)

In [44]:
show_keyterm_in_counter(counter, "金門")

ic| term: '金門前鋒報', count: 2
ic| term: '金門文藝', count: 7
ic| term: '金門日報', count: 6
ic| term: '金門', count: 70
ic| term: '金門大學閩南研究所', count: 1
ic| term: '金門青少年文學獎', count: 1
ic| term: '金門學習指導中心承辦金門縣社區', count: 1
ic| term: '金門學習指導中心', count: 1
ic| term: '金門學習指導中心設計', count: 1
ic| term: '金門成人教育侃侃而談', count: 1
ic| term: '金門成立中心', count: 1
ic| term: '金門高中', count: 5
ic| term: '金門縣', count: 12
ic| term: '金門成人教育的', count: 1
ic| term: '金門日報‧鄉訊', count: 1
ic| term: '海上仙洲金門', count: 1
ic| term: '金門島嶼邊緣', count: 2
ic| term: '金門學', count: 1
ic| term: '金門報導', count: 2
ic| term: '金門縣文化局', count: 3
ic| term: '敬悼金門', count: 1
ic| term: '金門籍', count: 1
ic| term: '金門日報總編輯陳國興', count: 1
ic| term: '台南金門同鄉會陳瑞華理事長', count: 1
ic| term: '金門傀儡戲團蔡', count: 1
ic| term: '金門文化局', count: 4
ic| term: '金門日報．', count: 1
ic| term: '金門縣政府台北服務處', count: 1
ic| term: '金門縣政府', count: 6
ic| term: '台南市金門同鄉會理事長陳瑞華、副理事長何柏霆', count: 1
ic| term: '金門文藝》革新', count: 1
ic| term: '金門縣政府營利事業登記證（65年', count: 1
ic| term: '金門縣宗族文化研究協會', cou

In [45]:
write_counter2txt(counter, 'keyterm')

### 練習 ✍

- 修改`topK`的數字
- 刪除頭尾的 """ 之後執行](https://)

In [46]:
"""
topK = 50
new_df['keyterm'] = collect_keyterms(TEXTS)
counter = count_words(new_df, 'keyterm')
counter.most_common(topK)
"""

"\ntopK = 50\nnew_df['keyterm'] = collect_keyterms(TEXTS)\ncounter = count_words(new_df, 'keyterm')\ncounter.most_common(topK)\n"

- 上面執行成功後，刪除下面三個的#符號之後，依序執行，`金門`可以換成你感興趣的其他詞

In [47]:
#plot_topK_words(counter, topK=topK)

In [48]:
#show_keyterm_in_counter(counter, "金門")

In [49]:
#write_counter2txt(counter, 'keyterm')

### 依詞類過濾

- 中文[Treebank的詞類標記](https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/)

In [50]:
#@title
def collect_tags(texts, tag_labels):
    all_pos = []    
    # nlp.pipe() is more efficient than nlp()
    for doc in nlp.pipe(texts):
        pos_texts = [tok.text for tok in doc if tok.tag_ in tag_labels]
        pos_texts = " ".join(pos_texts)
        all_pos.append(pos_texts)
    return all_pos

In [51]:
TAG_LABELS = ["NN", "NR"]
tag_text = collect_tags([sample_text], TAG_LABELS)
tag_text

['盤桓 這 古稱 浯洲 上空 正當 雲層 地表 之際 行駛 海上 艘 宛若 小筏 往之處 時間 金門島 紅屋 瓦舍 屋頂 漸現 空中 彷彿 絲絲 閩 風 空中 散發出 台灣 氣氛 時光 空間 陶淵明 桃花源 心中 說 感動 雀躍 未來 即將 地方 金門 剛出 尚義 機場 薰風 或許 風獅爺 庇佑 風頭 竟風 故土 新竹 浯洲 風是 柔情 風 舒適 風 金門 夏日 蒼穹 雲 天際 映著 蒼茫 海水 大武山 天際 大樹 短綴 金門 獨特 紅土 讓 夏日 大樹 休憩 機會 或許 軍管 賜 浯島 居民 日子 金門 價值 文化 資產 原味 保存 下來 金門 王宅 建築 聞名 全台 位於 金寧 金門 大學 幢幢 風情 校舍 照片 風格 地化 風味 當場 觀看 建築 量體 外牆 黑瓦 閩式 建築 裝飾 文化 特色 校園 動人 建築 小巧 裝飾 特色 量體 氣派 綜合 教學 大樓 立面 兩 角式 處理 立面 氣勢 圖資 大樓 高台 人 聯想 聚落 海防 風格 校舍 聚落 校舍 建築師 也許 金門 建築 特色 人 後現代 全球 風潮 建築 幾何 極簡 風 屬於 建築 設計 屬於 當地 建築 特色 金門 大學 閩 風 建築 風格 校舍 人 台灣 大學 特色 台大 老校 校內 古蹟 新穎 炫麗 建築 屬於 條路 建築師 屬於 風格 風氣 量體 建築物 傳統 結構 風格 具象化 建築 扣著 大盤帽 西方 建築 覺得 北方 傳統 建築 特色 建築 參考 校舍 閩南 地區 紅磚 板瓦 建物 古代 窗櫺 立方體 數百 千年 建築 進 現代 民居 這樣 建築 中會 故事 會 屬於 我們 文化 我們 子孫 身 何處 認知到 屬於 我們 血緣']

In [52]:
new_df['tag'] = collect_tags(TEXTS, TAG_LABELS)
new_df

Unnamed: 0,date,author,text,clean_text,keyterm,tag
0,2022-06-11,陳長慶,珍惜活在當下的每一個時光 ──《浯鄉縮影：陳長慶散文集2014~2021》自序 《浯鄉縮影》...,珍惜 活在 當下 個 時光 ─ ─ 浯鄉 縮影 陳 長慶 散文集 自序 浯鄉 縮影 從 年 ...,胡志明市人文社科大學文學系 道範顏馨五桂聯芳 陳長慶短篇小說集 五位教授 凡塵悲歌 島嶼天青...,時光 浯鄉 縮影 長慶 散文集 自序 縮影 陸續 報刊 散文 作品 少數 心血 結晶 腦力 ...
1,2022-05-18,魏千宸,首次訪金，首次穿梭特色金大校園 首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表...,首 次 訪金 首 次 穿梭 特色 金大 校園 首 次 乘著 飛機 盤桓 這 座 古稱 浯洲 ...,北方傳統 千年 台灣 大樓 建築師 金門 閩式 衝突 台大 大武山 王宅 閩 一秒秒 十八間,訪金 穿梭 特色 金大 校園 盤桓 這 古稱 浯洲 上空 正當 雲層 地表 之際 行駛 海上...
2,2022-05-18,洪春柳,認識自我 有取有捨 ──訪金中輔導老師李瓊芳談生活小道 輔導的精義：在一段時間裡，陪伴一個人...,認識 自我 有取 有捨 ─ ─ 訪金 中 輔導 老師 李 瓊芳 談 生活 小道 輔導 精義 ...,金門大學閩南研究所 金大研究助理 金中輔導室偏重 金中輔導室 慈橋社是高中 培育出 年齡層 ...,認識 訪金 老師 李 生活 輔導 精義 人 人 認識 認識 能力 極限 李 金中 校園 情感...
3,2022-05-06,陳為學,金嶝親橋一線牽 金門大學前院長陳益源教授於2018年4月29日，在金門日報的「浯江夜話」發表...,金 嶝 親 橋 一線 牽 金門 大學 前院長 陳益源 教授 於 年 月 日 金門 日報 浯江...,二話不說 今天 今日 傍晚 夏 張小燕 稟報 來自大嶝島 今年三月初 西元1989年張 過世...,金 橋 牽 金門 大學 陳益源 教授 月 金門 日報 夜話 金門 力作 來自 兩 家書 文章...
4,2022-03-29,黃克全,知人論世和以意逆志——談楊樹清、陳慶瀚與吳鈞堯 楊樹清竟是一個不折不扣的阜內思。我閱讀波赫士...,知人 論世 以意 逆志 談 楊 樹清 陳慶 瀚與 吳 鈞堯 楊 樹清 竟是 個 不折不扣 的...,高雄義守大學 蜻蜓哲學家 過程中心論 工程系 幾乎 悲劇性 楊 現代性 邏輯性 立竿見影 小...,知人 論世 逆志 談 楊 瀚與 鈞堯 楊 波赫士 小說 兩 張 臉 重疊 意思 主體 阜 內...
...,...,...,...,...,...,...
95,2015-05-21,陳麗玉,話說后宅洋樓 洋樓的滄桑與興修_x000D_\n 「王金城洋樓」於民國21年興建完工，當時...,話 說 后宅 洋樓 洋樓 滄桑 與 興修 x000D 王 金城 洋樓 於 民國 年 興建 完...,承澤祖德基業 三間 九十七 二樓 十一人 十五日 天錫借 日軍 明年 曾祖母 王仁 王金 過...,話 說 后宅 洋樓 洋樓 滄桑 x000D 王 金城 洋樓 民國 當時 王金 兄弟 十一人 ...
96,2015-05-09,蔡宜庭,DOBGFamily 對我們身邊很多人來說，金門離島亂遠的，到底是國內還是國外傻傻分不清楚，...,DOBGFamily 對 我們 身邊 人來 說 金門 離島 亂遠 國內 還是 國外 傻傻 分...,蔡厝古道 古戰場 台灣海峽 明天 海邊 金沙 沒關係 西門町 一 十,人來 說 金門 離島 國內 還是 傻傻 部分 我們 會 台灣 本島 機會 金門 x000D ...
97,2015-05-08,李金振,眾志成城共創金大奇蹟（下） 五、從落榜生到榜首_x000D_\n辦學的最終目的是得天下英才而...,眾志成城 共創 金大 奇蹟 從 落榜生 榜首 x000D 辦學 最終 目的 天下 英才 教育...,金門分部爭取獨立 凌晨二點 南京大學 四川大學 親愛的同仁 2010 中央 八年 台灣 國際...,眾志成城 共創 從 榜首 x000D 最終 目的 天下 英才 本校 創設 單純 目的 金門 ...
98,2015-05-08,莊舒惠,建立和諧的人際關係──非暴力溝通 在我們的日常生活中難免會與他人發生爭執，歸究其原因，也許是...,建立 和諧 人際 關係 ─ ─ 非暴力 溝通 我們 日常 生活 中 難免 會 與 發生 爭執...,金門大學 今天 會 沙發 衝突 Rosenberg 盧森堡 靜下心 一 二 第一步 第二步,和諧 人際 關係 溝通 我們 生活 難免 會 發生 原因 也許 習慣 先入為主 觀念 比較 ...


In [53]:
counter = count_words(new_df, 'tag')
plot_topK_words(counter, topK=100)

In [54]:
show_keyterm_in_counter(counter, "金門")

ic| term: '金門', count: 1534
ic| term: '金門島', count: 11
ic| term: '金門縣', count: 70
ic| term: '金門人', count: 73
ic| term: '金門籍', count: 4
ic| term: '金門味', count: 1
ic| term: '金門城', count: 2
ic| term: '金門湖', count: 1
ic| term: '金門鎮', count: 4


In [55]:
write_counter2txt(counter, 'tag')

### 練習 ✍

- 修改`topK`的數字
- 將`TAG_LABELS`改成其他[Treebank的詞類標記](https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/)
- 刪除頭尾的 """ 之後執行


In [56]:
"""
topK = 100
TAG_LABELS = ["NN", "NR"]
new_df['tag'] = collect_tags(TEXTS, TAG_LABELS)
counter = count_words(new_df, 'tag')
counter.most_common(topK)
"""

'\ntopK = 100\nTAG_LABELS = ["NN", "NR"]\nnew_df[\'tag\'] = collect_tags(TEXTS, TAG_LABELS)\ncounter = count_words(new_df, \'tag\')\ncounter.most_common(topK)\n'

- 上面執行成功後，刪除下面三個的#符號之後，依序執行，`金門`可以換成你感興趣的其他詞

In [57]:
#plot_topK_words(counter, topK=topK)

In [58]:
#show_keyterm_in_counter(counter, "金門")

In [59]:
#write_counter2txt(counter, 'tag')

### 依命名實體類別過濾

- 使用命名實體來過濾詞組
![](https://editor.analyticsvidhya.com/uploads/19617Intro%20image.jpg)

- spaCy模型所支援的[命名實體類別](https://spacy.io/models/zh)

In [60]:
#@title
def collect_ner(texts, ner_labels):
    all_ners = []    
    for doc in nlp.pipe(texts, disable=["tok2vec", "tagger", "attribute_ruler", "tagger"]):
        ner_texts = [ent.text for ent in doc.ents if ent.label_ in ner_labels]
        ner_texts = " ".join(ner_texts)
        all_ners.append(ner_texts)
    return all_ners

In [61]:
NER_LABELS = ["EVENT", "FAC", "LOC", "PERSON", "WORK_OF_ART"]
ner_text = collect_ner([sample_text], NER_LABELS)
ner_text

['閩 金門 大武山 王宅 北方傳統']

In [62]:
new_df['ner'] = collect_ner(TEXTS, NER_LABELS)
new_df

Unnamed: 0,date,author,text,clean_text,keyterm,tag,ner
0,2022-06-11,陳長慶,珍惜活在當下的每一個時光 ──《浯鄉縮影：陳長慶散文集2014~2021》自序 《浯鄉縮影》...,珍惜 活在 當下 個 時光 ─ ─ 浯鄉 縮影 陳 長慶 散文集 自序 浯鄉 縮影 從 年 ...,胡志明市人文社科大學文學系 道範顏馨五桂聯芳 陳長慶短篇小說集 五位教授 凡塵悲歌 島嶼天青...,時光 浯鄉 縮影 長慶 散文集 自序 縮影 陸續 報刊 散文 作品 少數 心血 結晶 腦力 ...,浯鄉縮影：陳長慶散文集 浯鄉縮影 變遷 慈母駕鶴西 黎光長 陳長慶短篇 黎光長 陳長慶短篇 ...
1,2022-05-18,魏千宸,首次訪金，首次穿梭特色金大校園 首次乘著飛機盤桓在這座古稱浯洲的上空，正當飛機下了雲層，地表...,首 次 訪金 首 次 穿梭 特色 金大 校園 首 次 乘著 飛機 盤桓 這 座 古稱 浯洲 ...,北方傳統 千年 台灣 大樓 建築師 金門 閩式 衝突 台大 大武山 王宅 閩 一秒秒 十八間,訪金 穿梭 特色 金大 校園 盤桓 這 古稱 浯洲 上空 正當 雲層 地表 之際 行駛 海上...,閩 金門 大武山 王宅 北方傳統
2,2022-05-18,洪春柳,認識自我 有取有捨 ──訪金中輔導老師李瓊芳談生活小道 輔導的精義：在一段時間裡，陪伴一個人...,認識 自我 有取 有捨 ─ ─ 訪金 中 輔導 老師 李 瓊芳 談 生活 小道 輔導 精義 ...,金門大學閩南研究所 金大研究助理 金中輔導室偏重 金中輔導室 慈橋社是高中 培育出 年齡層 ...,認識 訪金 老師 李 生活 輔導 精義 人 人 認識 認識 能力 極限 李 金中 校園 情感...,李 李 李 培育出 李 李福 李 李福 蔡 培養出 李 李 李 變遷 李 李 李 李 李 讀...
3,2022-05-06,陳為學,金嶝親橋一線牽 金門大學前院長陳益源教授於2018年4月29日，在金門日報的「浯江夜話」發表...,金 嶝 親 橋 一線 牽 金門 大學 前院長 陳益源 教授 於 年 月 日 金門 日報 浯江...,二話不說 今天 今日 傍晚 夏 張小燕 稟報 來自大嶝島 今年三月初 西元1989年張 過世...,金 橋 牽 金門 大學 陳益源 教授 月 金門 日報 夜話 金門 力作 來自 兩 家書 文章...,來自大嶝島 林 夏 李榮 清樂 土生土長 張小燕 清樂
4,2022-03-29,黃克全,知人論世和以意逆志——談楊樹清、陳慶瀚與吳鈞堯 楊樹清竟是一個不折不扣的阜內思。我閱讀波赫士...,知人 論世 以意 逆志 談 楊 樹清 陳慶 瀚與 吳 鈞堯 楊 樹清 竟是 個 不折不扣 的...,高雄義守大學 蜻蜓哲學家 過程中心論 工程系 幾乎 悲劇性 楊 現代性 邏輯性 立竿見影 小...,知人 論世 逆志 談 楊 瀚與 鈞堯 楊 波赫士 小說 兩 張 臉 重疊 意思 主體 阜 內...,悲劇性 幾乎 楊 高雄義守大學 蜻蜓哲學家 Josef Johann 邏輯性 太人性的小鎮
...,...,...,...,...,...,...,...
95,2015-05-21,陳麗玉,話說后宅洋樓 洋樓的滄桑與興修_x000D_\n 「王金城洋樓」於民國21年興建完工，當時...,話 說 后宅 洋樓 洋樓 滄桑 與 興修 x000D 王 金城 洋樓 於 民國 年 興建 完...,承澤祖德基業 三間 九十七 二樓 十一人 十五日 天錫借 日軍 明年 曾祖母 王仁 王金 過...,話 說 后宅 洋樓 洋樓 滄桑 x000D 王 金城 洋樓 民國 當時 王金 兄弟 十一人 ...,王金 王 王金 王 南洋 秀菊 王 王 南洋 變成 王仁 王仁 王仁 王仁 王仁 曾祖母 王...
96,2015-05-09,蔡宜庭,DOBGFamily 對我們身邊很多人來說，金門離島亂遠的，到底是國內還是國外傻傻分不清楚，...,DOBGFamily 對 我們 身邊 人來 說 金門 離島 亂遠 國內 還是 國外 傻傻 分...,蔡厝古道 古戰場 台灣海峽 明天 海邊 金沙 沒關係 西門町 一 十,人來 說 金門 離島 國內 還是 傻傻 部分 我們 會 台灣 本島 機會 金門 x000D ...,金沙 古戰場 蔡厝古道
97,2015-05-08,李金振,眾志成城共創金大奇蹟（下） 五、從落榜生到榜首_x000D_\n辦學的最終目的是得天下英才而...,眾志成城 共創 金大 奇蹟 從 落榜生 榜首 x000D 辦學 最終 目的 天下 英才 教育...,金門分部爭取獨立 凌晨二點 南京大學 四川大學 親愛的同仁 2010 中央 八年 台灣 國際...,眾志成城 共創 從 榜首 x000D 最終 目的 天下 英才 本校 創設 單純 目的 金門 ...,郭台銘 董事長 四川大學 南京大學 青黃不接 幾乎 淵源 青黃不接 無可諱言 為了 史學家 ...
98,2015-05-08,莊舒惠,建立和諧的人際關係──非暴力溝通 在我們的日常生活中難免會與他人發生爭執，歸究其原因，也許是...,建立 和諧 人際 關係 ─ ─ 非暴力 溝通 我們 日常 生活 中 難免 會 與 發生 爭執...,金門大學 今天 會 沙發 衝突 Rosenberg 盧森堡 靜下心 一 二 第一步 第二步,和諧 人際 關係 溝通 我們 生活 難免 會 發生 原因 也許 習慣 先入為主 觀念 比較 ...,會 金門大學 Rosenberg 沙發 靜下心


In [63]:
counter = count_words(new_df, 'ner')
plot_topK_words(counter, topK=100)

In [64]:
show_keyterm_in_counter(counter, "金門")

ic| term: '金門', count: 97
ic| term: '金門成立中心', count: 1
ic| term: '海上仙洲金門', count: 1
ic| term: '敬悼金門', count: 1
ic| term: '金門縣志', count: 2
ic| term: '金門生命線', count: 1
ic| term: '浯江衍派～金門', count: 2
ic| term: '把北風留給金門', count: 1
ic| term: '金門學人聯誼會', count: 1
ic| term: '金門人東向與南向', count: 1
ic| term: '金門縣', count: 2
ic| term: '君自故鄉來：一些金門人', count: 1
ic| term: '金門海峽', count: 1
ic| term: '「顯影」中金門', count: 1
ic| term: '世界金門日', count: 2
ic| term: '金門期間曾念過幾年', count: 1
ic| term: '金門大學舉行丹斯里', count: 1
ic| term: '南方沿海金門', count: 1
ic| term: '金門鎮', count: 2
ic| term: '金門大學理工', count: 1
ic| term: '清金門鎮', count: 1
ic| term: '金門顏厝', count: 1
ic| term: '金門縣生命線', count: 1
ic| term: '飲酒金門行', count: 1
ic| term: '金門西園', count: 1
ic| term: '金門大學', count: 1


In [65]:
write_counter2txt(counter, 'ner')

### 練習 ✍

- 修改`topK`的數字
- 將`NER_LABELS`改成其他spaCy模型所支援的[命名實體類別](https://spacy.io/models/zh)
- 刪除頭尾的 """ 之後執行

In [66]:
"""
topK = 100
NER_LABELS = ["EVENT", "FAC", "LOC", "PERSON", "WORK_OF_ART"]
new_df['ner'] = collect_ner(TEXTS, NER_LABELS)
counter = count_words(new_df, 'ner')
counter.most_common(topK)
"""

'\ntopK = 100\nNER_LABELS = ["EVENT", "FAC", "LOC", "PERSON", "WORK_OF_ART"]\nnew_df[\'ner\'] = collect_ner(TEXTS, NER_LABELS)\ncounter = count_words(new_df, \'ner\')\ncounter.most_common(topK)\n'

- 上面執行成功後，刪除下面三個的#符號之後，依序執行，`金門`可以換成你感興趣的其他詞

In [67]:
#plot_topK_words(counter, topK=topK)

In [68]:
#show_keyterm_in_counter(counter, "金門")

In [69]:
#write_counter2txt(counter, 'tag')

- 全部執行成功後，比較四個`txt`詞表內的詞頻差異

## 結語

![](https://www.azquotes.com/picture-quotes/quote-the-secret-of-getting-ahead-is-getting-started-the-secret-of-getting-started-is-breaking-mark-twain-39-93-88.jpg)