<a href="https://colab.research.google.com/github/howard-haowen/NLP-demos/blob/main/NQU_model_aided_lang_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
#@title
from traitlets.config.manager import BaseJSONConfigManager
from pathlib import Path

In [2]:
#@title
path = Path.home() / ".jupyter" / "nbconfig"
cm = BaseJSONConfigManager(config_dir=str(path))
cm.update(
    "rise",
    {
        "autolaunch": False,
        "enable_chalkboard": True,
        "scroll": True,
        "slideNumber": True,
        "controls": True,
        "progress": True,
        "history": True,
        "center": True,
        "width": "100%",
        "height": "100%",
        #"theme": "beige",
        "transition": "concave",
        "start_slideshow_at": "selected"
     }
)

{'autolaunch': False,
 'center': True,
 'controls': True,
 'enable_chalkboard': True,
 'height': '100%',
 'history': True,
 'progress': True,
 'scroll': True,
 'slideNumber': True,
 'start_slideshow_at': 'selected',
 'transition': 'concave',
 'width': '100%'}

# AI模型輔助語言學習(與教學)

## 講師背景

### 學歷
![](https://raw.githubusercontent.com/howard-haowen/Chinese-NLP/main/img/education.png)

### 經歷
- 臺北科技大學：英語講師
- 東吳大學：英語講師
- 北京大學：博雅博士後
- 哈瑪星科技：AI工程師
- 香港商慧科訊業：AI工程師


## 今日任務
- 了解電腦能如何處理語言 
- 了解如何使用AI模型設計輔助語言學習工具
- 了解應用程式設計流程
- 了解資料科學處理資料的方法

## 自然語言處理到底是在處理什麼？

### 處理對象

![](http://cumatrixfile.cupoy.com/0000017C5DC3CBE0000000026375706F795F72656C6561736553747564794576656E74/1632821348333/large)

### 應用場景

![](https://research.sinica.edu.tw/wp-content/uploads/2018/07/ma-natural-language-processing-09.jpg)

In [3]:
from IPython.display import IFrame

## 網頁應用

### AI模型輔助語言學習：支援中英日

In [4]:
IFrame(src='https://share.streamlit.io/howard-haowen/spacy-streamlit/app.py', width=700, height=600)

### AI模型輔助語言學習：中文Beta版

In [5]:
IFrame(src='https://share.streamlit.io/howard-haowen/spacy-streamlit/beta/app.py', width=700, height=600)

## 應用程式設計思路

- APP要有哪些功能？

![](https://media.makeameme.org/created/functions-functions.jpg)

- 吃什麼進去(input)? 放什麼出來(output)?

![](https://i.pinimg.com/736x/28/da/f0/28daf0919f04f34ae13cd26f0ceffa8f.jpg)

- 使用者介面(UI)與體驗
(UX)![](https://i.pinimg.com/736x/d3/63/03/d36303141262d36b35b6d47b2be67f99.jpg)

## 程式語言

- 程式語言讓我們可以跟電腦溝通🤖

![](https://memegenerator.net/img/instances/72693244/we-need-to-talk.jpg)

- 超過一半以上的人都不是在大學裡的相關科系學習程式設計的❗

![](https://www.i-programmer.info/images/stories/News/2022/Jan/B/cglearnp.JPG)

- 不同的程式語言熱門程度也不同💰

![](https://gobrightwing.com/wp-content/uploads/2015/03/programming-languages.jpg)

## Python

## 簡單

- 小學生都學得會，你有自信學不會嗎？

![](https://s.eslite.dev/Upload/Product/201812/l/636811507164650000.jpg)

### 變數

- 人生充滿變數，程式也不例外

![](https://www.chestnuthead.com/wp-content/uploads/2020/10/image-1-1024x527.png)

### 函數

- 欲知函數，先來問問九天玄女你的今日運勢吧！

![](https://www.upmedia.mg/upload/article/20220422184919822881.jpeg)

In [6]:
#@title
from datetime import date
from ipywidgets import interact
import random

def tell_my_fortune(name, gender):
    today = date.today()
    male_predictions = [
                   "調理自我，桃花不請自來",
                   "多留意心臟及睡眠問題，記得多休息",
                   "當心腦神經衰弱，別聽信偏方",
    ]
    female_predictions = [
                          "理財順利可考慮加碼",
                          "注意較大筆的資金調度",
                          "工作機會多，要判斷取捨"
    ]
    if gender == "男":
        prediction = random.choice(male_predictions)
    elif gender == "女":
        prediction = random.choice(female_predictions)
    else:
        prediction = "專心就能把事情做好"
    print(f"{name}，九天玄女說你在{today}這天的運勢是：{prediction}")

In [67]:
interact(tell_my_fortune,
         name="郝榮易",
         gender="男")

interactive(children=(Text(value='郝榮易', description='name'), Text(value='男', description='gender'), Output()),…

<function __main__.tell_my_fortune>

- 基本函數結構

![](https://www.softwaretestinghelp.com/wp-content/qa/uploads/2021/01/fig2_function-definition.png)

## 前置作業

In [None]:
#@title
!pip install -U -q pip setuptools wheel
!pip install -U -q spacy
!python -m spacy download zh_core_web_sm
!pip install -q dragonmapper

In [None]:
#@title
!git clone -l -s https://github.com/L706077/jieba-zh_TW.git jieba_tw
%cd jieba_tw
import jieba
%cd ../

In [10]:
#@title
from collections import Counter
from dragonmapper import hanzi, transcriptions
import pandas as pd
import plotly.express as px
from pprint import pprint
import requests
import spacy
from spacy import displacy
from spacy.tokens import Doc

In [11]:
#@title
class TwTokenizer:
    def __init__(self, vocab):
        self.vocab = vocab

    def __call__(self, text):
        words =  jieba.lcut(text)
        spaces = [False] * len(words)        
        return Doc(self.vocab, words=words, spaces=spaces)

- 開發
- 測試
- 交付

![](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRJdTgJk2whc1B3G5AKgAyNQgYAxSJMcfnbEi1yR7wiTTigYEC0qnRcnqxJinWJSVqWneQ&usqp=CAU)

## 調用模型

In [12]:
!pip show spacy

Name: spacy
Version: 3.3.0
Summary: Industrial-strength Natural Language Processing (NLP) in Python
Home-page: https://spacy.io
Author: Explosion
Author-email: contact@explosion.ai
License: MIT
Location: /usr/local/lib/python3.7/dist-packages
Requires: blis, catalogue, cymem, jinja2, langcodes, murmurhash, numpy, packaging, pathy, preshed, pydantic, requests, setuptools, spacy-legacy, spacy-loggers, srsly, thinc, tqdm, typer, typing-extensions, wasabi
Required-by: en-core-web-sm, fastai, zh-core-web-sm


In [13]:
nlp = spacy.load("zh_core_web_sm")
nlp.tokenizer = TwTokenizer(nlp.vocab)

![](https://d33wubrfki0l68.cloudfront.net/3ad0582d97663a1272ffc4ccf09f1c5b335b17e9/7f49c/pipeline-fde48da9b43661abcdf62ab70a546d71.svg)

In [14]:
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'ner']

### 輸入文字

In [15]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
doc = nlp(text)

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 1.734 seconds.
Prefix dict has been built succesfully.


### 斷詞

In [16]:
for token in doc:
    print(token.text, end=" | ")

阿伯 | 說 | 他 | 要 | 從 | 台北 | 騎 | 腳踏車 | 到 | 高雄 | 。 | 

In [17]:
def show_tokens(text):
    doc = nlp(text)
    for token in doc:
        print(token.text, end=" | ")

In [18]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
show_tokens(text)

阿伯 | 說 | 他 | 要 | 從 | 台北 | 騎 | 腳踏車 | 到 | 高雄 | 。 | 

### 命名實體

In [19]:
text = "迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈光秀。台北101下午透過新聞稿表示，今年特別設計「虎年新春燈光秀」，從今晚開始閃耀台北天際線，一直延續至2月5日，共7天。"
doc = nlp(text)
displacy.render(doc, style='ent',jupyter=True)

In [20]:
def show_ner(text):
    doc = nlp(text)
    displacy.render(doc, style='ent', jupyter=True)

In [21]:
text = "迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈光秀。台北101下午透過新聞稿表示，今年特別設計「虎年新春燈光秀」，從今晚開始閃耀台北天際線，一直延續至2月5日，共7天。"
show_ner(text)

## 增強文本

In [22]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
doc = nlp(text)
tokens = [token.text for token in doc]
tokens

['阿伯', '說', '他', '要', '從', '台北', '騎', '腳踏車', '到', '高雄', '。']

In [23]:
pinyins = [hanzi.to_pinyin(word) for word in tokens]
for pinyin in pinyins:
    print(pinyin, end=" | ")

ābó | shuō | tā | yào | cóng | Táiběi | qí | jiǎotàchē | dào | Gāoxióng | 。 | 

In [24]:
zhuyins = [transcriptions.pinyin_to_zhuyin(word) for word in pinyins]
for zhuyin in zhuyins:
    print(zhuyin, end=" | ")

ㄚ ㄅㄛˊ | ㄕㄨㄛ | ㄊㄚ | ㄧㄠˋ | ㄘㄨㄥˊ | ㄊㄞˊ ㄅㄟˇ | ㄑㄧˊ | ㄐㄧㄠˇ ㄊㄚˋ ㄔㄜ | ㄉㄠˋ | ㄍㄠ ㄒㄩㄥˊ | 。 | 

In [25]:
ipas = [transcriptions.pinyin_to_ipa(word) for word in pinyins]
for ipa in ipas:
    print(ipa, end=" | ")

a˥ pwɔ˧˥ | ʂwɔ˥ | tʰa˥ | jɑʊ˥˩ | tsʰʊŋ˧˥ | tʰaɪ˧˥ peɪ˧˩˧ | tɕʰi˧˥ | tɕjɑʊ˧˩˧ tʰa˥˩ ʈʂʰɤ˥ | tɑʊ˥˩ | kɑʊ˥ ɕjʊŋ˧˥ | 。 | 

In [26]:
#@title
def show_aided_text(text,
                    token_sep = " | " ,
                    pronunciation="pinyin"):
    PUNCT_SYM = ["PUNCT", "SYM"]
    doc = nlp(text)
    for idx, sent in enumerate(doc.sents):
        tokens_text = [tok.text for tok in sent if tok.pos_ not in PUNCT_SYM]
        pinyins = [hanzi.to_pinyin(word) for word in tokens_text]
        sounds = pinyins
        if pronunciation == "zhuyin":
            zhuyins = [transcriptions.pinyin_to_zhuyin(word) for word in pinyins]
            sounds = zhuyins
        elif pronunciation == "ipa":
            ipas = [transcriptions.pinyin_to_ipa(word) for word in pinyins]
            sounds = ipas

        display = []
        for text, sound in zip(tokens_text, sounds):
            res = f"{text} [{sound}]"
            display.append(res)
        if display:
            display_text = token_sep.join(display)
            print(f"{idx+1} >>> {display_text}")
        else:
            print(f"{idx+1} >>> [以下空白]")

In [27]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
show_aided_text(text, pronunciation="pinyin")

1 >>> 阿伯 [ābó] | 說 [shuō] | 他 [tā] | 要 [yào] | 從 [cóng] | 台北 [Táiběi] | 騎 [qí] | 腳踏車 [jiǎotàchē] | 到 [dào] | 高雄 [Gāoxióng]


In [28]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
show_aided_text(text, pronunciation="zhuyin")

1 >>> 阿伯 [ㄚ ㄅㄛˊ] | 說 [ㄕㄨㄛ] | 他 [ㄊㄚ] | 要 [ㄧㄠˋ] | 從 [ㄘㄨㄥˊ] | 台北 [ㄊㄞˊ ㄅㄟˇ] | 騎 [ㄑㄧˊ] | 腳踏車 [ㄐㄧㄠˇ ㄊㄚˋ ㄔㄜ] | 到 [ㄉㄠˋ] | 高雄 [ㄍㄠ ㄒㄩㄥˊ]


In [29]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
show_aided_text(text, pronunciation="ipa")

1 >>> 阿伯 [a˥ pwɔ˧˥] | 說 [ʂwɔ˥] | 他 [tʰa˥] | 要 [jɑʊ˥˩] | 從 [tsʰʊŋ˧˥] | 台北 [tʰaɪ˧˥ peɪ˧˩˧] | 騎 [tɕʰi˧˥] | 腳踏車 [tɕjɑʊ˧˩˧ tʰa˥˩ ʈʂʰɤ˥] | 到 [tɑʊ˥˩] | 高雄 [kɑʊ˥ ɕjʊŋ˧˥]


## 查詢萌典

萌典範例: [點我](https://www.moedict.tw/%E9%AB%98%E8%88%88)

- 不同的程式之間透過API傳遞訊息

![](https://i.ytimg.com/vi/NHVQiDDZ5TA/maxresdefault.jpg)

- 版本1

In [30]:
def moedict_caller(word):
    req = requests.get(f"https://www.moedict.tw/uni/{word}.json")
    try:
        pprint(req.json())
    except:
        print("查無結果")

In [31]:
moedict_caller('高興')

{'heteronyms': [{'bopomofo': 'ㄍㄠ ㄒㄧㄥˋ',
                 'bopomofo2': 'gāu shìng',
                 'definitions': [{'def': '興趣甚高。',
                                  'quote': ['文選．殷仲文．南州桓公九井作詩：「獨有清秋日，能使高興盡。」',
                                            '唐．杜甫．北征詩：「青雲動高興，幽事亦可悅。」']},
                                 {'antonyms': '敗興,悲傷,悲哀,煩悶,難過,苦惱,沮喪,傷心,掃興,憂愁,厭惡,鬱悶',
                                  'def': '歡喜、愉快。',
                                  'example': ['如：「今天玩得高興嗎？」'],
                                  'synonyms': '得意,痛快,開心,快樂,快活,歡樂,歡喜,歡躍,喜悅,興奮,怡悅,愉快'},
                                 {'antonyms': '不快,生氣',
                                  'def': '以興致作決定事情的根據。',
                                  'example': ['如：「他高興，就讓他先走吧！」'],
                                  'synonyms': '樂意,願意'}],
                 'pinyin': 'gāo xìng'}],
 'title': '高興'}


- 版本2

In [32]:
def moedict_caller(word):
    req = requests.get(f"https://www.moedict.tw/uni/{word}.json")
    try:
        definitions = req.json().get('heteronyms')[0].get('definitions')
        pprint(definitions)
    except:
        print("查無結果")

In [33]:
moedict_caller('高興')

[{'def': '興趣甚高。',
  'quote': ['文選．殷仲文．南州桓公九井作詩：「獨有清秋日，能使高興盡。」', '唐．杜甫．北征詩：「青雲動高興，幽事亦可悅。」']},
 {'antonyms': '敗興,悲傷,悲哀,煩悶,難過,苦惱,沮喪,傷心,掃興,憂愁,厭惡,鬱悶',
  'def': '歡喜、愉快。',
  'example': ['如：「今天玩得高興嗎？」'],
  'synonyms': '得意,痛快,開心,快樂,快活,歡樂,歡喜,歡躍,喜悅,興奮,怡悅,愉快'},
 {'antonyms': '不快,生氣',
  'def': '以興致作決定事情的根據。',
  'example': ['如：「他高興，就讓他先走吧！」'],
  'synonyms': '樂意,願意'}]


- 版本3

In [34]:
def moedict_caller(word):
    req = requests.get(f"https://www.moedict.tw/uni/{word}.json")
    try:
        definitions = req.json().get('heteronyms')[0].get('definitions')
        df = pd.DataFrame(definitions)
        df.fillna("---", inplace=True)
        if 'example' not in df.columns:
            df['example'] = '---'
        if 'synonyms' not in df.columns:
            df['synonyms'] = '---' 
        if 'antonyms' not in df.columns:
            df['antonyms'] = '---' 
        cols = ['def', 'example', 'synonyms', 'antonyms']
        df = df[cols]
        df.rename(columns={
            'def': '解釋',
            'example': '例句',
            'synonyms': '同義詞',
            'antonyms': '反義詞',
        }, inplace=True)
        return df
    except:
        print("查無結果")

In [35]:
moedict_caller('高興')

Unnamed: 0,解釋,例句,同義詞,反義詞
0,興趣甚高。,---,---,---
1,歡喜、愉快。,[如：「今天玩得高興嗎？」],"得意,痛快,開心,快樂,快活,歡樂,歡喜,歡躍,喜悅,興奮,怡悅,愉快","敗興,悲傷,悲哀,煩悶,難過,苦惱,沮喪,傷心,掃興,憂愁,厭惡,鬱悶"
2,以興致作決定事情的根據。,[如：「他高興，就讓他先走吧！」],"樂意,願意","不快,生氣"


## 詞頻統計

In [36]:
text = "迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈光秀。台北101下午透過新聞稿表示，今年特別設計「虎年新春燈光秀」，從今晚開始閃耀台北天際線，一直延續至2月5日，共7天。"
doc = nlp(text)
for token in doc:
    print(token.text, end=" | ")

迎接 | 虎年 | 到來 | ， | 台北 | 101 | 今天 | 表示 | ， | 即日 | 起 | 推出 | 「 | 虎年 | 新春 | 燈光秀 | 」 | ， | 將 | 持續 | 至 | 2 | 月 | 5 | 日 | ， | 每晚 | 6 | 時 | 至 | 10 | 時 | ， | 除整 | 點會 | 有 | 報時 | 燈光 | 變化 | 外 | ， | 每 | 15 | 分鐘 | 還 | 會 | 有 | 3 | 分鐘 | 的 | 燈光秀 | 。 | 台北 | 101 | 下午 | 透過 | 新聞稿 | 表示 | ， | 今年 | 特別 | 設計 | 「 | 虎年 | 新春 | 燈光秀 | 」 | ， | 從 | 今晚 | 開始 | 閃耀 | 台北 | 天際線 | ， | 一直 | 延續 | 至 | 2 | 月 | 5 | 日 | ， | 共 | 7 | 天 | 。 | 

In [37]:
#@title
PUNCT_SYM = ["PUNCT", "SYM"]

def filter_tokens(doc):
    clean_tokens = [tok for tok in doc if tok.pos_ not in PUNCT_SYM]
    clean_tokens = (
        [tok for tok in clean_tokens if 
         not tok.like_email and 
         not tok.like_num and 
         not tok.like_url and 
         not tok.is_space]
    )
    return clean_tokens

In [38]:
clean_tokens = filter_tokens(doc)
for token in clean_tokens:
    print(token.text, end=" | ")

迎接 | 虎年 | 到來 | 台北 | 今天 | 表示 | 即日 | 起 | 推出 | 虎年 | 新春 | 燈光秀 | 將 | 持續 | 至 | 月 | 日 | 每晚 | 時 | 至 | 時 | 除整 | 點會 | 有 | 報時 | 燈光 | 變化 | 外 | 每 | 分鐘 | 還 | 會 | 有 | 分鐘 | 的 | 燈光秀 | 台北 | 下午 | 透過 | 新聞稿 | 表示 | 今年 | 特別 | 設計 | 虎年 | 新春 | 燈光秀 | 從 | 今晚 | 開始 | 閃耀 | 台北 | 天際線 | 一直 | 延續 | 至 | 月 | 日 | 共 | 天 | 

In [39]:
tokens = [token.text for token in clean_tokens]
counter = Counter(tokens)
counter

Counter({'一直': 1,
         '下午': 1,
         '今天': 1,
         '今年': 1,
         '今晚': 1,
         '共': 1,
         '分鐘': 2,
         '到來': 1,
         '即日': 1,
         '台北': 3,
         '報時': 1,
         '外': 1,
         '天': 1,
         '天際線': 1,
         '將': 1,
         '延續': 1,
         '從': 1,
         '持續': 1,
         '推出': 1,
         '新春': 2,
         '新聞稿': 1,
         '日': 2,
         '時': 2,
         '會': 1,
         '月': 2,
         '有': 2,
         '每': 1,
         '每晚': 1,
         '燈光': 1,
         '燈光秀': 3,
         '特別': 1,
         '的': 1,
         '至': 3,
         '虎年': 3,
         '表示': 2,
         '設計': 1,
         '變化': 1,
         '起': 1,
         '迎接': 1,
         '透過': 1,
         '還': 1,
         '閃耀': 1,
         '開始': 1,
         '除整': 1,
         '點會': 1})

In [40]:
counter.most_common(5)

[('虎年', 3), ('台北', 3), ('燈光秀', 3), ('至', 3), ('表示', 2)]

In [41]:
#@title
def show_most_common(text, top=3):
    doc = nlp(text)
    clean_tokens = filter_tokens(doc)
    tokens = [token.text for token in clean_tokens]
    counter = Counter(tokens)
    most_common = counter.most_common(top)
    print(most_common)

In [42]:
text = "迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈光秀。台北101下午透過新聞稿表示，今年特別設計「虎年新春燈光秀」，從今晚開始閃耀台北天際線，一直延續至2月5日，共7天。"
show_most_common(text)

[('虎年', 3), ('台北', 3), ('燈光秀', 3)]


In [43]:
#@title
counter_df = (
    pd.DataFrame.from_dict(counter, orient='index').
    reset_index().
    rename(columns={0: 'count',
                    'index': 'word'}).
    sort_values(by='count', ascending=False)
)
counter_df

Unnamed: 0,word,count
1,虎年,3
3,台北,3
13,至,3
10,燈光秀,3
17,時,2
15,日,2
20,有,2
9,新春,2
14,月,2
5,表示,2


In [44]:
fig = px.bar(counter_df, x='word', y='count')
fig.show()

In [45]:
#@title
def get_freq_fig(text):
    doc = nlp(text)
    clean_tokens = filter_tokens(doc)
    tokens = [token.text for token in clean_tokens]
    counter = Counter(tokens)
    counter_df = (
    pd.DataFrame.from_dict(counter, orient='index').
    reset_index().
    rename(columns={0: 'count', 
                    'index': 'word'}).
    sort_values(by='count', ascending=False)
    )
    fig = px.bar(counter_df, x='word', y='count')
    return fig

In [46]:
text = "迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈光秀。台北101下午透過新聞稿表示，今年特別設計「虎年新春燈光秀」，從今晚開始閃耀台北天際線，一直延續至2月5日，共7天。"
fig = get_freq_fig(text)
fig.show()

## 詞彙分級

處理`TOCFL華語詞彙分級表`的方法詳見[這裡](https://colab.research.google.com/github/howard-haowen/NLP-demos/blob/main/TOCFL_wordlist.ipynb)。

In [47]:
url = "https://raw.githubusercontent.com/howard-haowen/spacy-streamlit/master/tocfl_wordlist.csv"
wordlist = pd.read_csv(url)
wordlist

Unnamed: 0,詞彙,漢語拼音,注音,任務領域,詞條編號,詞條分級
0,我,wǒ,ㄨㄛˇ,個人資料,準1-1,準備1
1,你,nǐ,ㄋㄧˇ,個人資料,準1-2,準備1
2,他,tā,ㄊㄚ,個人資料,準1-3,準備1
3,我們,wǒmen,ㄨㄛˇ　˙ㄇㄣ,個人資料,準1-4,準備1
4,你們,nǐmen,ㄋㄧˇ　˙ㄇㄣ,個人資料,準1-5,準備1
...,...,...,...,...,...,...
7252,作證,zuòzhèng,ㄗㄨㄛˋ　ㄓㄥˋ,其他,流-2982,流利
7253,坐牢,zuòláo,ㄗㄨㄛˋ　ㄌㄠˊ,其他,流-2983,流利
7254,坐鎮,zuòzhèn,ㄗㄨㄛˋ　ㄓㄣˋ,其他,流-2984,流利
7255,座談,zuòtán,ㄗㄨㄛˋ　ㄊㄢˊ,其他,流-2985,流利


In [48]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
doc = nlp(text)
tokens = [token.text for token in doc]
tokens

['阿伯', '說', '他', '要', '從', '台北', '騎', '腳踏車', '到', '高雄', '。']

In [49]:
filter = wordlist['詞彙'].isin(tokens)
result = wordlist[filter]
result

Unnamed: 0,詞彙,漢語拼音,注音,任務領域,詞條編號,詞條分級
2,他,tā,ㄊㄚ,個人資料,準1-3,準備1
78,說,shuō,ㄕㄨㄛ,教育,準1-79,準備1
114,到,dào,ㄉㄠˋ,旅行,準1-115,準備1
167,從,cóng,ㄘㄨㄥˊ,個人資料,準2-23,準備2
293,要,yào,ㄧㄠˋ,購物,準2-153,準備2
404,騎,qí,ㄑㄧˊ,日常生活,入-96,入門
405,腳踏車,jiǎotàchē/zìxíngchē,ㄐㄧㄠˇ　ㄊㄚˋ　ㄔㄜ/ㄗˋ　ㄒㄧㄥˊ　ㄔㄜ,日常生活,入-97,入門


In [50]:
def show_word_levels(text):
    doc = nlp(text)
    tokens = [token.text for token in doc]
    filter = wordlist['詞彙'].isin(tokens)
    result = wordlist[filter]
    return result

In [51]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
show_word_levels(text)

Unnamed: 0,詞彙,漢語拼音,注音,任務領域,詞條編號,詞條分級
2,他,tā,ㄊㄚ,個人資料,準1-3,準備1
78,說,shuō,ㄕㄨㄛ,教育,準1-79,準備1
114,到,dào,ㄉㄠˋ,旅行,準1-115,準備1
167,從,cóng,ㄘㄨㄥˊ,個人資料,準2-23,準備2
293,要,yào,ㄧㄠˋ,購物,準2-153,準備2
404,騎,qí,ㄑㄧˊ,日常生活,入-96,入門
405,腳踏車,jiǎotàchē/zìxíngchē,ㄐㄧㄠˇ　ㄊㄚˋ　ㄔㄜ/ㄗˋ　ㄒㄧㄥˊ　ㄔㄜ,日常生活,入-97,入門


In [52]:
level = result['詞條分級'].value_counts()
fig = px.pie(result, 
             values=level.values, 
             names=level.index, 
             title='詞條分級圓餅圖')
fig.show()

In [53]:
#@title
def get_level_pie(result):
    level = result['詞條分級'].value_counts()
    fig = px.pie(result, 
                values=level.values, 
                names=level.index, 
                title='詞條分級圓餅圖')
    return fig

In [54]:
fig = get_level_pie(result)
fig.show()

## 互動測試

- 以下使用互動模式調用上面定義過的函數

### 斷詞

In [55]:
#@title
def show_tokens(text):
    doc = nlp(text)
    for token in doc:
        print(token.text, end=" | ")

In [56]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
interact(show_tokens, text=text)

interactive(children=(Text(value='阿伯說他要從台北騎腳踏車到高雄。', description='text'), Output()), _dom_classes=('widget-int…

<function __main__.show_tokens>

### 命名實體

In [57]:
#@title
def show_ner(text):
    doc = nlp(text)
    displacy.render(doc, style='ent', jupyter=True)

In [58]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
interact(show_ner, text=text)

interactive(children=(Text(value='阿伯說他要從台北騎腳踏車到高雄。', description='text'), Output()), _dom_classes=('widget-int…

<function __main__.show_ner>

### 增強文本

In [59]:
#@title
def show_aided_text(text,
                    token_sep = " | " ,
                    pronunciation="pinyin"):
    PUNCT_SYM = ["PUNCT", "SYM"]
    doc = nlp(text)
    for idx, sent in enumerate(doc.sents):
        tokens_text = [tok.text for tok in sent if tok.pos_ not in PUNCT_SYM]
        pinyins = [hanzi.to_pinyin(word) for word in tokens_text]
        sounds = pinyins
        if pronunciation == "zhuyin":
            zhuyins = [transcriptions.pinyin_to_zhuyin(word) for word in pinyins]
            sounds = zhuyins
        elif pronunciation == "ipa":
            ipas = [transcriptions.pinyin_to_ipa(word) for word in pinyins]
            sounds = ipas

        display = []
        for text, sound in zip(tokens_text, sounds):
            res = f"{text} [{sound}]"
            display.append(res)
        if display:
            display_text = token_sep.join(display)
            print(f"{idx+1} >>> {display_text}")
        else:
            print(f"{idx+1} >>> [以下空白]")

In [60]:
text = "阿伯說他要從台北騎腳踏車到高雄。"
interact(show_aided_text, text=text)

interactive(children=(Text(value='阿伯說他要從台北騎腳踏車到高雄。', description='text'), Text(value=' | ', description='token…

<function __main__.show_aided_text>

In [61]:
#@title
def moedict_caller(word):
    req = requests.get(f"https://www.moedict.tw/uni/{word}.json")
    try:
        definitions = req.json().get('heteronyms')[0].get('definitions')
        df = pd.DataFrame(definitions)
        df.fillna("---", inplace=True)
        if 'example' not in df.columns:
            df['example'] = '---'
        if 'synonyms' not in df.columns:
            df['synonyms'] = '---' 
        if 'antonyms' not in df.columns:
            df['antonyms'] = '---' 
        cols = ['def', 'example', 'synonyms', 'antonyms']
        df = df[cols]
        df.rename(columns={
            'def': '解釋',
            'example': '例句',
            'synonyms': '同義詞',
            'antonyms': '反義詞',
        }, inplace=True)
        return df
    except:
        print("查無結果")

### 查詢萌典

In [62]:
word = "高興"
interact(moedict_caller, word=word)

interactive(children=(Text(value='高興', description='word'), Output()), _dom_classes=('widget-interact',))

<function __main__.moedict_caller>

### 詞頻統計

In [63]:
#@title
def show_most_common(text, top=3):
    doc = nlp(text)
    clean_tokens = filter_tokens(doc)
    tokens = [token.text for token in clean_tokens]
    counter = Counter(tokens)
    most_common = counter.most_common(top)
    print(most_common)

In [64]:
text = "迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈光秀。台北101下午透過新聞稿表示，今年特別設計「虎年新春燈光秀」，從今晚開始閃耀台北天際線，一直延續至2月5日，共7天。"
interact(show_most_common, text=text)

interactive(children=(Text(value='迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈…

<function __main__.show_most_common>

### 詞彙分級

In [65]:
#@title
def show_word_levels(text):
    doc = nlp(text)
    tokens = [token.text for token in doc]
    filter = wordlist['詞彙'].isin(tokens)
    result = wordlist[filter]
    return result

In [66]:
text = "迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈光秀。台北101下午透過新聞稿表示，今年特別設計「虎年新春燈光秀」，從今晚開始閃耀台北天際線，一直延續至2月5日，共7天。"
interact(show_word_levels, text=text)

interactive(children=(Text(value='迎接虎年到來，台北101今天表示，即日起推出「虎年新春燈光秀」，將持續至2月5日，每晚6時至10時，除整點會有報時燈光變化外，每15分鐘還會有3分鐘的燈…

<function __main__.show_word_levels>

## 結語

- 從學習者觀點出發的設計將能有助升教學效果

![](https://www.brainyquote.com/photos_tr/en/j/josephjoubert/108036/josephjoubert1-2x.jpg)

- 瑣碎的事情交給電腦做

![](https://im1.book.com.tw/image/getImage?i=https://www.books.com.tw/img/001/086/74/0010867440.jpg&v=5f33c4b4&w=280&h=280)

- 使喚電腦做事的第一步是訓練邏輯思維

![](https://memegenerator.net/img/instances/46383999/your-logic-is-illogical.jpg)

- 邏輯對了，你就已經學會了一半

![](https://www.flag.com.tw/assets/img/bookpic/F1709.jpg)