#Week 5: Regular Expression, NER

# 1. Regular expression

In [None]:
## "re" is a python package for regular expression
import re

In [None]:
text1= 'I want to extract the token "grey" from this sentence '
re.search(r'grey', text1)

<re.Match object; span=(29, 33), match='grey'>

In [None]:
text2= 'I want to extract all tokens with "gray" or "grey" from this sentence'
re.findall(r'grey|gray', text2)

['gray', 'grey']

In [None]:
text3 ='For example, colou?r matches both "color" and "colour"'
re.findall(r'colou?r',text3)

['color', 'colour']

In [None]:
## * means zero or more than zero
text4 = ' For example, ab*c matches "ac", "abc", "abbc", "abbbc", and so on'
re.findall(r'ab*c',text4)

['ac', 'abc', 'abbc', 'abbbc']

In [None]:
## * means more than zero
text5 = 'For example, ab+c matches "abc", "abbc", "abbbc", and so on, but not "ac"'
re.findall(r'ab+c',text5)

['abc', 'abbc', 'abbbc']

In [None]:
## [a-z] means from a to z, I replace l(L) in eel with 1(one)
text6 = 'Which following words do not contain Arabic numerals? "dog" "cat" "frog" "ee1" '
re.findall(r'\"[a-z]+\"',text6)

['"dog"', '"cat"', '"frog"']

In [None]:
## Matching Characters
text7='discrimination,disconnection,description,distribution,dictation'
text7_norm = re.findall(r'dis[a-z]+tion', text7)
text7_norm

['discrimination', 'disconnection', 'distribution']

In [None]:
## assign the frequency of repeated string
text8='gd,god,good,goood,goooood,,gooooood,goooooooooood,gooooooooooooooood'
text8_norm = re.findall(r'go{2,5}d', text8)
text8_norm

['good', 'goood', 'goooood']

In [None]:
testtext = "????????????"
result = re.match(r'^[A-Za-z][0-9]{9}$', testtext)

if result:
    print('Match found: ', result.group())
else:
    print('No match')

No match


# 2. Named Entity Recognition (NER)



In [None]:
#install spaCy version 3, the spacy default of google colab is version 2
!pip install -U spacy
!python -m spacy download en_core_web_sm #download english module
!python -m spacy download zh_core_web_sm #download chinese module

Collecting en-core-web-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.2.0/en_core_web_sm-3.2.0-py3-none-any.whl (13.9 MB)
[K     |████████████████████████████████| 13.9 MB 23.0 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
Collecting zh-core-web-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.2.0/zh_core_web_sm-3.2.0-py3-none-any.whl (49.5 MB)
[K     |████████████████████████████████| 49.5 MB 262 kB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('zh_core_web_sm')


In [None]:
text="National Tsing Hua University was established in Beijing in 1911 as “Tsing Hua Academy”. \
In 1956, National Tsing Hua University was re-established at its present location in Hsinchu, Taiwan. \
Since its relocation, NTHU has developed into a comprehensive research university offering a full range \
of degree programs in science, technology, engineering, humanities, social sciences, and management."

In [None]:
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
doc.ents # # .ents - entities

(National Tsing Hua University,
 Beijing,
 1911,
 Tsing Hua Academy,
 1956,
 National Tsing Hua University,
 Hsinchu,
 Taiwan,
 NTHU)

In [None]:
print([(X.text, X.label_) for X in doc.ents])

[('National Tsing Hua University', 'ORG'), ('Beijing', 'GPE'), ('1911', 'DATE'), ('Tsing Hua Academy', 'WORK_OF_ART'), ('1956', 'DATE'), ('National Tsing Hua University', 'ORG'), ('Hsinchu', 'GPE'), ('Taiwan', 'GPE'), ('NTHU', 'ORG')]


In [None]:
for ent in doc.ents:
    print(ent.text,':', ent.start_char, ent.end_char, ent.label_)

National Tsing Hua University : 0 29 ORG
Beijing : 49 56 GPE
1911 : 60 64 DATE
Tsing Hua Academy : 69 86 WORK_OF_ART
1956 : 92 96 DATE
National Tsing Hua University : 98 127 ORG
Hsinchu : 174 181 GPE
Taiwan : 183 189 GPE
NTHU : 213 217 ORG


In [None]:
from spacy import displacy
displacy.render(doc, jupyter=True, style='ent')

In [None]:
# define text
text2="A smartphone application capable of identifying medicines based on their appearance was unveiled May 7 by National Yang-Ming University in Taipei City.\
Designed for home care professionals, AIGIA can recognize around 400 commonly used drugs and provide detailed information on the pharmaceuticals in English,\
Indonesian, Malay and Vietnamese. It is designed to work in conjunction with MedBox, a mobile imaging device also created by the NYMU team for photographing medicines.\
According to the university, around 500,000 seniors in Taiwan have multiple chronic diseases and need to take several drugs every day. As many pills are similar in\
size and appearance, more than half of such elderly patients have reported mistakenly taking the wrong medication, NYMU said.\
Dr. Chen Yu-chun, an associate professor at the college and head of the R&D team, said that many patients in Taiwan discard external packaging and store pills\
in the same box, which can create difficulties for caregivers. The app provides a simple solution in case of uncertainty, with initial trials at Taipei Veterans\
General Hospital demonstrating that it has an accuracy rate of about 95 percent, he added"
doc2=nlp(text2)
displacy.render(doc2, jupyter=True, style='ent')


# NER Chinese

In [None]:
## Input text
chinese_text = "國立清華大學立校於中西文化激盪之際，不同學問的思辨，本土與國際的對話，滋養人才，學貫中西，貢獻人群，橫跨學術、藝術、文學、軍事、政治、經濟各領域，\
為本校傲人的傳統。學校歷經變遷，而弦歌不曾稍歇；於逆境中，自強以不息，於板蕩中，厚德以載物，是本校師生的精神與面貌，以迄於今。而服務科學研究所成立於2008年 \
是亞洲第一個服務科學研究所，首開服務科學跨領域學習研究並培養創新人才，強調科技與人文的結合，以便在服務內容的發展，或是服務提供的過程中，提高服務滿意度，達到服務創新所帶來的價值。\
同時探討如何以科學化的方法與技術，增進服務相關產業與企業流程的生產力與創新，增進人類福祉。\
本所培育的人才具有跨領域思維能力，能將服務科學知識廣泛應用在各領域，本所學生畢業後就職，如同服科所本身多元發展的特性，除出國繼續進修深造外，皆能於各領域發揮專長，\
除網路產業、製造/軟體服務業、研究單位外，自行創業、加入Start-up團隊或前進兩岸三地就職也不在少數。"

chinese_text_cn="国立清华大学立校于中西文化激盪之际，不同学问的思辨，本土与国际的对话，滋养人才，学贯中西，贡献人群，横跨学术、艺术、文学、军事、政治、经济各领域，\
为本校傲人的传统。学校历经变迁，而弦歌不曾稍歇；于逆境中，自强以不息，于板荡中，厚德以载物，是本校师生的精神与面貌，以迄于今。而服务科学研究所成立于2008年 \
是亚洲第一个服务科学研究所，首开服务科学跨领域学习研究并培养创新人才，强调科技与人文的结合，以便在服务内容的发展，或是服务提供的过程中，提高服务满意度，达到服务创新所带来的价值。\
同时探讨如何以科学化的方法与技术，增进服务相关产业与企业流程的生产力与创新，增进人类福祉。\
本所培育的人才具有跨领域思维能力，能将服务科学知识广泛应用在各领域，本所学生毕业后就职，如同服科所本身多元发展的特性，除出国继续进修深造外，皆能于各领域发挥专长，\
除网路产业、製造/软体服务业、研究单位外，自行创业、加入Start-up团队或前进两岸三地就职也不在少数。"

## paragraph breaks
text = [p for p in chinese_text.split('\n') if len(p) != 0]
print(text)

['國立清華大學立校於中西文化激盪之際，不同學問的思辨，本土與國際的對話，滋養人才，學貫中西，貢獻人群，橫跨學術、藝術、文學、軍事、政治、經濟各領域，為本校傲人的傳統。學校歷經變遷，而弦歌不曾稍歇；於逆境中，自強以不息，於板蕩中，厚德以載物，是本校師生的精神與面貌，以迄於今。而服務科學研究所成立於2008年 是亞洲第一個服務科學研究所，首開服務科學跨領域學習研究並培養創新人才，強調科技與人文的結合，以便在服務內容的發展，或是服務提供的過程中，提高服務滿意度，達到服務創新所帶來的價值。同時探討如何以科學化的方法與技術，增進服務相關產業與企業流程的生產力與創新，增進人類福祉。本所培育的人才具有跨領域思維能力，能將服務科學知識廣泛應用在各領域，本所學生畢業後就職，如同服科所本身多元發展的特性，除出國繼續進修深造外，皆能於各領域發揮專長，除網路產業、製造/軟體服務業、研究單位外，自行創業、加入Start-up團隊或前進兩岸三地就職也不在少數。']


## Using Jieba


Source：https://kknews.cc/education/q45naob.html

In [None]:
import jieba 
import jieba.analyse 
import jieba.posseg as posg

!pip3 install opencc-python-reimplemented
from opencc import OpenCC
cc = OpenCC('s2t')

#https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big

#download chinese stopwords file at https://raw.githubusercontent.com/stopwords-iso/stopwords-zh/master/stopwords-zh.txt
# and save to your computer, you also add more chinese stopwords
import requests

## Download dictionary that has better support for traditional Chinese https://github.com/fxsjy/jieba
url = 'https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big'
r = requests.get(url, allow_redirects=True)
open('dict.txt.big', 'wb').write(r.content)

jieba.set_dictionary('dict.txt.big')

kw1=jieba.analyse.extract_tags(chinese_text,topK=20,withWeight=True,allowPOS=('n','ns')) 
for item in kw1:
  print("extract_tags: ",item)




Building prefix dict from /content/dict.txt.big ...
Dumping model to file cache /tmp/jieba.u501edca284da514cb68b53a20324f4e3.cache
Loading model cost 1.842 seconds.
Prefix dict has been built successfully.


extract_tags:  ('人才', 0.9407798946028572)
extract_tags:  ('研究所', 0.5913788147095238)
extract_tags:  ('立校', 0.5692746429952381)
extract_tags:  ('服科', 0.5692746429952381)
extract_tags:  ('傲人', 0.5522901218571429)
extract_tags:  ('弦歌', 0.539796585452381)
extract_tags:  ('中西文化', 0.5147445332666667)
extract_tags:  ('逆境', 0.4999752509666666)
extract_tags:  ('人文', 0.39534550918952377)
extract_tags:  ('面貌', 0.37307474104142857)
extract_tags:  ('流程', 0.36976727432809525)
extract_tags:  ('本土', 0.3584456124952381)
extract_tags:  ('特性', 0.32279132239761904)
extract_tags:  ('人群', 0.3112443160819048)
extract_tags:  ('科技', 0.2777273663528571)
extract_tags:  ('精神', 0.26760539292476193)
extract_tags:  ('政治', 0.24456397322095239)
extract_tags:  ('方法', 0.23656214428761904)


## Using Spacy

In [None]:
import spacy
#import zh_core_web_sm
nlp_cn = spacy.load("zh_core_web_sm")
doc_cn3 = nlp_cn(chinese_text_cn)
print(doc_cn3.ents)

(清华大学, 2008年, 亚洲, 第一, 三)


In [None]:
print([(X.text, X.label_) for X in doc_cn3.ents])

[('清华大学', 'ORG'), ('2008年', 'DATE'), ('亚洲', 'LOC'), ('第一', 'ORDINAL'), ('三', 'CARDINAL')]


In [None]:
from spacy import displacy
displacy.render(doc_cn3, jupyter=True, style='ent')

## NLP_Zh in Spacy

In [None]:
import spacy
from spacy import displacy
# load language model
nlp_zh = spacy.load('zh_core_web_sm')  ## disable=["parser"]
# parse text
doc = nlp_zh(chinese_text)

In [None]:
doc

國立清華大學立校於中西文化激盪之際，不同學問的思辨，本土與國際的對話，滋養人才，學貫中西，貢獻人群，橫跨學術、藝術、文學、軍事、政治、經濟各領域，為本校傲人的傳統。學校歷經變遷，而弦歌不曾稍歇；於逆境中，自強以不息，於板蕩中，厚德以載物，是本校師生的精神與面貌，以迄於今。而服務科學研究所成立於2008年 是亞洲第一個服務科學研究所，首開服務科學跨領域學習研究並培養創新人才，強調科技與人文的結合，以便在服務內容的發展，或是服務提供的過程中，提高服務滿意度，達到服務創新所帶來的價值。同時探討如何以科學化的方法與技術，增進服務相關產業與企業流程的生產力與創新，增進人類福祉。本所培育的人才具有跨領域思維能力，能將服務科學知識廣泛應用在各領域，本所學生畢業後就職，如同服科所本身多元發展的特性，除出國繼續進修深造外，皆能於各領域發揮專長，除網路產業、製造/軟體服務業、研究單位外，自行創業、加入Start-up團隊或前進兩岸三地就職也不在少數。

In [None]:
for token in doc:
    print(((
        token.text,
        token.pos_,
        token.tag_,
        token.dep_,
        token.is_alpha,
        token.is_stop,
    )))

('國立', 'VERB', 'VV', 'nmod:topic', True, False)
('清華', 'ADJ', 'JJ', 'amod', True, False)
('大學', 'NOUN', 'NN', 'nsubj', True, False)
('立校', 'VERB', 'VV', 'ROOT', True, False)
('於', 'ADP', 'P', 'case', True, False)
('中西', 'NOUN', 'NN', 'compound:nn', True, False)
('文化', 'NOUN', 'NN', 'nmod:prep', True, False)
('激盪', 'NOUN', 'NN', 'conj', True, False)
('之', 'PART', 'DEG', 'case', True, True)
('際', 'NOUN', 'NN', 'dobj', True, False)
('，', 'PUNCT', 'PU', 'punct', False, True)
('不同', 'ADJ', 'JJ', 'amod', True, True)
('學問', 'NOUN', 'NN', 'nmod:assmod', True, False)
('的', 'PART', 'DEG', 'case', True, True)
('思辨', 'NOUN', 'NN', 'dobj', True, False)
('，', 'PUNCT', 'PU', 'punct', False, True)
('本土', 'NOUN', 'NN', 'nsubj', True, False)
('與', 'VERB', 'VV', 'acl', True, False)
('國際', 'NOUN', 'NN', 'dobj', True, False)
('的', 'PART', 'DEC', 'mark', True, True)
('對話', 'NOUN', 'NN', 'conj', True, False)
('，', 'PUNCT', 'PU', 'punct', False, True)
('滋養', 'VERB', 'VV', 'conj', True, False)
('人才', 'NOUN', '

In [None]:
print([(X.text, X.label_) for X in doc.ents])
from spacy import displacy
displacy.render(doc, jupyter=True, style='ent')

[('科學研究所', 'ORG'), ('2008年', 'DATE'), ('第一', 'ORDINAL'), ('科學研究所', 'ORG')]


## Ckiptagger

This open-source library implements neural CKIP-style Chinese NLP tools.
[https://github.com/ckiplab/ckiptagger/](https://github.com/ckiplab/ckiptagger/)

In [None]:
!pip3 install ckiptagger



In [None]:
# if link 1 die, you can use the alternative link below
from ckiptagger import data_utils

ckipdata_id2="150BTuWcykYKdU6L5V3gEcECAfalAMuSY"
ckipdata_id3="12mf66AlZ2Xq0JUGORflD1Ot4Pul2SNPg"

def download_data_gdown(path,file_id):
    import gdown, os, zipfile, sys
    url = f"https://drive.google.com/uc?id={file_id}"
    data_zip = os.path.join(path, "data.zip")
    gdown.download(url, data_zip, quiet=False)

    with zipfile.ZipFile(data_zip, "r") as zip_ref:
        zip_ref.extractall(path)
    return

#download_data_gdown(path="./",file_id=ckipdata_id3)
data_utils.download_data_url("./") # iis-ckip

In [None]:
#load model file
from ckiptagger import construct_dictionary, WS,POS,NER
ws = WS("./data")
pos = POS("./data")
ner = NER("./data")

  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)
  partitioner=maybe_partitioner)
  initializer=initializer)
  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)
  cell = tf.compat.v1.nn.rnn_cell.LSTMCell(hidden_d, name=name)


In [None]:
word_sentence_list = ws(text)
pos_sentence_list = pos(word_sentence_list)
ner_sentence_list = ner(word_sentence_list, pos_sentence_list)

In [None]:
word_sentence_list

[['國立',
  '清華',
  '大學',
  '立校',
  '於',
  '中西',
  '文化',
  '激盪',
  '之',
  '際',
  '，',
  '不同',
  '學問',
  '的',
  '思辨',
  '，',
  '本土',
  '與',
  '國際',
  '的',
  '對話',
  '，',
  '滋養',
  '人才',
  '，',
  '學',
  '貫',
  '中',
  '西',
  '，',
  '貢獻',
  '人群',
  '，',
  '橫跨',
  '學術',
  '、',
  '藝術',
  '、',
  '文學',
  '、',
  '軍事',
  '、',
  '政治',
  '、',
  '經濟',
  '各',
  '領域',
  '，',
  '為',
  '本',
  '校',
  '傲人',
  '的',
  '傳統',
  '。',
  '學校',
  '歷經',
  '變遷',
  '，',
  '而',
  '弦歌',
  '不',
  '曾',
  '稍',
  '歇',
  '；',
  '於',
  '逆境',
  '中',
  '，',
  '自強',
  '以',
  '不息',
  '，',
  '於',
  '板蕩',
  '中',
  '，',
  '厚德',
  '以',
  '載物',
  '，',
  '是',
  '本',
  '校',
  '師生',
  '的',
  '精神',
  '與',
  '面貌',
  '，',
  '以迄',
  '於',
  '今',
  '。',
  '而',
  '服務',
  '科學',
  '研究所',
  '成立',
  '於',
  '2008年',
  ' ',
  '是',
  '亞洲',
  '第一',
  '個',
  '服務',
  '科學',
  '研究所',
  '，',
  '首開',
  '服務',
  '科學',
  '跨',
  '領域',
  '學習',
  '研究',
  '並',
  '培養',
  '創新',
  '人才',
  '，',
  '強調',
  '科技',
  '與',
  '人文',
  '的',
  '結合',
  '，',
  '以便',
  '在',
  '服務'

In [None]:
ner_sentence_list

[{(147, 152, 'DATE', '2008年'),
  (154, 156, 'LOC', '亞洲'),
  (156, 158, 'ORDINAL', '第一'),
  (396, 406, 'ORG', 'Start-up團隊'),
  (409, 410, 'CARDINAL', '兩'),
  (411, 412, 'CARDINAL', '三')}]

In [None]:
# Define new term for tokenization
word_to_weight = {"國立清華大學":1,"服務科學研究所":1}
user_dictionary = construct_dictionary(word_to_weight)
print(user_dictionary)

[(6, {'國立清華大學': 1.0}), (7, {'服務科學研究所': 1.0})]


In [None]:
#try to tokenize again
word_sentence_list = ws(text, recommend_dictionary = user_dictionary)
pos_sentence_list = pos(word_sentence_list)
ner_sentence_list = ner(word_sentence_list, pos_sentence_list)

print(word_sentence_list)

[['國立清華大學', '立校', '於', '中西', '文化', '激盪', '之', '際', '，', '不同', '學問', '的', '思辨', '，', '本土', '與', '國際', '的', '對話', '，', '滋養', '人才', '，', '學', '貫', '中', '西', '，', '貢獻', '人群', '，', '橫跨', '學術', '、', '藝術', '、', '文學', '、', '軍事', '、', '政治', '、', '經濟', '各', '領域', '，', '為', '本', '校', '傲人', '的', '傳統', '。', '學校', '歷經', '變遷', '，', '而', '弦歌', '不', '曾', '稍', '歇', '；', '於', '逆境', '中', '，', '自強', '以', '不息', '，', '於', '板蕩', '中', '，', '厚德', '以', '載物', '，', '是', '本', '校', '師生', '的', '精神', '與', '面貌', '，', '以迄', '於', '今', '。', '而', '服務科學研究所', '成立', '於', '2008年', ' ', '是', '亞洲', '第一', '個', '服務科學研究所', '，', '首開', '服務', '科學', '跨', '領域', '學習', '研究', '並', '培養', '創新', '人才', '，', '強調', '科技', '與', '人文', '的', '結合', '，', '以便', '在', '服務', '內容', '的', '發展', '，', '或是', '服務', '提供', '的', '過程', '中', '，', '提高', '服務', '滿意度', '，', '達到', '服務', '創新', '所', '帶來', '的', '價值', '。', '同時', '探討', '如何', '以', '科學化', '的', '方法', '與', '技術', '，', '增進', '服務', '相關', '產業', '與', '企業', '流程', '的', '生產力', '與', '創新', '，', '增進', '人類', '福祉', '。', '本', '所

In [None]:
def print_word_pos_sentence(word_sentence, pos_sentence):
    assert len(word_sentence) == len(pos_sentence)
    for word, pos in zip(word_sentence, pos_sentence):
        print(f"{word}({pos})", end="\u3000")
    print()
    return
  
for i, sentence in enumerate(text):
    print(f"'{sentence}'")
    print_word_pos_sentence(word_sentence_list[i],  pos_sentence_list[i])
    for entity in sorted(ner_sentence_list[i]):
        print(entity)

'國立清華大學立校於中西文化激盪之際，不同學問的思辨，本土與國際的對話，滋養人才，學貫中西，貢獻人群，橫跨學術、藝術、文學、軍事、政治、經濟各領域，為本校傲人的傳統。學校歷經變遷，而弦歌不曾稍歇；於逆境中，自強以不息，於板蕩中，厚德以載物，是本校師生的精神與面貌，以迄於今。而服務科學研究所成立於2008年 是亞洲第一個服務科學研究所，首開服務科學跨領域學習研究並培養創新人才，強調科技與人文的結合，以便在服務內容的發展，或是服務提供的過程中，提高服務滿意度，達到服務創新所帶來的價值。同時探討如何以科學化的方法與技術，增進服務相關產業與企業流程的生產力與創新，增進人類福祉。本所培育的人才具有跨領域思維能力，能將服務科學知識廣泛應用在各領域，本所學生畢業後就職，如同服科所本身多元發展的特性，除出國繼續進修深造外，皆能於各領域發揮專長，除網路產業、製造/軟體服務業、研究單位外，自行創業、加入Start-up團隊或前進兩岸三地就職也不在少數。'
國立清華大學(Nc)　立校(VA)　於(P)　中西(A)　文化(Na)　激盪(VAC)　之(DE)　際(Nd)　，(COMMACATEGORY)　不同(VH)　學問(Na)　的(DE)　思辨(VA)　，(COMMACATEGORY)　本土(Nc)　與(Caa)　國際(Nc)　的(DE)　對話(Na)　，(COMMACATEGORY)　滋養(VC)　人才(Na)　，(COMMACATEGORY)　學(VC)　貫(VC)　中(Nc)　西(Ncd)　，(COMMACATEGORY)　貢獻(VC)　人群(Na)　，(COMMACATEGORY)　橫跨(VJ)　學術(Na)　、(PAUSECATEGORY)　藝術(Na)　、(PAUSECATEGORY)　文學(Na)　、(PAUSECATEGORY)　軍事(Na)　、(PAUSECATEGORY)　政治(Na)　、(PAUSECATEGORY)　經濟(Na)　各(Nes)　領域(Na)　，(COMMACATEGORY)　為(VG)　本(Nes)　校(Nc)　傲人(VH)　的(DE)　傳統(Na)　。(PERIODCATEGORY)　學校(Nc)　歷經(VJ)　變遷(VH)　，(COMMACATEGORY)　而(Cbb)　弦歌(Na)　不(D)　曾(D)　稍(D)　歇(VA)　；(SEMICOL

## CKIP transformers
 [https://github.com/ckiplab/ckip-transformers](https://github.com/ckiplab/ckip-transformers)

In [None]:
!pip3 install -U transformers
!pip3 install -U ckip-transformers



In [None]:
from transformers import (
  BertTokenizerFast,
  AutoModel
)

In [None]:
tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
model = AutoModel.from_pretrained('ckiplab/albert-tiny-chinese-ner')

Some weights of the model checkpoint at ckiplab/albert-tiny-chinese-ner were not used when initializing AlbertModel: ['classifier.bias', 'classifier.weight']
- This IS expected if you are initializing AlbertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing AlbertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of AlbertModel were not initialized from the model checkpoint at ckiplab/albert-tiny-chinese-ner and are newly initialized: ['albert.pooler.weight', 'albert.pooler.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
from ckip_transformers.nlp import CkipWordSegmenter, CkipPosTagger, CkipNerChunker

In [None]:
# Initialize drivers
from ckip_transformers.nlp import CkipWordSegmenter, CkipPosTagger, CkipNerChunker

ws_driver = CkipWordSegmenter(level=3)
pos_driver = CkipPosTagger(level=3)
ner_driver = CkipNerChunker(level=3)

In [None]:
ws  = ws_driver(text, use_delim=True, batch_size=256, max_length=128)
pos = pos_driver(ws)
ner = ner_driver(text, use_delim=True)

Tokenization: 100%|██████████| 1/1 [00:00<00:00, 541.69it/s]
Inference: 100%|██████████| 1/1 [00:03<00:00,  3.93s/it]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 793.17it/s]
Inference: 100%|██████████| 1/1 [00:05<00:00,  5.55s/it]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 155.38it/s]
Inference: 100%|██████████| 1/1 [00:04<00:00,  4.92s/it]


In [None]:
ner

[[NerToken(word='國立清華大學', ner='ORG', idx=(0, 6)),
  NerToken(word='服務科學研究所', ner='ORG', idx=(137, 144)),
  NerToken(word='2008年', ner='DATE', idx=(147, 152)),
  NerToken(word='亞洲', ner='LOC', idx=(154, 156)),
  NerToken(word='第一', ner='ORDINAL', idx=(156, 158)),
  NerToken(word='Start-up團隊', ner='ORG', idx=(396, 406)),
  NerToken(word='兩岸', ner='LOC', idx=(409, 411)),
  NerToken(word='三', ner='CARDINAL', idx=(411, 412))]]