## Tokenization Chinese Text
공식문서: 중국어라 한계가 있습니다.. 
https://github.com/fxsjy/jieba

In [None]:
!pip install jieba

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [1]:
import jieba.posseg as pseg
import jieba

In [2]:
text = "于吉大招叫什么。于吉怒气技叫什么"
words = pseg.cut(text)
for w in words:
    print('%s %s' % (w.word, w.flag))

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 1.500 seconds.
Prefix dict has been built successfully.


于 p
吉大招 nr
叫 v
什么 r
。 x
于吉 nr
怒气 n
技叫 n
什么 r


In [4]:
jieba.lcut(text)

['于', '吉大招', '叫', '什么', '。', '于', '吉', '怒气', '技叫', '什么']

In [12]:
# encoding = utf-8

# 全模式 (Full Mode)
text = "他来到韩国首尔大学，我来到中国厦门大学"
seg_list = jieba.cut(text, cut_all=True)
print(u"[全模式]: ", "/ ".join(seg_list))

# 精确模式 (Defalt Mode)
seg_list = jieba.cut(text, cut_all=False)
print(u"[精确模式]: ", "/ ".join(seg_list))

# 搜索引擎模式 (Search Engine Mode)
seg_list = jieba.cut_for_search(text)
print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

[全模式]:  他/ 来到/ 韩国/ 首尔/ 大学/ ，/ 我/ 来到/ 中国/ 厦门/ 厦门大学/ 大学
[精确模式]:  他/ 来到/ 韩国/ 首尔/ 大学/ ，/ 我/ 来到/ 中国/ 厦门大学
[搜索引擎模式]:  他/ 来到/ 韩国/ 首尔/ 大学/ ，/ 我/ 来到/ 中国/ 厦门/ 大学/ 厦门大学


우선 첫 줄, 완전 모드부터 분석해보자.
```
他/ 来到/ 韩国/ 首尔/ 大学/ / / 我/ 来到/ 中国/ 厦门/ 厦门大学/ 大学

그/오다/한국/서울/대학///나/오다/중국/하문/하문대학/대학
```
완전 모드는 텍스트 내 단어가 될 수 있는 모든 어구들을 총! 스캔하여 출력시켜 준다.  즉, 분석 속도가 매우 빠르다.
하지만 곧이 곧대로 스캔하기 때문에, 동음이의어와 같은 다른 의미의 해석은 해주지 못한다.

둘째 줄, 기본 모드
```
他/ 来到/ 韩国/ 首尔/ 大学/ ，/ 我/ 来到/ 中国/ 厦门大学

그/오다/한국/서울/대학/,/나/오다/중국/하문대학
```
기본 모드는 말 그대로 가장 간결하게 텍스트 내 단어들을 쪼개 출력해주는 모드이다. 따라서 텍스트 마이닝에 쓸 때 가장 좋다

마지막 줄, 검색 엔진 모드
```
他/ 来到/ 韩国/ 首尔/ 大学/ ，/ 我/ 来到/ 中国/ 厦门/ 大学/ 厦门大学

그/오다/한국/서울/대학/,/나/오다/중국/하문/대학/하문대학
```
검색 엔진 모드는 기본 모드를 바탕으로, 길-다란 단어를 또 한번 분해하여 분석해주는 기능을 보여준다.

recall을 높여줄 수 있고, 검색 엔진 분석에 적합하는 특징이 있다.



### TF-IDF 알고리즘 키워드 추출
text: 추출할 텍스트  
topK: 몇 개의 TF/IDF를 반환하려면 최빈 기준 몇개까지 확볼해야 하는가? (default : 20)
withWeight: 키워드 가중치 값을 함께 반환할지 여부 , 기본값은 False. 
allowPOS: 특정 POS단어만 지정된 품사를 포함할지 여부(리스트는 https://github.com/fxsjy/jieba 에서 확인 가능)

In [14]:
#jieba의 내재 기능인 custom dictionary 사용법과 jieba분석의 주요 function, 태그 추출, 불용어 제거
import jieba.analyse
jieba.analyse.extract_tags(text,topK=20, withWeight=True, allowPOS=())

[('来到', 1.5387676811742856),
 ('厦门大学', 1.4241217170357143),
 ('首尔', 1.361604257072857),
 ('韩国', 0.9918828973),
 ('大学', 0.81631617465),
 ('中国', 0.43247438380857145)]

In [None]:
# -*- coding: utf-8 -*-
import jieba

txt = open("sample.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)               
counts = {}                    

for word in words:
    if len(word) == 1:            
        continue
    else:
        counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)                    

for i in range(len(items)):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

## 사용자 커스텀 사전 만들기
jieba.load_userdict(file_name)명령어를 바탕으로 사용자 사전으 만들 수 있다.


```
단어 빈도수(없으면 자동으로 계산) POS
```

## 그 외에도 자세한 사용법은 아래 링크 참조(중국어가 되시면 jieba 공식 홈페이지 활용)
https://developpaper.com/detailed-use-in-chinese-word-segmentation-based-on-jieba-package-in-python/

# 트랜스포머 가져오기(from huggingface)

HuggingFace 기반 추출사용

참고 사이트: https://huggingface.co/ckiplab/bert-base-chinese-ws
적용 기술:  word segmentation(단어 분리), part-of-speech tagging(품사 입력), named entity recognition(의미론적 품사 입력)

In [21]:
!pip3 install transformers
!pip install -U ckip-transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting ckip-transformers
  Downloading ckip_transformers-0.2.8-py3-none-any.whl (26 kB)
Installing collected packages: ckip-transformers
Successfully installed ckip-transformers-0.2.8


In [25]:
from transformers import (
  BertTokenizerFast,
  AutoModel,
)
from ckip_transformers.nlp import CkipWordSegmenter, CkipPosTagger, CkipNerChunker
tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
model = AutoModel.from_pretrained('ckiplab/bert-base-chinese-ws')

Some weights of the model checkpoint at ckiplab/bert-base-chinese-ws were not used when initializing BertModel: ['classifier.weight', 'classifier.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertModel were not initialized from the model checkpoint at ckiplab/bert-base-chinese-ws and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [19]:
text

'他来到韩国首尔大学，我来到中国厦门大学'

In [26]:
# Initialize drivers
ws_driver = CkipWordSegmenter(level=3)
pos_driver = CkipPosTagger(level=3)
ner_driver = CkipNerChunker(level=3)

Downloading:   0%|          | 0.00/301 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/107k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.79k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/388M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/301 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/107k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.62k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/388M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/301 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/107k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [27]:
# Input text
text = [
   "傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。",
   "美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。",
   "空白 也是可以的～",
]

# Run pipeline
ws  = ws_driver(text)
pos = pos_driver(ws)
ner = ner_driver(text)

Tokenization: 100%|██████████| 3/3 [00:00<00:00, 6310.39it/s]
Inference: 100%|██████████| 1/1 [00:15<00:00, 15.59s/it]
Tokenization: 100%|██████████| 3/3 [00:00<00:00, 8774.69it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  1.40it/s]
Tokenization: 100%|██████████| 3/3 [00:00<00:00, 6682.37it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  1.61it/s]


In [28]:
# Pack word segmentation and part-of-speech results
def pack_ws_pos_sentece(sentence_ws, sentence_pos):
   assert len(sentence_ws) == len(sentence_pos)
   res = []
   for word_ws, word_pos in zip(sentence_ws, sentence_pos):
      res.append(f"{word_ws}({word_pos})")
   return "\u3000".join(res)

# Show results
for sentence, sentence_ws, sentence_pos, sentence_ner in zip(text, ws, pos, ner):
   print(sentence)
   print(pack_ws_pos_sentece(sentence_ws, sentence_pos))
   for entity in sentence_ner:
      print(entity)
   print()

傅達仁今將執行安樂死，卻突然爆出自己20年前遭緯來體育台封殺，他不懂自己哪裡得罪到電視台。
傅達仁(Nb)　今(Nd)　將(D)　執行(VC)　安樂死(Na)　，(COMMACATEGORY)　卻(D)　突然(D)　爆出(VJ)　自己(Nh)　20(Neu)　年(Nf)　前(Ng)　遭(P)　緯來(Nb)　體育台(Na)　封殺(VC)　，(COMMACATEGORY)　他(Nh)　不(D)　懂(VK)　自己(Nh)　哪裡(Ncd)　得罪到(VC)　電視台(Nc)　。(PERIODCATEGORY)
NerToken(word='傅達仁', ner='PERSON', idx=(0, 3))
NerToken(word='20年', ner='DATE', idx=(18, 21))
NerToken(word='緯來體育台', ner='ORG', idx=(23, 28))

美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會，預料她將會很順利通過參議院支持，成為該國有史以來第一位的華裔女性內閣成員。
美國(Nc)　參議院(Nc)　針對(P)　今天(Nd)　總統(Na)　布什(Nb)　所(D)　提名(VC)　的(DE)　勞工部長(Na)　趙小蘭(Nb)　展開(VC)　認可(VC)　聽證會(Na)　，(COMMACATEGORY)　預料(VE)　她(Nh)　將(D)　會(D)　很(Dfa)　順利(VH)　通過(VC)　參議院(Nc)　支持(Nv)　，(COMMACATEGORY)　成為(VG)　該(Nes)　國(Nc)　有史以來(D)　第一(Neu)　位(Nf)　的(DE)　華裔(Na)　女性(Na)　內閣(Na)　成員(Na)　。(PERIODCATEGORY)
NerToken(word='美國參議院', ner='ORG', idx=(0, 5))
NerToken(word='今天', ner='LOC', idx=(7, 9))
NerToken(word='布什', ner='PERSON', idx=(11, 13))
NerToken(word='勞工部長', ner='ORG', idx=(17, 21))
NerToken(word='趙小蘭', ner='PERSON', idx=(21, 24))
NerToken(word='認