# Jieba

---

In [3]:
#pip3 install jieba
import jieba

#### jieba內建詞庫為簡體字詞庫，部分句法與繁體字有差異，因此我們可以手動設置詞庫
* 詞庫來源：https://github.com/ldkrsi/jieba-zh_TW

In [4]:
jieba.set_dictionary('dict.txt')

## 複習jieba 斷句
* 中文與英文最大的差異之一，就是中文句子一般都要先經過斷句處理(英文單詞間有空格)
* 先前已有課程介紹jieba斷詞，因此這裡只會快速帶過，幫助我們可以使用jieba完成PoS Tagging

In [5]:
sentence_1 = "我愛寫程式"
sentence_2 = "Python是一種廣泛使用的直譯式、進階程式、通用型程式語言"

* cut_all: 調整全模式、精確模式(默認False為精確模式)
* HMM: 是否使用HMM算法，可以使用 HMM 模型（Hidden Markov Models）找出『未登錄詞』

In [6]:
print("output 精確模式: {}".format('|'.join(jieba.cut(sentence_1, cut_all=False, HMM=False))))
print("output 全模式: {}".format('|'.join(jieba.cut(sentence_1, cut_all=True, HMM=False))))

Building prefix dict from /media/uvxy1234/pycharm_project/1st-NLPMarathon-Part1/Day10/課程練習/dict.txt ...
Loading model from cache /tmp/jieba.ub075a8bc761ae4870d592cca9ba365eb.cache
Loading model cost 0.357 seconds.
Prefix dict has been built successfully.


output 精確模式: 我|愛寫|程式
output 全模式: 我愛|愛寫|程式


In [7]:
print("output 精確模式: {}".format('|'.join(jieba.cut(sentence_2, cut_all=False, HMM=False))))
print("output 精確模式加上HMM: {}".format('|'.join(jieba.cut(sentence_2, cut_all=False, HMM=True))))
print("output 全模式: {}".format('|'.join(jieba.cut(sentence_2, cut_all=True, HMM=False))))

output 精確模式: Python|是|一|種|廣泛|使用|的|直譯|式|、|進階|程式|、|通用型|程式|語言
output 精確模式加上HMM: Python|是|一種|廣泛|使用|的|直譯|式|、|進階|程式|、|通用型|程式|語言
output 全模式: Python|是一|種|廣泛|使用|的|直譯|式|、|進階|程式|、|通用|通用型|程式|語言


## 新增單詞
* 有些特殊字如人名、術語等不會在內建詞庫內，因此模型無法正確斷句，此時我們可以自己新增字詞

In [8]:
sentence_1 = "精通各種程式語言是一件相當困難的事情"

In [9]:
print("output 精確模式: {}".format('|'.join(jieba.cut(sentence_1, cut_all=False, HMM=False))))

output 精確模式: 精通|各|種|程式|語言|是|一|件|相當|困難|的|事情


In [10]:
jieba.add_word('程式語言')

In [11]:
print("output 精確模式: {}".format('|'.join(jieba.cut(sentence_1, cut_all=False, HMM=False))))

output 精確模式: 精通|各|種|程式語言|是|一|件|相當|困難|的|事情


---

## 我們也可以讀入整個字典，就不用一個字一個字慢慢新增

In [12]:
## 新增單詞 ，格式：每行包含一個單詞 詞頻(可省略) 詞性(可省略)
new_words = '程式語言\nCupoy平台\n自然語言處理'
with open('new_words.txt', 'w') as file:
    file.write(new_words)

In [19]:
sentence_1 = "我在Cupoy平台上學習自然語言處理"
print("output 精確模式: {}".format('|'.join(jieba.cut(sentence_1, cut_all=False, HMM=False))))

output 精確模式: 我|在|Cupoy平台|上|學習|自然語言處理


In [18]:
## 讀入字典
jieba.load_userdict('new_words.txt')

In [17]:
sentence_1 = "我在Cupoy平台上學習自然語言處理"
print("output 精確模式: {}".format('|'.join(jieba.cut(sentence_1, cut_all=False, HMM=False))))

output 精確模式: 我|在|Cupoy平台|上|學習|自然語言處理


---

## Tokenize:可以用來取出斷詞位置

In [20]:
sentence_2 = "Python是一種廣泛使用的直譯式、進階程式、通用型程式語言"

In [21]:
words = jieba.tokenize(sentence_2,)
for tk in words:
    print("word: {},      start:{}, end:{}".format(tk[0],tk[1],tk[2]))

word: Python,      start:0, end:6
word: 是,      start:6, end:7
word: 一種,      start:7, end:9
word: 廣泛,      start:9, end:11
word: 使用,      start:11, end:13
word: 的,      start:13, end:14
word: 直譯,      start:14, end:16
word: 式,      start:16, end:17
word: 、,      start:17, end:18
word: 進階,      start:18, end:20
word: 程式,      start:20, end:22
word: 、,      start:22, end:23
word: 通用型,      start:23, end:26
word: 程式語言,      start:26, end:30


## Pos Tagging

In [22]:
import jieba.posseg as pseg

In [23]:
sentence_2 = "Python是一種廣泛使用的直譯式、進階程式、通用型程式語言"
words = pseg.cut(sentence_2,)

In [24]:
## 對應詞性可在此網頁查詢：https://www.cnblogs.com/chenbjin/p/4341930.html
for word, flag in words:
    print(word, flag)

Python eng
是 v
一種 m
廣泛 Vi
使用 Vt
的 T
直譯 Vt
式 M
、 x
進階 Vi
程式 N
、 x
通用型 N
程式語言 x


---

## NLTK

In [25]:
import pandas as pd
import numpy as np
import nltk
nltk.download() ##下載附件與資料



showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [26]:
#TSV文件有別於CSV的文件是使用\t作为分隔符，CSV則是使用,作为分隔符。
dataset = pd.read_csv(r'Restaurant_Reviews.tsv', sep='\t')
all_review = dataset['Review'].values

## nltk 詞性對照表

!['pos_tagging'](nltk-speech-codes.png)

---

In [27]:
sentence = all_review[0]
print(sentence)

Wow... Loved this place.


## tokenize : 將句子拆成words

In [28]:
tokenize = nltk.word_tokenize(sentence)
print('Token: {}'.format('|'.join(tokenize)))

LookupError: 
**********************************************************************
  Resource [93mpunkt[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt/PY3/english.pickle[0m

  Searched in:
    - '/home/uvxy1234/nltk_data'
    - '/media/uvxy1234/pycharm_venv/1st-NLPMarathon-Part1_py37/nltk_data'
    - '/media/uvxy1234/pycharm_venv/1st-NLPMarathon-Part1_py37/share/nltk_data'
    - '/media/uvxy1234/pycharm_venv/1st-NLPMarathon-Part1_py37/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - ''
**********************************************************************


## Tagging

In [5]:
tagging = nltk.pos_tag(tokenize,)
print(tagging)

[('Wow', 'NNP'), ('...', ':'), ('Loved', 'VBD'), ('this', 'DT'), ('place', 'NN'), ('.', '.')]
