# 去停用詞練習
- Author: Lynn
- Created: 2020/10/27

停用詞 (stop words)
文本中，出現頻率高但無特殊統計意義的字，一般來說會要濾掉，通常利用人工建立的清單過濾掉
ex, 
英文: a, the, is , in....

中文:
啦, 上, 下, 不僅....


相反概念: 關鍵詞 (key words)

### 下載套件

In [1]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

### 查看英文停用詞表
- Ref: https://www.nltk.org/book/ch02.html

In [2]:
from nltk.corpus import stopwords

stop_words = stopwords.words('english')
print(f'共{len(stop_words)}個停用詞\n')

print('列出前10個停用詞')
print(stop_words[:10])

共179個停用詞

列出前10個停用詞
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


### 過濾停用詞

In [3]:
from nltk import word_tokenize

sentence = 'Once when I was six years old I saw a magnificent picture in a book, called True Stories from Nature, about the primeval forest.'

tokens = word_tokenize(sentence)
print('含停用詞:\n',tokens,'\n')

tokens = [token for token in word_tokenize(sentence) if token.lower() not in stop_words]
print('不含停用詞:\n',tokens,'\n')


含停用詞:
 ['Once', 'when', 'I', 'was', 'six', 'years', 'old', 'I', 'saw', 'a', 'magnificent', 'picture', 'in', 'a', 'book', ',', 'called', 'True', 'Stories', 'from', 'Nature', ',', 'about', 'the', 'primeval', 'forest', '.'] 

不含停用詞:
 ['six', 'years', 'old', 'saw', 'magnificent', 'picture', 'book', ',', 'called', 'True', 'Stories', 'Nature', ',', 'primeval', 'forest', '.'] 



### 去除標點符號

In [None]:
from string import punctuation

print(punctuation)

tokens = [token for token in word_tokenize(sentence) if not token in punctuation]
print(tokens)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
['Once', 'when', 'I', 'was', 'six', 'years', 'old', 'I', 'saw', 'a', 'magnificent', 'picture', 'in', 'a', 'book', 'called', 'True', 'Stories', 'from', 'Nature', 'about', 'the', 'primeval', 'forest']


### 查看Jieba中文停用詞表
- Ref: https://github.com/kdchang/python-jieba-chart/blob/master/stopwords.txt

In [11]:
import jieba

#file_path = '/content/drive/MyDrive/shared_folder/jieba/jieba_stop_words.txt'
#path 要重設
#Python读取txt报错：'cp950' codec can't decode byte 0xb1 in position 5: illegal multibyte sequence
#解法: 根本原因：files中含有excel文件，加入encoding='utf-8'

#file_path = '../shared_folder/jieba/jieba_stop_words.txt'
#error cp529! 問題不是資料檔，而是 Python 腳本的預設編碼，所以我們只要告訴 Python 我們要讀取的檔案是以 UTF-8 編碼即可解決。


file_path = '../shared_folder/jieba/jieba_stop_words.txt'

stop_words = [line.strip() for line in open(file_path, "r",encoding='utf-8').readlines()]


print('列出前10個停用詞')
print(stop_words[:10])

列出前10個停用詞
['the', 'of', 'is', 'and', 'to', 'in', 'that', 'we', 'for', 'an']


### 過濾停用詞

In [None]:
sentence = '朋友們啊，讓我們一起加入動物森友會吧。'

tokens = [token for token in jieba.lcut(sentence)]
print('含停用詞:\n',tokens,'\n')

tokens = [token for token in jieba.lcut(sentence) if not token in stop_words]
print('不含停用詞:\n',tokens,'\n')

含停用詞:
 ['朋友', '們', '啊', '，', '讓', '我們', '一起', '加入', '動物', '森友會', '吧', '。'] 

不含停用詞:
 ['朋友', '們', '，', '讓', '我們', '一起', '加入', '動物', '森友會', '。'] 



# 小練習
### 在停用詞列表加上全形標點符號

In [None]:
stopwords = []

file_path = '/content/drive/MyDrive/shared_folder/jieba/jieba_stop_words.txt'
with open(file_path) as f:
  for line in f.readlines():
    line = line.strip()
    stopwords.append(line)

### TODO ###
# 加上自訂的停用詞

print(stopwords)

['the', 'of', 'is', 'and', 'to', 'in', 'that', 'we', 'for', 'an', 'are', 'by', 'be', 'as', 'on', 'with', 'can', 'if', 'from', 'which', 'you', 'it', 'this', 'then', 'at', 'have', 'all', 'not', 'one', 'has', 'or', 'that', '的', '了', '和', '是', '就', '都', '而', '及', '與', '一個', '沒有', '我們', '你們', '妳們', '他們', '她們', '是否', '一', '不', '在', '人', '有', '為', '以', '於', '上', '他', '後', '之', '來', '因', '下', '可', '到', '由', '這', '也', '此', '但', '並', '個', '其', '已', '無', '小', '我', '們', '起', '最', '再', '今', '去', '好', '只', '又', '或', '很', '亦', '某', '把', '那', '你', '乃', '它', '吧', '被', '比', '別', '趁', '當', '從', '到', '得', '打', '凡', '兒', '爾', '該', '各', '給', '跟', '何', '還', '即', '幾', '既', '看', '據', '距', '靠', '啦', '了', '另', '麼', '每', '們', '嘛', '拿', '哪', '那', '您', '憑', '且', '卻', '讓', '仍', '啥', '如', '若', '使', '誰', '雖', '隨', '同', '所', '她', '哇', '嗡', '往', '哪', '些', '向', '沿', '喲', '用', '於', '咱', '則', '怎', '曾', '至', '致', '著', '諸', '自', '，', '。', '；', '、', '」', '「', '！', '!', ',', '[', ']', '~', '`', ')', '(', '）', '（', '/', '？', '?

# 中文文本範例

### 經濟日報報導

In [None]:
sent = '疫情嚴峻，財政部今（27）日表示，將針對受疫情影響的查定課徵營業人（小商家）主動調減第2季營業稅，4月至6月各月依據疫情嚴重程度進行調減，其中6月針對特定行業可100%調減，等於免稅，其他行業小商家6月也一律減半課徵，可說是雨露均霑，預計第2季全台共49萬家小商家受惠、調減營業稅合計約2.3億元。\
中央流行疫情指揮中心今年5月15日宣布自當日起至同年月28日提升雙北地區疫情警戒至第3級，並關閉休閒娛樂場所（包括歌廳、舞廳、夜總會、俱樂部等）及觀展觀賽場所（包括展覽場、電影片映演場所、體育館等），隨後在19日宣布全國進入第3級警戒，25日宣布全國第3級警戒延長至6月14日止。\
財政部表示，衡酌今年5月中旬起國內疫情日趨嚴峻，各地區國稅局將依營業稅特種稅額查定辦法第3條第1項規定，主動調減受疫情影響查定課徵營業人本年第2季（4月至6月）的銷售額及營業稅額，無論按月、按季查定課徵的小商家，都可受惠。\
其中，4月因為國內疫情尚屬穩定，各地國稅局僅針對特殊個案申請核實調減。\
而5月方面，針對前述指揮中心強制關閉營業的行業，以及營業性質屬與人近距離接觸的行業，例如理髮業、美容院等，這些特定行業則調減50%，等於是減半課徵；其他行業則一律調減30%。\
'

### 去停用詞
import jieba
file_path = '/content/drive/MyDrive/shared_folder/jieba/jieba_stop_words.txt'
stop_words = [line.strip() for line in open(file_path).readlines()]
tokens = [token for token in jieba.lcut(sent) if token not in stop_words]

### 詞頻排名
from collections import Counter #Counter在幫忙計算重複次數並轉dict
ct = Counter(tokens)
ct.most_common(20)

[('月', 13),
 ('疫情', 8),
 ('調減', 7),
 ('第', 7),
 ('日', 6),
 ('6', 5),
 ('查定', 4),
 ('商家', 4),
 ('行業', 4),
 ('3', 4),
 ('對', 3),
 ('2', 3),
 ('4', 3),
 ('營業', 3),
 ('5', 3),
 ('宣布', 3),
 ('警戒', 3),
 ('級', 3),
 ('嚴峻', 2),
 ('財政部', 2)]