# Gossiping Dataset Dataloader

## 引用 DataLoader

In [1]:
from data_helper.DataLoader import GossipingDataLoader

data_loader = GossipingDataLoader()

## 載入資料集

In [2]:
data_loader.load_dataset('data/Gossiping-QA-Dataset.txt')

Loading the Gossiping dataset...


In [3]:
for q,a in data_loader.sample(sample_num=5):
    print("Q:", q)
    print("A:", a)

Q: 冷冷的冰雨在臉上胡亂的拍？
A: 你就像個劊子手把我出賣
Q: 你又不是個演員
A: 若硬要說我是跑龍套，可以不要加個死字嗎
Q: 有沒有被問你來幹嘛的八卦
A: 這句話比較常出現在抓姦的時候吧...
Q: 八卦版發生過蛇摸奇蹟ㄇ
A: 簽名檔那個是偽物ㄇ
Q: 醫龍5都不出的八卦？
A: 看漫畫就好


## 資料預處理

In [5]:
data_loader.calculate_word_frequency()
data_loader.build_onehot_encoding()

Counting the word frequency...


Building the onehot encoding...


In [6]:
print("共有 %d 個不同的字" % (data_loader.num_different_words))

print("-"*30)

print("查看字頻")
print("你", data_loader.word_counter['你'])
print("好", data_loader.word_counter['好'])
print("嗎", data_loader.word_counter['嗎'])

共有 6930 個不同的字
------------------------------
查看字頻
你 69311
好 79190
嗎 91334


## 編碼關係

### One-hot Encoding

In [7]:
print("One-hot-Encoding")
print("-"*30)

encoding = data_loader.word_to_encoding("讚")
word = data_loader.encoding_to_word(encoding)

print("讚的 index 是", data_loader.word_to_index('讚'))
print("One-hot", encoding)
print("Encoding 會轉換為", word)

print("-"*30)

encoding = data_loader.word_to_encoding("`")
word = data_loader.encoding_to_word(encoding)

print("`的 index 是", data_loader.word_to_index('`'))
print("One-hot", encoding)
print("Encoding 會轉換為", word)

One-hot-Encoding
------------------------------
讚的 index 是 986
One-hot [ 0.  0.  0. ...,  0.  0.  0.]
Encoding 會轉換為 讚
------------------------------
`的 index 是 4962
One-hot [ 0.  0.  0. ...,  0.  0.  0.]
Encoding 會轉換為 `


## Index Sequence

In [8]:
sentence = "歡迎來到PTT資料集"
sent2index = data_loader.sentence_to_index(sentence)
index2sent = data_loader.index_to_sentence(sent2index)

print(sentence, "的 index list 是", sent2index)
print()
print(sent2index, " 能夠還原為", index2sent)

歡迎來到PTT資料集 的 index list 是 [472, 756, 32, 111, 89, 90, 90, 1313, 342, 283]

[472, 756, 32, 111, 89, 90, 90, 1313, 342, 283]  能夠還原為 歡迎來到PTT資料集


## 詞頻限制

將低字頻的字標記為 Unknown

In [9]:
data_loader.build_onehot_encoding(unknown_bound=100) # 字頻低於 100 視為 UNKNOWN CHAR

Building the onehot encoding...


In [10]:
print("字頻超過 100 的有 %d 個字" % (data_loader.num_different_words))

字頻超過 100 的有 2823 個字


In [11]:
print("One-hot-Encoding")
print("-"*30)

encoding = data_loader.word_to_encoding("讚")
word = data_loader.encoding_to_word(encoding)

print("讚的 index 是", data_loader.word_to_index('讚'))
print("讚的 One-hot", encoding)
print("而這個 Encoding 能還原為", word)

print("-"*30)

encoding = data_loader.word_to_encoding("`")
word = data_loader.encoding_to_word(encoding)

print("` 的 One-hot", encoding)
print("不過 Encoding 會轉換為", word, "因為 ` 的字頻小於 100 ")

One-hot-Encoding
------------------------------
讚的 index 是 967
讚的 One-hot [ 0.  0.  0. ...,  0.  0.  0.]
而這個 Encoding 能還原為 讚
------------------------------
` 的 One-hot [ 1.  0.  0. ...,  0.  0.  0.]
不過 Encoding 會轉換為 UNK 因為 ` 的字頻小於 100 
