# Introduction

個別使用PTT creditcard版 2021年和2020年的語料做LDA，期望能夠透過非監督式的方法找出文章、句子的主題，語料處理如下：
1. 語料前處理
    - 刪除PTT標題分類（例如：[閒聊]、[發問]）
    - 刪除表情符號（字典 + unicode範圍）
    - 把多於空白刪除
    - 統一數字表示法（例如：1,000,000 -> 1000000）
    - 使用regex找出網址並刪除
    - 使用pysbd.Segmenter斷句
    - 使用CkipTagger斷詞
    - 切開過長句子
    - 合併過短句子
    - 把常見標點符號統一為全型
    - 刪除句子開頭或尾端的異常標點符號
    - 刪除 x%, x.x% 等回饋%數詞
    - 刪除純數字的詞
    
    
2. 語料過濾（句子）
    - 刪除OOV、特殊符號太多的句子
    - 刪除中文字太少的句子
    - 把標題包含「核卡」、「調額」的文章刪除
    

3. 語料過濾（單詞）
    - 刪除stopwords，參考：https://github.com/goto456/stopwords
    - 使用CkipTagger詞性標注後，刪除不是以下詞性的單詞，參考：https://github.com/ckiplab/ckiptagger/wiki/POS-Tags
        - Na: 普通名詞
        - Nb: 專有名詞
        - Nc: 地方詞
        - FW: 外文
        - VC: 動作及物動詞
    - 刪除只有一個字的單詞
    - 刪除「銀行名稱」單詞（若不刪除：則分群結果會有大量銀行名稱）
    
    
4. 訓練語料準備
    - 以文章為單位，準備n-gram語料（sliding window）
        - 目前n設定為1~5，也就是1-gram ~ 5-gram的語料會合併下去訓練
            - 實驗起來，比起用單一n-gram，更能在分群時找到更罕見的字作為主題
        - n-gram裡面必須包含至少一個銀行信用卡相關單詞，否則丟棄，參考：https://docs.google.com/spreadsheets/u/1/d/1o739ezU6qrFyw-QmbXBgu_8SlFjahOp-K5J-oddAXEM/edit#gid=1335809966

# Result - 2021

## LDA

In [6]:
import warnings
warnings.filterwarnings('ignore')
lda, corpus, corpus_info, corpus_ids, dictionary = load_lda('20211125/creditcard2021-best-group8')
prepare(lda, corpus_ids, dictionary)

## GROUP 1 - 購物、紅利、網拍

In [20]:
print_table(2021, 1)

Unnamed: 0,title,text,keywords
1,[心得] 信用卡點數搭商務艙？8個玩點數前的自我評估,的福利以及賺到的點數，是否已經遠遠大於年費的價值，如果用得上，可能很多時候還是倒賺的呢！例如有些信用卡會贈送機場貴賓室PriorityPass、旅遊中斷/取消的保險、退貨保障、食物外送服務金額折抵、GlobalEntry(全球入境計劃)的申請費折抵等，辦一張好卡把年費轉為生活消費之際，平時消費多想一下，可以讓生活上更有保障，累積的點,折抵|金額
2,[情報] 一銀出桃園卡了(聯名/認同),2.全台灣指定的大眾運輸像是北捷、高捷等都有2%現金為饋無上限3.全台加油站、捷運、高台鐵、客運、旅行社、飯店、免稅店紅利5倍，等於最高2%回饋其他就桃園相關比較多，但北部應該都用的到最主要是機捷8折(聯名/認同差不多概念，但計算方式不一樣),紅利|計算
3,[心得] 信用卡點數搭商務艙？8個玩點數前的自我評估,倒賺的呢！例如有些信用卡會贈送機場貴賓室PriorityPass、旅遊中斷/取消的保險、退貨保障、食物外送服務金額折抵、GlobalEntry(全球入境計劃)的申請費折抵等，辦一張好卡把年費轉為生活消費之際，平時消費多想一下，可以讓生活上更有保障，累積的點數有機會讓旅遊品質提高，Whynot？,折抵|金額
4,[情報] 一銀出桃園卡了(聯名/認同),3.全台加油站、捷運、高台鐵、客運、旅行社、飯店、免稅店紅利5倍，等於最高2%回饋其他就桃園相關比較多，但北部應該都用的到最主要是機捷8折(聯名/認同差不多概念，但計算方式不一樣)桃園市區客運、公車有折抵(這個有點小複雜，看辦哪張自己研究一下),折抵|紅利|計算
5,[心得] 信用卡點數搭商務艙？8個玩點數前的自我評估,得研究以及哪張卡值得辦，那就是另一個故事了。信用卡年費迷思？很多人都會有年費迷思，覺得年費很高就是不好，但如果我們換個角度思考，這些年費下的福利以及賺到的點數，是否已經遠遠大於年費的價值，如果用得上，可能很多時候還是倒賺的呢！例如有些信用卡會贈送機場貴賓室PriorityPass、旅遊中斷/取消的保險、退貨保障、食物外送服務金額折抵、GlobalEntry(全球入境計劃)的申請費折抵等，辦一,折抵|金額
6,[討論] 電信聯名卡哪家優惠最有感？,電信回饋3%無上限，海外消費1.5%回饋，如果是遠傳用戶，還是可以辦，不無小補。中華電信聯名卡(中國信託)中華的回饋有分HamiPoint或電信紅利點數HamiPoint用途範圍較紅利點數廣，紅利點數只能折抵電信費,折抵|紅利
7,[心得] 高鐵商務車廂升等、折價、現金回饋整理,每戶每月額外回饋之上限為紅利點數9400點/多利金570元。三、商務車廂升等(一)免費升等(但有年費條件)1.台新財富無限卡：年度每卡免費升等2張(正附卡分開計算)，且前期帳單須有新增消費,紅利|計算
8,[情報] 一銀出桃園卡了(聯名/認同),其他就桃園相關比較多，但北部應該都用的到最主要是機捷8折(聯名/認同差不多概念，但計算方式不一樣)桃園市區客運、公車有折抵(這個有點小複雜，看辦哪張自己研究一下)一銀連結：其他的可以自己研究一下,折抵|計算
9,[問題] 玉山only點數又偷縮水17%了嗎?,結果剛剛上玉山walletapp看7-11之類的購物金折抵，從100點6元變成5元了？！縮水比例快17%看起來只差一元不過有幾十萬點就是幾千塊沒了咧推紅利制度大家卯起來衝lv5結果紅利點數沒用完就連續幾次幾十%在縮水,購物|折抵|紅利
10,[情報] 中信紅利抵台灣大車隊車資,會用台灣大車隊APP搭車的可以參考看看今天在用的時候發現綁中信紅利可以設定抵車資還多了亞洲萬里通可以累計歷程跟其他能折抵點數的卡之前搭都沒有，應該是最近開始的,折抵|紅利


## GROUP 2,3 - 行動支付、電子錢包、超商、繳費

In [21]:
print_table(2021, 2)

Unnamed: 0,title,text,keywords
1,[心得] 2021Q1 信用卡回饋指定通路,Viva美好家庭、friDay購物、udn買東西、白蘭氏健康Mall、GOMAJI、UNIQLO網路商店、餐廳無白名單Apple台灣官方網站、momo購物網、PChome線上購物/商店街、Yahoo奇摩購物中心/超級商城/拍賣、淘寶/天貓、TreeMall、7-ELEVEN線上購物中心、博客來網路書店、GOMAJI、生,台灣
2,[心得] 2021Q1 信用卡回饋指定通路,平台全通路(含生活市集、松果購物)、東森購物、PChome、YAHOO、蝦皮購物、博客來、Viva美好家庭、friDay購物、udn買東西、白蘭氏健康Mall、GOMAJI、UNIQLO網路商店、餐廳無白名單Apple台灣官方網站、momo購物網、PChome線上購物/商店街、Yahoo奇摩購物中心/超級商,台灣
3,[心得] 2021Q1 信用卡回饋指定通路,如使用多元支付綁定卡片交易且該筆消費於信用卡帳單明細有明確顯示商店名稱亦可計入回饋計算)限外幣)非台灣且非新台幣之一般消費(含實體商店及網路)或商店收單行為國外銀行之一般消費,台灣|綁定
4,[心得] 2021Q1 信用卡回饋指定通路,入回饋計算)限外幣)非台灣且非新台幣之一般消費(含實體商店及網路)或商店收單行為國外銀行之一般消費因為是回饋外幣且涉及幣別多次轉換，需考慮使用方式,台灣
5,Re: [情報] 中信中油卡 每周一線上儲值再加贈2%電子,1.每周一線上儲值再加贈2%電子油劵：2.中信中油卡線上儲值5%回饋：3.中信中油卡紅利點數3倍，相當於0.8%回饋：4.中油Pay消費中油VIP點數3倍，相當於3%：5.110.01.01至110.03.31止中油Pay單筆消費滿50元抽獎活動又來了，這次不會再抽到一堆吉野家優惠券資格如下1.綁定中油聯名卡,綁定
6,Re: [情報] 中信中油卡 每周一線上儲值再加贈2%電子,110.01.01至110.03.31止中油Pay單筆消費滿50元抽獎活動又來了，這次不會再抽到一堆吉野家優惠券資格如下1.綁定中油聯名卡2.使用中油pay加油支付滿50元(複合商店、洗車、快保中心不算)每日限抽一次,綁定
7,Re: [情報] 中信中油卡 每周一線上儲值再加贈2%電子,1.綁定中油聯名卡2.使用中油pay加油支付滿50元(複合商店、洗車、快保中心不算)每日限抽一次3.線上儲值優惠券要在次月底前儲值，可搭配上面週一儲值活動首先要有中油聯名卡才能參加抽獎,綁定
8,Re: [情報] 中信中油卡 每周一線上儲值再加贈2%電子,資格如下1.綁定中油聯名卡2.使用中油pay加油支付滿50元(複合商店、洗車、快保中心不算)每日限抽一次3.線上儲值優惠券要在次月底前儲值，可搭配上面週一儲值活動,綁定
9,[情報] 國泰KOKO 5%延長至年底,icash聯名卡之指定網購/超商/交通/餐廳消費金額享5%現金回饋！(每戶每月帳單回饋上指定網購【線上購物平台】Apple台灣官方網站、momo購物網、PChome線上購物/商店街、Yahoo奇摩購物中心/超級商城/拍賣、淘寶/天貓、TreeMall、7-ELEVEN線上購物中心、博客來網,台灣|超商
10,[情報] 玉山ubear X 橘子支付全通路5%(上限100),使用beanfun！橘子支付綁定玉山UBear信用卡，至beanfun！橘子支付合作店家消費最高享5%現金回饋除原網購3.8%現金回饋外，享加碼1.2%現金回饋加碼回饋於活動期間内上限100元,橘子|綁定


In [22]:
print_table(2021, 3)

Unnamed: 0,title,text,keywords
1,Re: [情報] 合庫i享樂生活卡(COMBO鈦金悠遊卡),街口繳費會顯示公共事業費群，樂豆橘支只顯示統一超商，屬一般消費)110年悠遊卡加油另給5%，這檔悠遊卡加油10%，合庫指定通路加油6%pass電費儲值王10%，8%，6%都現世啦，夏季用電等你來儲爆電費阿D活動期間：即日起至110年12月31日：現金回饋無上限：國內享1%現金回饋：國外享2%現金回饋：六大通路加碼5%回饋：「i享樂生活卡」當期帳單新增一般消費達2999元以上,加碼|街口|通路
2,[情報] 台新開始登錄4月兩超商消費200元10%回饋,繳牌照稅、房屋稅、綜所稅皆適用。*活動期間每戶每月最高回饋20元刷卡金。需於消費當月完成登錄(每月限量登錄5000名，登錄期間於消費當月28日，上午10：00開放至當月底為止)。*本活動不含菸品、儲值、特殊門市(例如：學校、醫院、百貨商場門市...等)。活動期間OPEN錢包綁定台新信用卡支付享回饋統一超商實體門市消費享最高10%限量回回饋，單筆，消費滿200元送20點OPENPOINT。,登錄|錢包|綁定
3,[情報] 台新開始登錄4月兩超商消費200元10%回饋,消費/繳稅費，單筆，滿200元(含)以上送刷卡金20元。繳牌照稅、房屋稅、綜所稅皆適用。*活動期間每戶每月最高回饋20元刷卡金。需於消費當月完成登錄(每月限量登錄5000名，登錄期間於消費當月28日，上午10：00開放至當月底為止)。*本活動不含菸品、儲值、特殊門市(例如：學校、醫院、百貨商場門市...等)。活動期間OPEN錢包綁定台新信用卡支付享回饋,登錄|錢包|綁定
4,[情報] 7/14-10/5 每週五 萊爾富刷富邦J/JU 最高15%回饋,1.活動一僅限刷J卡或使用富邦LuckyPAY消費始符合饋資格；活動二僅限HiPay綁定J卡於萊爾富實體門市消費。以正卡持卡人為受贈者。含菸品之該筆交易、各類代收金額、雲端超商線上付款、簡訊團購及各式行動支付之交易(如LINEPay、街口等...)均不列入計算；唯LuckyPAY綁定信用卡及,PAY|綁定|街口
5,[情報] 微解封刷富邦，振興您的荷包~享13%回饋,活動期間內於國內「實體餐廳」、「旅行社」、「飯店」刷J卡(含JC/JP/JU卡)及momo卡使用JPOINTS卡(含JU卡)綁定LINEPAY支付再享原產品權益3%回饋無上限，合計最高享1.本活動需登錄(限量10000名)，每戶限回饋乙次2.統一回饋至本活動累積消費金額最高之卡別，依該卡別原產品權益提供加碼回饋：J,登錄|PAY|加碼|綁定
6,[情報] 7/14-10/5 每週五 萊爾富刷富邦J/JU 最高15%回饋,HiPay綁定J卡於萊爾富實體門市消費。以正卡持卡人為受贈者。含菸品之該筆交易、各類代收金額、雲端超商線上付款、簡訊團購及各式行動支付之交易(如LINEPay、街口等...)均不列入計算；唯LuckyPAY綁定信用卡及HiPay綁定J卡之交易始列入計算。,PAY|綁定|街口
7,[情報] 台新開始登錄4月兩超商消費200元10%回饋,活動期間OPEN錢包綁定台新信用卡支付享回饋統一超商實體門市消費享最高10%限量回回饋，單筆，消費滿200元送20點OPENPOINT。活動期間每戶每月最高回饋20點OPENPOINT，需於消費當月完成登錄(每月限量登錄5000名，登錄期間於消費當月28日上午10：00開放至，當月底為止)。本活動，不含代收、代售業務、菸品、儲值、特殊門市(例如：學校、,登錄|錢包|綁定
8,[情報] 微解封刷富邦，振興您的荷包~享13%回饋,優惠內容活動期間內於國內「實體餐廳」、「旅行社」、「飯店」刷J卡(含JC/JP/JU卡)及momo卡使用JPOINTS卡(含JU卡)綁定LINEPAY支付再享原產品權益3%回饋無上限，合計最高享1.本活動需登錄(限量10000名)，每戶限回饋乙次,登錄|PAY|綁定
9,[情報] 台新開始登錄4月兩超商消費200元10%回饋,需於消費當月完成登錄(每月限量登錄5000名，登錄期間於消費當月28日，上午10：00開放至當月底為止)。*本活動不含菸品、儲值、特殊門市(例如：學校、醫院、百貨商場門市...等)。活動期間OPEN錢包綁定台新信用卡支付享回饋統一超商實體門市消費享最高10%限量回回饋，單筆，消費滿200元送20點OPENPOINT。活動期間每戶每月最高回饋20點OPENPOINT，需於消費當月完成登錄(每月限量登錄5000名，登錄期間於消費當月28日上午10：00開放至，當月底為止)。,登錄|錢包|綁定
10,Re: [情報] 兆豐每周五六日~6/27外送達300+登錄享12%,亦或從未知曉本回動回饋者，前述三種案例之兆豐卡友，敬請好好把握延長期間與於UberEats或foodpanda美食外送平台累積消費達300元並完成登錄，：即享加碼12%現金回饋！：※每戶回饋上限100元，限量1000組。：※活動於110/6/10(四)14：00開放登錄。綁定e秒刷鈦金卡訂餐最高享15%現金回饋！：注意事項(節錄)：2.本活動限直接使用兆豐信用卡(或VISA金融卡)刷卡消費，不適用於綁定其：他型態支付工具消費(如LINEPay...等)。4.獲贈之刷卡金將於110年8月底前陸續回饋至有效正卡持卡人帳戶：網址,登錄|加碼|綁定


## GROUP 4 - 客服、辦卡相關業務

In [23]:
print_table(2021, 4)

Unnamed: 0,title,text,keywords
1,[心得] 33家信用卡結帳、截止日+變更時間統整,2021/2月致電客服回覆是這樣，若有新進度歡迎回報，已更新，謝謝，已更新，謝謝，已更新了，謝謝你，意見採納沒問題，小孩才做選擇，等全部更新好，我製作兩張，一張是你推薦的，我新增你的資料囉，謝謝，是有機會的，但我覺得就個案處理吧，畢竟銀行規則就是這樣了，我從今天早上打到下午加上整理資料跟之前爬文做的資料，真的不容易，謝謝你喜歡，謝謝補充說明，有版友有寄信給我分享但我還在思考要怎麼呈現會比較簡單，所以直銷卡只能選擇3號嗎？還是多一個3號的選擇，謝謝W大，這蠻不錯的欸，哪一家有這樣服務可以跟大家分享？原來，了解，謝謝分享，謝謝建議，採納唷，有空再來製作第三版，謝謝，請問這要怎麼用，新手，六個括號對應，六個截止日期,客服|資料
2,[公告] 水桶名單 zithromax 停權8週,真的，才不會要刷卡的時候不方便，會很難過額度不高的時候甚至可以打電話跟罵客服，原則上都會加好加滿呢板規，第一條，輕度犯規，處理：砍文/警告1次/視情節劣文3.注音文/錯字文/未依格式發表文章：文章標題與內文含有非語助詞的注音、錯別字,客服|電話
3,[公告] 水桶名單 zithromax 停權8週,額度不高的時候甚至可以打電話跟罵客服，原則上都會加好加滿呢板規，第一條，輕度犯規，處理：砍文/警告1次/視情節劣文3.注音文/錯字文/未依格式發表文章：文章標題與內文含有非語助詞的注音、錯別字或未依標題格式發表之文章。(註2),客服|電話
4,Re: [問題] 中信英雄聯盟卡回饋認列問題,進線客服說，因為系統轉換的原因，會在三月底補回饋客服說，有漏回饋的，系統會自己抓，不用再進線客服請客服補申請另外，補回饋入帳時，亦佔每個月結帳週期300元上限的額度，不是分開計算的...：至於如果3月初還是沒收到正確的回饋的話：：那就只能再敲一次客服客服是說3月後會正常認列回饋，但我有點沒信心......：：不過說真的這是我初次在中信辦卡，：：還要客戶去debug的確讓人感覺體驗有點差,客服|進線
5,[問題] 關於客服專線,VIP專線給專人服務(如果你硬要打一般線接通後系統會顯示你是VIP客戶，一般客服也不能服務你，一樣會幫你轉過去VIP線，所以你還是直接打VIP電話比較快，然後如果資格不符打VIP線就會被轉過去一般線),客服|電話
6,[問題] 關於客服專線,國泰是自家養的，你在國泰的存款夠多或是卡等夠高，就能打VIP專線給專人服務(如果你硬要打一般線接通後系統會顯示你是VIP客戶，一般客服也不能服務你，一樣會幫你轉過去VIP線，所以你還是直接打VIP電話比較快，然後如果資格不符打V,客服|電話
7,Re: [討論] 英雄聯盟聯名卡回饋請教,"英雄聯盟聯名卡回饋請教原文恕刪：推seeghost945：我刷了GASH，帳單上新增的回饋金也只有1%...01/0623：15：推seeghost945：客服跟我說要有""GAMANIA""才符合回饋01/0623：19線上客服等了半小時問到的今天下班時有打電話回覆了",客服|電話|線上
8,Re: [閒聊] 擁有一張花旗卡，考驗你的EQ,打電話過去之後照著步驟慢慢按數字就可以了不用透過客服人員不過我是問網頁的線上客服，正想問客服能不能直接幫我折抵的時候，對方就離線只好打電話折抵，想到就覺,客服|電話|線上
9,[閒聊] 申請富邦J卡及附卡的過程有點怪,好，既然這張附卡要改電話那麼麻煩那我第二張附卡的申請資料先拿回來更改，再送打給客服，客服回說只要正卡有綁定，附卡消費一樣會回饋到正卡綁定的line,客服|電話|資料
10,Re: [情報] HSBC滙豐6/1起臨時調高額度消費不予回饋,上次看到你po的簡訊不是寫額度內使用，只能加減用不要溢繳，現在的點是他們廣告打著月上限回饋10萬，卻不讓人溢繳，鬼拿的到，當初加個溢繳不回饋很難嗎，打電話問客服還告知溢繳有回饋,客服|簡訊|電話


## GROUP 5 - icash、商務相關信用卡

In [24]:
print_table(2021, 5)

Unnamed: 0,title,text,keywords
1,[情報] 臺灣企銀-藝FUN悠遊御璽卡,現金回饋無上限。專屬優惠(上市日至110年12月31日)上市日至110年3月31日前，於國內一般消費得享1%(含原現金回饋)現金回饋且無回饋上限，限制。首刷禮活動期間：上市日至110年12月31日。活動內容：新戶於活動期間核卡並於核卡後60日內，新增一般消費合計3筆，且每筆達新，臺幣(以下同)666元(含)以上，即贈刷卡金300元。注意事項1.新戶指首次申辦藝FUN信用卡正卡，且申請人於核卡日前6個月未曾持有本行信用卡正卡,上限
2,[心得] 玉山寶雅聯名卡 x POYA PAY,上禮拜去寶雅一趟發現他們在推自家的行動支付POYAPAY當場研究了一下發現用聯名卡搭POYAPAY紅利回饋會超賺【A方案】：於寶雅或寶家門市店內消費單筆不限金額，即贈寶雅點數30000點(價值100元)，每月上限30000點，活動三個月下來最多可以拿到90000點(價值300元),上限
3,[心得] 花旗現金回饋PLUS鈦金卡 超低額度核,1/25簡訊說審核通過1/28收到卡片本來想說回饋雖然不高，折抵方式也不太方便，但或許還可以配合百貨公司等活動使用結果一看到額度給那麼低，打電話給客服也只有很官腔的說請等6個月後再調額，等到刷,百貨
4,[情報] 收到國泰世界卡免年費邀請,收到國泰世界卡免年費邀請前一篇文到處調額後，可惜中信1M沒過剛剛收到國泰世華銀行的邀請簡訊ttps：//申辦，核卡30天內一般消費滿1萬元享1仟元百貨禮券，專為您款,百貨
5,[心得] 花旗現金回饋PLUS鈦金卡 超低額度核,1/28收到卡片本來想說回饋雖然不高，折抵方式也不太方便，但或許還可以配合百貨公司等活動使用結果一看到額度給那麼低，打電話給客服也只有很官腔的說請等6個月後再調額，等到刷到送AirPod之後就剪掉算了。,百貨
6,[建議] open point行動支付綁定卡選擇,職業類別]：服務業目前工作年資]：2個月可提供之財力證明]：薪轉存摺已持有的卡片與額度]：永豐鈦豐卡30K新光三越聯名30K華南享利COMBO30K,COMBO
7,Re: [情報] 滙豐旅人無限/御璽卡 繳稅回饋1%,滙豐旅人無限/御璽卡，繳稅回饋1%因為到了今年1月份依然沒有拿到1%的回饋金詢問客服回覆，我沒有登錄活動想問一下是否有板友跟我一樣有登錄卻沒拿到回饋金的嗎？？,御璽
8,Re: [情報] 凱基MoneyBack御璽卡要停了！(點數會消失?),凱基MoneyBack御璽卡要停了！(點數會消失？)電影神卡停卡，後來轉成現金回饋悠遊御璽卡但因為之前神卡已經廢一陣子了，所以有一段時間都沒用這張卡一個多月前想起來有五百多的現金點未使用,御璽
9,[心得] 2020年多張卡片婉拒,一、凱基現金回饋鈦金卡2020/07/01申請，當天電話行銷部拉聯徵一次2020/07/02凱基個金信用審查部聯徵2020/08月底申請,鈦金
10,[問題] 中信中油卡 重複申請,所以當天再申請一次御璽卡想說會過的話應該會核發最高等級結果最後收到一張御璽，一張白金白金目前還沒開卡,御璽


## GROUP 6 - 實體經濟、振興券相關

In [25]:
print_table(2021, 6)

Unnamed: 0,title,text,keywords
1,Re: [問題] 永豐大戶卡 vs 新光寰宇回饋卡,經詢問客服說去年底有看到電子帳單免年費的活動為何今年卻沒有客服是回應此活動為每年度獨立的，去年登錄僅去年有效，今年要等有活動登錄才能算數供參標題[問卦]遇到遊覽車司機群在桃機擾亂怎麼辦？小弟載同事去桃機第一航廈搭飛機，結果遇到一大堆,帳單|電子
2,[情報] HSBC匯豐現金回饋御璽卡終身免年費,手邊有張現金回饋御璽卡原本要剪卡了上官網查客服電話時發現怎麼多這麼多張豬鼻子卡然後瞄到現金回饋御璽卡，使用電子/行動帳單終身免年費跟客服確認後證實這張老卡只要申請電子帳單就免年費了,帳單|電子
3,[情報] HSBC匯豐現金回饋御璽卡終身免年費,上官網查客服電話時發現怎麼多這麼多張豬鼻子卡然後瞄到現金回饋御璽卡，使用電子/行動帳單終身免年費跟客服確認後證實這張老卡只要申請電子帳單就免年費了於是我就不剪了,帳單|電子
4,[問題] 年費銀行忘了收？,就如一些經驗豐富的大大所說，就是銀行不扣而已補充一下資訊1.卡片是ipass聯名卡，就是幫行員衝業績辦的，很廢的一張2.查過年費規定，沒看到電子帳單可免年費,帳單|電子
5,[建議] 該辦星展、匯豐、富邦信用卡嗎？,是電子帳單就免年費。是否有無貸款]：學貸110K，低利我才不先繳完呢！最近3個月內有無申辦]1.玉山世界卡，9月新申辦，有拉聯徵。,帳單|電子
6,[心得] 花旗現金回饋鈦金/永豐JCB現金回饋卡 未,原來這兩張這麼不好辦，有喔，之前辦聯邦的時候客服有特別請我截帳號的部分這是想辦JCB是想說拿新戶禮大戶卡剛好沒有新戶禮會不會是大戶裡面錢不多的關係(都丟到股市了，真的,新戶
7,[建議] 一般消費建議,各位對於這樣的卡片都怎麼處理，希望能得到一些建議。最後，請問花旗卡辦不到一個月就剪卡會有甚麼問題嗎？我已經有辦電子帳單，並且近期有消費了，還是說我可以先保留到後年再做打算？各位對於這樣閒置的卡都如何掌控？可否提供一些建議，謝謝,帳單|電子
8,Re: [情報] HSBC匯豐現金回饋御璽卡終身免年費,要6%回饋還要放10萬在帳戶，帳戶也沒高利活存，還要達消費門檻，要開戶，還是pass了：。：要吃coldstone或21世紀烤雞，這張在戴在身上吧，好的！因為你的真實體驗讓我也懷疑匯豐的說詞，所以直接去信詢問其真偽。得到的回覆簡言之：不分新舊戶，使用，非紙本帳單，均享，終身免年費如果被收了，其實可以客訴的吧？！以上，提供參考...,帳單|紙本
9,[討論] 每天收到樂天的E-MAIL廣告信,但非卡友自己訂閱還寄這麼頻繁不會讓人覺得太騷擾嗎？我跟客服說要取消寄送，他又說他們的廣告不只有E-MAIL還有郵寄紙本、電話、簡訊(這樣加起來總共四種)不會因為有寄電子信就不寄紙本信，只是頻率不一樣,紙本|電子
10,Re: [情報] 星展ECO 3%回饋延續到年底,加上星展的APP推播簡直大勝花旗太多了...花旗的APP推播延遲問題電子帳單還要登入網銀才能看(網銀又超難用)所以我目前無腦現金回饋主力就只用這張了,帳單|電子


## GROUP 7 - 辦卡等信用卡相關業務

In [26]:
print_table(2021, 7)

Unnamed: 0,title,text,keywords
1,[問題] 淘寶綁永豐JCB/幣倍的選擇？,不過關於幣倍卡的付款方法看起來還是有點模糊故發文請教一下淘寶綁卡消費的選擇1.永豐JCB現金回饋卡看網站說明網購加碼4%含淘寶網,JCB
2,[建議] 消費習慣配合的信用卡是否合適,這部分的消費都使用玉山Pi錢包信用卡有看到花旗PCHOME卡6%但好像有限制條件需要分期在沒有限制的情況下貌似玉山PI的5%，已經是上限了？線上課程&Steam的部分好像可以換成永豐大戶卡,分期
3,[心得] 2021上半年用卡整理,一銀星璨&ileo卡12%(加碼10%需於每月20號早上10點登錄，10%回饋每月上限200)聯邦卡10%(需消費入帳後登錄，每月回饋上限100元，折抵次月一般消費，未扣完歸零)中信英雄聯盟聯名卡10%(加碼9%回饋每月上限300，信用卡及簽帳卡上限分開計算)新光新光三越聯名卡10%(每月回饋上限100，需逐月登錄),簽帳
4,[心得] 2021上半年用卡整理,一銀星璨&ileo卡12%(加碼10%需於每月20號早上10點登錄，10%回饋每月上限200)聯邦卡10%(需消費入帳後登錄，每月回饋上限100元，折抵次月一般消費，未扣完歸零)中信英雄聯盟聯名卡10%(加碼9%回饋每月上限300，信用卡及簽帳卡上限分開計算)新光新光三越聯名卡10%(每月回饋上限100，需逐月登錄),簽帳
5,[心得] 2021上半年用卡整理,外送一銀星璨&ileo卡12%(加碼10%需於每月20號早上10點登錄，10%回饋每月上限200)聯邦卡10%(需消費入帳後登錄，每月回饋上限100元，折抵次月一般消費，未扣完歸零)中信英雄聯盟聯名卡10%(加碼9%回饋每月上限300，信用卡及簽帳卡上限分開計算),簽帳
6,[公告] 水桶名單 zithromax 停權8週,板規，第一條，輕度犯規，處理：砍文/警告1次/視情節劣文9.謠言文/唬爛文：無具體事實證明之謠言文/唬爛文，經查證，有誤導網友之嫌。相關文章如下：作者zithromax(zithromax)看板creditcard標題[新聞]信用卡額度破億！他好奇「不就是刷卡用？」內行曝2優勢：超方便,證明
7,[心得] 2021上半年用卡整理,中信英雄聯盟聯名卡10%(加碼9%回饋每月上限300，信用卡及簽帳卡上限分開計算)新光新光三越聯名卡10%(每月回饋上限100，需逐月登錄)永豐JCB現金回饋卡9%(8%額外回饋上限200，當期帳單需新增一般消費2000)華南I網購8%(每期帳單回饋上限200，JCB卡免收1.5%手續費),JCB|簽帳
8,[心得] 2021上半年用卡整理,聯邦卡10%(需消費入帳後登錄，每月回饋上限100元，折抵次月一般消費，未扣完歸零)中信英雄聯盟聯名卡10%(加碼9%回饋每月上限300，信用卡及簽帳卡上限分開計算)新光新光三越聯名卡10%(每月回饋上限100，需逐月登錄)永豐JCB現金回饋卡9%(8%額外回饋上限200，當期帳單需新增一般消費2000),JCB|簽帳
9,[心得] 2021上半年用卡整理,聯邦卡10%(需消費入帳後登錄，每月回饋上限100元，折抵次月一般消費，未扣完歸零)中信英雄聯盟聯名卡10%(加碼9%回饋每月上限300，信用卡及簽帳卡上限分開計算)新光新光三越聯名卡10%(每月回饋上限100，需逐月登錄)永豐JCB現金回饋卡9%(8%額外回饋上限200，當期帳單需新增一般消費2000),JCB|簽帳
10,[情報] 新光寰宇卡 淘寶九月最高13%,【淘寶好康五重送】持寰宇卡至淘寶消費，最高享13%回饋，加碼再享3期、6期分期0利率好康一【寰宇卡享海外一般消費3%回饋】活動內容：持新光寰宇現金回饋卡至淘寶消費，享海外一般消費3%回饋(每期回饋無上限好康二【寰宇VISA卡累積消費滿5000元贈全家虛擬禮物卡300元，等同6%回饋】,分期|利率


## GROUP 8 - 旅遊、點數、里程

In [18]:
print_table(2021, 8)

Unnamed: 0,title,text,keywords
1,SmallBeeWayn (喵喵叫的蜜蜂貓),遠東百貨、遠東SOGO、新光三越、微風、環球購物中心、統一時代百貨、京站時尚廣場、誠品生活、台茂購物中心、遠東巨城購物中心、大江國際購物中心、南紡購物中心、漢神巨蛋、漢神百貨、夢時代、義大世界購物廣場、大魯閣草衙道、太平洋百貨、台北101購物中心、中友百貨、GLORIAOUTLETS華泰名品城、大葉高島屋百貨、momo、生活市集,世界|OU
2,Kazamatsuri (專業領隊),101/BELLAVITA/美麗華/誠品/誠品綠園道/三創生活/CITYLINK/BigCity遠東巨城購物中心/京站/大葉高島屋/環球購物中心/台茂購物中心/大江購物中心/比漾廣場/宏匯廣場/新月廣場/徐匯廣場/耐斯廣場/秀泰廣場義大世界購物中心/華泰名品城/三井OUTLET(林口、台中港)/麗寶OUTLET/,世界|OU
3,SmallBeeWayn (喵喵叫的蜜蜂貓),永豐現金JCB百貨網購餐廳，國內5%國外6%(需要一般消費滿2000)到2021/06/30遠東百貨、遠東SOGO、新光三越、微風、環球購物中心、統一時代百貨、京站時尚廣場、誠品生活、台茂購物中心、遠東巨城購物中心、大江國際購物中心、南紡購物中心、漢神巨蛋、漢神百貨、夢時代、義大世界購物廣場、大魯閣草衙道、太平洋百貨、台北101,世界
4,SmallBeeWayn (喵喵叫的蜜蜂貓),新光寰宇，綁定MyFamiPay上限1000有10%回饋點數到2021/06/30富邦J卡刷悠遊卡10%台灣大車隊、摩斯漢堡、日藥本舖、CoCo都可，每卡每月30到中信LOL英雄聯盟卡，最高10%到21/06/30這最高10%包含國內1%海外2.5%，也就是上限4000元加碼7.5%的意思？官網沒寫明,點數
5,SmallBeeWayn (喵喵叫的蜜蜂貓),玉山Ubear上限1000有20%到1/02/28新光寰宇，綁定MyFamiPay上限1000有10%回饋點數到2021/06/30富邦J卡刷悠遊卡10%台灣大車隊、摩斯漢堡、日藥本舖、CoCo都可，每卡每月30到中信LOL英雄聯盟卡，最高10%到21/06/30,點數
6,Kazamatsuri (專業領隊),遠東巨城購物中心/京站/大葉高島屋/環球購物中心/台茂購物中心/大江購物中心/比漾廣場/宏匯廣場/新月廣場/徐匯廣場/耐斯廣場/秀泰廣場義大世界購物中心/華泰名品城/三井OUTLET(林口、台中港)/麗寶OUTLET/日曜天地OUTLET/禮客OUTLET/麗晶精品/中友百貨/廣三SOGO/太平洋百貨,世界|OU
7,Kazamatsuri (專業領隊),購物中心/比漾廣場/宏匯廣場/新月廣場/徐匯廣場/耐斯廣場/秀泰廣場義大世界購物中心/華泰名品城/三井OUTLET(林口、台中港)/麗寶OUTLET/日曜天地OUTLET/禮客OUTLET/麗晶精品/中友百貨/廣三SOGO/太平洋百貨南紡購物中心/大魯閣(草衙道/漢神百貨/漢神巨蛋/大立百貨/高雄夢時代,世界|OU
8,wimd (旅行的意義 ),高鐵商務車廂升等、折價、現金回饋整理這一篇主要針對高鐵折價優惠、紅利點數折抵、現金回饋及商務車廂升等整理。表格式整理請見：一、折價優惠(一)華南領航極致尊榮卡、領航尊榮卡、尊榮卡及臺灣大學認同卡(無限及商務御璽卡),點數
9,cokelon (可樂龍),花旗現金回饋PLUS鈦金卡2%(回饋需滿300才能折抵帳單)渣打現金回饋1.88%(無法溢繳，學費保費無回饋)玉山Pi卡1.3%(回饋為Pi幣，可折抵水電或換成即享券)聯邦理財型無限卡8%(年費12000，每月可折抵新增消費1080),年費
10,Kazamatsuri (專業領隊),義大世界購物中心/華泰名品城/三井OUTLET(林口、台中港)/麗寶OUTLET/日曜天地OUTLET/禮客OUTLET/麗晶精品/中友百貨/廣三SOGO/太平洋百貨南紡購物中心/大魯閣(草衙道/漢神百貨/漢神巨蛋/大立百貨/高雄夢時代Focus時尚流行館/昇恆昌/采盟/大魯閣(新時代、湳雅廣場),世界|OU


  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload
  from imp import reload


# Code

In [3]:
import csv
import os
import pickle
import pyLDAvis
from gensim.corpora import Dictionary
from gensim.models import LdaModel
from gensim.test.utils import datapath
from pyLDAvis.gensim_models import prepare

pyLDAvis.enable_notebook()
EXP_ROOT = '/data/home/fintech-topic-detection/experiments'

scipy.sparse.sparsetools is a private module for scipy.sparse, and should not be used.
  _deprecated()


In [4]:
import matplotlib.pyplot as plt
def plot_coherence(num_topics_range, coherence_values):
    plt.plot(num_topics_range, coherence_values)
    plt.xlabel("Num Topics")
    plt.ylabel("Coherence score")
    plt.legend(("coherence_values"), loc='best')
    plt.show()

In [19]:
import pandas as pd
def print_table(year, group):
    def load_csv(year):
        import csv
        path = f'/data/home/fintech-topic-detection/data/{year}-lda-sortkeywords.csv'
        with open(path, newline='') as f:
            rows = [row for row in csv.reader(f)]
            header = rows[0]
            content = rows[1:]
        return header, content
    
    
    def group_df(header, content, group, count):
        TOTAL_EACH_GROUP = 50
        i = TOTAL_EACH_GROUP * (group - 1)
        j = TOTAL_EACH_GROUP * (group - 1) + count

        col_title = []
        col_text = []
        col_keywords = []
        index = range(1, count + 1)

        for row in content[i:j]:
            group,probability,board,post_id,title,author,speaker,text,keywords = row
            col_title.append(title)
            col_text.append(text)
            col_keywords.append(keywords)

        return pd.DataFrame(
            {'title': col_title, 'text': col_text, 'keywords': col_keywords}, index=index)
    
    
    def left_align(df):
        left_aligned_df = df.style.set_properties(**{'text-align': 'left'}).set_caption(f'{year} - Group {group}')
        left_aligned_df = left_aligned_df.set_table_styles(
            [dict(selector='th', props=[('text-align', 'left')]),
            {'selector': 'caption', 'props': [('color', 'black'), ('font-size', '20px')]}])
        return left_aligned_df
    
    from IPython.display import display, HTML
    header, content = load_csv(year)
    df = group_df(header, content, group, count=15)
    df = left_align(df)
    df = HTML(df.to_html().replace(' || ', '<br>'))
    display(df)

In [5]:
def load_lda(experiment):
    folder = f'{EXP_ROOT}/{experiment}'
    folder = folder[:-1] if folder.endswith('/') else folder
    lda = LdaModel.load(datapath(f'{folder}/model'))
    corpus = pickle.load(open(f'{folder}/corpus.p', 'rb'))
    corpus_info = pickle.load(open(f'{folder}/corpus_info.p', 'rb'))
    corpus_ids = pickle.load(open(f'{folder}/corpus_ids.p', 'rb'))
    dictionary = Dictionary.load(f'{folder}/dictionary')
    return lda, corpus, corpus_info, corpus_ids, dictionary


def show_lines(lda, corpus, corpus_info, corpus_ids, dictionary, target, min_prob, show_nums, write_path=None, keywords=None):
    count = 0
    assert len(corpus) == len(corpus_ids) == len(corpus_info)
    length = len(corpus)
    filtered = []
    print('Group', target, 'keywords', keywords)
    for i in range(length):
        topics = lda.get_document_topics(corpus_ids[i])
        topic, prob = sorted(topics, key=lambda x: x[1], reverse=True)[0]

        if topic + 1 == target and prob > min_prob:
            board, post_id, title, text, size, author, speaker = corpus_info[i]
 
            if size < 4:
                continue
                
            if keywords:
                matched = []
                has_keywords = False

                for kw in keywords:
                    if kw in text:
                        matched.append(kw)
                        has_keywords = True
                        
                text = text.replace(' ', '')
                        
                if has_keywords:
                    filtered.append([target, prob, board, post_id, title, author, speaker] + [text] + ['|'.join(matched)])
                else:
                    continue
            else:
                filtered.append([target, prob, board, post_id, title, author, speaker] + [text])
            
    if show_nums:
        print(f'len(filtered) : show_nums ({len(filtered)} : {show_nums})')
        if keywords:
            filtered = sorted(filtered, key=lambda x: x[-1].count('|'), reverse=True)[:show_nums]
            filtered = sorted(filtered, key=lambda x: x[1], reverse=True)
        else:
            filtered = sorted(filtered, key=lambda x: x[1], reverse=True)[:show_nums]
        return filtered
    else:
        return filtered


def write_lines(lines, path):
    mode = 'a' if os.path.exists(path) else 'w'
    with open(path, mode, newline='') as f:
        writer = csv.writer(f)
        if mode == 'w':
            writer.writerow(['group', 'probability', 'board', 'post_id', 'title', 'author', 'speaker', 'text', 'keywords'])
        for line in lines:
            writer.writerow(line)
            
            
def sample(path, num_topics, keywords=None):
    for target in range(1, num_topics + 1):
        print('Start sample topic', target)
        if keywords:
            group_keywords = keywords[target-1]
            print(group_keywords)
            lines = show_lines(
                lda, corpus, corpus_info, corpus_ids, dictionary,
                target=target, min_prob=0.5, show_nums=50, keywords=group_keywords)
        else:
            lines = show_lines(
                lda, corpus, corpus_info, corpus_ids, dictionary,
                target=target, min_prob=0.5, show_nums=50)
        write_lines(lines, path)
        
            
            
def sample(path, num_topics, keywords=None):
    for target in range(1, num_topics + 1):
        print('Start sample topic', target)
        if keywords:
            group_keywords = keywords[target-1]
            print(group_keywords)
            lines = show_lines(
                lda, corpus, corpus_info, corpus_ids, dictionary,
                target=target, min_prob=0.5, show_nums=50, keywords=group_keywords)
        else:
            lines = show_lines(
                lda, corpus, corpus_info, corpus_ids, dictionary,
                target=target, min_prob=0.5, show_nums=50)
        write_lines(lines, path)
        