In [3]:
import pandas as pd
from wordcloud import WordCloud
from PIL import Image
import numpy as np
import jieba
import re
from collections import Counter

def get_corpus_from_df(brand_df):
    "Returns a corpus made out of the brand_df(DataFrame)"
    
    brand_df['title'].fillna('', inplace=True)
    brand_df['content'].fillna('', inplace=True)
    brand_df['replies'].fillna('', inplace=True)
    
    title = ''.join(brand_df['title'])
    content = ''.join(brand_df['content'])
    replies = ''.join(brand_df['replies'])
    
    return title + content + replies

def preprocess_corpus(corpus):
    "Preprocess the input corpus using regex"
    
    corpus = re.sub('[a-zA-Z]+[0-9]+@[a-zA-Z]+\.?(com|edu|net)+\.?(tw)*', '', corpus) # 去除信箱
    corpus = re.sub('(http|https)://[a-zA-Z0-9/. &=]+', '', corpus) # 去除連結網址
    corpus = re.sub(' +', ' ', corpus) # 連續的空白變成一個
    corpus = re.sub('\.+', '', corpus)
    corpus = re.sub('\-+', '', corpus)
    
    return corpus

def create_wordcloud(corpus, stopwords):
    
    break_words = jieba.cut(corpus)
    words = []
    for word in break_words:
        if word not in stopwords:
            words.append(word)
    print('|'.join(words))

    # Create a word cloud
    mask = np.array(Image.open("包包已去背.png"))
    wd = WordCloud(background_color='white', font_path=r"C:\Windows\Fonts\微軟正黑體\msjh.ttc", mask=mask)
    diction = Counter(words)
    wd.generate_from_frequencies(frequencies=diction)
    imageCloud = wd.to_image()
    imageCloud.show()

def main():
    # Setups for jieba
    jieba.set_dictionary('dict.txt.big.txt') #設定繁體中文詞庫
    jieba.load_userdict('user_dict.txt') # 設定自訂詞庫

    # Read in the data
    MaxAndCo_df = pd.read_csv('Max&Co.csv')
    ClubMonaco_df = pd.read_csv('ClubMonaco.csv')
    Joseph_df = pd.read_csv('Joseph.csv')
    Maje_df = pd.read_csv('Maje.csv')
    iCB_df = pd.read_csv('iCB.csv')
    ToryBurch_df = pd.read_csv('ToryBurch.csv')

    # Set up the stopwords
    stopwords = []
    with open('stopwords_cn.txt', 'r', encoding='utf-8-sig') as f:
        for line in f:
            stopwords.append(line.strip())

    with open('stopwords_cn_2.txt', 'r', encoding='utf-8-sig') as f:
        for stop in f.read().split('\n'):
            if stop not in stopwords:
                stopwords.append(stop)

    other_stopwords = [':', 'yahoo.com.tw', 'hotmail.com', 'gmail.com', 'yahoocomtw', 'hotmailcom', 'gmailcom', ' ', '\n', 'hitomi', '小葳葳',\
                       '維小納', '知道', 'Max', 'max', '10', '小米', '粉底', '浮水', '謝謝', '請問', '信箱', '天蠍', '最近', '北斗神拳',\
                       '小姐', '這種', '耶和華', '歐芙莉娜', '強哥', '麥可', 'hiko', 'MAIKY', '彭', '歐妹', '波猴', 'Bora', 'ing', '強強',\
                       'maple2red', 'UtaHime', '麻煩', 'cat', '呆魚', 'ing', '留言', 'Cat', 'cat', 'CAT',\
                       '虫', 'lyvia', '晚安']
    stopwords.extend(other_stopwords)

    # Set up the corpus
    MaxAndCo_corpus = preprocess_corpus(get_corpus_from_df(MaxAndCo_df))
    ClubMonaco_corpus = preprocess_corpus(get_corpus_from_df(ClubMonaco_df))
    Joseph_corpus = preprocess_corpus(get_corpus_from_df(Joseph_df))
    Maje_corpus = preprocess_corpus(get_corpus_from_df(Maje_df))
    iCB_corpus = preprocess_corpus(get_corpus_from_df(iCB_df))
    ToryBurch_corpus = preprocess_corpus(get_corpus_from_df(ToryBurch_df))
    
    # Create WordCloud for each corpus
    for corpus in (MaxAndCo_corpus, ClubMonaco_corpus, Joseph_corpus, Maje_corpus, iCB_corpus, ToryBurch_corpus):
        create_wordcloud(corpus, stopwords)
    
    
if __name__ == '__main__':
    main()

Building prefix dict from C:\Users\User\AllMyScripts\dict.txt.big.txt ...
Loading model from cache C:\Users\User\AppData\Local\Temp\jieba.u145be6fb5b8a3e706fb35eedddc2c39a.cache
Loading model cost 1.057 seconds.
Prefix dict has been built successfully.


美國|MAX&CO|MAX&CO|MAX&CO|vip|卡|Kookai|Max&Co|Maxmara|值得|Max&Co|夾腳鞋|大方|分享|23區|／|MAX&CO|金卡會員|2006|春夏|max&co|and|義大利|旅遊|MAX|提供|max&co|vip|找|一雙|MAX&CO|真皮|黑色|高|長靴|過季|max&co|vip|折扣|Max&Co|義大利|價錢|MAX&CO|靴子|值得|投資|ㄇ|MAX|Max&Co|品牌|故事|介紹|Max&Co|MAX&CO|高雄|MAX&CO|專櫃|MAX|Max&Co|住|國外|水水|Max&Co|MAX&CO|秋冬|新品|Max&Co|MaxMara|副牌|MAX&CO|討論|max&co|2007|春夏|款想|max&co|indivi|vip|資格|折扣|MAX|Max&Co|品牌|故事|介紹|代理|co|這家|公司|co|春裝|上衣|價位|約|Max&Co|春夏|新品|上市|價位|Hermes|Max&Co|香港|超|MAX&CO|長|外套|好美|max&co|我並|服務態度|MAX|MAXMara|MAXMara|vip|卡|日本|Max&Co|台北|定價|差到|一倍|義大利|義大利|哪有|MaxMara|Fornarina|服飾|專櫃|工作|知|這位|超正|模特兒|KOOKAI|迷思|新宿|伊勢|丹|mara|fashion|group|特賣會|專櫃|算|團績|算個績|台南|新天地|先睹|Maxmara|特賣會|KOOKAI|會員卡|粉嫩|亮麗|不行|忍不住|找|鏡子|照照|完美|妝容|新光|三越|A9|三樓|專櫃|越來越|失望|灰心|品牌|敗家|上班族|美女|辦公室|服裝|牌子|急|幫|介紹|MaxMara|牌子|黑心|代理商|PennyBlack|最美|羽絨衣|哪家|品牌|會員卡|knightsbridge|服飾|Sisley|短|羽絨|外套|101|微風|新|牌子|Kookai|水水|有沒有|網購|kookai|衣服|地方|水水們|問問|年齡|薪水|穿|衣服|品牌|設計師|副牌|LV|LV|蝴蝶|髮|釵|值得|12|LV|台南|新店|開幕|酒會|MaxMara|牌子|買過|PENNYBLACK|衣服|品牌|台灣|賣|最貴|KOOKAI|Kookai|華敦|良心發現|熟女|打扮|推薦|品牌|交友|

PradaGucciBallyTod|sCKVIP|分享|輕|熟女|姊妹|最愛|衣服|牌子|加拿大|化妝品|比較|便宜|穿|品牌|衣服|香港|知名品牌|台灣|賣|加拿大|HELP|vancouver|彩妝|不貴|好用|美國|值得|購買|品牌|適合|高瘦|男|急|加拿大|加拿大|viviennewestwood|agnesb|burberry|DKNY|名牌|店|加拿大|名牌|值得|Men|s|ClubMonaco|男裝|cashmere|毛衣|值得|Club|Monaco|微風|台北|專櫃|ClubMonaco|A11|館要|開|Club|Monaco|微風|CLUBMONACOClubMonaco|香港|買會|比台灣|便宜|香港|香港|ClubMonaco|折扣|春夏|折扣|我愛死|CLUBMONACO|揪團|豐胸|╱|合購|香港|小胸|救星|ZARA|品牌|madein|sales|prada|GUCCI|Bally|Tod|s|Ck|Calvin|Klein|diesel|香港|會員|分享|EMail|huang|chung|yi|連絡|盡量|幫忙|約|三十歲|身材|嬌小|娃娃臉|還在|穿|少女|櫃|衣服|家人|出入|幾次|正式|場合|不合時宜|顏色|款式|不夠|穩重|扮老|衣服|質感|提升|教|推薦|哪家|衣服|朋友|幫|免稅|商品|品牌|加拿大|比較|划算|美國|BOBBI|BROWN|CLINIQUE|PRESCRIPTIVE|加拿大|美國|價錢|價差|買好|衣服|穿|衣服|剪裁|比較|比較|耐穿|太貴|最好|上衣|12|千元|間|便宜|剪裁|更好|有水水|推薦|年齡|26|歲|香港|知名品牌|台灣|賣|台灣|人會|特別|企|香港|告訴|感恩|美女|推推|﹗|家人|美國|出差|幫忙|買些|衣服|品牌|適合|瘦高|穿|美國|比較|便宜|182|63|穿|合身|過長|衣服|限定|美國|品牌|比台灣|便宜|歐洲|牌|風格|AGNES|B|APC|ENERGIE|DIESEL|這類|價位|方面|高|超預算|便宜|質感|更好|推薦|加拿大|名牌|台灣|便宜|拜託|去過|加拿大|告訴|名牌|店|上述|所說|牌子|加拿大|玩|名牌|比較|便宜|給我點|建議|這各|牌子|熟|ㄧ|次|逛|微風|ㄧ|件|完折|不到|4000|100%|cashmere|毛衣|光看|價格|o

想到|Aveda|大安|店|燙髮|推薦|哪位|設計師|日本|雜誌|羔羊|毛|外套|JOSEPH|TINA|女裝|特賣|折起|Joseph|Li|四人幫|童叟無欺|實事求是|教拳|宗旨|趴|天蠍座|交換|msn|北市|lesportsac|代理商|ICB|分享|ICB|金卡卡號|苦惱|上班|長褲|不夠|長|台北|101|開幕|三大|特惠|雅頓|雅頓|賦活|系列|百貨公司|百貨公司|女裝|折|牛仔褲|notifyjeans|生理期|吃|薑|母鴨|Salvatore|Ferragamo|德國|Ferragamo|幫忙|推薦|男生|泳褲|提供|J|開頭|英文名字|自殺|反|殺|　|美|18|歲|少年|遭警|連開|16|槍|慘死|接曾|說過|Prince|Paris|親生|淮南|掌管|九兆|資產|存款|七百萬|全球|唯一|5A|級央|總裁|宗教|見證人|教義|錯|台灣|消費者|真可憐|甲殼素|減肥|功效|品酒|愛喝|紅酒|白酒|ㄇ|討論一下|ㄅ|ㄟ|推薦|適合|女生|上班|穿|長褲|低腰|款|BOY|至愛|品牌|排名|懷孕|懷孕|可不可以|吃魚|Gucci|附|保|証|卡|防塵|袋|SPA|葛洛莉|SPA|美學|館|as|title|這季|日雜|多款|美麗|羔羊|毛|外套|外面|羊皮|內裡|羊毛|暖|美台灣|專櫃|有出|水水|推薦|JOSEPH|TINA|女裝|特賣|折起|特賣|情報|時間|　|　|即日起|特賣|品牌|JOSEPH|TINA|價格|　|折及|折|特賣|內容|春夏|女裝|結帳|方式|刷卡|2000|元|刷卡|付現|便宜|度|　|★|★|★|★|‧|特賣|特色|國內|女裝品牌|JOSEPH|TINA|舉行|特賣|商品|折及|折|牌尺|吋|作得|比較|特賣|商品|陳列|整齊|特賣|商品|試穿|逛起來|輕鬆|‧|出奇致勝|建議|購買|目標|─|洋裝|省去|搭配|原價|約|4000|元|約|800|元|一件|‧|記住|特賣|結束|時間|尚|確定|電洽|02|28317716|朋友|孫燕姿|金曲獎|那套|禮服|雜誌|Joseph|Li|知不知道|牌子|Borasorry|NB|斷線|無法|連線|另一台|71|年|11|月|日|天蠍女|有沒有|做個|朋友|交換|MSN|如題|因想|家|包包|不想|企|百貨公司|企|代理商|那買|便宜|分享|ICB|金卡卡號|身高|約|172

MAJE|台北|有櫃|maje|首度|跨界|合作|鞋|巴黎|血拼|記|EpisodeII|中獎|公佈|2017|年|夏天|投資|洋裝|投|抽|價值|千元|美妝|『|FGx|韓國|時尚|節目|Stargram|』|票選|活動|法式|服裝品牌|台灣|牛仔褲|社團|社員|巴黎|血拼|記|☆|★|☆|懷|舊迎新|續|單寧|☆|★|☆|法國|心目|台灣|排名|法國|品牌|法國|值得|血拼|記|EpisodeVIII|血拼|記|EpisodeIII|旅遊|法國|地方|非去不可|可否|幫|這雙|鞋|好看|價錢|ok|gdid|1513333|派|綠色|上衣|fitting|room|燈光|照片|色差|背包|包穿|cardi|See|by|Chloe|去年|不知|前年|一件|size|紐扣|少|一顆|髒|髒|不知|角落|裡|翻出來|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|parisfr|清爽|氣質|s|s|collection|巴黎|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|﹣|晃晃|包包|很小|說不出|baca|容量|baca|外觀|不算|小包|比中|机大|算是|老少咸宜|包|輕易|下手|愛|臺灣|脫手|容易|Gerard|Darel|人不多|FG|韓國|超|火紅|時尚|美妝|節目|Stargram|指標性|單元|YK|awards|合作|節目|全智賢|造型師|鄭潤基|主持|鄭潤基|活躍|韓國|時裝界|明星|合作|包括|金喜善|崔智友|李孝利|張東健|節目|鄭潤|基會|教導|簡單|方法|變得|更美|時尚|夏季|必備|洋裝|穿|搭|方便|快速|單品|加點|配飾|穿|時尚|感|FG|邀請|共同|票|選出|【|2017|S|S|投資|洋裝|】|票選|將會|出現|節目|韓妞們|款式|最受|台灣|女孩|青睞|票選|日期|2017|17|21|24|00|止|活動|贈品|FORTE|台塑|玻|尿酸|三重|水潤霜後乳|120ml|800|份|AVON|新活|恆白|精華|30ml|250|份|KATE|凱婷|長效|持久|控油|粧|前|乳|明亮|15g|320|元|份|媚比琳|純淨|礦物|控油|特霧|BB|氣墊|粉餅|14g|680|KISSUI|新琦肌|保濕安瓶|生物|纖維|面膜|42g|片|片|盒|499|Stargra

輕|熟女|姊妹|最愛|衣服|牌子|BURBERRY|貨品|icb|ICB|金卡會員|女生|西裝|外套|式|皮衣|ICB|icb|23區|icb|日本|品牌|vanillaconfusion|陰唇|變成|粉紅色|ICB|VIP|ICB|台中|ICB|金卡|水水|卡號|ICB|icb|金卡|23區|ICB|仿冒|日本|名牌|M|S|GRACY|適合|27|30|歲|OL|老氣|ICB|分享|ICB|金卡卡號|夏日|牛仔|摩天輪|牛仔褲|討論|交心|區|社團|版|服用|Q10|效果|ICB|ICB|金卡|風衣|我姐|ICB|好幾件|衣服|卡號|日本|批發|做|小本生意|苦|門路|百貨公司|百貨公司|日系|MichelKlein|ICB|23區|最低|折扣|幾折|自由區|會員|願意|分享|方便|提供|icb|金卡會員卡|號嗎|iCB|日本|買會|便宜|折扣|UNTITLED|換季|折扣|最低|INDIVI|CLATHAS|INED|23區|ICB|23區|23區|icb|自由區|rosebullet|特賣會|ICB|急呀|哪位|好心|icb|會員卡|去過|內湖|禮客|outlet|找|日本|批發|服飾|地方|MAX&CO|討論|max&co|2007|春夏|款|ICB|好康|ICB|件|洋裝|中山美穗|代言|23區|INE|徵求|icb|金卡會員|ICB|icb|金卡|推薦|適合|女生|上班|穿|長褲|低腰|款|台|美女|&#|20204|icb|專櫃|金卡|indivi|untitled|23區|michelklein|會選|日本|沒人|討論|日本|品牌|衣服|有沒有|水水|喜好|23區|ICB|衣服|23區|23|金卡|╱|配合|新光|周年|慶|Strawberryfields|一期|衣|芙|icb|金卡|日系|衣服|品牌|價格|接受|ICB|日本|台灣|價差|23區|iCB|自由區|rosebullet2|折起|日系|品牌|特賣會|眼鏡|ic|berlin|鏡框|寬|款式|台北|ProportionBodyDressing|日系|品牌|分享|ICB|金卡|套頭毛衣|KATHERINE|HAMNETT|ICB|最低|折扣|幾折|icb|23區|NATURALBEAUTY|目前|折扣|ICB|INDIVIVIP|分享|icb|vip|會員|23區|徵求|icb|23區|金

TORY|BURCH|拉|鏈頭|YKK|字樣|Tory|Burc|香氛|禮盒|概念|店|美國|CP|值高|包包|幫忙|推薦|25000|以內|名牌|包包|havaianas|素面|款|推|哪色|有沒有|推薦|平底鞋|預算|萬元|havaianas|印花|人字拖|穿久|印花|易掉|美國|品牌|比較|便宜|HALO|NunG|買過|商品|長|夾都|品牌|推薦|推薦|名牌|包|萬|萬|生|baby|禮物|ㄏ|ㄏ|水水|買過|最貴|皮夾|多少錢|推薦|美國|回來|必買|牌子|台灣|價差|很大|Tiffany|項鍊|Y|拍上|TORY|BURCH|皮夾|賣家|真品|OUTLET|吊牌|品號|官網|拉|鏈頭|YKK|字樣|賣家|反應|懂|告|毀謗|水水們|錯怪|Tory|Burch|亞洲|第一間|香氛|禮盒|概念|店|台北|時代|百貨|1F|開幕|網路|介紹|LOGO|超|美的|用過|香氛|產品|朋友|美國|玩|討|包包|美國|CP|值高|coach|挺|便宜|coach|無聊|有沒有|牌子|水水|推薦|入手|題|上班|好想|買雙|好看|舒適|平底鞋|預算|萬元|左右|朋友|推薦|Ferragamo|Varina|蝴蝶結|平底鞋|有沒有|穿過|聽說|Ferragamo|義大利|製鞋|起家|貴婦|朋友|家|鞋子|前|幾天|櫃上|試|穿|舒服|想問|有沒有|人買過|家|鞋|推|推薦|如題|hi|美國|Utah|超級|美的|地方|想問|有沒有|推薦|品牌|美國|比較|便宜|目前|benefit|make|up|forever|mac|倩|碧|bath|and|body|works|victoria|secret|推薦|品牌|推薦|保養品|盡量|抗痘|小弟|代購|賣|Vivienne|Westwood|皮夾|送|有沒有|購買|年|長|夾|價位|一萬|以內|幾個|Buebrry|長|夾|格紋|有用|過嗎|以下|樣式|推薦|考慮|BV|若買長|夾會|考慮|品牌|格紋|拉|鏈長|夾|格紋|扣式|長|夾|皮革|長|夾我|唯一|拿過|名牌|包|coach|生|baby|老公|包包|慰勞|ㄏ|ㄏ|包包|從何|選起|幫|推薦|目前|28|歲|上班族|耐用|平常|出門|背|第一個|昂貴|包包|具有|紀念|價值|輕|阿哩|不答|托特|包款|肩背|素|整個|包包|logo|明確|看出|這是|名牌|包|老公