# 範例程式碼

## 

## 學習目標：
* 學會使用 wordcloud 套件建立中文與英文文字雲

In [1]:
import os
import numpy as np
import pandas as pd
import jieba
from wordcloud import WordCloud

import matplotlib.pyplot as plt
%matplotlib inline

### 英文資料

In [5]:
# 輸入資料
english_data = pd.read_excel("english_data.xlsx")

# 為方便做資料前處理，把資料變成 list 結構
english_data_list = english_data.values.flatten().tolist()
english_data_list

["I watched this film because I'm a big fan of River Phoenix and Joaquin Phoenix. I thought I would give their sister a try, Rain Phoenix. I regret checking it out. She was embarrasing and the film just has this weird plot if thats what you want to call it. Sissy was just weird and Jellybean just sits on a toilet who both sleep with this old man in the mountains, whats going on? I have never been so unsatisfied in my life. It was just total rubbish. I can't believe that the actors agreed to do such a waste of film, money, time and space. Have Sissy being 'beautiful' didnt get to me. I thought she was everything but that. Those thumbs were just stupid, and why do we care if she can hitchhike? WHATS THE POINT??? 0 out of 10, shame the poll doesnt have a 0, doesnt even deserve a 1. Hopefully, Rain is better in other films, I forgive her for this one performance, I mean I wouldnt do much better with that film.",
 'It does not seem that this movie managed to please a lot of people. First of

In [7]:
# 斷詞
tokenize_english_data_list = [i.split(" ") for i in english_data_list]
tokenize_english_data_list

[['I',
  'watched',
  'this',
  'film',
  'because',
  "I'm",
  'a',
  'big',
  'fan',
  'of',
  'River',
  'Phoenix',
  'and',
  'Joaquin',
  'Phoenix.',
  'I',
  'thought',
  'I',
  'would',
  'give',
  'their',
  'sister',
  'a',
  'try,',
  'Rain',
  'Phoenix.',
  'I',
  'regret',
  'checking',
  'it',
  'out.',
  'She',
  'was',
  'embarrasing',
  'and',
  'the',
  'film',
  'just',
  'has',
  'this',
  'weird',
  'plot',
  'if',
  'thats',
  'what',
  'you',
  'want',
  'to',
  'call',
  'it.',
  'Sissy',
  'was',
  'just',
  'weird',
  'and',
  'Jellybean',
  'just',
  'sits',
  'on',
  'a',
  'toilet',
  'who',
  'both',
  'sleep',
  'with',
  'this',
  'old',
  'man',
  'in',
  'the',
  'mountains,',
  'whats',
  'going',
  'on?',
  'I',
  'have',
  'never',
  'been',
  'so',
  'unsatisfied',
  'in',
  'my',
  'life.',
  'It',
  'was',
  'just',
  'total',
  'rubbish.',
  'I',
  "can't",
  'believe',
  'that',
  'the',
  'actors',
  'agreed',
  'to',
  'do',
  'such',
  'a',
 

In [10]:
# 將斷詞結果以「空格」為分界合併
join_tokenize_english_data_list = [" ".join(i) for i in tokenize_english_data_list]
join_tokenize_english_data_list

# 將每個段落以「空格」為分界合併
join_join_tokenize_english_data_list = " ".join(join_tokenize_english_data_list)

join_join_tokenize_english_data_list



In [11]:
# 繪製文字雲
cloud = WordCloud().generate(join_join_tokenize_english_data_list)
cloud.to_file("english_word_cloud.png")

<wordcloud.wordcloud.WordCloud at 0x7f7a5cf9b400>

### 中文資料

In [16]:
# 輸入資料
chinese_data = pd.read_excel("chinese_data.xlsx")

# 為方便做資料前處理，把資料變成 list 結構
chinese_data_list = chinese_data.values.flatten().tolist()
chinese_data_list

['NBA／Wade出書談爸爸經\u3000澄清和教練爭執 記者邵瑞峰／綜合報導熱火「閃電俠」Dwyane Wade近日推出了新書「A Father First: How My Life Became Bigger Than Basketball」，還特地送了一本簽名書給好兄弟「小皇帝」Lebron James，Wade在書中除了大談爸爸經，也透露了一些不為人知的熱火秘辛，包括他在季後賽準決賽第三戰和教練Erik Spoelstra對罵的內幕。Wade在今年季後賽面對溜馬的東區準決賽第三戰時，於比賽中和Spoelstra發生激烈衝突，兩人在板凳席破口大罵對方的畫面甚至透過電視轉播讓所有球迷都看到了，對此Wade在書中解釋了當時的情況，表示自己那時正飽受膝傷折磨，而Spoelstra正好被他的怒火給掃到。「（Spoelstra）可能想試著讓我生氣，因為我生氣的時候通常表現都很好，」Wade表示：「不過當時其實我是挫折多過於憤怒，帶著挫折上場和帶著怒火上場可是完全不一樣的事。」雖然直言Spoelstra當時激勵他的策略失效，不過Wade還是對於這位總教練推崇有加，表示他「讓我大開眼界、學到了身為一個冠軍應該有的心態和所作所為。」除了Spoelstra，Wade也在書中談到了本季因「魔獸人生」被魔術炒掉的前熱火教頭Stan Van Gundy，「Van Gundy教練是那種會一直叮嚀你，直到你耳邊、潛意識都是他的聲音，」Wade表示：「總是在歇斯底里，他的風格就是永遠保持在高度緊繃狀態。不過也是因為Stan才造就了我的強悍程度和高度集中的態度。」',
 '美網／拒看過往輸球片段\u3000小威：我從不折磨自己 記者洪偵源／綜合報導看自己以前打輸的影片，對Serena Williams來說非常痛苦，這種苦差事她絕對不幹，就算這回對上曾在澳網擊敗她的Ekaterina Makarova，依舊不願意這麼做。但這影響似乎不大，她以6-4、6-0輕鬆寫意地報了一箭之仇，收下十六強門票。「我知道我可能會再次落敗，這給我起了很大的作用。」Williams說，她可不想再輸一次，這場勝仗她賞了對方13個ACE。Williams透露，實在很討厭看自己輸球的影片，「那簡直是在處罰我自己，而我從來不這麼做。」澳網對上左撇子的Makarova，Williams打得吃力，發生7次雙誤與37個非受迫性

In [17]:
# 斷詞
tokenize_chinese_data_list = [i.split(" ") for i in chinese_data_list]
tokenize_chinese_data_list

[['NBA／Wade出書談爸爸經\u3000澄清和教練爭執',
  '記者邵瑞峰／綜合報導熱火「閃電俠」Dwyane',
  'Wade近日推出了新書「A',
  'Father',
  'First:',
  'How',
  'My',
  'Life',
  'Became',
  'Bigger',
  'Than',
  'Basketball」，還特地送了一本簽名書給好兄弟「小皇帝」Lebron',
  'James，Wade在書中除了大談爸爸經，也透露了一些不為人知的熱火秘辛，包括他在季後賽準決賽第三戰和教練Erik',
  'Spoelstra對罵的內幕。Wade在今年季後賽面對溜馬的東區準決賽第三戰時，於比賽中和Spoelstra發生激烈衝突，兩人在板凳席破口大罵對方的畫面甚至透過電視轉播讓所有球迷都看到了，對此Wade在書中解釋了當時的情況，表示自己那時正飽受膝傷折磨，而Spoelstra正好被他的怒火給掃到。「（Spoelstra）可能想試著讓我生氣，因為我生氣的時候通常表現都很好，」Wade表示：「不過當時其實我是挫折多過於憤怒，帶著挫折上場和帶著怒火上場可是完全不一樣的事。」雖然直言Spoelstra當時激勵他的策略失效，不過Wade還是對於這位總教練推崇有加，表示他「讓我大開眼界、學到了身為一個冠軍應該有的心態和所作所為。」除了Spoelstra，Wade也在書中談到了本季因「魔獸人生」被魔術炒掉的前熱火教頭Stan',
  'Van',
  'Gundy，「Van',
  'Gundy教練是那種會一直叮嚀你，直到你耳邊、潛意識都是他的聲音，」Wade表示：「總是在歇斯底里，他的風格就是永遠保持在高度緊繃狀態。不過也是因為Stan才造就了我的強悍程度和高度集中的態度。」'],
 ['美網／拒看過往輸球片段\u3000小威：我從不折磨自己',
  '記者洪偵源／綜合報導看自己以前打輸的影片，對Serena',
  'Williams來說非常痛苦，這種苦差事她絕對不幹，就算這回對上曾在澳網擊敗她的Ekaterina',
  'Makarova，依舊不願意這麼做。但這影響似乎不大，她以6-4、6-0輕鬆寫意地報了一箭之仇，收下十六強門票。「我知道我可能會再次落敗，這給我起了很大的作用。」Williams說，她可不想再輸一次，這場勝仗她賞了對方

In [14]:
# 將斷詞結果以「空格」為分界合併
join_tokenize_chinese_data_list = [" ".join(i) for i in tokenize_chinese_data_list]

# 將每個段落以「空格」為分界合併
join_join_tokenize_chinese_data_list = " ".join(join_tokenize_chinese_data_list)

In [15]:
# 繪製文字雲
# 由於 WordCloud 預設沒有支援中文輸出，因此需要給予字體檔案
cloud = WordCloud(font_path = "TaipeiSansTCBeta-Regular.ttf").generate(join_join_tokenize_chinese_data_list)
cloud.to_file("chinese_word_cloud.png")

<wordcloud.wordcloud.WordCloud at 0x7f7a5cee8f40>