# 資料視覺化 
* [Pandas](http://pandas.pydata.org)：讀取資料與整理數據。
* [Bokeh](http://bokeh.pydata.org/en/latest/)：Bokeh是一種互動式資料視覺化的Python套件，並可以在瀏覽器上呈現。畫面優雅簡潔
-----
# 1. Bokeh基本圖型
* 圖表（Charts）：一個高級接口（high-level interface），用以簡單快速地建立復雜的統計圖表。

* 繪圖（Plotting）：一個中級接口（intermediate-level interface），以構建各種視覺符號為核心。

* 模塊（Models）：一個低級接口（low-level interface），為應用程序開發人員提供最大的靈活性。

-----
# 2. 應用範例：
## (1) 讀取網頁表格
* pandas讀取及整理[台銀匯率](http://rate.bot.com.tw/xrt?Lang=zh-TW)
* 利用Bokeh將歷史匯率畫成折線圖
-----

## (2)讀取Excel檔案
* pandas讀取及整理[農產品批發市場交易行情站](http://amis.afa.gov.tw/main/Main.aspx)下載的Excel檔案
* 利用Bokeh繪圖

-----
## (3) Bokeh server上做圖表互動

-----

## <font color="DEEPPINK">一開始，我們先來認識幾個Bokeh基本圖型</font>
## <font color="DEEPPINK">試試看先長一條線</font>

In [3]:
import numpy as np
from bokeh.charts import Line, show, output_notebook                       #import範例需要的函式庫

xyvalues = np.array([[2, 3, 7, 5, 26]])                                    #產生一個陣列，也可以直接在Line給陣列
line = Line(xyvalues, title="line", legend="top_left", ylabel='Languages') #產生直線圖
output_notebook()                                                          #在畫面產生圖表，而不是開新的視窗
show(line)

## <font color="DEEPPINK">長多條線看看...</font>

In [24]:
xyvalues = np.random.randint(0,30,(3, 6)) #範圍0-100整數，產生三個陣列
line = Line(xyvalues, title="line", legend="top_left", ylabel='Languages')
output_notebook()
show(line)

## <font color="DEEPPINK">換個方式，用中級接口畫圖</font>

In [35]:
from bokeh.plotting import figure
x= [1,2,3,4,5]
top= [6,7,8,9,10]
p = figure( title="自訂標題", x_axis_label = '自訂x座標', y_axis_label = '自訂y座標' )
p.vbar(x=x, width=0.5, bottom=0, top=top, color="#CAB2D6")

show(p)

## <font color="DEEPPINK">每一個點可以換樣式</font>

In [41]:
from bokeh.plotting import figure
from bokeh.layouts import row

p1 = figure(width=300, height=300,title="自訂標題", x_axis_label = '自訂x座標', y_axis_label = '自訂y座標')
p1.asterisk(x=[1,2,3], y=[1,2,3], size=20, color="#F0027F")

p2 = figure(plot_width=300, plot_height=300)
p2.patches(xs=[[1,2,3],[4,5,6,5]], ys=[[1,2,1],[4,5,5,4]],
         color=["#43a2ca", "#a8ddb5"])

p3 = figure(width=300, height=300)
p3.ellipse(x=[1, 2, 3], y=[1, 2, 3], width=30, height=30,
             color="#386CB0", fill_color=None, line_width=2)

show(row(p1, p2, p3))

##  <font color="DEEPPINK">熱身完，開始進入報告主題</font>
> ###  <font color="grey">抓取台銀網站各幣別的匯率歷史資料</font>

##  <font color="DEEPPINK">打開terminal 安裝 html5lib：conda install -c anaconda html5lib</font>

In [25]:
import pandas as pd #首先要知道台銀提供幾種幣別，先用pandas提供的readhtml功能來爬台銀的網頁

df_day = pd.read_html('http://rate.bot.com.tw/xrt?Lang=zh-TW')[0] #然後我們看看爬出來的結果
df_day

Unnamed: 0,幣別,幣別.1,現金匯率,Unnamed: 3,即期匯率,Unnamed: 5,遠期匯率,歷史匯率,歷史匯率.1,現金匯率.1,...,Unnamed: 13,本行買入,本行賣出,本行買入  .1,本行賣出  .1,Unnamed: 18,本行買入.2,本行賣出.2,本行買入.1,本行賣出.1
0,美金 (USD) 美金 (USD),31.75,32.292,32.05,32.15,查詢,查詢,31.75,32.292,32.05,...,,,,,,,,,,
1,港幣 (HKD) 港幣 (HKD),3.989,4.184,4.109,4.169,查詢,查詢,3.989,4.184,4.109,...,,,,,,,,,,
2,英鎊 (GBP) 英鎊 (GBP),38.05,39.98,38.92,39.34,查詢,查詢,38.05,39.98,38.92,...,,,,,,,,,,
3,澳幣 (AUD) 澳幣 (AUD),23.17,23.83,23.36,23.59,查詢,查詢,23.17,23.83,23.36,...,,,,,,,,,,
4,加拿大幣 (CAD) 加拿大幣 (CAD),23.83,24.57,24.1,24.32,查詢,查詢,23.83,24.57,24.1,...,,,,,,,,,,
5,新加坡幣 (SGD) 新加坡幣 (SGD),21.76,22.54,22.18,22.36,查詢,查詢,21.76,22.54,22.18,...,,,,,,,,,,
6,瑞士法郎 (CHF) 瑞士法郎 (CHF),30.84,31.9,31.37,31.66,查詢,查詢,30.84,31.9,31.37,...,,,,,,,,,,
7,日圓 (JPY) 日圓 (JPY),0.2651,0.2761,0.2715,0.2755,查詢,查詢,0.2651,0.2761,0.2715,...,,,,,,,,,,
8,南非幣 (ZAR) 南非幣 (ZAR),-,-,2.29,2.37,查詢,查詢,-,-,2.29,...,,,,,,,,,,
9,瑞典幣 (SEK) 瑞典幣 (SEK),3.16,3.67,3.5,3.6,查詢,查詢,3.16,3.67,3.5,...,,,,,,,,,,


In [42]:
currencies = df_day['幣別'].str.split(' ').str.get(1).str.strip('()')[:10] #但是我們只需要最左邊的幣別英文縮寫，所以要處理一下
currencies                                                                #就會得到一個新的dataFrame
                                                                          #pandas的一種資料格式，可以用column及row輕鬆操作資料

0    USD
1    HKD
2    GBP
3    AUD
4    CAD
5    SGD
6    CHF
7    JPY
8    ZAR
9    SEK
Name: 幣別, dtype: object

## <font color="DEEPPINK">先試一個幣別</font>

In [46]:
#df = pd.read_html('http://rate.bot.com.tw/xrt/quote/l6m/USD')[0] #我們先來抓美金的歷史資料，每個幣別的網址只有最後的英文縮寫不同
df = pd.read_html('http://rate.bot.com.tw/xrt/quote/l6m/USD')[0].iloc[:, 0:6]
header =['掛牌日期', '幣別','現金買入','現金賣出','即期買入','即期賣出']
df.columns = header
df #抓下來是這一堆資料，但我們只取前六個欄位，並且修改表頭名稱

Unnamed: 0,掛牌日期,幣別,現金買入,現金賣出,即期買入,即期賣出
0,2017/01/09,美金 (USD),31.750,32.292,32.050,32.150
1,2017/01/06,美金 (USD),31.635,32.177,31.935,32.035
2,2017/01/05,美金 (USD),31.565,32.107,31.865,31.965
3,2017/01/04,美金 (USD),31.885,32.427,32.185,32.285
4,2017/01/03,美金 (USD),31.880,32.422,32.180,32.280
5,2016/12/30,美金 (USD),31.900,32.442,32.200,32.300
6,2016/12/29,美金 (USD),31.930,32.472,32.230,32.330
7,2016/12/28,美金 (USD),31.945,32.487,32.245,32.345
8,2016/12/27,美金 (USD),31.920,32.462,32.220,32.320
9,2016/12/26,美金 (USD),31.830,32.372,32.130,32.230


In [49]:
from bokeh.charts import output_notebook, show, output_file
from bokeh.plotting import Figure,ColumnDataSource
output_notebook()

TOOLS = ['box_zoom', 'box_select', 'wheel_zoom', 'reset', 'pan', 'resize', 'save']
f = Figure(plot_width=800, plot_height=300, x_axis_type="datetime", x_axis_label='日期', y_axis_label='價格',tools=TOOLS)
f.line(pd.to_datetime(df['掛牌日期']), df['現金賣出'], legend="USD", line_width=3, line_color='red')
show(f)
#我們把抓出來的美金資料放到圖表看看，Ｘ軸type設為datetime才會跑出日期，Ｘ軸代入dataFrame掛牌日期並轉型為daytime
#Ｙ軸的值代入現金賣出

## <font color=HOTPINK>多種幣別</font>

In [53]:
#會跑一種幣別，我們就可以來跑多個幣別了
#做法就是把一開始抓的幣別陣列跑回圈，把每個幣別的掛牌日期及賣出價格存在陣列中，
from bokeh.models import HoverTool
from bokeh.palettes import Spectral11
output_notebook()

df_day = pd.read_html('http://rate.bot.com.tw/xrt?Lang=zh-TW')[0]
header =['掛牌日期', '幣別','現金買入','現金賣出','即期買入','即期賣出']
currencies = df_day['幣別'].str.split(' ').str.get(1).str.strip('()')[:10]

TOOLS = ['box_zoom', 'box_select', 'wheel_zoom', 'reset', 'pan', 'resize', 'save', 'hover']
p1 = Figure(plot_width=800, plot_height=600, x_axis_type="datetime", x_axis_label='日期', y_axis_label='價格',tools=TOOLS)

myColors = Spectral11[0:len(currencies)]            #讓每條線的顏色不一樣
baseUrl = 'http://rate.bot.com.tw/xrt/quote/l6m/{}' #每個幣別只有最後的英文縮寫不一樣

index=0
for currency in currencies:
    url = baseUrl.format(currency)                  #每個幣別的網址
    df = pd.read_html(url)[0].iloc[:, 0:6]          #只要前六欄的資料
    df.columns = header                             #換表頭，每跑一圈在figure產生一條線
    p1.line(pd.to_datetime(df['掛牌日期']), df['即期買入'], legend=currency, line_width=3, line_color=myColors[index])
    index += 1

hover = p1.select(dict(type=HoverTool))
hover.tooltips = """<div>日期: @x</div>
<div>即期買入: @y</div>
"""

show(p1)

## <font color=HOTPINK>還有時間的話，我們繼續講匯入EXCEL檔案產生圖表</font>

In [10]:
df = pd.read_excel("fruit_price.xls", sheetname=None)
df #一樣用pandas讀excel，這個檔案有兩個sheet，內容如下

{'pineapple':           date     market      product  avg_price    QTY
 0   2016-01-01  109 台北一    B2 鳳梨 金鑽鳳梨        27.9   5975
 1   2016-01-02  109 台北一    B2 鳳梨 金鑽鳳梨        35.6   4685
 2   2016-01-03  109 台北一    B2 鳳梨 金鑽鳳梨        34.1   5128
 3   2016-01-05  109 台北一    B2 鳳梨 金鑽鳳梨        35.3   7321
 4   2016-01-06  109 台北一    B2 鳳梨 金鑽鳳梨        34.0   8790
 5   2016-01-07  109 台北一    B2 鳳梨 金鑽鳳梨        34.2   5922
 6   2016-01-08  109 台北一    B2 鳳梨 金鑽鳳梨        33.4  11575
 7   2016-01-09  109 台北一    B2 鳳梨 金鑽鳳梨        31.6  14924
 8   2016-01-10  109 台北一    B2 鳳梨 金鑽鳳梨        28.5  11143
 9   2016-01-12  109 台北一    B2 鳳梨 金鑽鳳梨        28.3   9630
 10  2016-01-13  109 台北一    B2 鳳梨 金鑽鳳梨        28.1   5350
 11  2016-01-14  109 台北一    B2 鳳梨 金鑽鳳梨        26.3   6957
 12  2016-01-15  109 台北一    B2 鳳梨 金鑽鳳梨        25.8   6623
 13  2016-01-16  109 台北一    B2 鳳梨 金鑽鳳梨        24.4   7909
 14  2016-01-17  109 台北一    B2 鳳梨 金鑽鳳梨        27.0   3624
 15  2016-01-19  109 台北一    B2 鳳梨 金鑽鳳梨        25.3   8698
 

## <font color=HOTPINK>我們先抓一個Sheet</font>

In [63]:
#先做一個datasource，把我們需要的資料整理後存在dict，帶到line裡面的source
from bokeh.plotting import Figure, ColumnDataSource

df_pineapple = pd.read_excel("fruit_price.xls", sheetname="pineapple")
datasource = ColumnDataSource(dict(
        date=df_pineapple['date'],#日期 總交易金額 平均價格 交易量
        amt=[str(x*y) for x,y in zip(df_pineapple['QTY'], df_pineapple['avg_price'])], #兩個陣列跑回圈
        price=df_pineapple['avg_price'], #hover用
        qty=df_pineapple['QTY'],         #hover用
        tipdate=[x.strftime("%Y-%m-%d") for x in df_pineapple['date']]
    ))
TOOLS = ['box_zoom', 'box_select', 'wheel_zoom', 'reset', 'pan', 'resize', 'save']
hover = HoverTool(
        tooltips=[
            ("DATE", "@tipdate"),
            ("AVG_PRICE","@price"),
            ("QTY", "@qty"),
            ("AMOUNT", "@amt")
        ]
    )
f1 = Figure(plot_width=800, plot_height=600, x_axis_type="datetime", x_axis_label='日期', y_axis_label='交易量 x 價格',tools=TOOLS + [hover])
f1.line('date','amt', line_width=3, source = datasource) #這邊的ＸＹ軸跟上面不一樣，上面直接代值，這裡是抓dict的key
f1.yaxis.formatter = NumeralTickFormatter(format="0,000")
show(f1)

## <font color=HOTPINK>還有時間嗎？接下來我們用下拉式選單做互動，先長一個選單</font>

In [64]:
from bokeh.models.widgets import Select

fruit=[("pineapple","鳳梨"),("strawberry","草莓")]
select = Select(title="水果", value="pineapple", options=fruit)

show(select)

## <font color=HOTPINK>成功了！繼續加入其他內容</font>

In [2]:
#這個範例是把兩個sheet的內容讀進來，利用選單的切換，改變source的值
import pandas as pd
from bokeh.charts import Line, show, output_notebook
from bokeh.models.widgets import Select
from bokeh.plotting import Figure, ColumnDataSource
from bokeh.layouts import column, row
from bokeh.models import HoverTool, NumeralTickFormatter, LinearAxis, Range1d

#剛剛產生的下拉式選單
fruit=[("pineapple","鳳梨"),("strawberry","草莓")]
select = Select(title="水果", value="pineapple", options=fruit)

output_notebook()
df = pd.read_excel('fruit_price.xls',sheetname=None)

#寫一個function，依照帶入的水果，回傳這個sheet內容的dict
def select_fruit(fruit_val):
    return dict(
        date = df[fruit_val]['date'],
        amt = [str(x*y) for x,y in zip(df[fruit_val]['QTY'], df[fruit_val]['avg_price'])],
        price=df[fruit_val]['avg_price'],
        qty=df[fruit_val]['QTY'],
        tipdate=[x.strftime("%Y-%m-%d") for x in df[fruit_val]['date']]
    )
source = ColumnDataSource(data=select_fruit(select.value))#初始值是pineapple，呼叫上面的function，以選單的值當參數，取得dict

#值要怎麼變換呢？當選單切換時觸發onchange這個函式，這個函式會呼叫update function更新source中的dict
def update(attr, old, new):
    source.data = select_fruit(select.value)
select.on_change('value', update)    

TOOLS = ['box_zoom', 'box_select', 'wheel_zoom', 'reset', 'pan', 'resize', 'save']
hover = HoverTool(
        tooltips=[
            ("DATE", "@tipdate"),
            ("AVG_PRICE","@price"),
            ("QTY", "@qty"),
            ("AMOUNT", "@amt")
        ]
    )

f2 = Figure(plot_width=800, plot_height=600, x_axis_type="datetime", x_axis_label='日期', y_axis_label='交易量 x 價格',tools=TOOLS +[hover])
f2.line('date','amt', line_width=3, source = source)
f2.yaxis.formatter = NumeralTickFormatter(format="0,000")

layout = column(row(select, width=400), row(f2))
show(layout)

## <font color=HOTPINK>糟糕！怎麼沒反應？？</font>

In [None]:
#原來要用server才會理你，我們就用bokeh提供的server來試試看
#打開terminal 到資料夾底下輸入bokeh serve --show main.py