#  <font color=red> Module_11_視覺化_使用 pandas 和 seaborn 繪圖</font>

## 折線圖

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pandas_datareader as pdr
from datetime import datetime

# index 被當作 x 軸的刻度
s = pd.Series(np.random.randn(10).cumsum(), index = np.arange(0, 100, 10))
s

In [None]:
s.plot()
plt.show()

---

In [None]:
np.random.randn(10, 4)

In [None]:
# ndarray 的 cumsum 與 dataframe 的 cumsum 的預設在 axis 上有不同
df = pd.DataFrame(np.random.randn(10, 4).cumsum(axis = 0),
                columns = ['A', 'B', 'C', 'D'],
                index = np.arange(0, 100, 10))
df

In [None]:
df.plot()
plt.show()

---

In [None]:
# 建立時間序列圖表
np.random.seed(111111)
index = pd.date_range('2012-01-01', '2014-12-31')
s = pd.Series(np.random.randn(len(index)), index = index )
s

In [None]:
walk_ts = s.cumsum()
walk_ts

In [None]:
walk_ts.plot()
plt.show()

In [None]:
# 沒給行名，所以是預設值
walk_df = pd.DataFrame(walk_ts)
walk_df

In [None]:
# 資料序列的繪圖與只有一行的資料框繪圖，兩者的結果類似
# 但如果是從資料框產生圖形，預設會有圖例
walk_df.plot();

---

In [None]:
np.random.seed(111111)
df = pd.DataFrame(np.random.randn(1096, 2),
                 index = walk_ts.index,
                 columns = list('AB'))
walk_df = df.cumsum()
walk_df.head()

In [None]:
# 如果 Dataframe 的行數不只一行，.plot()的圖例會增加好幾項，且每條線的顏色都不一樣
walk_df.plot()
plt.show()

---

In [None]:
df2 = walk_df.copy()
df2['C'] = pd.Series(np.arange(0, len(df2)), index = df2.index)
df2

In [None]:
# 如果想把 Dataframe 的其中一行資料當作 x 軸的標籤，可使用 x 參數指定作為標籤的行名，用 y 軸參數指定要繪製那些行的資料點
df2.plot(x = 'C', y = ['A', 'B'])
plt.show()

### 加上標題及改變繪圖軸標籤

In [None]:
# 繪圖軸的設定是在呼叫 .plot() 方法後，直接利用 plt.xlable() 及 plt.ylable() 函式
# 當然也可以使用 plt.title('Title of the Chart')
walk_df.plot(title = 'Title of the Chart')
plt.xlabel('Time')
plt.ylabel('Money')
plt.show()

### 指定圖例的內容及位置

In [None]:
# 要改圖例中的每一個資料序列的文字，可以利用 .plot() 傳回的 ax 物件的 .legend() 方法。
# 該物件是個 AxesSubplot 物件，可以在圖形產生前改變圖形的許多特性

ax = walk_df.plot(title = 'Title of the Chart')
ax.legend(['1','2'])
plt.show()

In [None]:
# 也可以使用 ax = plt.gca()
# loc 參數的預設是 'best'
walk_df.plot(title = 'Title of the Chart')
ax = plt.gca()
ax.legend(['1','2'], loc = 'upper center')
plt.show()

In [None]:
# 可以透過 legend = False 關掉圖例
walk_df.plot(title='Title of the Chart', legend = False)
plt.show()

### 指定線條顏色、樣式、寬度與標記

In [None]:
# 顏色可以使用內建的單一字元編碼，或是十六進位的 RGB 編碼指定顏色，格式是 #RRGGBB
walk_df.plot(style = ['g', '#ff0000'])
plt.show()

In [None]:
# 線條樣式碼指定，可以直接接在顏色碼後面
x = np.arange(0, 5., 0.2)
y1 = x
y2 = x**1.5
y3 = x**2.0
y4 = x**2.5
y5 = x**3.0

line_style = pd.DataFrame({0: y1,
                           1: y2,
                           2: y3,
                           3: y4,
                           4: y5}, index = x)
line_style.head()

In [None]:
lagend_lables = ['Solid', 'Dashed', 'Dotted', 'Dot-dashed', 'Points']
ax = line_style.plot(style = ['r-', 'g--', 'b:', 'm-.', 'k.'])
ax.legend(lagend_lables, loc = 'upper left')
plt.show()

In [None]:
# 可透過傳入寬度串列指定多條線的寬度，或是只用單一寬度套用到所有線
# linewidth = lw
ax = line_style.plot(style = ['r-', 'g--', 'b:', 'm-.', 'k.'], lw= 3)
ax.legend(lagend_lables, loc = 'upper left')
plt.show()

In [None]:
# 線條上的標記也能用樣式碼來指定
# 依序是圓形、三角形向上、星形、鑽石、方形
# https://matplotlib.org/stable/api/markers_api.html
ax = line_style.plot(style = ['r-o', 'g--^', 'b:*', 'm-.D', 'k:s'], lw = 2)
ax.legend(lagend_lables, loc = 'upper left')
plt.show()

### 指定刻度位置及標籤

In [None]:
# 第一個參數 傳入 ticks
# 每個刻度位置的標籤還能作為第二個參數傳入函數，以進行指定
ticks_data = pd.DataFrame(np.arange(0, 5))
ticks_data.plot()
plt.xticks(ticks = np.arange(-1, 6))
plt.yticks(ticks = np.arange(0, 5), labels = list('ABCDE'))
plt.show()

In [None]:
ticks_data = pd.DataFrame(np.arange(0, 5))
ticks_data.plot()
a, b = plt.xticks(ticks = np.arange(-1, 6))
plt.show()

In [None]:
a

In [None]:
b

### 使用格式器格式化軸上的刻度日期標籤

In [None]:
np.random.seed(111111)
index = pd.date_range('2012-01-01', '2014-12-31')
df = pd.DataFrame(np.random.randn(len(index),2 ),
                 index = index,
                 columns = list('AB'))
walk_df = df.cumsum()
walk_df

In [None]:
# 此時 x 軸上有兩個序列，一個次要(minor)及一個主要(major)
# 次要標籤標是一個月的某一天
# 主要標籤則包括年及月，但只有第一個月才有年標籤
# 每個主要及次要標籤都能透過設定定位器跟格式器來改變其值
walk_df.loc['2014-01':'2014-02'].plot()
plt.show()

In [None]:
# https://docs.python.org/3/library/datetime.html#datetime.tzinfo
# MinuteLocator、 HourLocator、DayLocator、WeekdayLocator、MonthLocator、YearLocator: 這些特殊定位器是用來決定各種日期欄位的刻度在軸上的位置#
# DateFormatter: 這是用來格式化日期物件，使其成為軸上標籤的類別

from matplotlib.dates import WeekdayLocator, DateFormatter, MonthLocator

ax = walk_df.loc['2014-01':'2014-02'].plot()

# 修改次要標籤
weekday_locator = WeekdayLocator(byweekday = 0, interval = 1)
ax.xaxis.set_minor_locator(weekday_locator)
ax.xaxis.set_minor_formatter(DateFormatter("%d\n%a"))

# 修改主要標籤
ax.xaxis.set_major_locator(MonthLocator())
ax.xaxis.set_major_formatter(DateFormatter('\n\n\n%b\n%Y'))

# 是否繪出格線
ax.xaxis.grid(True, 'minor')
ax.xaxis.grid(False, 'major')
plt.show()

---

In [None]:
ax = walk_df.loc['2014-01':'2014-02'].plot()

# 修改主要標籤
ax.xaxis.set_major_locator(weekday_locator)
ax.xaxis.set_major_formatter(DateFormatter('%Y-%m-%d'))

# 旋轉 x軸的日期標籤
fig = plt.gcf()
fig.autofmt_xdate(rotation = 45)

# 是否繪出格線
ax.xaxis.grid(True, "major") 
plt.show()

## 以柱狀圖顯示相對差異

In [None]:
# make a bar plot
np.random.seed(111111)
s = pd.Series(np.random.rand(10) - 0.5)
s

In [None]:
s.plot(kind = 'bar')
plt.show()

---

In [None]:
# 多重序列的柱狀圖也用來比較每個 x 軸標籤上的多個值
np.random.seed(111111)
df2 = pd.DataFrame(np.random.rand(10, 4),
                  columns = ['a', 'b', 'c', 'd'])
df2

In [None]:
df2.plot(kind = 'bar')
plt.show()

In [None]:
# 能夠透過 stacked = True 參數把柱子往上堆疊，而不是畫成並排
df2.plot(kind = 'bar', stacked = True)
plt.show()

In [None]:
# 水平柱狀圖
df2.plot(kind = 'barh')
plt.show()

In [None]:
df2.plot(kind = 'barh', stacked = True)
plt.show()

---

In [None]:
data = pd.Series(np.random.rand(16), index=list('abcdefghijklmnop'))
data

In [None]:
fig, axes = plt.subplots(2, 1)
data.plot.bar(ax = axes[0], color = 'k', alpha=0.7)
data.plot.barh(ax = axes[1], color = 'k', alpha=0.7)
plt.show()

---

In [None]:
np.random.seed(12348)
df = pd.DataFrame(np.random.rand(6, 4),
                  index=['one', 'two', 'three', 'four', 'five', 'six'],
                  columns = pd.Index(['A', 'B', 'C', 'D'], name = 'Genus'))
df

In [None]:
# 在 Datafrome 欄位中的名稱 "Genus" 是用來當作圖例的標題使用
df.plot.bar()
plt.show()

In [None]:
df.plot.barh(stacked = True, alpha = 0.5)
plt.show()

In [None]:
# 想用長條圖視覺化表達 Series 中值出現的頻率時，請用 value_counts
s = pd.Series(np.random.randint(0, 9, 1000))
s.value_counts().plot.bar(alpha = 0.5)
plt.show()

---

In [None]:
tips = pd.read_csv('./mod11/tips.csv')
tips

In [None]:
tips['tips_pct'] = tips['tip']/(tips['total_bill'] - tips['tip'])
tips[:5]

In [None]:
# 不同天小費的百分比例 (帶有誤差顯示)
# 圖中長條是 tip_pct 的平均值
# 畫在長條上的黑色線條，代表 %95 的信心程度
sns.barplot(x = 'tips_pct', y = 'day', data = tips, orient = 'h')
plt.show()

In [None]:
# sns.barplot 有一個 hue選項，用來幫我們區分其他類的值
# 可用 sns.set(style = 'whitegrid') 來改變繪圖的外觀
sns.barplot(x = 'tips_pct', y = 'day', hue = 'time', data = tips, orient = 'h')
plt.show()

## 以直方圖畫出資料分布

In [None]:
np.random.seed(111111)
df = pd.DataFrame(np.random.randn(1000))
df[:5]

In [None]:
# create a histogram
df.hist()
plt.show()

In [None]:
# 指定圖形的分組數目，便能控制直方圖的解析度
# bins 的預設值是 10
df.hist(bins = 100, alpha = 0.5)
plt.show()

---

In [None]:
np.random.seed(111111)
df = pd.DataFrame(np.random.randn(1000, 4),
                   columns = ['a', 'b', 'c', 'd'])
df

In [None]:
# 如果資料有好幾個序列，直方圖函數會自動產生多個直方圖
# 也可以用 plt.tight_layout() 自動幫調子圖
df.hist(bins = 100, alpha = 0.5)
plt.subplots_adjust(wspace = 0.3, hspace = 0.5) 
plt.tight_layout
plt.show()

---

In [None]:
# 如果要將多個直方圖重疊在同一個圖表，可以在執行 .show() 函式前，呼叫 plt.hist() 函式很多次
np.random.seed(111111)
x = [np.random.normal(3, 1) for _ in range(400)]
y = [np.random.normal(4, 2) for _ in range(400)]
bins  = np.linspace(-10, 10, 100)
plt.hist(x, bins, alpha = 0.5, label = 'x') # alpha = 0.5 是透明度 50%
plt.hist(y, bins, alpha = 0.5, label = 'y')
plt.legend(loc = 'upper right')
plt.show()

---

In [None]:
tips = pd.read_csv('./mod11/tips.csv')
tips['tips_pct'] = tips['tip']/(tips['total_bill'] - tips['tip'])
tips[:5]

In [None]:
# 將小費佔每張帳單的百分比用直方圖顯示出來
tips['tips_pct'].plot.hist(bins = 50)
plt.show()

## 已核密度圖做分布估計

In [None]:
# 核密度圖並不純粹以經驗來表示資料，而是估算資料的真實分布，並且將資料平滑成連續的曲線
# create a kde density plot
np.random.seed(111111)
s = pd.Series(np.random.randn(1000))
s

In [None]:
s.hist(density = True)
s.plot(kind = 'kde', figsize = (10, 8))
plt.show()

---

In [None]:
tips = pd.read_csv('./mod11/tips.csv')
tips['tips_pct'] = tips['tip']/(tips['total_bill'] - tips['tip'])
tips[:5]

In [None]:
tips['tips_pct'].plot.hist(bins = 50, density = True)
tips['tips_pct'].plot.density()

---

In [None]:
# seaborn 有個 displot 方法，能使畫直方圖和密度圖更加容易
# 這個方法可以同時畫出直方圖和連續密度估計

comp1 = np.random.normal(0, 1, size = 200)
comp2 = np.random.normal(10, 2, size = 200)
values = pd.Series(np.concatenate([comp1, comp2]))
values

In [None]:
sns.displot(values, bins = 100, color = 'k', kde = True)
plt.xlim([-8, 20])
plt.show()

## 以散布圖顯示兩變數之間的關係

In [None]:
# 散布圖又稱點圖，在觀察二維序列資料的相互關係時很好用
np.random.seed(111111)
df = pd.DataFrame(np.random.randn(10000, 2),
                  columns = ['a', 'b'])
df

In [None]:
# 散布圖顯示一對變數的相關性
df.plot(kind = 'scatter', x = 'a', y = 'b')
plt.show()

---

In [None]:
import pandas_datareader as pdr
from datetime import datetime
# 從 yahoo 讀取微軟的股價資料
start = datetime(2016, 1, 1)
end = datetime(2016, 12, 31)
stock_data = pdr.data.DataReader("MSFT", 'yahoo', start, end)
stock_data

In [None]:
stock_data['Close']

In [None]:
# % change per day
delta = stock_data['Close'].pct_change()
delta = delta[1:]
delta

In [None]:
fig, ax = plt.subplots()
volume = (10*stock_data.loc[delta[:-1].index].Volume/stock_data.Volume[0])**2
close = stock_data.loc[delta[:-1].index].Close
ax.scatter(delta[:-1], delta[1:], c = close, s = volume, alpha = 0.5)

ax.set_xlabel(r'$\Delta_i$', fontsize = 20)
ax.set_ylabel(r'$\Delta_{i+1}$', fontsize = 20)
ax.set_title('Volume and percent change')
ax.grid(True, 'major')
plt.show()

---

In [None]:
macro = pd.read_csv('./mod11/macrodata.csv')
macro

In [None]:
data = macro[['cpi', 'm1', 'tbilrate', 'unemp']]
data

In [None]:
# 計算 log 
np.log(data)

In [None]:
# 計算差值
np.log(data).diff()

In [None]:
trans_data = np.log(data).diff().dropna()
trans_data.reset_index(inplace=True, drop = True)
trans_data

In [None]:
# 使用 seaborn 的 replot 方法，這個方法在畫散布圖的同時，會算出線性迴歸線
sns.regplot(x = 'm1', y = 'unemp', data = trans_data)
plt.title('Changes in log %s versus log %s' % ('m1', 'unemp'))
plt.show()

## 以散布圖矩陣表示多重變數的相關性

In [None]:
# 對於探索性資料分析來說，如果能看到一堆變數的散布圖是很有幫助的
# 這一堆圖被稱為散布圖矩陣

In [None]:
# create a scatter plot matrix
from pandas.plotting import scatter_matrix

np.random.seed(111111)
df = pd.DataFrame(np.random.randn(1000, 4),
                 columns = ['a', 'b', 'c', 'd'])
df

In [None]:
scatter_matrix(df, alpha = 0.2, figsize = (6, 6), diagonal = 'kde')
plt.show()

---

In [None]:
trans_data

In [None]:
# 在 seaborn 有一個便利的 pairplot 函式
# plot_kws 參數，在我們畫非對角線的圖時，這個參數可以讓我們傳遞設定值
sns.pairplot(trans_data, diag_kind = 'kde', plot_kws={'alpha': 0.5})
plt.show()

## 層面圖組與分組資料

In [None]:
# 如果碰到有多個分組方法的資料集合時怎麼辦？ 使用層面圖組 (facet grid) 就能指定依多個分類變數來進行視覺化
# seaborn 有一個好用的內建函式，叫做 catplot，它可以簡易畫出許多層面圖 (facet plot)
# 可以用更通用的 seaborn.FaceGrid 類別來建立自己的層面圖組，詳細請見 seaborn 文件 (https://seaborn.pydata.org/)

In [None]:
tips = pd.read_csv('./mod11/tips.csv')
tips['tips_pct'] = tips['tip']/(tips['total_bill'] - tips['tip'])
tips[:5]

In [None]:
sns.catplot(x = 'day', y = 'tips_pct', hue = 'time', col = 'smoker', kind = 'bar', data = tips[tips.tips_pct < 1])
plt.show()

In [None]:
# 如果在層面圖中不想只用異色長條顯示 'time' 分組的話，還可以在層面圖組終將 time 分組擴增為新的一列圖
sns.catplot(x = 'day', y = 'tips_pct', row = 'time', col = 'smoker', kind = 'bar', data = tips[tips.tips_pct < 1])
plt.show()

## 箱形圖

In [None]:
# 視你想要顯示的東西屬性為何，catplot 也支援其他可用的繪圖類型，舉例來說，箱形圖就是一種很有效率的圖形
sns.catplot(x = 'tips_pct', y ='day', kind ='box', data = tips[tips.tips_pct < 0.5])
plt.grid(True)
plt.show()

---

In [None]:
data = [1, 2, 3, 4, 5, 6, 7, 8, 20]
df = pd.DataFrame(data, index = np.arange(len(data)))
df

In [None]:
df.describe()

In [None]:
# IQR = 4
# create a box plot
df.plot.box(title="Box Chart")
plt.grid(linestyle="--", alpha = 0.3)
plt.show()

---

In [None]:
np.random.seed(111111)
dfb = pd.DataFrame(np.random.randn(10, 5))
dfb[:5]

In [None]:
dfb.plot.box();

In [None]:
dfb.boxplot(return_type = 'axes');

## 以面積圖展示累積總數

In [None]:
# 面積圖用來表示隨著時間過去所累積的總數目，以及相關屬性之趨勢隨時間的改變
# 預設是產生堆疊式面積圖
np.random.seed(111111)
df = pd.DataFrame(np.random.rand(10, 4),
                  columns = ['a', 'b', 'c', 'd'])
df

In [None]:
df.plot(kind = 'area')
plt.show()

In [None]:
# 產生非堆疊式面積圖
# 預設的非堆疊面積圖的 alpha = 0.5
df.plot(kind = 'area', stacked = False)
plt.show()

## 以圖像表達多重變數的關係強弱

In [None]:
# 圖像 (image) 表達也可以稱為熱圖 (heatmap)
# 熱圖是一種資料的圖形表達法，其中矩陣值乃以顏色來表示，這是顯示兩變數測量值在交叉處之關係的一種有效的表達方式

In [None]:
# create a heatmap
s = pd.Series([0.0, 0.1, 0.2, 0.3, 0.4],
              ['V', 'W', 'X', 'Y', 'Z'])
heatmap_data = pd.DataFrame({'A' : s + 0.0,
                             'B' : s + 0.1,
                             'C' : s + 0.2,
                             'D' : s + 0.3,
                             'E' : s + 0.4,
                             'F' : s + 0.5,
                             'G' : s + 0.6
                     })
heatmap_data

In [None]:
plt.imshow(heatmap_data, cmap = 'hot', interpolation = 'none')
plt.colorbar(shrink = 0.8)
plt.xticks(range(len(heatmap_data.columns)), heatmap_data.columns)
plt.yticks(range(len(heatmap_data)), heatmap_data.index);

## 綜合應用

In [None]:
tips = pd.read_csv('./mod11/tips.csv')
tips

In [None]:
party_counts = pd.crosstab(tips['day'], tips['size'])
party_counts

In [None]:
# 去除 1 和 6 人用餐的情況
party_counts = party_counts.loc[:, 2:5]
party_counts

In [None]:
# 執行正規化，使得每列加總值為 1，並畫圖
party_pcts = party_counts.div(party_counts.sum(axis = 1), axis = 0)
party_pcts

In [None]:
# 按星期幾以及每團用餐人數來劃分
party_pcts.plot.bar()
plt.show()

---

In [None]:
# 從 yahoo 讀取微軟的股價資料
start = datetime(2016, 1, 1)
end = datetime(2016, 12, 31)
stock_data = pdr.data.DataReader("MSFT", 'yahoo', start, end)
stock_data

In [None]:
# 在上方畫出收盤價
top = plt.subplot2grid((4, 4), (0, 0), rowspan = 3, colspan = 4)
top.plot(stock_data.index, stock_data['Close'], label = 'Close', color = 'g', alpha = 0.5)
plt.title('Google Opening Stock Price 2001')
# 在下方畫出交易量
bottom = plt.subplot2grid((4, 4), (3, 0), rowspan = 1, colspan = 4)
bottom.bar(stock_data.index, stock_data['Volume'])
plt.title('Google Trading Volume')
# 設定畫布的尺寸
fig = plt.gcf()
fig.set_size_inches(10, 10)

plt.tight_layout()
plt.show()

---

In [None]:
np.random.seed(111111)
df = pd.DataFrame(np.random.randn(1096,2),
                 index = pd.date_range('2012-01-01', '2014-12-31'),
                 columns = list('AB'))
walk_df = df.cumsum()
walk_df.head()

In [None]:
# 要在特定的子圖畫圖，就利用 ax 參數把目標軸物件傳入 .plot()
ax1 = plt.subplot2grid((2, 1), (0, 0))
ax2 = plt.subplot2grid((2, 1), (1, 0))
walk_df[walk_df.columns[0]].plot(ax = ax1)
walk_df[walk_df.columns[1]].plot(ax = ax2)
plt.show()