# Python-資料視覺化
## 大綱
- [Matplotlib](#Matplotlib)
- [Seaborn](#Seaborn)

<br/>
<br/>

In [None]:
# 程式執行時間約為 4.76 sec
# 計算程式執行時間
import time                 # 匯入 time 套件
start_time = time.time()    # 紀錄開始時間

# Matplotlib


### State Machine
![state machine](https://i.imgur.com/6Cpxaex.png)


### Line Plot 折線圖


In [None]:
# 接下來處理數據時會用到的一些套件
import numpy as np
import pandas as pd
import math

In [None]:
# 匯入matplotlib
import matplotlib.pyplot as plt

In [None]:
x = [1, 2, 3, 4]
y = [1, 2, 3, 4]

In [None]:
# 根據 x, y 畫出折線圖
plt.plot(x, y)

# 顯示圖表
plt.show()

### Scatter Plot 散佈圖

In [None]:
# x = {0, 1, ... , 99}
x = np.arange(100)

# y = 100 個介於 1 ~ 100 之間的隨機整數
y = np.random.randint(0, 100, 100)

# 印出 x, y 的前 10 項
print('x data: {}'.format(x[:10]))
print('y data: {}'.format(y[:10]))

In [None]:
# 根據 x, y 畫出散佈圖
plt.scatter(x, y)
plt.show()

### Histogram 長條圖

In [None]:
# x = {0, 1, ... , 9}
x = np.arange(10)

# y = 10 個介於 5 ~ 10 之間的隨機整數
y = np.random.randint(5, 10, 10)

# 印出 x, y
print('x data: {}'.format(x))
print('y data: {}'.format(y))

In [None]:
# 根據 x, y 畫出長條圖
plt.bar(x, y)
plt.show()

### Legends 圖例

In [None]:
# x = {0, 1, ... , 9}
x = np.arange(10)

# y = 10 個介於 5 ~ 10 之間的隨機整數
y = np.random.randint(5, 10, 10)

# 印出 x, y
print('x data: {}'.format(x))
print('y data: {}'.format(y))

<br>

- **Axe label**

In [None]:
# 根據 x, y 畫出折線圖
plt.plot(x, y)

# 替 x 座標加上標籤 'x label'
plt.xlabel('x label')

# 替 y 座標加上標籤 'y label'
plt.ylabel('y label')
plt.show()

<br>

- **Marker**

In [None]:
# 在每個資料點的位置標上叉號
plt.plot(x, y, marker = 'x')
plt.show()

<br>

- **Color**

In [None]:
# 將線條顏色換成紅色
plt.plot(x, y, color = 'red')
plt.show()

### Multiple Plots

In [None]:
# x = {0, 1, 2, 3, 4}
x = np.arange(5)

# y_linear : y = x
y_linear = x

# y_square : y = x ^ 2
y_square = np.power(x, 2)

# y_cubic :  y = x ^ 3
y_cubic  = np.power(x, 3)

# 印出x, y_linear, y_square, y_cubic
print('x data: {}'.format(x))
print('linear y: {}'.format(y_linear))
print('square y: {}'.format(y_square))
print('cubic y: {}'.format(y_cubic))

In [None]:
plt.plot(x, y_linear, color = 'red')
plt.plot(x, y_square, color = 'green')
plt.plot(x, y_cubic, color = 'blue')
plt.show()

### Styles


In [None]:
# x = 100 個標準常態分配(平均值 = 0, 標準差 = 1)的隨機變數
x = np.random.normal(0, 1, 100)

# 套用 ggplot 設計
plt.style.use('ggplot')

# 畫出長條圖
plt.hist(x)

# 將圖表標題設為 'ggplot style'
plt.title('ggplot style')
plt.show()

In [None]:
# 套用 seaborn-whitegrid 設計
plt.style.use('seaborn-whitegrid')
plt.hist(x)
plt.title('seaborn-whitegrid style')
plt.show()

In [None]:
# 套用 dark_background 設計
plt.style.use('dark_background')
plt.hist(x)
plt.title('dark_background style')
plt.show()

### Reference: [Matplot Gallery](https://matplotlib.org/gallery/index.html)






<br/>
<br/>

# Seaborn

基於matplotlib的圖形化可視化python庫


### Line Plot 折線圖


In [None]:
# 匯入 seaborn
import seaborn as sns

In [None]:
# x = 總個數為 100 的等差數列 {0, ..., 10}
x = np.linspace(0, 10, 100)

# y1 = sin(x)
y1 = np.sin(x)

# y2 = sin(x + π/2)
y2 = np.sin(x + math.pi / 2)

# y3 = sin(x + π)
y3 = np.sin(x + math.pi)

# y4 = sin(x + 3π/2)
y4 = np.sin(x + math.pi * 3 / 2)

# 將 x, y1, y2, y3 整合成一個資料表 df
df = pd.DataFrame({

    #label          |  data
    'x'             :  x,
    'sin(x)'        :  y1,
    'sin(x+pi/2)'   :  y2,
    'sin(x+pi)'     :  y3,
    'sin(x+pi*3/2)' :  y4
})

# 印出 df 的前 5 項
print(df.head())

In [None]:
# 設置一個繪圖區
sns.set()

# 將資料表 df 中的 label 'x' 當作 x 座標, label 'sin(x)' 當作 y 座標, 畫出折線圖, 並在圖例中標記為'sin(x)'
# 以此類推
sns.lineplot(x = 'x', y = 'sin(x)'       , data = df, label = 'sin(x)')
sns.lineplot(x = 'x', y = 'sin(x+pi/2)'  , data = df, label = 'sin(x+pi/2)')
sns.lineplot(x = 'x', y = 'sin(x+pi)'    , data = df, label = 'sin(x+pi)')
sns.lineplot(x = 'x', y = 'sin(x+pi*3/2)', data = df, label = 'sin(x+pi*3/2)')

### Scatter Plot 散佈圖


In [None]:
size = 100

# x1, y1 = 100 個介於 0 ~ 10 之間的隨機小數
x1 = np.random.random(size) * 10
y1 = np.random.random(size) * 10

# x2, y2 = 100 個介於 -5 ~ 5 之間的隨機小數
x2 = np.random.random(size) * 10 - 5
y2 = np.random.random(size) * 10 - 5

# x3, y3 = 100 個介於 -10 ~ 0 之間的隨機小數
x3 = np.random.random(size) * 10 - 10
y3 = np.random.random(size) * 10 - 10

# 將x1, y1, x2, y2, x3, y3 整合成一個資料表 df
df = pd.DataFrame({
    'x1' : x1,
    'y1' : y1,
    'x2' : x2,
    'y2' : y2,
    'x3' : x3,
    'y3' : y3
})

# 印出 df 的前 5 項
print(df.head())

In [None]:
sns.set()

# 將資料表 df 中的 label 'x1' 當作 x 座標, label 'y1' 當作 y 座標, 畫出散佈圖, 並在圖例中標記為'0 ~ 10'
# 以此類推
sns.scatterplot(x = 'x1', y = 'y1', data = df, label = '0 ~ 10')
sns.scatterplot(x = 'x2', y = 'y2', data = df, label = '-5 ~ 5')
sns.scatterplot(x = 'x3', y = 'y3', data = df, label = '-10 ~ 0')

### Heatmap 熱圖

可以看出兩個屬性之間的相關係數

In [None]:
# data = 一個 6 * 6 的矩陣, 內容為介於 -1 ~ 1 之間的隨機小數
data = np.random.random((6, 6)) * 2 - 1

# 將對角線上的數值全部 + 2
# 產生的新矩陣, 對角線上的數值必定 >= 1
data = data + 2 * np.eye(6)

# 使用 np.clip, 將 data 中所有大於 1 的參數設為 1 , 小於 -1 的參數設為 -1
# 產生的新矩陣, 對角線上的數值必定 = 1 , 其餘為介於 -1 ~ 1 之間的隨機小數
data = np.clip(data, -1, 1)

# 印出 data
print(data)

In [None]:
sns.set()

# 設置一個繪圖區, 並將大小設定為10 * 8
plt.subplots(1, figsize = (10, 6))

# 根據 data 畫出熱圖, 預設配色中, 數值越接近 1 (正相關)的格子顏色越黃, 數值越接近 -1 (負相關)的格子顏色越藍
# annot : 是否顯示每個格子所代表的數字, True 即顯示
# square : 是否將格子形狀調整為正方形, True 即調整
# xticklabels : 是否顯示 x軸座標標籤, False 即不顯示
# yticklabels : 是否顯示 y軸座標標籤, False 即不顯示
sns.heatmap(data, annot = True, square = True, xticklabels = False, yticklabels = False)

### Box/Strip/Violin Plot


In [None]:
# 使用 Seaborn 內建的小費數據集
tips = sns.load_dataset("tips")

# 隨機印出 10 筆數據
print(tips.sample(10))

<br>

- **Box 箱形圖**

    顯示分布的三個四分位數以及極值，離群值則以點的方式獨立顯示

In [None]:
sns.set()

# 將資料表 tips 中的 label 'day' 當作 x 座標, label 'total_bill' 當作 y 座標, 畫出箱形圖
sns.boxplot(x = 'day', y = 'total_bill', data = tips)

<br>

- **Strip 條形圖**

    列出所有的數據點

In [None]:
sns.set()

# 將資料表 tips 中的 label 'day' 當作 x 座標, label 'total_bill' 當作 y 座標, 畫出條形圖
sns.stripplot(x = 'day', y = 'total_bill', data = tips)

<br>

- **Violin 琴形圖**

    結合箱形圖與核密度估計(kernel density estimation)

In [None]:
sns.set()

# 將資料表 tips 中的 label 'day' 當作 x 座標, label 'total_bill' 當作 y 座標, 畫出琴形圖
sns.violinplot(x = 'day', y = 'total_bill', data = tips)

In [None]:
end_time = time.time()                                              # 記錄結束時間
print('time cost : {} sec'.format(end_time - start_time))           # 耗時 = 結束時間 - 開始時間 

### Reference: [Official seaborn tutorial](https://seaborn.pydata.org/tutorial.html)
