# F0753 範例程式 - 第 8 章 資料相關度與簡單線性迴歸分析 Data correlation coefficient and simple linear regression

## 8-0 相關係數 (correlation coefficient)：資料的相關程度

### *計算相關係數與繪製散布圖 scatter plot*

* 查詢台灣銀行美元對台灣歷史匯率：https://rate.bot.com.tw/xrt/history/USD

* 查詢台灣銀行每盎司黃金歷史價格：https://rate.bot.com.tw/gold/passbook

In [None]:
import numpy as np
import matplotlib.pyplot as plt

usd = np.array([29.86, 29.78, 29.695, 29.715, 29.685,
                29.665, 29.67, 29.635, 29.625, 29.665,
                29.665, 29.635, 29.66, 29.655, 29.67,
                29.64, 29.61, 29.585, 29.51, 29.34])

gold = np.array([1583.1, 1615, 1651.35, 1642.8, 1643.8,
                 1674.75, 1680.25, 1701.65, 1704.65, 1711.1,
                 1685.2, 1667.3, 1684, 1678.75, 1702.65,
                 1718.1, 1707.1, 1692.2, 1698.65, 1708.1])

plt.scatter(usd, gold)
plt.show()

In [None]:
print(np.corrcoef(usd, gold))

## 8-1 簡單線性迴歸 (linear regression)：預測資料的模型

### *求出迴歸模型*

In [None]:
import numpy as np
import matplotlib.pyplot as plt

usd = np.array([29.86, 29.78, 29.695, 29.715, 29.685,
                29.665, 29.67, 29.635, 29.625, 29.665,
                29.665, 29.635, 29.66, 29.655, 29.67,
                29.64, 29.61, 29.585, 29.51, 29.34])

gold = np.array([1583.1, 1615, 1651.35, 1642.8, 1643.8,
                 1674.75, 1680.25, 1701.65, 1704.65, 1711.1,
                 1685.2, 1667.3, 1684, 1678.75, 1702.65,
                 1718.1, 1707.1, 1692.2, 1698.65, 1708.1])

print(np.polyfit(usd, gold, 1).round(1))

### *在程式中用迴歸模型做預測*

In [None]:
# 沿用上一小節的套件及 usd/gold

coef = np.polyfit(usd, gold, 1)
reg_model = np.poly1d(coef)

print(reg_model)

In [None]:
print(reg_model(29.75).round(3))

## 8-2 簡單線性迴歸的視覺化 (visualization) 及圖表調整

### *繪製簡單迴歸模型*

In [None]:
# 沿用上一小節的套件, usd, gold 及 reg_model

plt.scatter(usd, gold)
plt.plot(usd, reg_model(usd), color='red')
plt.show()

In [None]:
print(reg_model(usd).round(3))

### *放大圖形、加入圖表標題及軸文字、加入圖例和格線、調整圖表中文字大小*

In [None]:
# 沿用上一小節的套件, usd, gold 及 reg_model

plt.figure(figsize=(12, 8))
plt.rcParams['font.size'] = 12

plt.scatter(usd, gold)
plt.plot(usd, reg_model(usd), color='red', label='Prediction model')

plt.title('Regression chart')
plt.xlabel('USD exchange rate (to TWD)')
plt.ylabel('Gold price (in USD)')
plt.legend()
plt.grid(True)
plt.show()

### *在圖表中顯示中文*

* Windows 系統可能的中文字型：Microsoft JhengHei (微軟正黑體), Microsoft YaHei (微軟雅黑體)
* macOS 系統可能的中文字型：Aqua Kana
* Debian/Ubuntu (Linux) 系統可能的中文字型：Noto Sans CJK JP (思源黑體), Noto Serif CJK JP (思源宋體)

In [None]:
# 沿用上一小節的套件, usd, gold 及 reg_model

plt.figure(figsize=(12, 8))
plt.rcParams['font.family'] = 'Microsoft JhengHei'

plt.scatter(usd, gold)
plt.plot(usd, reg_model(usd), color='red', label='預測模型')

plt.title('迴歸分析圖表')
plt.xlabel('美元對台幣匯率 (台幣)')
plt.ylabel('每盎司金價 (美元)')
plt.legend()
plt.grid(True)
plt.show()

### *(bonus) 列出系統中的字型*

如果你不確定系統中有哪些字型支援中文, 可執行以下程式, 這會用所有字型印出一行測試文字。

不支援中文的字型, 其中文會以系統預設字型呈現, 因此只要挑中文字型有變化的來試驗即可 (複製前面中括號內的字型名稱貼到程式碼內)。

有些字型也支援如日文等其他語言。注意：部分支援中文的字型會無法正確顯示負數數值。

In [None]:
import matplotlib.font_manager
from IPython.core.display import HTML

html = []
for font in matplotlib.font_manager.fontManager.ttflist:
    html.append(f"<p>[{font.name}] --- <span style='font-family:{font.name}; font-size: 24px;'>matplotlib 字型測試</p>")

HTML(''.join(html))

## 8-3 非線性迴歸模型 (補充)

In [None]:
import numpy as np
import matplotlib.pyplot as plt

usd = np.array([29.86, 29.78, 29.695, 29.715, 29.685,
                29.665, 29.67, 29.635, 29.625, 29.665,
                29.665, 29.635, 29.66, 29.655, 29.67,
                29.64, 29.61, 29.585, 29.51, 29.34])

gold = np.array([1583.1, 1615, 1651.35, 1642.8, 1643.8,
                 1674.75, 1680.25, 1701.65, 1704.65, 1711.1,
                 1685.2, 1667.3, 1684, 1678.75, 1702.65,
                 1718.1, 1707.1, 1692.2, 1698.65, 1708.1])

coef = np.polyfit(usd, gold, 2)
reg2_model = np.poly1d(coef)
print(reg2_model)

plt.scatter(usd, gold)
plt.plot(usd, reg2_model(usd), color='red')
plt.show()

In [None]:
coef = np.polyfit(usd, gold, 5)
reg5_model = np.poly1d(coef)
print(reg5_model)

plt.scatter(usd, gold)
plt.plot(usd, reg5_model(usd), color='red')
plt.show()