# 6.1 用 Python 作資料分析

在之前的課程，我們學會了如何利用 Python 這個語言，針對 Excel 做出了許多自動化的功能與解決方案。

我們也學會了打造網頁爬蟲，自動的搜集大量的資料，當我們的程式開始不停的運作，每天持續的搜集資料時，接下來我們需要學會的，是如何能夠處理以及分析我們手上的資料。

# 6.2 Pandas 簡介

接下來我們來研究一下 Pandas 套件，Pandas 套件提提供了以下資料結構，讓使用者能夠用直覺的語法來處理資料，提供靈活直觀的資料結構來處理關聯數據和有標籤的數據，Pandas 套件提提供了以下資料結構：

| 名稱 | 描述 |
|:--:|:------:|
| Series | 可以建立索引的一維陣列       |
| DataFrame | 有列索引與欄標籤的二維資料集 |
| Panel | 有資料集索引、列索引與欄標籤的三維資料集 |

除非領域特殊，否則一般的資料都是以一維或二維爲主。因此從**實務的角度來看，在學習 Pandas 時，我們應該先將時間與重點重點集中在 Series 以及 DataFrame 上。**


**備注：本教材由張佑成編寫，版權所有，翻印必究**

# 6.2.1 Pandas 齊步走

首先我們用 `import` 引入 pandas，一般慣例上會將它重新命名成 `pd`: 

```python
import pandas as pd
```

# 6.3 Series 資料結構

簡單來說，是一個封裝多筆、一維資料的容器。我們可以把 Series 想象成 Excel 工作表上的一欄資料。

# 6.3.1 建立一個 Series

首先我們來嘗試建立一個 Series：

```python
ser1 = pd.Series([1,2,3,4,5])
print(ser1)
```


當我們將一個 Series 印出來，就會發現一個 Series 有兩欄數字（columns）。左邊的一欄呈現 0 到 4，就是索引值，相對的，右邊的一欄呈現 1 到 5，也就是實際的資料。其實一個 Series 是由一組**標籤(Index)** 與一組**值(Values)** 組成。

# 6.3.2 自定索引值

Series 最厲害的一個功能在於，使用者可以自由的定義索引值，這樣使用者就能夠使用預設的數字索引值以外的方法，去操作 Series 内的資料。

我們嘗試將一個裝滿字串的 List 指定給 index 參數：


```python
ser1 = pd.Series([1,2,3,4,5], index=["a","b","c","d","e"])
print(ser1)
```

接下來我們就發現，Series 的每一筆資料的索引都會被指派一個獨特的標籤。


剛才的 series 若從 Excel 的角度來看，可以理解成是：

![](https://drive.google.com/uc?export=download&id=17UNUvFUakSQIYmzeQT4Jpdf1L-K0RYY3)



# 6.3.3 透過字典宣告 Series

我們也可以透過直接傳入一個字典的方式來建立 Series：

```python
data = {
    "a": 1,
    "b": 2,
    "c": 3,
    "d": 4,
    "e": 5
}

ser1 = pd.Series(data)
print(ser1)
```

Pandas 會將字典内的 key 當作 Series 的標籤，而 values 則會成爲實際的資料值。

# 6.4.1 讀取序列内的資料

可以使用 iloc 方法：

```python
ser1.iloc[0]
```

# 6.4.2 切片序列内的資料

如同 List，Series 也支援的切片的功能：

```python
ser.iloc[索引值起點：索引值結束點]
```

與串列的切片方式一樣

請輸入：

```python
ser1.iloc[0:3]
```

提取多筆不連續的資料也可以透過指定多筆數字的**索引值**：

```python
ser1.iloc[[0, 3, 4]]
```

# 6.4.3 透過標籤提取 Series 内的資料

另一種讀取序列資料的方式

`loc` 方法：

```python
ser1.loc["a"]
```

我們也可以透過自定的索引進行切片：

```python
ser1.loc["a":"c"]
```

需要注意的是，和用索引值切片不一樣的是，用自訂標籤切片**會包含結束點自己**。

提取多筆**不連續**的資料，可以透過指定多個標籤，並將標籤放入 List 内：

```python
ser1.loc[["a", "d", "e"]]
```

需要注意的是，Series 使用者可以自由指定**標籤**，並且利用自訂標籤針對 Series 進行操作，這點與字典這個資料結構十分類似。
另外，細心的讀者可能會發現，我們能夠利用自訂標籤對 Series 進行切片，這是字典不具備的功能，因此我們可以把 Series 看作是一個有序的字典，它同時兼備了 List 與 Dict 的優點。

# 6.5.1  更新 Series 的資料


```python
ser1.loc["a"] = 8
print(ser1)
```

# 6.5.2  更新 Series 内多筆資料

```python
ser1.loc["b":"d"] = [9, 10, 11]
print(ser1)
```

# 6.6.1 刪除 Series 内的資料

我們可以透過索引值刪除單筆資料：

```python
ser1.drop(ser1.index[0])
```

同樣的效果也可以透過標籤實作：

```python
ser1.drop(labels=["a"])
```



若要刪除多筆 Series 内的資料，可以透過索引值：

```python
ser1.drop(ser1.index[[1,2,3]])
```

或是標籤：

```python
ser1.drop(labels=["b", "c", "d"])
```

# 6.7 Series 的逐元素運算

今天若需要將 Series 内的每一筆資料做一樣的處理，好比説乘以 2：

```python
ser1 = pd.Series([1,2,3,4,5], index=["a","b","c","d","e"])
print(ser1 * 2)
```


用 Excel 的角度來理解，等同於是使用陣列公式針對整欄的資料做運算：

![](https://drive.google.com/uc?export=download&id=1iAa3RW3WsQQH_iM_lGEtnq5e7jISwrXL)

# 6.8 過濾 Series 内的資料


讓每一筆資料都去和 3 做比較：

```python
print(ser1 > 3)
```

注意當我們針對一個 Series 進行比較時，運算結果會是一個裝滿布林值的 Series，代表 Series 内的每一筆資料與 3 做比較的結果。


用 Excel 的角度來解釋：

![](https://drive.google.com/uc?export=download&id=1oqg-d-C6fmZb9_s8aZzfPFny8Iq1MwFy)

接下來我們可以利用這個裝滿布林值的 Series 過濾出符合條件的資料：

```python
ser1[ser1 > 3]
```

可以想象成把**比較結果為 True 的資料切片出來**。

# 6.9 Series 一些常用的功能

計算 Series 内所有資料的加總：

```python
ser1.sum()
```

查詢最大值：

```python
ser1.max()
```

查詢最小值：

```python
ser1.min()
```

計算平均值：

```python
ser1.mean()
```


計算標準差：

```python
ser1.std()
```

# 6.10 DataFrame 資料結構

DataFrame 是一個表格型資料結構，也是 Pandas 套件使用頻率最高的資料結構，各位讀者可以把 DataFrame 想像成是一個**虛擬的 Excel 試算表**，許多 Excel 支援的功能，在 DataFrame 上都有相對應的功能。


- 實際上是由多個 Series 組合起來的資料結構
- 適用於封裝/處理二維的資料


# 6.11 建立 DataFrame

```python
data = {
    "string": ["abc","def","ghi","jkl"],
    "number": [48, 100, 34, 49],
    "boolean": [True, False, False, True]
}

df = pd.DataFrame(data)
print(df)
```

從 Excel 的角度來理解，等同於是在工作表上輸入了字典内的資料：

![](https://drive.google.com/uc?export=download&id=1iDkXpd6-JRYkU0CGm2WC9YL_vwyqXjAg)

# 6.12 讀取 DataFrame 的資料

若要將 DataFrame 上其中一欄的資料讀取出來，可以使用該欄的表頭：

```python
df["number"]
```

![](https://drive.google.com/uc?export=download&id=1TN-YMTMBKEkaGhW-XsP7z_3jn2HVyhZp)

若要將其中一列讀取出來：

```python
df.iloc[1]
```

![](https://drive.google.com/uc?export=download&id=1O6bxk2V-6zfLvu5PyiWm9vj1q14w7Swz)

從上述的資料可以發現，DataFrame 的每一欄或列都是一個獨立的 Series。

# 6.13 切片 DataFrame 的資料

由於 DataFrame 是封裝二維的資料，因此在切片時需要注意是針對哪一個維度做切片，若今天要切片多欄的資料：

```python
print(df.loc[:, "number":"boolean"])
```

切片多列的資料：

```python
print(df.loc[1:3])
```

同時針對兩個方向做切片：

```python
print(df.loc[1:3, "number":"boolean"])
```

In [None]:
#顯示全部列df.loc[:, "number":"boolean"]

![](https://drive.google.com/uc?export=download&id=1Jkp_H_72YJXcZKTkpMh40hNlHxRAxs6_)

# 6.14 DataFrame 的運算

接下來我們希望能夠把 `number` 這一欄的每一筆資料加 `2`：

```python
df["number"] + 2
```

上述程式碼可以理解成，選擇 DataFrame 上表頭為 `number` 的一欄，將欄内的每一筆資料加上 `2`。


最後，若要將計算好的結果寫回 DataFrame，語法和字典一樣：

```python
df["number+2"] = df["number"] + 2
print(df)
```

# 6.15 過濾 DataFrame 的資料

過濾 DataFrame 内的資料與過濾 Excel 工作表上的資料在邏輯上一樣，都是根據某一欄資料的值做篩選。因此要過濾 DataFrame 上的資料，我們需要先透過表頭選擇我們想操作的欄位，並且寫出比較條件。

舉例來説，若需要過濾出 `number` 這一欄大於 `40` 的資料：

```python
df["number"] > 40
```

由於 DataFrame 的每一欄都是一個 Series，我們將 Series 内的每一筆資料與 `40` 作比較，得到了一個裝滿布林值的 Series。




接下來我們可以利用此 Series 對 DataFrame 進行過濾：

```python
print(df[df["number"] > 40])
```

與過濾 Series 内的資料一樣，可以想象成把比較結果為 True 的資料列從 DataFrame 中切片出來。

# 6.16 Pandas 實戰專題：將多個工作表的資料合併

接下來我們來嘗試將 Pandas 投入到實戰，來解決一個常見的問題，將多個不同工作表的資料拼接起來。

假設一個 Excel 活頁簿内的每一個工作表個別記錄了 2020 年，不同月份的臺積電交易資料：

![](https://drive.google.com/uc?export=download&id=1_wCI2O4CnNZcp7sZ0nb9S2UYA0nqelds)

爲了方便計算資料，我們希望將多個不同月份的資料依照順序合併起來成爲一整年的歷史資料：

![](https://drive.google.com/uc?export=download&id=1rTR7jYtRwIgEkSh0aCF4ODYNz2ZjF7_u)

如上圖所顯示，我們希望能夠做到**縱向合併。**

最後，我們利用拼接好的歷史資料計算出整年的每日報酬率以及三日移動平均，最後再將計算好的結果輸出至一個新的工作表上。



要完成上述功能，程式的流程大致如下：

1. 將每一個工作表内的資料匯入至一個 DataFrame
2. 合併多個不同月份的資料，
3. 計算整年的每日報酬率
4. 將計算好的資料匯出至 Excel 檔案



# 6.16.1 匯入 Excel 檔案的資料

要將 Excel 工作表的資料匯入 Dataframe，我們可以使用 Pandas 的 `read_excel()` 函式。


`read_excel()` 的使用方式是傳入被讀取檔案的路徑以及資料所在的工作表名稱：

```python
df = pd.read_excel("歷史資料.xlsx", sheet_name="2020-01")
print(df)
```

`read_excel()` 函式雖然可以幫助我們匯入 Excel 檔案的資料，卻有一個限制，那就是無法讀取一個正在被開啓的 Excel 檔案。各位讀者可以嘗試先將範例檔案用 Excel 開啓，再次執行上述程式碼，就會出現錯誤。

# 6.16.2 利用 xlwings 匯入 Excel 檔案的資料

面對這樣的問題，xlwings 套件則可以突破上述限制，允許使用者能夠將一個正在被開啓的 Excel 檔案上的資料匯入 DataFrame。

我們先用 xlwings 開啓 Excel 檔案，並且選擇 `2020-01` 工作表：

```python
import xlwings as xw
import pandas as pd

wb = xw.Book("歷史資料.xlsx") 
sheet = wb.sheets["2020-01"]
```

接下來我們來見識一下 `.exapnd()` 函式：

```python
sheet.range("A1").expand("down")
```

上述程式碼先選擇了一個起點（A1 儲存格），並且指定方向（往下），接下來便會往指定的方向擴張，自動搜尋出整個連續而且有值的範圍。


![](https://drive.google.com/uc?export=download&id=1Ebd0agxQz7B0K1WsatfLiap8DABhgjWL)

如同字面上的意思，`expand()` 函式代表從一個起點開始擴展，它的運作方式與我們之間偵測結束點用的 `.end()` 函式十分類似，但是語法相對簡潔許多。

接下來我們呼叫 `.value`，就能將整欄的資料讀取成一個 List：

```python
sheet.range("A1").expand("down").value
```

接下來我們換一個方向，以 A1 為起點，往右邊搜尋：

```python
sheet.range("A1").expand("right").value
```

![](https://drive.google.com/uc?export=download&id=1ib_OPPNapTd2xnJLW6XeuIj5xkTvZgvZ)

最後，以 A1 為起點，同時往下與往右搜尋：

```python
sheet.range("A1").expand("table")
```

In [None]:
sheet.range("A1").expand("table")

從 Excel 的角度來理解：

![](https://drive.google.com/uc?export=download&id=1hduOWSVJ5IEU4OZOngC8BIe0oM-G9cA0)

此時呼叫 `.value`，就能將範圍内的資料讀取成一個二維 List：

```python
sheet.range("A1").expand("table").value
```

在明白了 expand 參數的運作方式之後，接下來若要將 `.expand()` 選擇到的資料匯入 DataFrame，我們可以使用 range 物件的 options 功能：


```python
import pandas as pd

sheet1 = wb.sheets["2020-01"]
df1 = sheet1.range("A1").options(pd.DataFrame, expand="table").value
print(df1)
```

這行代表以 A1 為起點，同時往下與往右搜尋，找出了連續範圍的右下角，找出了兩個方向的結束點之後，將對應的範圍匯出，存入 DataFrame。


注意在上述程式碼，我們在 `options` 功能的第一個參數指定了 `pd.DataFrame`，代表封裝用的資料結構。

# 6.17 合併 DataFrame

在上一個小節，我們讀出了第一個工作表上的資料，接下來我們嘗試將兩個工作表的資料合併起來：

```python
sheet2 = wb.sheets["2020-02"]
df2 = sheet2.range("A1").options(pd.DataFrame, expand="table").value
print(df2)
```

接下來我們用 Pandas 的 `concat()` 函數來縱向合併兩個 DataFrame：

```python
df3 = pd.concat([df1, df2])
print(df3)
```

最後我們用一個迴圈，依照順序迭代每一個工作表，再將每一個工作上的歷史資料匯入成 DataFrame，最後再將所有的 DataFrame 集合起來，我們便可以將一整年的歷史資料整理到一個單一的 DataFrame 内：

```python
dfs = []
# 迭代每一個工作表
for sheet in wb.sheets:
    # 讀取出每一個工作表上的歷史資料，將資料放入 DataFrame
    df = sheet.range("A1").options(pd.DataFrame, expand="table").value
    # 將 DataFrame 放入 list
    dfs.append(df)
# 最後合併所有的 DataFrame
result_df = pd.concat(dfs)
print(result_df)
```

# 6.18 用 xw.view() 檢查 DataFrame 内容

當 DataFrame 内的資料量變得龐大時，當我們嘗試用 `print()` 方法將資料顯示出來時，DataFrame 就不會呈現完整的内容出來。

若今天我們希望能夠檢查 DataFrame 的完整内容，可以呼叫 `xlwings` 的 `view()` 方法：

```python
xw.view(result_df)
```

此方法會動態開啓一個新的 Excel 工作簿，並且將 DataFrame 上所有的資料即使呈現在工作簿上。

![](https://drive.google.com/uc?export=download&id=1tJQw1t112yeZ4gTTgPCNd5-Djv_A9bUS)

# 6.19 計算報酬率

`pct_change()` 函式會幫你計算每一個列之間數值的差距，以百分比的形式呈現出來：

```python
result_df["Close"].pct_change(1) * 100
```

在計算出每日報酬率之後，我們將結果寫入 DataFrame：

```python
result_df["daily return"] = result_df["Close"].pct_change(1) * 100
print(result_df)
```

# 6.20 rolling() 滾動視窗

接下來我們希望能夠利用 DataFrame 計算三日移動平均值，此時我們可以使用 `rolling()` 功能，代表從 DataFrame 最上方往下滾動，把每一列以及前 N 列的資料選起來做運算。

```python
result_df["Close"].rolling(3)

```

代表從第三個列開始，把每一個列以及前兩列的資料選起來做運算


從 Excel 的角度來理解：

![](https://drive.google.com/uc?export=download&id=1cRGJzyzKaVe3S7Lmd2dEw99d7KUKrEO2)

但是，在選起來之後，必須針對懸起來的資料做一些運算：

```python
result_df["Close"].rolling(3).sum()
```

代表把每三筆資料加起來的意思，從 Excel 的角度來理解：

![](https://drive.google.com/uc?export=download&id=1Rod0kB_VOSv7BdWs1kis2bGQIqEj3W5X)

# 6.21 計算 3 日移動平均

以下可以將選起來的每三筆資料的加總除以 3：

```python
result_df["Close"].rolling(3).sum() / 3
```

另外也可以使用 mean() 方法，直接將選擇到的每三筆資料的平均值算出來：

```python
result_df["Close"].rolling(3).mean()
```

將計算好的三日移動平均資料寫回 DataFrame：

```python
result_df["sma3d"] = result_df["Close"].rolling(3).mean()
print(result_df)
```

# 6.22 將資料匯入 Excel 檔案

使用 Pandas 内建的 `.to_excel()`:

```python
result_df.to_excel(r"指定儲存 stock_report.xlsx 的路徑", sheet_name="工作表名稱")
```

# 6.23 寫入 Excel (xlwings 做法)

將 DataFrame 的資料輸入至 Excel，其實還有另一種做法，那就是透過 xlwings:

```python
import xlwings as xw
# 產生新工作簿
wb = xw.Book()
# 選擇工作表1
sheet = wb.sheets[0]
```


想象一下，將 DataFrame 這個虛擬工作表與欲寫入的 Excel 工作表位置的左上角對應起來：

```python
# 將 DataFrame 寫入以 A1 為起點 (左上角) 的範圍
sheet.range("A1").value = result_df
```


```python
# 設定工作表名稱
sheet.name = "2020 臺積電歷史資料"
# 儲存檔案
wb.save("TSMC-2020.xlsx")
```

![](https://drive.google.com/uc?export=download&id=1JepEXdfYNi82KwYXsr1j8GIG7kuUD4So)

大功告成！

# 6.24 小結

在這一課，我們見識到了 Pandas 這個 Python 資料科學套件，**Pandas 是學習 Python 一個重要的分水嶺，在學會 Pandas 之後，原本我們需要用繁雜的手動方式在 Excel 上進行的資料處理以及計算，用 Python都能夠透過非常簡潔的程式碼實作。**


我們也見識到，xlwings 這個套件有十分多和 Pandas 相關的功能，例如 `xw.view()`，讓 Excel 的角色從單純的資料庫變成一個呈現海量資料的界面，讓 Python 以及 Excel 這兩大工具形成互補關係，協助開發者能更方便的分析或處理大量的資料。


**備注：本教材由張佑成編寫，版權所有，翻印必究**