# pandas-基本功能

## 教學目標

這份教學的目標是介紹基本的 pandas 功能，並學習快速操作大量的資料。

## 適用對象

適用於有程式基礎，且擁有 python 和 `numpy` 基礎的學生。

若沒有先學過 python，請參考 [python-入門語法](./python-入門語法.ipynb) 教學。

若沒有先學過 `numpy`，請參考 [numpy-基本功能](./numpy-基本功能.ipynb) 教學。

## 執行時間

本教學全部執行時間約為 1.3843801021575928 秒。

|測試環境|名稱|
|-|-|
|主機板|X570 AORUS ELITE|
|處理器|AMD Ryzen 7 3700X 8-Core Processor|
|記憶體|Kingston KHX3200C16D4/16GX|
|硬碟|Seagate ST1000DM003-1ER1|
|顯示卡|GeForce RTX 2080|
|作業系統|Ubuntu 18.04 LTS|

## 大綱

- [簡介](#簡介)
- [安裝](#安裝)
- [資料結構](#資料結構)
- [操作資料](#操作資料)
- [讀取資料](#讀取資料)
- [練習](#練習)

## 簡介

根據 [pandas 官方網站](https://pandas.pydata.org/)（v1.0）：

> pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.
>
> pandas 是基於 python 開發的一個快速、強大、具有彈性且容易使用的開源資料分析與操作工具。

`pandas` 提供**讀取**或**輸出**以下資料格式的功能：

- CSV
- JSON
- HTML
- Microsoft Excel
- OpenDocument Excel
- SQL databases
- pickle
- Google BigQuery

讀取資料後，`pandas` 能夠對資料進行以下的操作：

- **索引（Index**）與**選取（Select）** 資料
- **合併（Merge）**、**結合（Join）** 與**串接（Concatenate）** 資料
- **統計（Statistic）** 與**視覺化（Visualization）**

## 安裝

透過 `pip` 安裝 `pandas`：

```sh
pip install pandas
```

In [None]:
# 匯入 pandas 模組
import pandas as pd

# 匯入 numpy 模組
import numpy as np

## 資料結構

由於 `pandas` 是基於 python 與 `numpy` 進行開發，所以 `pandas` 也使用了 `numpy` 中的概念：

- 維度：`pandas.Series.shape` 即 `numpy.shape`
- 資料型態：`pandas.Series.dtype` 即 `numpy.dtype`

### 資料格式介紹
![Dataframe](resource/pandas/dataframe.png)
- Source: https://www.geeksforgeeks.org/creating-a-pandas-dataframe/


### Series

`pandas.Series` 為**維度為 1**且**資料型態皆相同**的結構。

- 操作方法與操作 `numpy.ndarray` 陣列相同
    - 使用 `[位置]` 取值
    - 使用 `[起始位置:結束位置]` 取連續值
        - 包含起始位置
        - **不包含**結束位置
- 可以給予每個 `pandas.Series` 位置中的值一個名字
    - 使用 `index` 參數進行命名
    - 使用 `[index 名稱]` 取值
    - 使用 `[起始 index 名稱:結束 index 名稱]` 取連續值
        - 包含起始位置
        - **包含**結束位置
- 可以給予 `pandas.Series` 一個名字
    - 使用 `name` 參數進行命名
- 透過給予名稱讓資料具有**可閱讀性**

In [None]:
# Series

# 宣告 Series 變數
s1 = pd.Series([1, 2, 3])    

# 輸出 Series s1
print(s1)                    
print()
# s1 型態為 Series，輸出 True
print(type(s1) == pd.Series) 
# s1 中的數值型態為整數，輸出 int64
print(s1.dtype)              
# s1 維度為 1，共 3 個數值，輸出 (3,)
print(s1.shape)              
print()

s2 = pd.Series([1., 2., 3.])

# 輸出 Series s2
print(s2)
print()
# s2 型態為 Series，輸出 True
print(type(s2) == pd.Series) 
# s2 中的數值型態為浮點數，輸出 float64
print(s2.dtype)
# s2 維度為 1，共 3 個數值，輸出 (3,)
print(s2.shape)

In [None]:
# 宣告 Series 變數
s3 = pd.Series(        
    [1, 2, 3,],
    index=['1st', '2nd', '3rd'],
    name='my series'
)

# 輸出 Series s3
print(s3)
print()
# 輸出 Series s3 的名字 my series
print(s3.name)         
# 依序輸出 Series s3 中所有值名字
print(s3.index)        
print()

# 輸出 Series s3 位置 0 的值
print(s3[0])           
# 輸出 Series s3 中名稱為 1st 的值
print(s3['1st'])       
# 輸出 Series s3 位置 1 的值
print(s3[1])           
# 輸出 Series s3 中名稱為 2nd 的值
print(s3['2nd'])       
# 輸出 Series s3 位置 2 的值
print(s3[2])           
# 輸出 Series s3 中名稱為 3rd 的值
print(s3['3rd'])       
print()

# 輸出 Series s3 位置 0, 1 但不包含位置 2 的值
print(s3[0:2])         
print()
# 輸出 Series s3 名稱為 1st 的值位置到名稱為 3rd 的值位置
# 與 list 不同，包含 3rd 的位置
print(s3['1st':'3rd']) 

In [None]:
# 宣告 Series 變數 (使用dict)
s4 = pd.Series(
    data={
        "A": 1,
        "B": 2,
        "C": 3,
    },
    name='Series s4'
)
print(s4)
print(f"s4 的 {s4.index}")

### DataFrame

`pandas.DataFrame` 為**維度為 2**，**資料型態不一定相同**的結構。

- 由一個或多個 `pandas.Series` 所組成
- 以**表格**的方式呈現與操作（如同 SQL）
    - 使用**列（row）** 與**行（column）** 進行操作
    - 從 `pandas.DataFrame` 取到的單一列或行都會自動被轉換成 `pandas.Series`
- 取值方法
    - 先選擇**行（column）**，再使用**列的位置（row position）**取值
        - 同 `pandas.Series` 的操作方式
    - 先選擇**列（row position）**，再使用**行的位置（column position）** 或**名稱（column index）** 取值
        - 必須使用 `pandas.DataFrame.iloc[位置]`
    - 先選擇**列的名稱（row index）**，再使用**行的位置（column position）** 或**名稱（column index）** 取值
        - 使用 `index` 參數進行命名
        - 必須使用 `pandas.DataFrame.loc[名稱]`
    - 支援連續取值，與 `pandas.Series` 操作方法相同
- 透過給予名稱讓資料具有**可閱讀性**

In [None]:
# DataFrame

# 宣告 DataFrame 變數
df1 = pd.DataFrame({ 
    'col1': [1, 2, 3, 4],
    'col2': [5., 6., 7., 8.],
    'col3': ['a', 'b', 'c', 'd']
})

# 輸出 DataFrame df1
print(df1)                            
print()
# df1 型態為 DataFrame，輸出 True
print(type(df1) == pd.DataFrame)      

# 輸出 DataFrame df1 名稱為 col1 的行
print(df1['col1'])                    
print()
# df1['col1'] 型態為 Series，輸出 True
print(type(df1['col1']) == pd.Series) 
# df1['col1'] 中的數值型態為整數，輸出 int64
print(df1['col1'].dtype)              
# df1['col1'] 維度為 1，共 4 個數值，輸出 (4,)
print(df1['col1'].shape)              
print()

# 輸出 DataFrame df1 名稱為 col2 的行
print(df1['col2'])                    
print()
# df1['col2'] 型態為 Series，輸出 True
print(type(df1['col2']) == pd.Series) 
# df1['col2'] 中的數值型態為浮點數，輸出 float64
print(df1['col2'].dtype)              
# df1['col2'] 維度為 1，共 4 個數值，輸出 (4,)
print(df1['col2'].shape)             
print()

# 輸出 DataFrame df1 名稱為 col3 的行
print(df1['col3'])                    
print()
# df1['col3'] 型態為 Series，輸出 True
print(type(df1['col3']) == pd.Series) 
# df1['col3'] 中的數值型態為字串，輸出 object
print(df1['col3'].dtype)              
# df1['col3'] 維度為 1，共 4 個數值，輸出 (4,)
print(df1['col3'].shape)

In [None]:
# DataFrame

# 宣告 DataFrame 變數
df2 = pd.DataFrame(           
    { 
        'col1': [1, 2, 3, 4],
        'col2': [5., 6., 7., 8.],
        'col3': ['a', 'b', 'c', 'd']
    },
    index=['row1', 'row2', 'row3', 'row4']
)

print(df2)
print()

# 輸出 DataFrame df2 第 0 個 row
print(df2.iloc[0])            
print()
# 輸出 DataFrame df2 名稱為 row1 的 row
print(df2.loc['row1'])        
print()
# 輸出 DataFrame df2 第 1 個 row
print(df2.iloc[1])            
print()
# 輸出 DataFrame df2 名稱為 row2 的 row
print(df2.loc['row2'])      
print()
# 輸出 DataFrame df2 第 2 個 row
print(df2.iloc[2])            
print()
# 輸出 DataFrame df2 名稱為 row3 的 row
print(df2.loc['row3'])       
print()

# 輸出 DataFrame df2 第 0, 1 個 rows
print(df2.iloc[0:2])          
print()
# 輸出 DataFrame df2 的 rowname 為 row1 的位置
# 到 rowname 為 row3 的位置的所有 rows
# 與 list 不同，包含 row3 的位置
print(df2.loc['row1':'row3'])

### 合併操作
|函數|意義|
|-|-|
|`pandas.concat(Iterable[DataFrame])`|合併 Series 或 DataFrame|
- 搭配: `pandas.DataFrame.reset_index()`

In [None]:
# 合併操作

# 合併 s1 跟 s2
print(pd.concat([s1, s2], axis=0))

# 合併兩個 Series 後變成 DataFrame
print(type(pd.concat([s1, s2], axis=1)))

# 使用 reset_index() 來重置 index
# 使用 reset_index(drop=True) 可避免輸出舊的 index
print(pd.concat([s1, s2], axis=0).reset_index())
print()

# 合併 s1 跟 s2 (不保留原本的index)
print(pd.concat([s1, s2], ignore_index=True, axis=0))
print()

# 合併 s1 跟 s2 (不同 axis)
print(pd.concat([s1, s2], axis=1))

## 操作資料


### 資料資訊（Data Information）

`pandas` 提供簡單的函數能夠快速瀏覽資料的資訊：

|函數|意義|
|-|-|
|`pandas.DataFrame.info`|資料型態與大小|
|`pandas.(DataFrame\|Series).head`|前 n 筆資料|
|`pandas.(DataFrame\|Series).tail`|後 n 筆資料|
|`pandas.(DataFrame\|Series).describe`|統計資訊|
|`pandas.(DataFrame\|Series).hist`|繪出直方圖|

In [None]:
# 資料資訊

# 宣告 DataFrame 變數
df3 = pd.DataFrame({  
    'col-int': np.arange(11),
    'col-float': np.random.rand(11),
})

# 輸出 DataFrame df3 資料型態與大小
print(df3.info())     
print()
# 輸出 DataFrame df3 前 3 筆資料
print(df3.head(3))    
print()
# 輸出 DataFrame df3 後 2 筆資料
print(df3.tail(2))    
print()
# 輸出 DataFrame df3 各行統計數值
print(df3.describe()) 
print()
# 畫出 DataFrame df3 的資料直方圖
df3.hist()            

### 資料前處理（Data Preprocessing）

有時後部份資料會遺失或是有誤（例如型態錯誤），這時就必須要進行資料前處理。

在 `pandas` 中不存在或遺失的值以 `None` 表示，若資料欄位為浮點數則改用 `numpy.nan` 表示。

|函數|意義|
|-|-|
|`pandas.(DataFrame\|Series).isna`|列出不存在或遺失的資料|
|`pandas.(DataFrame\|Series).notna`|列出存在的資料|
|`pandas.(DataFrame\|Series).dropna`|去除不存在或遺失的資料|
|`pandas.(DataFrame\|Series).fillna`|對不存在或遺失的資料覆寫指定數值|

處理遺失資料的策略為

1. 找到遺失的資料
2. 若與該資料相同的數值有某些**簡單**或是**可預測**的值，則以**覆寫**遺失值
    - 若資料為**數字**，則可以填入**平均值**或是**中位數**
    - 若資料為**類別**，則可以填入**出現次數最多的類別**
3. 若無法處理，則**丟棄**資料

In [None]:
# 資料前處理

# 宣告 DataFrame 變數
df4 = pd.DataFrame(
    data={
        'hw1': [90, 90, 90, np.nan, 70],
        'hw2': [90, 90, np.nan, np.nan, 70],
        'hw3': [90, 90, np.nan, np.nan, 70],
        'final': [90, 90, np.nan, np.nan, 70],
  	},
	index=[
        'Alice', 'Bob', 'Cindy', 'Emily', 'Frank'
    ],
)
# 輸出 DataFrame df4
print(df4)     
print()

# 找出 DataFrame df4 中沒有遺失資料的欄位
print("True 代表 df4 中沒有遺失資料的欄位")
print(df4.notna())
print()

# 找出 DataFrame df4 中遺失資料的欄位
print("True 代表 df4 中遺失資料的欄位")
print(df4.isna())
print()

# 對 df4['hw1'] 中遺失的欄位填入0
print("填入0")
print(df4['hw1'].fillna(0))
print()

# 對 df4['hw1'] 中遺失的欄位填入0
print("填入平均數")
print(df4['hw1'].fillna(df4['hw1'].mean()))
print()

# 移除 df4['final'] 中遺失的欄位
print("移除na")
print(df4['final'].dropna())

### 取得資料（Select Data）

使用條件運算子對 `pandas.Series` 進行運算，並回傳 `dtype` 為 `bool` 的 `pandas.Series`。

可以進一步在使用回傳的 `pandas.Series` 取出 `pandas.DataFrame` 中的符合條件的資料列（row）。

In [None]:
# 取得資料

# 宣告 DataFrame 變數
df5 = pd.DataFrame({              
    # 名字
    'name': ['Alice', 'Beth',
             'Carl', 'Dennis'],   
    # 年紀
    'age': [18, 30, 24, 40],
    # 性別
    'sex': ['F', 'F', 'M', 'M'],  
})

# 找出大於 25 歲的資料
print(df5['age'] > 25)            
print()
# 取出大於 25 歲的資料
print(df5[df5['age'] > 25])       
print()

# 找出性別為女性的資料
print(df5['sex'] == 'F')          
print()
# 取出性別為女性的資料
print(df5[df5['sex'] == 'F'])     
print()

# 找出年紀大於 25 歲且性別為女性的資料
print((df5['age'] > 25)           
      &
      (df5['sex'] == 'F'))
print()
# 取出年紀大於 25 歲且性別為女性的資料
print(df5[                        
    (df5['age'] > 25)
    &
    (df5['sex'] == 'F')
])


### 資料運算（Data Operation）

使用 `pandas` 內建的運算功能進行資料運算，基本上與 `numpy.ndarray` 所提供的功能相同。

若需要客制化每一筆資料的運算，則使用 `pandas.(DataFrame|Series).apply`。

- `axis=0` 為行（column）方向運算，預設為 `axis=0`
- `axis=1` 為列（row）方向運算

|函數|意義|
|-|-|
|`pandas.(DataFrame\|Series).add`|每筆資料進行加法|
|`pandas.(DataFrame\|Series).sub`|每筆資料進行減法|
|`pandas.(DataFrame\|Series).mul`|每筆資料進行乘法|
|`pandas.(DataFrame\|Series).div`|每筆資料進行除法|
|`pandas.(DataFrame\|Series).max`|取出資料中最大值|
|`pandas.(DataFrame\|Series).min`|取出資料中最小值|
|`pandas.Series.argmax`|取出資料中最大值的位置|
|`pandas.Series.argmin`|取出資料中最小值的位置|
|`pandas.Series.idxmax`|取出資料中最大值的名稱|
|`pandas.Series.idxmin`|取出資料中最小值的名稱|
|`pandas.(DataFrame\|Series).mean`|計算平均數|
|`pandas.(DataFrame\|Series).var`|計算變異數|
|`pandas.(DataFrame\|Series).std`|計算標準差|
|`pandas.(DataFrame\|Series).sum`|計算總和|

In [None]:
# 資料運算

# 宣告 DataFrame 變數
df6 = pd.DataFrame( 
    {
        'year': [1995, 1989, 1947],
        'month': [10, 6, 2],
        'date': [12, 4, 28],
    }, 
    index=['my birthday', 'a big day', 'another big day']
)

# 將 DataFrame df6 中所有數值加 3
print(df6.add(3))            
print()
# 將 DataFrame df6 中所有數值減 5
print(df6.sub(5))            
print()
# 將 DataFrame df6 中所有數值乘 7
print(df6.mul(7))            
print()
# 將 DataFrame df6 中所有數值除 9
print(df6.div(9))            
print()
# 找出 DataFrame df6 中每一行的最大值
print(df6.max())             
print()
# 找出 DataFrame df6 中每一行的最小值
print(df6.min())             
print()
# 找出 Series df6['year'] 中最大值的位置
print(df6['year'].argmax())  
# 找出 Series df6['month'] 中最小值的位置
print(df6['month'].argmin()) 
# 找出 Series df6['year'] 中最大值的名稱
print(df6['year'].idxmax())  
# 找出 Series df6['date'] 中最小值的名稱
print(df6['date'].idxmin())  
print()
# 計算 DataFrame df6 中每一行的平均值
print(df6.mean())            
print()
# 計算 DataFrame df6 中每一行的變異數
print(df6.var())             
print()
# 計算 DataFrame df6 中每一行的標準差
print(df6.std())             
print()
# 計算 DataFrame df6 中每一行的總和
print(df6.sum())             

### 迭代操作

|函數|意義|對象|
|-|-|-|
|[map](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html)|對每個 row 進行映射 (map) 操作|`pd.Series`|
|[apply](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)|對每個 row (axis=1) 或 column (axis=0) 進行函數 (function) 操作|`pd.Series` or `pd.DataFrame`|
|[applymap](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.applymap.html)|對每個 element 進行函數 (function) 操作|`pd.DataFrame`|

In [None]:
# 迭代操作 (map and apply)

import datetime

# 宣告 DataFrame 變數
df7 = pd.DataFrame({                
    # 名字
    'name': ['Alice', 'Beth',
             'Carl', 'Dennis'],     
    # 年紀
    'age': [18, 30, 24, 40],        
    # 性別
    'sex': ['F', 'F', 'M', 'M'],    
})

# 宣告字典轉換
id_words = {
    'F': 'female',
    'M': 'male'
}

# 計算出生西元年
def birth_year(age: int) -> int:
    return datetime.date.today().year - age

# 根據性別輸出 Female 或 Male
def sex_str(sex: str) -> str:                   
    return 'female' if sex == 'F' else 'male'

# 將資料轉換成可閱讀的資訊
def info_str(row: pd.Series) -> str:
    return '{} is a {} and was born at {}.'.format(
        row['name'],
        sex_str(row['sex']),
        birth_year(row['age'])
    )

# 輸出出生西元年
print(df7['age'].apply(birth_year)) 
print()
# 輸出性別
print(df7['sex'].map(sex_str))    
print()
print(df7['sex'].map(id_words))    
print()
# 輸出可閱讀的資訊
print(df7.apply(info_str, axis=1))

In [None]:
# 迭代操作 (applymap)

# 宣告 DataFrame 變數
df8 = pd.DataFrame([[1, 2.12], [3.356, 4.567]])

# 使用 applymap, lambda 進行 element-wise operations
print(df8.applymap(lambda x: x+1))

## 讀取資料

使用 `pandas.read_*` 進行讀取特定資料格式，同時支援輸出部份格式：

|格式|讀取函數|輸出函數|
|-|-|-|
|CSV|`pandas.read_csv`|`pandas.to_csv`|
|JSON|`pandas.read_json`|`pandas.to_json`|
|HTML|`pandas.read_html`|`pandas.to_html`|
|Excel|`pandas.read_excel`|`pandas.to_excel`|
|SQL|`pandas.read_sql`|`pandas.to_sql`|
|pickle|`pandas.read_pickle`|`pandas.to_pickle`|
|Google BigQuery|`pandas.read_gbq`|`pandas.to_gbq`|

### 資料集

本教學使用[台南氣象觀測站（467410）](https://e-service.cwb.gov.tw/HistoryDataQuery/MonthDataController.do?command=viewMain&station=467410&stname=%25E8%2587%25BA%25E5%258D%2597&datepicker=2020-03)所提供的資料，觀測時間為 2022 年 2 月。

請將檔案下載並放置於 `course_material/data` 資料夾底下，檔案名稱為 `467410-2022-02.csv`。

In [None]:
# 讀取資料
# 資料中第一列（row）為中文欄位名稱，第二列為英文欄位名稱
# 我們選擇使用英文欄位名稱進行操作
df9 = pd.read_csv('./data/467410-2022-02.csv', skiprows=1)

df9.info() 

In [None]:
# 輸出統計資訊
df9.describe()

In [None]:
# 輸出最高溫
print(df9.describe()['Temperature']['max'])
# 輸出最高溫
print(df9.describe()['Temperature']['min'])
# 輸出平均溫度
print(df9.describe()['Temperature']['mean'])

In [None]:
# 畫出氣溫分佈
print(df9['Temperature'].hist())

## 練習

### 練習 1

將台南氣象觀測站資料集所有氣溫從攝氏溫度標準轉成華氏溫度標準：

$$
F = \frac{9}{5} * C + 32
$$

### 練習 2

從台南氣象觀測站資料集中取出高於平均氣溫的資料欄位，並輸出高於平均氣溫總共天數。

In [None]:
# 練習 1 解答

# 溫度轉換公式
c2f = lambda t: t*9/5+32

# 讀取資料
df9 = pd.read_csv('./data/467410-2022-02.csv', skiprows=1)        

# 套用公式到所有溫度資料
df9['Temperature'] = df9['Temperature'].apply(c2f) 
# 套用公式到所有溫度資料
df9['T Max'] = df9['T Max'].apply(c2f)
# 套用公式到所有溫度資料
df9['T Min'] = df9['T Min'].apply(c2f)

# 輸出前 5 筆資料
df9.head(5)                                           

In [None]:
# 練習 2 解答

# 讀取資料
df9 = pd.read_csv('./data/467410-2022-02.csv', skiprows=1)        

# 計算平均氣溫
mean_temp = df9.describe()['Temperature']['mean'] 
# 取出大於平均氣溫的資料
df9 = df9[df9['Temperature'] > mean_temp]       
# 輸出資料數
print(df9.shape[0])                               