# Unit03 Pandas | 資料處理與分析基礎

本 Notebook 提供 Pandas 模組的實作範例，涵蓋 Series、DataFrame、資料讀寫、資料清理、時間序列處理等核心功能。

## 目標
- 熟悉 Pandas 的核心資料結構 (Series 與 DataFrame)
- 掌握資料選取、篩選、排序與索引操作
- 學習資料清理與處理缺失值
- 理解時間序列資料處理方法
- 應用 Pandas 於化工數據分析實例

---
### 0. 環境設定與載入套件

In [1]:
# 基礎套件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings

# 設定隨機種子（確保結果可重現）
SEED = 42
np.random.seed(SEED)

# 設定顯示選項
pd.set_option('display.max_columns', None)  # 顯示所有欄位
pd.set_option('display.precision', 2)       # 浮點數精度
warnings.filterwarnings('ignore')

# 檢查版本
print(f"NumPy version: {np.__version__}")
print(f"Pandas version: {pd.__version__}")
print("Environment setup complete!")

NumPy version: 1.23.5
Pandas version: 2.3.3
Environment setup complete!


---
## 1. Pandas 核心資料結構

### 1.1 Series：一維標籤陣列

In [2]:
# 建立 Series
# 從 list 建立
s1 = pd.Series([10, 20, 30, 40, 50])
print("從 list 建立 Series：")
print(s1)
print(f"\n索引: {s1.index}")
print(f"數值: {s1.values}")
print(f"資料型態: {s1.dtype}")

從 list 建立 Series：
0    10
1    20
2    30
3    40
4    50
dtype: int64

索引: RangeIndex(start=0, stop=5, step=1)
數值: [10 20 30 40 50]
資料型態: int64


In [3]:
# 自訂索引
s2 = pd.Series([10, 20, 30, 40, 50], index=['A', 'B', 'C', 'D', 'E'])
print("\n自訂索引的 Series：")
print(s2)


自訂索引的 Series：
A    10
B    20
C    30
D    40
E    50
dtype: int64


In [4]:

# 從字典建立
temp_data = {'Mon': 25.5, 'Tue': 26.3, 'Wed': 24.8, 'Thu': 27.1, 'Fri': 25.9}
s3 = pd.Series(temp_data, name='Temperature')
print("\n從字典建立 Series：")
print(s3)


從字典建立 Series：
Mon    25.5
Tue    26.3
Wed    24.8
Thu    27.1
Fri    25.9
Name: Temperature, dtype: float64


### 1.2 化工應用範例：反應器溫度記錄

In [5]:
# 化工應用：反應器溫度記錄
temperatures = pd.Series(
    [350, 355, 360, 358, 362, 365, 368],
    index=['0h', '1h', '2h', '3h', '4h', '5h', '6h'],
    name='Reactor Temperature (Celsius)'
)

print("反應器溫度記錄：")
print(temperatures)

反應器溫度記錄：
0h    350
1h    355
2h    360
3h    358
4h    362
5h    365
6h    368
Name: Reactor Temperature (Celsius), dtype: int64


In [6]:
# 索引存取
print(f"\n第 2 小時溫度: {temperatures['2h']}°C")
print(f"位置索引 [2]: {temperatures.iloc[2]}°C")


第 2 小時溫度: 360°C
位置索引 [2]: 360°C


In [7]:
# 切片操作
print("\n前 3 小時溫度：")
print(temperatures['0h':'2h'])


前 3 小時溫度：
0h    350
1h    355
2h    360
Name: Reactor Temperature (Celsius), dtype: int64


In [8]:
# 條件篩選
print("\n溫度 > 360°C 的時段：")
print(temperatures[temperatures > 360])


溫度 > 360°C 的時段：
4h    362
5h    365
6h    368
Name: Reactor Temperature (Celsius), dtype: int64


In [9]:
# 單位轉換
pressures_bar = pd.Series([1.0, 1.5, 2.0, 2.5, 3.0], name='Pressure (bar)')
pressures_psi = pressures_bar * 14.5038
pressures_psi.name = 'Pressure (psi)'
print("\n壓力單位轉換 (bar → psi)：")
print(pd.DataFrame({'bar': pressures_bar, 'psi': pressures_psi}))


壓力單位轉換 (bar → psi)：
   bar    psi
0  1.0  14.50
1  1.5  21.76
2  2.0  29.01
3  2.5  36.26
4  3.0  43.51


### 1.3 DataFrame：二維標籤表格

In [10]:
# 建立 DataFrame
# 方法 1：從字典建立
data = {
    'Temperature': [350, 355, 360, 358, 362],
    'Pressure': [2.0, 2.1, 2.2, 2.15, 2.25],
    'Conversion': [0.75, 0.78, 0.82, 0.80, 0.85]
}
df1 = pd.DataFrame(data)
print("從字典建立 DataFrame：")
print(df1)

從字典建立 DataFrame：
   Temperature  Pressure  Conversion
0          350      2.00        0.75
1          355      2.10        0.78
2          360      2.20        0.82
3          358      2.15        0.80
4          362      2.25        0.85


In [11]:
# 方法 2：從列表建立（指定欄位與索引）
data_list = [
    [350, 2.0, 0.75],
    [355, 2.1, 0.78],
    [360, 2.2, 0.82]
]
df2 = pd.DataFrame(
    data_list,
    columns=['Temperature', 'Pressure', 'Conversion'],
    index=['Run1', 'Run2', 'Run3']
)
print("\n從列表建立 DataFrame：")
print(df2)


從列表建立 DataFrame：
      Temperature  Pressure  Conversion
Run1          350       2.0        0.75
Run2          355       2.1        0.78
Run3          360       2.2        0.82


In [12]:

# 方法 3：從 NumPy 陣列建立
data_array = np.random.randn(5, 3)
df3 = pd.DataFrame(
    data_array,
    columns=['A', 'B', 'C'],
    index=['r1', 'r2', 'r3', 'r4', 'r5']
)
print("\n從 NumPy 陣列建立 DataFrame：")
print(df3)


從 NumPy 陣列建立 DataFrame：
       A     B     C
r1  0.50 -0.14  0.65
r2  1.52 -0.23 -0.23
r3  1.58  0.77 -0.47
r4  0.54 -0.46 -0.47
r5  0.24 -1.91 -1.72


### 1.4 DataFrame 基本屬性與方法

In [13]:
# 建立化工製程數據
process_data = pd.DataFrame({
    'Time': pd.date_range('2024-01-01', periods=10, freq='h'),
    'Temp_C': [350, 355, 360, 358, 362, 365, 368, 370, 372, 375],
    'Press_bar': [2.0, 2.1, 2.2, 2.15, 2.25, 2.3, 2.35, 2.4, 2.45, 2.5],
    'Flow_L_min': [100, 105, 110, 108, 112, 115, 118, 120, 122, 125],
    'Conv_pct': [75.0, 78.0, 82.0, 80.0, 85.0, 87.0, 89.0, 90.0, 91.0, 92.0]
})

print("化工製程數據：")
print(process_data)

化工製程數據：
                 Time  Temp_C  Press_bar  Flow_L_min  Conv_pct
0 2024-01-01 00:00:00     350       2.00         100      75.0
1 2024-01-01 01:00:00     355       2.10         105      78.0
2 2024-01-01 02:00:00     360       2.20         110      82.0
3 2024-01-01 03:00:00     358       2.15         108      80.0
4 2024-01-01 04:00:00     362       2.25         112      85.0
5 2024-01-01 05:00:00     365       2.30         115      87.0
6 2024-01-01 06:00:00     368       2.35         118      89.0
7 2024-01-01 07:00:00     370       2.40         120      90.0
8 2024-01-01 08:00:00     372       2.45         122      91.0
9 2024-01-01 09:00:00     375       2.50         125      92.0


In [16]:
print(f"\n資料形狀 (列, 欄): {process_data.shape}")


資料形狀 (列, 欄): (10, 5)


In [17]:
print(f"總元素數量: {process_data.size}")

總元素數量: 50


In [18]:
print(f"欄位名稱: {list(process_data.columns)}")

欄位名稱: ['Time', 'Temp_C', 'Press_bar', 'Flow_L_min', 'Conv_pct']


In [19]:
print(f"\n資料型態:\n{process_data.dtypes}")


資料型態:
Time          datetime64[ns]
Temp_C                 int64
Press_bar            float64
Flow_L_min             int64
Conv_pct             float64
dtype: object


In [20]:
print("\n前 5 列資料 (head)：")
print(process_data.head())


前 5 列資料 (head)：
                 Time  Temp_C  Press_bar  Flow_L_min  Conv_pct
0 2024-01-01 00:00:00     350       2.00         100      75.0
1 2024-01-01 01:00:00     355       2.10         105      78.0
2 2024-01-01 02:00:00     360       2.20         110      82.0
3 2024-01-01 03:00:00     358       2.15         108      80.0
4 2024-01-01 04:00:00     362       2.25         112      85.0


In [21]:
print("\n後 3 列資料 (tail)：")
print(process_data.tail(3))


後 3 列資料 (tail)：
                 Time  Temp_C  Press_bar  Flow_L_min  Conv_pct
7 2024-01-01 07:00:00     370       2.40         120      90.0
8 2024-01-01 08:00:00     372       2.45         122      91.0
9 2024-01-01 09:00:00     375       2.50         125      92.0


In [22]:
print("\n數值欄位統計摘要 (describe)：")
print(process_data.describe())


數值欄位統計摘要 (describe)：
                      Time  Temp_C  Press_bar  Flow_L_min  Conv_pct
count                   10   10.00      10.00       10.00     10.00
mean   2024-01-01 04:30:00  363.50       2.27      113.50     84.90
min    2024-01-01 00:00:00  350.00       2.00      100.00     75.00
25%    2024-01-01 02:15:00  358.50       2.16      108.50     80.50
50%    2024-01-01 04:30:00  363.50       2.27      113.50     86.00
75%    2024-01-01 06:45:00  369.50       2.39      119.50     89.75
max    2024-01-01 09:00:00  375.00       2.50      125.00     92.00
std                    NaN    7.95       0.16        7.95      5.90


In [23]:
print("\n資料摘要資訊 (info)：")
process_data.info()


資料摘要資訊 (info)：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Time        10 non-null     datetime64[ns]
 1   Temp_C      10 non-null     int64         
 2   Press_bar   10 non-null     float64       
 3   Flow_L_min  10 non-null     int64         
 4   Conv_pct    10 non-null     float64       
dtypes: datetime64[ns](1), float64(2), int64(2)
memory usage: 528.0 bytes


---
## 2. 資料選取與索引

In [24]:
# 建立範例 DataFrame
df = pd.DataFrame({
    'Time': pd.date_range('2024-01-01', periods=8, freq='h'),
    'Temp': [350, 355, 360, 358, 362, 365, 368, 370],
    'Press': [2.0, 2.1, 2.2, 2.15, 2.25, 2.3, 2.35, 2.4],
    'Flow': [100, 105, 110, 108, 112, 115, 118, 120]
})

print("原始資料：")
print(df)

原始資料：
                 Time  Temp  Press  Flow
0 2024-01-01 00:00:00   350   2.00   100
1 2024-01-01 01:00:00   355   2.10   105
2 2024-01-01 02:00:00   360   2.20   110
3 2024-01-01 03:00:00   358   2.15   108
4 2024-01-01 04:00:00   362   2.25   112
5 2024-01-01 05:00:00   365   2.30   115
6 2024-01-01 06:00:00   368   2.35   118
7 2024-01-01 07:00:00   370   2.40   120


In [25]:
# 選取單一欄位（回傳 Series）
temp_series = df['Temp']
print("\n選取單一欄位 (Temp)：")
print(temp_series)


選取單一欄位 (Temp)：
0    350
1    355
2    360
3    358
4    362
5    365
6    368
7    370
Name: Temp, dtype: int64


In [26]:
# 選取多個欄位（回傳 DataFrame）
subset = df[['Temp', 'Press']]
print("\n選取多個欄位：")
print(subset)


選取多個欄位：
   Temp  Press
0   350   2.00
1   355   2.10
2   360   2.20
3   358   2.15
4   362   2.25
5   365   2.30
6   368   2.35
7   370   2.40


In [27]:
# 新增計算欄位
df['Temp_K'] = df['Temp'] + 273.15
df['Press_psi'] = df['Press'] * 14.5038
print("\n新增計算欄位後：")
print(df.head())


新增計算欄位後：
                 Time  Temp  Press  Flow  Temp_K  Press_psi
0 2024-01-01 00:00:00   350   2.00   100  623.15      29.01
1 2024-01-01 01:00:00   355   2.10   105  628.15      30.46
2 2024-01-01 02:00:00   360   2.20   110  633.15      31.91
3 2024-01-01 03:00:00   358   2.15   108  631.15      31.18
4 2024-01-01 04:00:00   362   2.25   112  635.15      32.63


In [28]:
# 使用 loc（標籤索引）
print("\n使用 loc 選取：")
print(df.loc[0])
print("\nloc[0:3, ['Temp', 'Press']]：")
print(df.loc[0:3, ['Temp', 'Press']])


使用 loc 選取：
Time         2024-01-01 00:00:00
Temp                         350
Press                        2.0
Flow                         100
Temp_K                    623.15
Press_psi                  29.01
Name: 0, dtype: object

loc[0:3, ['Temp', 'Press']]：
   Temp  Press
0   350   2.00
1   355   2.10
2   360   2.20
3   358   2.15


In [29]:
# 使用 iloc（位置索引）
print("\n使用 iloc 選取：")
print(df.iloc[0])
print("\niloc[0:4, 1:3]：")
print(df.iloc[0:4, 1:3])


使用 iloc 選取：
Time         2024-01-01 00:00:00
Temp                         350
Press                        2.0
Flow                         100
Temp_K                    623.15
Press_psi                  29.01
Name: 0, dtype: object

iloc[0:4, 1:3]：
   Temp  Press
0   350   2.00
1   355   2.10
2   360   2.20
3   358   2.15


In [30]:
# 布林索引（條件篩選）
print("\n溫度 > 360°C 的資料：")
high_temp = df[df['Temp'] > 360]
print(high_temp)


溫度 > 360°C 的資料：
                 Time  Temp  Press  Flow  Temp_K  Press_psi
4 2024-01-01 04:00:00   362   2.25   112  635.15      32.63
5 2024-01-01 05:00:00   365   2.30   115  638.15      33.36
6 2024-01-01 06:00:00   368   2.35   118  641.15      34.08
7 2024-01-01 07:00:00   370   2.40   120  643.15      34.81


In [31]:
# 多條件篩選
print("\n溫度 > 360°C 且壓力 > 2.2 bar：")
filtered = df[(df['Temp'] > 360) & (df['Press'] > 2.2)]
print(filtered)


溫度 > 360°C 且壓力 > 2.2 bar：
                 Time  Temp  Press  Flow  Temp_K  Press_psi
4 2024-01-01 04:00:00   362   2.25   112  635.15      32.63
5 2024-01-01 05:00:00   365   2.30   115  638.15      33.36
6 2024-01-01 06:00:00   368   2.35   118  641.15      34.08
7 2024-01-01 07:00:00   370   2.40   120  643.15      34.81


---
## 3. 資料清理與處理

### 3.1 處理缺失值

In [32]:
# 建立包含缺失值的 DataFrame
data_with_nan = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5],
    'B': [10, np.nan, 30, 40, 50],
    'C': [100, 200, 300, np.nan, 500]
})

print("原始資料（含缺失值）：")
print(data_with_nan)

原始資料（含缺失值）：
     A     B      C
0  1.0  10.0  100.0
1  2.0   NaN  200.0
2  NaN  30.0  300.0
3  4.0  40.0    NaN
4  5.0  50.0  500.0


In [33]:
print("\n缺失值標記：")
print(data_with_nan.isnull())


缺失值標記：
       A      B      C
0  False  False  False
1  False   True  False
2   True  False  False
3  False  False   True
4  False  False  False


In [34]:
print("\n每欄缺失值數量：")
print(data_with_nan.isnull().sum())


每欄缺失值數量：
A    1
B    1
C    1
dtype: int64


In [35]:
# 刪除包含缺失值的列
print("\n刪除任何欄位有缺失值的列：")
print(data_with_nan.dropna())


刪除任何欄位有缺失值的列：
     A     B      C
0  1.0  10.0  100.0
4  5.0  50.0  500.0


In [36]:
# 填補缺失值
print("\n用 0 填補缺失值：")
print(data_with_nan.fillna(0))


用 0 填補缺失值：
     A     B      C
0  1.0  10.0  100.0
1  2.0   0.0  200.0
2  0.0  30.0  300.0
3  4.0  40.0    0.0
4  5.0  50.0  500.0


In [37]:
print("\n用平均值填補缺失值：")
print(data_with_nan.fillna(data_with_nan.mean()))


用平均值填補缺失值：
     A     B      C
0  1.0  10.0  100.0
1  2.0  32.5  200.0
2  3.0  30.0  300.0
3  4.0  40.0  275.0
4  5.0  50.0  500.0


In [38]:
print("\n用前一個值填補（forward fill）：")
print(data_with_nan.ffill())


用前一個值填補（forward fill）：
     A     B      C
0  1.0  10.0  100.0
1  2.0  10.0  200.0
2  2.0  30.0  300.0
3  4.0  40.0  300.0
4  5.0  50.0  500.0


---
## 4. 時間序列資料處理

### 4.1 時間序列操作

In [39]:
# 建立時間序列資料
ts_data = pd.DataFrame({
    'Time': pd.date_range('2024-01-01', periods=24, freq='h'),
    'Temperature': np.random.uniform(350, 370, 24),
    'Pressure': np.random.uniform(2.0, 2.5, 24)
})
ts_data = ts_data.set_index('Time')

print("時間序列資料：")
print(ts_data.head(10))

時間序列資料：
                     Temperature  Pressure
Time                                      
2024-01-01 00:00:00       362.24      2.13
2024-01-01 01:00:00       352.79      2.33
2024-01-01 02:00:00       355.84      2.16
2024-01-01 03:00:00       357.33      2.26
2024-01-01 04:00:00       359.12      2.27
2024-01-01 05:00:00       365.70      2.09
2024-01-01 06:00:00       353.99      2.48
2024-01-01 07:00:00       360.28      2.39
2024-01-01 08:00:00       361.85      2.47
2024-01-01 09:00:00       350.93      2.45


In [40]:
# 時間範圍選取
print("\n2024-01-01 00:00 到 05:00 的資料：")
print(ts_data['2024-01-01 00:00':'2024-01-01 05:00'])


2024-01-01 00:00 到 05:00 的資料：
                     Temperature  Pressure
Time                                      
2024-01-01 00:00:00       362.24      2.13
2024-01-01 01:00:00       352.79      2.33
2024-01-01 02:00:00       355.84      2.16
2024-01-01 03:00:00       357.33      2.26
2024-01-01 04:00:00       359.12      2.27
2024-01-01 05:00:00       365.70      2.09


In [41]:
# 提取時間屬性
ts_data['Hour'] = ts_data.index.hour
ts_data['Day'] = ts_data.index.day
print("\n加入時間屬性：")
print(ts_data.head())


加入時間屬性：
                     Temperature  Pressure  Hour  Day
Time                                                 
2024-01-01 00:00:00       362.24      2.13     0    1
2024-01-01 01:00:00       352.79      2.33     1    1
2024-01-01 02:00:00       355.84      2.16     2    1
2024-01-01 03:00:00       357.33      2.26     3    1
2024-01-01 04:00:00       359.12      2.27     4    1


In [42]:
# 時間偏移
print("\n時間往後移動 2 小時：")
print(ts_data[['Temperature', 'Pressure']].shift(2).head(5))


時間往後移動 2 小時：
                     Temperature  Pressure
Time                                      
2024-01-01 00:00:00          NaN       NaN
2024-01-01 01:00:00          NaN       NaN
2024-01-01 02:00:00       362.24      2.13
2024-01-01 03:00:00       352.79      2.33
2024-01-01 04:00:00       355.84      2.16


In [43]:

# 時間差分（計算變化率）
ts_data['Temp_diff'] = ts_data['Temperature'].diff()
print("\n溫度變化率：")
print(ts_data[['Temperature', 'Temp_diff']].head(10))


溫度變化率：
                     Temperature  Temp_diff
Time                                       
2024-01-01 00:00:00       362.24        NaN
2024-01-01 01:00:00       352.79      -9.45
2024-01-01 02:00:00       355.84       3.05
2024-01-01 03:00:00       357.33       1.48
2024-01-01 04:00:00       359.12       1.79
2024-01-01 05:00:00       365.70       6.58
2024-01-01 06:00:00       353.99     -11.71
2024-01-01 07:00:00       360.28       6.29
2024-01-01 08:00:00       361.85       1.56
2024-01-01 09:00:00       350.93     -10.92


In [44]:
# 滾動視窗計算（移動平均）
ts_data['Temp_MA3'] = ts_data['Temperature'].rolling(window=3).mean()
ts_data['Temp_MA5'] = ts_data['Temperature'].rolling(window=5).mean()
print("\n移動平均：")
print(ts_data[['Temperature', 'Temp_MA3', 'Temp_MA5']].head(10))


移動平均：
                     Temperature  Temp_MA3  Temp_MA5
Time                                                
2024-01-01 00:00:00       362.24       NaN       NaN
2024-01-01 01:00:00       352.79       NaN       NaN
2024-01-01 02:00:00       355.84    356.96       NaN
2024-01-01 03:00:00       357.33    355.32       NaN
2024-01-01 04:00:00       359.12    357.43    357.46
2024-01-01 05:00:00       365.70    360.72    358.16
2024-01-01 06:00:00       353.99    359.61    358.40
2024-01-01 07:00:00       360.28    359.99    359.29
2024-01-01 08:00:00       361.85    358.71    360.19
2024-01-01 09:00:00       350.93    357.69    358.55


In [45]:
# 重採樣
minute_data = pd.DataFrame({
    'Time': pd.date_range('2024-01-01', periods=120, freq='min'),
    'Value': np.random.randn(120).cumsum() + 100
}).set_index('Time')

hourly_mean = minute_data.resample('h').mean()
print("\n小時平均值（前 5 筆）：")
print(hourly_mean.head())


小時平均值（前 5 筆）：
                      Value
Time                       
2024-01-01 00:00:00  100.79
2024-01-01 01:00:00  100.33


---
## 5. 化工領域應用案例

### 5.1 案例：反應器批次數據分析

In [46]:
# 建立批次反應器數據
batch_data = pd.DataFrame({
    'Batch_ID': ['B001', 'B001', 'B001', 'B002', 'B002', 'B002', 
                 'B003', 'B003', 'B003', 'B004', 'B004', 'B004'],
    'Time_h': [0, 2, 4, 0, 2, 4, 0, 2, 4, 0, 2, 4],
    'Temp_C': [25, 80, 85, 25, 82, 87, 25, 78, 83, 25, 81, 86],
    'Conversion': [0, 65, 88, 0, 68, 90, 0, 62, 85, 0, 67, 89]
})

print("批次反應器數據：")
print(batch_data)

批次反應器數據：
   Batch_ID  Time_h  Temp_C  Conversion
0      B001       0      25           0
1      B001       2      80          65
2      B001       4      85          88
3      B002       0      25           0
4      B002       2      82          68
5      B002       4      87          90
6      B003       0      25           0
7      B003       2      78          62
8      B003       4      83          85
9      B004       0      25           0
10     B004       2      81          67
11     B004       4      86          89


In [47]:
# 計算每批次的平均轉化率
batch_avg = batch_data.groupby('Batch_ID')['Conversion'].mean()
print("\n各批次平均轉化率：")
print(batch_avg)


各批次平均轉化率：
Batch_ID
B001    51.00
B002    52.67
B003    49.00
B004    52.00
Name: Conversion, dtype: float64


In [48]:

# 計算每批次的最終轉化率
final_conversion = batch_data.groupby('Batch_ID')['Conversion'].last()
print("\n各批次最終轉化率：")
print(final_conversion)


各批次最終轉化率：
Batch_ID
B001    88
B002    90
B003    85
B004    89
Name: Conversion, dtype: int64


In [49]:
# 計算轉化率增長速率
batch_data['Conv_rate'] = (
    batch_data.groupby('Batch_ID')['Conversion'].diff() / 
    batch_data.groupby('Batch_ID')['Time_h'].diff()
)
print("\n轉化率變化速率：")
print(batch_data)


轉化率變化速率：
   Batch_ID  Time_h  Temp_C  Conversion  Conv_rate
0      B001       0      25           0        NaN
1      B001       2      80          65       32.5
2      B001       4      85          88       11.5
3      B002       0      25           0        NaN
4      B002       2      82          68       34.0
5      B002       4      87          90       11.0
6      B003       0      25           0        NaN
7      B003       2      78          62       31.0
8      B003       4      83          85       11.5
9      B004       0      25           0        NaN
10     B004       2      81          67       33.5
11     B004       4      86          89       11.0


In [50]:
# 統計摘要
print("\n批次統計摘要：")
summary = batch_data.groupby('Batch_ID').agg({
    'Conversion': ['mean', 'max'],
    'Temp_C': ['mean', 'max'],
    'Conv_rate': 'mean'
})
print(summary)


批次統計摘要：
         Conversion     Temp_C     Conv_rate
               mean max   mean max      mean
Batch_ID                                    
B001          51.00  88  63.33  85     22.00
B002          52.67  90  64.67  87     22.50
B003          49.00  85  62.00  83     21.25
B004          52.00  89  64.00  86     22.25


### 5.2 案例：製程監控數據清理

In [51]:
# 建立包含異常值的製程數據
process_raw = pd.DataFrame({
    'Time': pd.date_range('2024-01-01', periods=20, freq='h'),
    'Temperature': [350, 355, 360, 999, 358, 362, 365, -99, 368, 370,
                   372, 375, 378, 380, 999, 382, 385, 388, 390, 392],
    'Pressure': [2.0, 2.1, np.nan, 2.2, 2.15, 2.25, np.nan, 2.3, 2.35, 2.4,
                2.45, np.nan, 2.5, 2.55, 2.6, 2.65, 2.7, 2.75, 2.8, 2.85]
})

print("原始數據（包含異常值與缺失值）：")
print(process_raw)
print(f"\n缺失值數量:\n{process_raw.isnull().sum()}")

原始數據（包含異常值與缺失值）：
                  Time  Temperature  Pressure
0  2024-01-01 00:00:00          350      2.00
1  2024-01-01 01:00:00          355      2.10
2  2024-01-01 02:00:00          360       NaN
3  2024-01-01 03:00:00          999      2.20
4  2024-01-01 04:00:00          358      2.15
5  2024-01-01 05:00:00          362      2.25
6  2024-01-01 06:00:00          365       NaN
7  2024-01-01 07:00:00          -99      2.30
8  2024-01-01 08:00:00          368      2.35
9  2024-01-01 09:00:00          370      2.40
10 2024-01-01 10:00:00          372      2.45
11 2024-01-01 11:00:00          375       NaN
12 2024-01-01 12:00:00          378      2.50
13 2024-01-01 13:00:00          380      2.55
14 2024-01-01 14:00:00          999      2.60
15 2024-01-01 15:00:00          382      2.65
16 2024-01-01 16:00:00          385      2.70
17 2024-01-01 17:00:00          388      2.75
18 2024-01-01 18:00:00          390      2.80
19 2024-01-01 19:00:00          392      2.85

缺失值數量:
Time     

In [52]:
# 步驟 1：識別並移除異常值
temp_mask = (process_raw['Temperature'] > 300) & (process_raw['Temperature'] < 500)
process_clean = process_raw[temp_mask].copy()
print(f"\n移除溫度異常值後，剩餘 {len(process_clean)} 筆資料")
print(process_clean)


移除溫度異常值後，剩餘 17 筆資料
                  Time  Temperature  Pressure
0  2024-01-01 00:00:00          350      2.00
1  2024-01-01 01:00:00          355      2.10
2  2024-01-01 02:00:00          360       NaN
4  2024-01-01 04:00:00          358      2.15
5  2024-01-01 05:00:00          362      2.25
6  2024-01-01 06:00:00          365       NaN
8  2024-01-01 08:00:00          368      2.35
9  2024-01-01 09:00:00          370      2.40
10 2024-01-01 10:00:00          372      2.45
11 2024-01-01 11:00:00          375       NaN
12 2024-01-01 12:00:00          378      2.50
13 2024-01-01 13:00:00          380      2.55
15 2024-01-01 15:00:00          382      2.65
16 2024-01-01 16:00:00          385      2.70
17 2024-01-01 17:00:00          388      2.75
18 2024-01-01 18:00:00          390      2.80
19 2024-01-01 19:00:00          392      2.85


In [53]:
# 步驟 2：處理缺失值（使用線性插值）
process_clean['Pressure'] = process_clean['Pressure'].interpolate(method='linear')
print("\n插值處理缺失值後：")
print(process_clean)


插值處理缺失值後：
                  Time  Temperature  Pressure
0  2024-01-01 00:00:00          350      2.00
1  2024-01-01 01:00:00          355      2.10
2  2024-01-01 02:00:00          360      2.12
4  2024-01-01 04:00:00          358      2.15
5  2024-01-01 05:00:00          362      2.25
6  2024-01-01 06:00:00          365      2.30
8  2024-01-01 08:00:00          368      2.35
9  2024-01-01 09:00:00          370      2.40
10 2024-01-01 10:00:00          372      2.45
11 2024-01-01 11:00:00          375      2.48
12 2024-01-01 12:00:00          378      2.50
13 2024-01-01 13:00:00          380      2.55
15 2024-01-01 15:00:00          382      2.65
16 2024-01-01 16:00:00          385      2.70
17 2024-01-01 17:00:00          388      2.75
18 2024-01-01 18:00:00          390      2.80
19 2024-01-01 19:00:00          392      2.85


In [54]:
# 步驟 3：計算移動平均（平滑數據）
process_clean['Temp_MA'] = process_clean['Temperature'].rolling(window=3, center=True).mean()
process_clean['Press_MA'] = process_clean['Pressure'].rolling(window=3, center=True).mean()
print("\n計算移動平均後：")
print(process_clean[['Time', 'Temperature', 'Temp_MA', 'Pressure', 'Press_MA']])


計算移動平均後：
                  Time  Temperature  Temp_MA  Pressure  Press_MA
0  2024-01-01 00:00:00          350      NaN      2.00       NaN
1  2024-01-01 01:00:00          355   355.00      2.10      2.07
2  2024-01-01 02:00:00          360   357.67      2.12      2.12
4  2024-01-01 04:00:00          358   360.00      2.15      2.18
5  2024-01-01 05:00:00          362   361.67      2.25      2.23
6  2024-01-01 06:00:00          365   365.00      2.30      2.30
8  2024-01-01 08:00:00          368   367.67      2.35      2.35
9  2024-01-01 09:00:00          370   370.00      2.40      2.40
10 2024-01-01 10:00:00          372   372.33      2.45      2.44
11 2024-01-01 11:00:00          375   375.00      2.48      2.48
12 2024-01-01 12:00:00          378   377.67      2.50      2.51
13 2024-01-01 13:00:00          380   380.00      2.55      2.57
15 2024-01-01 15:00:00          382   382.33      2.65      2.63
16 2024-01-01 16:00:00          385   385.00      2.70      2.70
17 2024-01-01 1

### 5.3 案例：資料合併與分組分析

In [55]:
# 建立化工實驗資料
experiment_data = pd.DataFrame({
    'Catalyst': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'] * 2,
    'Temperature': [350, 360, 370] * 6,
    'Conversion': np.random.uniform(70, 90, 18)
})

print("化工實驗資料：")
print(experiment_data.head(12))

化工實驗資料：
   Catalyst  Temperature  Conversion
0         A          350       89.46
1         A          360       77.86
2         A          370       87.84
3         B          350       82.62
4         B          360       85.90
5         B          370       80.05
6         C          350       81.54
7         C          360       79.85
8         C          370       73.90
9         A          350       84.45
10        A          360       75.62
11        A          370       70.49


In [56]:
# 依催化劑分組，計算平均值
catalyst_avg = experiment_data.groupby('Catalyst')['Conversion'].mean()
print("\n各催化劑的平均轉化率：")
print(catalyst_avg)


各催化劑的平均轉化率：
Catalyst
A    80.95
B    82.31
C    81.68
Name: Conversion, dtype: float64


In [57]:
# 多重聚合函數
catalyst_stats = experiment_data.groupby('Catalyst')['Conversion'].agg(['mean', 'std', 'min', 'max']).round(2)
catalyst_stats.columns = ['Average', 'StdDev', 'Min', 'Max']
print("\n各催化劑的統計摘要：")
print(catalyst_stats)


各催化劑的統計摘要：
          Average  StdDev    Min    Max
Catalyst                               
A           80.95    7.48  70.49  89.46
B           82.31    5.24  73.54  88.81
C           81.68    6.01  73.90  89.08


In [58]:
# 多欄位分組
temp_catalyst_avg = experiment_data.groupby(['Temperature', 'Catalyst'])['Conversion'].mean().round(2)
print("\n溫度與催化劑組合的平均轉化率：")
print(temp_catalyst_avg)


溫度與催化劑組合的平均轉化率：
Temperature  Catalyst
350          A           86.95
             B           82.77
             C           85.31
360          A           76.74
             B           79.72
             C           84.07
370          A           79.16
             B           84.43
             C           75.65
Name: Conversion, dtype: float64


In [59]:
# 建立透視表
pivot = pd.pivot_table(
    experiment_data,
    values='Conversion',
    index='Catalyst',
    columns='Temperature',
    aggfunc='mean'
).round(2)
print("\n轉化率透視表：")
print(pivot)


轉化率透視表：
Temperature    350    360    370
Catalyst                        
A            86.95  76.74  79.16
B            82.77  79.72  84.43
C            85.31  84.07  75.65


---
## 6. 總結

本 Notebook 涵蓋了 Pandas 的核心功能：

### 學習重點回顧

1. **核心資料結構**：Series（一維）與 DataFrame（二維）
2. **資料讀寫**：CSV、Excel 等多種格式
3. **資料選取**：loc、iloc、布林索引、條件篩選
4. **資料清理**：處理缺失值、重複值、異常值
5. **時間序列**：日期時間處理、重採樣、移動平均
6. **資料轉換**：合併、分組、聚合、透視表
7. **化工應用**：批次分析、製程監控、實驗數據處理

### 下一步學習

- **Unit04**：使用 Matplotlib 與 Seaborn 進行資料視覺化
- **進階 Pandas**：多層索引、效能優化、大數據處理
- **實戰演練**：結合真實化工製程數據進行分析

### 參考資源

- Pandas 官方文檔：https://pandas.pydata.org/docs/
- Pandas API 參考：https://pandas.pydata.org/docs/reference/index.html
- 《Python for Data Analysis》by Wes McKinney