In [5]:
import os
import numpy as np
import pandas as pd
import random
import datetime
import matplotlib.pyplot as plt

In [3]:
pd.set_option('max_rows', 20)

plt.style.use('default')
plt.rcParams['figure.figsize'] = (12, 3)
plt.rcParams['font.family'] = 'sans-serif'

In [4]:
# 指定檔案位置，包含完整路徑以及檔案名稱
# os.curdir: 回傳目前目錄的路徑
Turbofan_FILEPATH = os.path.join(os.curdir, 'data', 'turbofan.csv')
Turbofan_RUL_FILEPATH = os.path.join(os.curdir, 'data', 'turbofan_rul.csv')
# 檢視檔案位置
print(Turbofan_FILEPATH)
# 讀取 CSV 檔案，並將其指定為名稱是 df (DataFrame) 的物件
df = pd.read_csv(filepath_or_buffer=Turbofan_FILEPATH)
df_bak = df.copy()

df_rul = pd.read_csv(filepath_or_buffer=Turbofan_RUL_FILEPATH)
df_rul_bak = df_rul.copy()

./data/turbofan.csv


In [6]:
df.head()

Unnamed: 0,unit_number,time_in_cycles,op_setting_1,op_setting_2,op_setting_3,sensor_1,sensor_2,sensor_3,sensor_4,sensor_5,...,sensor_18,sensor_19,sensor_20,sensor_21,sensor_22,sensor_23,sensor_24,sensor_25,sensor_26,sensor_27
0,1,1,-0.0007,-0.0004,100.0,518.67,641.82,1589.7,1400.6,14.62,...,2388,100.0,39.06,23.419,,,,,,
1,1,2,0.0019,-0.0003,100.0,518.67,642.15,1591.82,1403.14,14.62,...,2388,100.0,39.0,23.4236,,,,,,
2,1,3,-0.0043,0.0003,100.0,518.67,642.35,1587.99,1404.2,14.62,...,2388,100.0,38.95,23.3442,,,,,,
3,1,4,0.0007,0.0,100.0,518.67,642.35,1582.79,1401.87,14.62,...,2388,100.0,38.88,23.3739,,,,,,
4,1,5,-0.0019,-0.0002,100.0,518.67,642.37,1582.85,1406.22,14.62,...,2388,100.0,38.9,23.4044,,,,,,


# 第 7 章：結合資料

有時候要處理資料時，會拿到許多不同的檔案，這些檔案可能代表著整體現象的某一部份。這些資料可能是因為記錄方式的不同、來源位置不同、甚至有可能是擷取的方式不同，造成資料格式迥異、樣態差距也很大，也因此需要將這些資料結合，起來，再來製作分析。

## `concat()`：根據座標軸來結合資料

若資料集因為某些原因被分段，在後續使用時需要被重組起來的話，就會用到 `concat()` Function。舉例來說：若我們的空氣品質資料集被依月份分為十二等分，若運算時需要使用整年的資料，就要用 `concat()` Function 給結合起來再開始運算。

在使用時，依據所結合的資料的方向，可以使用 parameter `axis` 來變更，預設為 `0` 或 `index`。

如果結合的方向是 `0` 或 `index` 的話，還可以使用一個更簡易的 Function：`append()`。

* 常用 Parameters：
    * `join`：結合時遇到相同名稱的 column/row labels 時，參考的結合方法，預設為 `outer`
        * `outer`：將相同 column/row label 的資料結合，不相同的 label 則**另外存放**
        * `inner`：只將相同 column/row label 的資料結合，不相同的 label 則**捨棄**
    * `axis`：結合方向，預設為 `0`
        * `0`：Index (Row) 方向
        * `1`：Column 方向
* 參考文件：
    * [pandas.concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html#pandas-concat)
    * [pandas.DataFrame.append](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html#pandas-dataframe-append)
    * [pandas.Series.append](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.append.html#pandas-series-append)
    * [10 MInutes to Pandas | Merge | Concat](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html#concat)
    * [Merge, join, and concatenate | Concatenating objects](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#concatenating-objects)
    * [Merge, join, and concatenate | Concatenating objects | Concatenating using append](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#concatenating-using-append)

### 依照 index (row) 方向結合資料

In [16]:
rainfall_01 = pd.DataFrame({"time":pd.date_range('2020-01-01', '2020-01-31', freq="d"), 
                            "RAINFALL":[random.randint(50, 300) for x in range(0, 31)]})
rainfall_02 = pd.DataFrame({"time":pd.date_range('2020-02-01', '2020-02-28', freq="d"), 
                            "RAINFALL":[random.randint(50, 300) for x in range(0, 28)]})
rainfall_03 = pd.DataFrame({"time":pd.date_range('2020-03-01', '2020-03-31', freq="d"), 
                            "RAINFALL":[random.randint(50, 300) for x in range(0, 31)]})
rainfall_01.set_index("time", inplace=True)
rainfall_02.set_index("time", inplace=True)
rainfall_03.set_index("time", inplace=True)

In [17]:
# 依照 index (row) 方向結合三份資料
pd.concat([rainfall_01,
           rainfall_02,
           rainfall_03], axis=0)
# 以上操作與以下等價
# rainfall_01.append([rainfall_02, rainfall_03])

Unnamed: 0_level_0,RAINFALL
time,Unnamed: 1_level_1
2020-01-01,245
2020-01-02,222
2020-01-03,67
2020-01-04,172
2020-01-05,282
...,...
2020-03-27,175
2020-03-28,187
2020-03-29,186
2020-03-30,79


### 依照 column 方向結合資料

In [20]:
# 雨量，濕度，溫度
rainfall = pd.DataFrame({"time":pd.date_range('2020-01-01', '2020-01-31', freq="d"), 
                         "RAINFALL":[random.randint(50, 300) for x in range(0, 31)]})
humidity = pd.DataFrame({"time":pd.date_range('2020-01-01', '2020-01-31', freq="d"), 
                         "humidity":[random.randint(0, 80) for x in range(0, 31)]})
temperature = pd.DataFrame({"time":pd.date_range('2020-01-01', '2020-01-31', freq="d"), 
                            "temperature":[random.randint(10, 30) for x in range(0, 31)]})
rainfall.set_index("time", inplace=True)
humidity.set_index("time", inplace=True)
temperature.set_index("time", inplace=True)

In [21]:
# 依照 column 方向結合三份資料，結合時會以相同 index 為結合的依據
pd.concat([rainfall, humidity, temperature], axis=1)

Unnamed: 0_level_0,RAINFALL,humidity,temperature
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-01,117,11,10
2020-01-02,287,80,10
2020-01-03,229,72,29
2020-01-04,131,41,26
2020-01-05,107,33,16
...,...,...,...
2020-01-27,163,69,23
2020-01-28,80,49,22
2020-01-29,233,54,12
2020-01-30,183,15,18


## `merge()`：以 Column 數值相同為依據來結合資料

若多份資料中有重複的 Column，且可以用來當作結合資料的依據，用 `merge()` Function 來結合便是一種便利的方法。例如：我們有兩份資料，分別擁有相對濕度、風速（Column 名稱：`RH`, `WIND_SPEED`） 的資料，且兩份都擁有時間（Column 名稱：`datetime`）的資料，就可以用 `merge()` Function 將她們結合起來。

跟[關聯式資料庫](https://zh.wikipedia.org/zh-tw/關聯式資料庫)的 `JOIN` 操作相仿，JOIN 的時候可以選擇不同的 JOIN 方法：

* 僅保留兩側都有相同資料的 **INNER JOIN**
* 以一側為基準，指定保留該側所有資料的 **OUTER JOIN**：
    * 保留左側資料的 **LEFT OUTER JOIN**
    * 保留右側資料的 **RIGHT OUTER JOIN**

指定 JOIN 依據的 Column 是透過 parameter `on` 來指定，而選擇的 JOIN 類型是透過 parameter `how` 來設定。

* 常用 Parameters：
    * `how`：JOIN 的方法，預設為 `1nner`
        * `inner`： INNER JOIN
        * `left`： LEFT OUTER JOIN
        * `right`： RIGHT OUTER JOIN
        * `outer`： JULL OUTER JOIN
    * `on`：要用來比對的 label
* 參考文件：
    * [Merge, join, and concatenate | Database-style DataFrame joining/merging](https://pandas.pydata.org/pandas-docs/stable/merging.html#database-style-dataframe-joining-merging)
    * [pandas.merge](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.merge.html)
    * [pandas.DataFrame.merge](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)
    * [10 Minutes to Pandas | Join](https://pandas.pydata.org/pandas-docs/stable/10min.html#join)
    * [關聯式資料庫 | Wikipedia](https://zh.wikipedia.org/zh-tw/關聯式資料庫)
    * [SQL 連接 | Wikipedia](https://zh.wikipedia.org/zh-tw/連接_%28SQL%29)

> [備註] 資料庫的 OUTER JOIN 其實還有一種  **FULL OUTER JOIN**，但實際的應用情境實在相當少見，所以暫不介紹

In [9]:
# 各自擁有相對濕度、風速（column label：'RH', 'WIND_SPEED'） 的資料
# 且兩份都擁有時間（column label：'datetime'）的資料
df_rh_left = df_noindex.loc[:4, ['datetime', 'RH']]  # 一份擷取 5 rows，置於左側

# 預覽資料
display(df_rh_left)

df_windspeed_right = df_noindex.loc[:9, 
                                 ['datetime',
                                  'WIND_SPEED']]  # 另一份擷取 10 rows，置於右側

# 預覽資料
display(df_windspeed_right)

Unnamed: 0,datetime,RH
0,2017-01-01 00:00:00,88.0
1,2017-01-01 01:00:00,88.0
2,2017-01-01 02:00:00,89.0
3,2017-01-01 03:00:00,90.0
4,2017-01-01 04:00:00,90.0


Unnamed: 0,datetime,WIND_SPEED
0,2017-01-01 00:00:00,1.4
1,2017-01-01 01:00:00,0.5
2,2017-01-01 02:00:00,0.5
3,2017-01-01 03:00:00,0.5
4,2017-01-01 04:00:00,1.0
5,2017-01-01 05:00:00,0.8
6,2017-01-01 06:00:00,1.1
7,2017-01-01 07:00:00,1.1
8,2017-01-01 08:00:00,1.5
9,2017-01-01 09:00:00,1.9


In [10]:
# INNER JOIN
# JOIN 時如果不自行指定 JOIN 依據的 column，Pandas 會依據輸入的資料
# 自動找尋所有名稱相同的 column 作為依據
pd.merge(left=df_rh_left, right=df_windspeed_right, how='inner')
# 此操作與以下等價
# pd.merge(left=df_rh, right=df_windspeed, how='inner', on=['inner'])

Unnamed: 0,datetime,RH,WIND_SPEED
0,2017-01-01 00:00:00,88.0,1.4
1,2017-01-01 01:00:00,88.0,0.5
2,2017-01-01 02:00:00,89.0,0.5
3,2017-01-01 03:00:00,90.0,0.5
4,2017-01-01 04:00:00,90.0,1.0


In [11]:
# LEFT OUTER JOIN
pd.merge(left=df_rh_left, right=df_windspeed_right,
         how='left', on=['datetime'])

Unnamed: 0,datetime,RH,WIND_SPEED
0,2017-01-01 00:00:00,88.0,1.4
1,2017-01-01 01:00:00,88.0,0.5
2,2017-01-01 02:00:00,89.0,0.5
3,2017-01-01 03:00:00,90.0,0.5
4,2017-01-01 04:00:00,90.0,1.0


In [12]:
# RIGHT OUTER JOIN
pd.merge(left=df_rh_left, right=df_windspeed_right,
         how='right', on=['datetime'])

Unnamed: 0,datetime,RH,WIND_SPEED
0,2017-01-01 00:00:00,88.0,1.4
1,2017-01-01 01:00:00,88.0,0.5
2,2017-01-01 02:00:00,89.0,0.5
3,2017-01-01 03:00:00,90.0,0.5
4,2017-01-01 04:00:00,90.0,1.0
5,2017-01-01 05:00:00,,0.8
6,2017-01-01 06:00:00,,1.1
7,2017-01-01 07:00:00,,1.1
8,2017-01-01 08:00:00,,1.5
9,2017-01-01 09:00:00,,1.9
