In [None]:
import pandas as pd
from pathlib import Path

current_dir = Path.cwd()
# 若 CSV 與此 notebook 同資料夾
csv_path = current_dir / "台鐵車站資訊.csv"
stations_df = pd.read_csv(csv_path)
#display(stations_df.head())
stations_df = stations_df.reindex(columns=["stationCode", "stationName"])

#欄位名稱更改為[車站代碼, 車站名稱]
stations_df.columns = ["車站代碼", "車站名稱"]
stations_df

Unnamed: 0,車站代碼,車站名稱
0,900,基隆
1,910,三坑
2,920,八堵
3,930,七堵
4,940,百福
...,...,...
238,7360,瑞芳
239,7361,海科館
240,7362,八斗子
241,7380,四腳亭


In [None]:
current_dir = Path.cwd()
# 若 CSV 與此 notebook 同資料夾
csv_path = current_dir / "每日各站進出站人數/每日各站進出站人數2020.csv"
year_df = pd.read_csv(csv_path)
year_df.columns = ["日期", "車站代碼", "進站人數", "出站人數"]
display(year_df.head())
#日期欄位目前是int64, 需要轉換為datetime格式
year_df["日期"] = pd.to_datetime(year_df["日期"], format="%Y%m%d")
year_df.info()

Unnamed: 0,日期,車站代碼,進站人數,出站人數
0,20200101,900,7552,8154
1,20200101,910,1020,1135
2,20200101,920,1623,1972
3,20200101,930,4130,4813
4,20200101,940,1818,2128


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86932 entries, 0 to 86931
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   日期      86932 non-null  datetime64[ns]
 1   車站代碼    86932 non-null  int64         
 2   進站人數    86932 non-null  int64         
 3   出站人數    86932 non-null  int64         
dtypes: datetime64[ns](1), int64(3)
memory usage: 2.7 MB


In [None]:
merged_df_2020= pd.merge(year_df, stations_df, on="車站代碼")
merged_df_2020 = merged_df_2020.reindex(columns=["日期","車站名稱","進站人數","出站人數"])
merged_df_2020.head()
#將欄位:日期,變為index
merged_df_2020.set_index("日期", inplace=True)
merged_df_2020.head()

Unnamed: 0_level_0,車站名稱,進站人數,出站人數
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-01,基隆,7552,8154
2020-01-01,三坑,1020,1135
2020-01-01,八堵,1623,1972
2020-01-01,七堵,4130,4813
2020-01-01,百福,1818,2128


In [20]:
# 計算平均與標準差，並將結果四捨五入到整數（去除小數點）
df1 = merged_df_2020.groupby("車站名稱")[['進站人數','出站人數']].agg([('平均','mean'),('標準差','std')])
df2 = df1.round(0).astype(int)

# 搜尋進站人數的平均值大於10000的車站
result = df2[df2[('進站人數','平均')] > 10000]
result

Unnamed: 0_level_0,進站人數,進站人數,出站人數,出站人數
Unnamed: 0_level_1,平均,標準差,平均,標準差
車站名稱,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
中壢,23831,4113,24144,4121
南港,10248,1837,10786,2086
彰化,12563,2998,12853,3168
新左營,10021,2991,9999,2976
新竹,17892,3711,17972,3847
松山,14926,3091,14935,2960
板橋,20834,4036,20827,4026
桃園,25238,3567,25955,3656
樹林,13479,1631,13607,1647
臺中,22610,7244,22789,7680


In [21]:
merged_df_2020.head()
stations = ['臺北','桃園','高雄','臺中']
#取出特定車站的資料
df3 = merged_df_2020[merged_df_2020['車站名稱'].isin(stations)]

#依據月份進行統計
df3.groupby([df3.index.month,'車站名稱'])[['進站人數', '出站人數']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,進站人數,出站人數
日期,車站名稱,Unnamed: 2_level_1,Unnamed: 3_level_1
1,桃園,863787,890423
1,臺中,853257,851720
1,臺北,1894584,1851622
1,高雄,532721,532198
2,桃園,702311,714156
2,臺中,662240,674267
2,臺北,1500211,1476076
2,高雄,391059,388085
3,桃園,683952,707071
3,臺中,566732,563303


In [23]:
stations = ['臺北','桃園','高雄','臺中']
#取出特定車站的資料
df3 = merged_df_2020[merged_df_2020['車站名稱'].isin(stations)]
month = df3.index.month
df4 = df3.groupby([month,'車站名稱'])[['進站人數','出站人數']].sum()
#日期索引內的資料要改為`1月份`, `2月份`...
df4.index = pd.MultiIndex.from_tuples([(f"{m}月份", s) for m, s in df4.index])
df4

Unnamed: 0,Unnamed: 1,進站人數,出站人數
1月份,桃園,863787,890423
1月份,臺中,853257,851720
1月份,臺北,1894584,1851622
1月份,高雄,532721,532198
2月份,桃園,702311,714156
2月份,臺中,662240,674267
2月份,臺北,1500211,1476076
2月份,高雄,391059,388085
3月份,桃園,683952,707071
3月份,臺中,566732,563303
