In [5]:
import pandas as pd
from pathlib import Path

current_dir = Path.cwd()
# 若 csv 與此 notebook 在同一資料夾
csv_path = current_dir / "台鐵車站資訊.csv"
stations_df = pd.read_csv(csv_path)
display(stations_df.head())
stations_df = stations_df.reindex(columns=["stationCode", "stationName"])

#欄位名稱更改為[車站代碼, 車站名稱]
stations_df.columns = ["車站代碼", "車站名稱"]
stations_df

Unnamed: 0,stationCode,stationName,name,stationAddrTw,stationTel,gps,haveBike
0,900,基隆,基隆,基隆市仁愛區港西街5號,02-24263743,25.13411 121.73997,Y
1,910,三坑,三坑,基隆市仁愛區德厚里龍安街 206 號,02-24230289,25.12305 121.74202,Y
2,920,八堵,八堵,基隆市暖暖區八南里八堵路 142 號,02-24560841,25.10843 121.72898,Y
3,930,七堵,七堵,基隆市七堵區長興里東新街 2 號,02-24553426,25.09294 121.71415,Y
4,940,百福,百福,基隆市七堵區堵南里明德三路 1 之 1 號,02-24528372,25.07795 121.69379,N


Unnamed: 0,車站代碼,車站名稱
0,900,基隆
1,910,三坑
2,920,八堵
3,930,七堵
4,940,百福
...,...,...
238,7360,瑞芳
239,7361,海科館
240,7362,八斗子
241,7380,四腳亭


In [6]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['one', 'two', 'three'])

# 對行索引reindex，增加一個新索引，缺失填0
new_df = df.reindex(index=['one', 'two', 'three', 'four'], fill_value=0)

print(new_df)

       A  B
one    1  4
two    2  5
three  3  6
four   0  0


In [9]:
current_dir = Path.cwd()
# 若 csv 與此 notebook 在同一資料夾
csv_path = current_dir / "每日各站進出站人數2020.csv"
year_df = pd.read_csv(csv_path)
year_df.columns = ["日期", "車站代碼", "進站人數", "出站人數"]
display(year_df.head())
#日期欄位目前是int64，需要轉換為datetime格式
year_df["日期"] = pd.to_datetime(year_df["日期"], format="%Y%m%d")
year_df.info()

Unnamed: 0,日期,車站代碼,進站人數,出站人數
0,20200101,900,7552,8154
1,20200101,910,1020,1135
2,20200101,920,1623,1972
3,20200101,930,4130,4813
4,20200101,940,1818,2128


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86932 entries, 0 to 86931
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   日期      86932 non-null  datetime64[ns]
 1   車站代碼    86932 non-null  int64         
 2   進站人數    86932 non-null  int64         
 3   出站人數    86932 non-null  int64         
dtypes: datetime64[ns](1), int64(3)
memory usage: 2.7 MB


In [10]:
merged_df_2020 = pd.merge(year_df, stations_df, on="車站代碼")
merged_df_2020 = merged_df_2020.reindex(columns=["日期", "車站名稱", "進站人數", "出站人數"])
merged_df_2020.head()
#將欄位:日期變為index
merged_df_2020.set_index("日期", inplace=True)

In [11]:
merged_df_2020.loc["2020-01-01"].query("車站名稱 == '臺北'")


Unnamed: 0_level_0,車站名稱,進站人數,出站人數
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-01,臺北,74444,57279


In [12]:
merged_df_2020.loc["2020-01-01"] #搜尋2020年1月1日的資料
merged_df_2020.loc["2020-01"]  #搜尋2020年1月的資料(索引是DatetimeIndex才能這樣用)
merged_df_2020.loc["2020-01":"2020-02"] #搜尋2020年1月至2月的資料
merged_df_2020.loc["2020-01":"2020-02"].query("車站名稱 == '基隆'") #搜尋基隆站的資料

Unnamed: 0_level_0,車站名稱,進站人數,出站人數
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-01,基隆,7552,8154
2020-01-02,基隆,7709,7240
2020-01-03,基隆,8713,8086
2020-01-04,基隆,8625,8407
2020-01-05,基隆,8015,7355
2020-01-06,基隆,7484,7124
2020-01-07,基隆,7529,7401
2020-01-08,基隆,7382,7030
2020-01-09,基隆,7916,7405
2020-01-10,基隆,9695,8944


In [13]:
merged_df_2020.loc["2020-01":"2020-02"].query("車站名稱 == '臺北'") 

Unnamed: 0_level_0,車站名稱,進站人數,出站人數
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-01,臺北,74444,57279
2020-01-02,臺北,60656,60765
2020-01-03,臺北,67692,65289
2020-01-04,臺北,59475,58244
2020-01-05,臺北,57014,59480
2020-01-06,臺北,58573,58234
2020-01-07,臺北,57128,56398
2020-01-08,臺北,57239,56452
2020-01-09,臺北,69466,67960
2020-01-10,臺北,82586,71146


In [15]:
merged_df_2020= pd.merge(year_df, stations_df, on="車站代碼")
merged_df_2020 = merged_df_2020.reindex(columns=["日期","車站名稱","進站人數","出站人數"])
merged_df_2020.head()
#將欄位:日期,變為index
merged_df_2020.set_index("日期", inplace=True)

In [18]:
df1 = merged_df_2020.groupby("車站名稱")[['進站人數','出站人數']].agg([('平均','mean'),('標準差','std')])
# 將所有數值去除小數點（四捨五入取整數）
df1 = df1.round(0).astype(int)
df1

Unnamed: 0_level_0,進站人數,進站人數,出站人數,出站人數
Unnamed: 0_level_1,平均,標準差,平均,標準差
車站名稱,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
七堵,5529,1073,5616,1112
三坑,1249,191,1274,190
三塊厝,403,83,438,106
三姓橋,1055,292,944,179
三民,8,5,11,6
...,...,...,...,...
鼓山,199,39,207,37
龍井,354,97,345,132
龍泉,16,11,18,19
龍港,15,7,20,9
