「主題說明」
針對台鐵各個站點，取得進出站人數資料，比對哪些站點已經常無人使用，可作為未來淘汰站點的政策參考。
請將畫面拉動到 最下方 的程式碼，你可以輸入你感興趣的時間區間，並且設定你認為一個車站一天至少要有多少人次使用，我們將顯示出您認為運載量不足的車站列表。

「資料取得」
透過[政府資料開放平臺](https://data.gov.tw/)取得資料，主要使用以下兩項資料：
1. A set 所有台鐵車站列表(有242個站)
車站基本資料集(https://data.gov.tw/dataset/33425)
2. B set 每天各站的進出人數(2022/1/1只有239筆)(目前資料區間為2022/1/1-2022/7/31)
每日各站點進出站人數(https://data.gov.tw/dataset/8792)

「資料格式」
目標為使用.csv格式資料，政府資料開放平臺可直接下載.csv資料
已下載並存於相同專案資料夾中(https://github.com/AndersonTsaiTW/PL-Repo/tree/main/02_Homework/HW1)，並命名如下。
* num：每日各站點進出站人數
* station：車站基本資料集
註：若下載xml格式，可透過excel另存為csv格式，或是透過python的ElementTree模組調整格式
(參考網址1：https://www.delftstack.com/zh-tw/howto/python/xml-to-csv-python/)
(參考網址2：https://stackabuse.com/reading-and-writing-xml-files-in-python/)

「讀入資料」
透過pandas的read_csv功能讀取，請參考下方程式碼。

In [247]:
import pandas as pd
from datetime import datetime
st = pd.read_csv("station.csv")
num = pd.read_csv("num.csv")
print(type(st))
print(type(num))

st["stationCode"] = st["stationCode"].apply(str)
num["staCode"] = num["staCode"].apply(str)
num["trnOpDate"] = num["trnOpDate"].apply(str)
#新增月份欄位，可以使用[]加在尾端，或是如下使用insert
num.insert(0,column = "date",value = num["trnOpDate"].str.slice(4,8))
num.insert(0,column = "month",value = num["trnOpDate"].str.slice(0,6))
num.insert(6,column = "total",value = num["gateInComingCnt"]+num["gateOutGoingCnt"])
num.head()

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,month,date,trnOpDate,staCode,gateInComingCnt,gateOutGoingCnt,total
0,202201,101,20220101,900,8645,8526,17171
1,202201,101,20220101,910,996,1243,2239
2,202201,101,20220101,920,1369,1711,3080
3,202201,101,20220101,930,3663,4535,8198
4,202201,101,20220101,940,1532,1845,3377


In [248]:
#透過head與tail初步檢視資料結構
st.head(3)

Unnamed: 0,stationCode,stationName,stationEName,name,ename,stationAddrTw,stationAddrEn,stationTel,gps
0,900,基隆,Keelung,基隆,Keelung,基隆市中山區民治里1鄰中山一路16之 1號,"No. 16-1, Zhongshan 1st Rd, Zhongshan Dist., K...",02-24263743,25.13401 121.74013
1,910,三坑,Sankeng,三坑,Sankeng,基隆市仁愛區德厚里龍安街 206 號,"No. 206, Long’an St., Ren`ai Dist., Keelung City",02-24230289,25.12305 121.74202
2,920,八堵,Badu,八堵,Badu,基隆市暖暖區八南里八堵路 142 號,"No. 142, Badu Rd., Nuannuan Dist., Keelung City",02-24560841,25.10843 121.72898


In [249]:
#透過head與tail初步檢視資料結構
num.tail(3)

Unnamed: 0,month,date,trnOpDate,staCode,gateInComingCnt,gateOutGoingCnt,total
50565,202208,801,20220801,7362,96,121,217
50566,202208,801,20220801,7380,606,593,1199
50567,202208,801,20220801,7390,413,442,855


In [250]:
#本次比對0501及0502資料，作為初步檢視範例
date_1 = input("請輸入第1個日期(MMDD)")
date_2 = input("請輸入第2個日期(MMDD)")
filt_1 = (num["date"] == date_1)
num_1 = num.loc[filt_1, ["date","staCode","total"]]
filt_2 = (num["date"] == date_2)
num_2 = num.loc[filt_2, ["date","staCode","total"]]

請輸入第1個日期(MMDD)0501
請輸入第2個日期(MMDD)0502


以下將演示「交集」、「聯集」、「差集」、「對稱差集」四種運算，預計執行方式如下：
* 「交集」：以進出站資料0501與0502做交集，看有哪些站這兩天都有人進出
* 「聯集」：以進出站資料0501與0502做聯集，看至少一天有人進出的站有哪些
* 「差集」：以車站資料與0501資料做差集，找尋0501沒有人進出的站
* 「對稱差集」：以進出站資料0501與0502做對稱差集，看只有一天有人進出的站有哪些

In [251]:
#「交集」：以進出站資料0501與0502做交集，看有哪些站這兩天都有人進出
list_1 = set(num_1["staCode"])
list_2 = set(num_2["staCode"])
print("有",len(list_1.intersection(list_2)),"個站點在5/1及5/2都有人進出，車站代碼明細如下：")
print(list_1.intersection(list_2))

有 195 個站點在5/1及5/2都有人進出，車站代碼明細如下：
{'4180', '7230', '7040', '1120', '5160', '7310', '4300', '1040', '5050', '1210', '1090', '6130', '3320', '1220', '5060', '6080', '6020', '3431', '3436', '4160', '4100', '3434', '4272', '2150', '4090', '6250', '6240', '4430', '4330', '980', '3432', '1050', '3340', '1100', '7380', '1230', '4390', '3400', '7360', '4080', '5090', '1000', '5100', '1070', '5110', '6180', '2260', '4210', '3140', '4320', '3260', '4120', '6010', '7000', '1020', '7090', '1010', '4140', '2170', '920', '3190', '7190', '4470', '2180', '900', '6210', '7010', '4410', '3300', '4270', '2210', '6110', '5080', '4250', '7333', '1207', '4440', '7060', '4170', '3390', '6100', '7330', '990', '3290', '970', '940', '3270', '7290', '4110', '960', '6200', '2220', '3490', '5240', '4290', '5120', '5130', '1140', '4450', '7210', '6170', '3280', '1150', '7150', '5070', '6070', '1193', '6160', '5220', '3220', '3160', '3350', '2190', '3450', '4050', '3310', '7110', '1202', '7350', '1110', '3420', '3180

In [252]:
#「聯集」：以進出站資料0501與0502做聯集，看至少一天有人進出的站有哪些
list_1 = set(num_1["staCode"])
list_2 = set(num_2["staCode"])
print("有",len(list_1.union(list_2)),"個站點在5/1及5/2至少一天有人進出，車站代碼明細如下：")
print(list_1.union(list_2))

有 239 個站點在5/1及5/2至少一天有人進出，車站代碼明細如下：
{'6190', '7230', '1120', '5160', '4300', '1208', '5050', '7334', '7240', '1220', '5060', '6080', '1205', '3434', '4272', '6250', '2110', '1050', '3340', '1100', '7380', '1230', '4390', '7360', '4080', '5090', '1070', '7320', '5110', '6180', '2260', '4210', '4320', '4120', '6010', '6030', '7300', '1020', '7090', '1010', '1206', '920', '3190', '7190', '4470', '7020', '6210', '7010', '5080', '4250', '1207', '4440', '7060', '1204', '970', '940', '7290', '2220', '4290', '1140', '4450', '7210', '6170', '3280', '7220', '7150', '7332', '6230', '5220', '1194', '3160', '3350', '2190', '3450', '4050', '3310', '7140', '950', '3230', '5190', '3240', '4340', '3460', '4400', '910', '1160', '6060', '7100', '3480', '1030', '2230', '1080', '4360', '7331', '1170', '3380', '4130', '6000', '3435', '7130', '5200', '6220', '6090', '7160', '4350', '5230', '4420', '2250', '4200', '5000', '4070', '5010', '3170', '7030', '4060', '7280', '1192', '7390', '3436', '4180', '7040', 

In [253]:
#「差集」：以車站資料與0501資料做差集，找尋0501沒有人進出的站
list_1 = set(st["stationCode"])
list_2 = set(num_1["staCode"])
print("有",len(list_1.difference(list_2)),"個站點在5/1沒有人進出，車站代碼明細如下：")
print(list_1.difference(list_2))

有 46 個站點在5/1沒有人進出，車站代碼明細如下：
{'6190', '7320', '7200', '7220', '1001', '7332', '6030', '6230', '7300', '2240', '7361', '1201', '1208', '1206', '7050', '5170', '1194', '7334', '6120', '7070', '7240', '7362', '7020', '7170', '6090', '1191', '2120', '7260', '7120', '2160', '3433', '1205', '2140', '1204', '5999', '7270', '3170', '7335', '6060', '6140', '2110', '7080', '7280', '7336', '6150', '4271'}


In [254]:
#「對稱差集」：以進出站資料0501與0502做對稱差集，看只有一天有人進出的站有哪些
list_1 = set(num_1["staCode"])
list_2 = set(num_2["staCode"])
print("有",len(list_1^list_2),"個站點在5/1及5/2只有一天有人進出，車站代碼明細如下：")
print(list_1^list_2)

有 44 個站點在5/1及5/2只有一天有人進出，車站代碼明細如下：
{'6190', '7200', '1201', '1208', '7334', '7240', '7362', '1191', '2160', '3433', '1205', '5140', '2110', '6140', '7320', '6030', '7300', '1206', '7050', '6120', '7070', '7020', '2120', '7260', '1204', '7270', '7080', '7220', '7332', '6230', '2240', '1194', '7170', '7120', '2140', '7335', '6060', '7336', '7361', '6090', '3170', '7280', '6150', '4271'}


In [255]:
#延伸命題：哪個車站今年到現在都沒人使用？
list_1 = set(st["stationCode"])
list_2 = set(num["staCode"])
print("有",len(list_1.difference(list_2)),"個站點今年沒有人進出，車站詳細資料如下：")
#print(list_1.difference(list_2))

no_use = list(list_1.difference(list_2))
filt_all = (st["stationCode"].isin(no_use))
no_use_list = st.loc[filt_all,["stationCode","stationName","stationAddrTw"]]
print(no_use_list)

有 3 個站點今年沒有人進出，車站詳細資料如下：
    stationCode stationName       stationAddrTw
11         1001       臺北-環島              臺北市中正區
162        5170          枋野   屏東縣獅子鄉內獅村內獅巷 88 號
169        5999        潮州基地  屏東縣潮州鎮光春里光復路 616 號


In [258]:
##延伸命題：讓使用者輸入時間區間，哪些車站在這段期間使用人數不符標準？
date_3 = input("請輸入第1個日期(MMDD)")
date_4 = input("請輸入第2個日期(MMDD)")
num_least = input("請輸入當日最少要有幾人使用")

##準備篩選器
filt_cho3 = (num["date"].apply(int) >= int(date_3))
filt_cho4 = (num["date"].apply(int) <= int(date_4))
filt_num = (num["total"] >= int(num_least))
filt_cho = filt_cho3 & filt_cho4 & filt_num
num_cho = num.loc[filt_cho, ["date","staCode","total"]]
#print(num_cho)

##比較差集，找出符合少人使用條件的站點代碼
list_3 = set(st["stationCode"])
list_4 = set(num_cho["staCode"])
no_use = list(list_3.difference(list_4))
print("\n台鐵一共有",len(list_3),"個站點，其中有",len(no_use),"個站點從",date_3,"到",date_4,"日使用人次從未超過",num_least,"人，車站詳細資料如下：")
##印出少人使用的車站資料
filt_all = (st["stationCode"].isin(no_use))
no_use_list = st.loc[filt_all,["stationCode","stationName","stationAddrTw"]]
print(no_use_list)

請輸入第1個日期(MMDD)0501
請輸入第2個日期(MMDD)0531
請輸入當日最少要有幾人使用30

台鐵一共有 242 個站點，其中有 16 個站點從 0501 到 0531 日使用人次從未超過 30 人，車站詳細資料如下：
    stationCode stationName             stationAddrTw
11         1001       臺北-環島                    臺北市中正區
95         3433          龍泉        南投縣集集鎮隘寮村龍泉巷 (無站房)
160        5140          內獅          屏東縣枋山鄉加祿村南和 43 號
162        5170          枋野         屏東縣獅子鄉內獅村內獅巷 88 號
168        5240          康樂  臺東縣臺東市康樂里博物館路 51 巷 131 號
169        5999        潮州基地        屏東縣潮州鎮光春里光復路 616 號
171        6010          山里        臺東縣卑南鄉嘉豐村山里路 108 號
174        6040          瑞和    臺東縣鹿野鄉瑞和村瑞景路三段 1 之 1 號
176        6060          海端          臺東縣關山鎮德高里西莊 49 號
179        6090          東竹          花蓮縣富里鄉新興村新興 26 號
180        6100          東里     花蓮縣富里鄉東里村大莊路 15 之 6 號
182        6120          三民          花蓮縣玉里鎮三民里三民 10 號
185        6150          大富          花蓮縣光復鄉大富村明德路 1 號
193        6230          平和          花蓮縣壽豐鄉平和村平和路 1 號
198        7020          景美     花蓮縣秀林鄉景美村加灣 178 之 1 號
204        7080   

In [257]:
#以下為程式碼摸索區，請予以忽略
#num_1 = pd.DataFrame({"mon":num['month'],"in":num['gateInComingCnt'],"out":num['gateOutGoingCnt']})
#print(num_1)
#num.groupby('date').count(num["staCode"])
#num_1 = num.groupby('date').agg({"staCode":["count"]})
#num_1.info()
#print(num_1.sort_values(by = ["count"]))