In [1]:
import numpy as np
import pandas as pd
from ipywidgets import interact_manual

# 兩捷運站間的最短通勤時間
### 讀取市政府公開資料與清理數據

In [2]:
df = pd.read_csv('https://beta.data.taipei/api/getDatasetInfo/downloadResource?id=513e97fe-6a98-4a0d-b7dc-\
11122c8638d4&rid=7f5d3c69-1fdc-44a2-a5ef-13cffe323bd6', encoding='big5')

In [3]:
df.head(30)

Unnamed: 0,stationbus,stationA,stationB,traveltime(stationA至stationB兩站間行駛時間，秒),id,stoptime(stationA停靠時間，秒)
0,淡水-象山,捷運淡水站,捷運紅樹林站,175,1,0
1,淡水-象山,捷運紅樹林站,捷運竹圍站,136,2,25
2,淡水-象山,捷運竹圍站,捷運關渡站,145,3,25
3,淡水-象山,捷運關渡站,捷運忠義站,78,4,25
4,淡水-象山,捷運忠義站,捷運復興崗站,109,5,25
5,淡水-象山,捷運復興崗站,捷運北投站,145,6,25
6,淡水-象山,捷運北投站,捷運奇岩站,91,7,25
7,淡水-象山,捷運奇岩站,捷運唭哩岸站,73,8,25
8,淡水-象山,捷運唭哩岸站,捷運石牌站,100,9,25
9,淡水-象山,捷運石牌站,捷運明德站,61,10,25


In [4]:
set(df['stationbus'].values) 
#有些資料是重複的。例如行駛全線的「'淡水-象山'」和區間的「'北投-大安'」

{'七張-小碧潭',
 '動物園-南港展覽館',
 '北投-大安',
 '北投-新北投',
 '南勢角-蘆洲',
 '南勢角-迴龍',
 '南港展覽館-亞東醫院',
 '南港展覽館-頂埔',
 '松山-台電大樓',
 '松山-新店',
 '淡水-象山'}

In [5]:
df = df[(df.stationbus=='七張-小碧潭')|(df.stationbus=='動物園-南港展覽館')|(df.stationbus=='北投-新北投')| \
        (df.stationbus=='南勢角-蘆洲')|(df.stationbus=='南勢角-迴龍')|(df.stationbus=='南港展覽館-頂埔')|   \
        (df.stationbus=='松山-新店')|(df.stationbus=='淡水-象山')]
#留下行駛全線的部分就好

df[(df.stationbus=='南勢角-蘆洲')|(df.stationbus=='南勢角-迴龍')]
#「'南勢角-蘆洲'」和「'南勢角-迴龍'」在「'大橋頭-南勢角'」的部分有重疊

Unnamed: 0,stationbus,stationA,stationB,traveltime(stationA至stationB兩站間行駛時間，秒),id,stoptime(stationA停靠時間，秒)
137,南勢角-蘆洲,捷運蘆洲站,捷運三民高中站,110,1,0
138,南勢角-蘆洲,捷運三民高中站,捷運徐匯中學站,87,2,30
139,南勢角-蘆洲,捷運徐匯中學站,捷運三和國中站,82,3,30
140,南勢角-蘆洲,捷運三和國中站,捷運三重國小站,104,4,30
141,南勢角-蘆洲,捷運三重國小站,捷運大橋頭站,148,5,30
142,南勢角-蘆洲,捷運大橋頭站,捷運民權西路站,75,6,35
143,南勢角-蘆洲,捷運民權西路站,捷運中山國小站,72,7,45
144,南勢角-蘆洲,捷運中山國小站,捷運行天宮站,89,8,35
145,南勢角-蘆洲,捷運行天宮站,捷運松江南京站,75,9,35
146,南勢角-蘆洲,捷運松江南京站,捷運忠孝新生站,114,10,35


In [6]:
df = df.drop(range(162,173)) #刪掉重疊的部分
df = df.iloc[:,1:4] #把問題簡化：僅考慮兩站間的行駛時間，不考慮到站停靠時間
df.head()

Unnamed: 0,stationA,stationB,traveltime(stationA至stationB兩站間行駛時間，秒)
0,捷運淡水站,捷運紅樹林站,175
1,捷運紅樹林站,捷運竹圍站,136
2,捷運竹圍站,捷運關渡站,145
3,捷運關渡站,捷運忠義站,78
4,捷運忠義站,捷運復興崗站,109


In [7]:
A = list(df.stationA.values)
B = list(df.stationB.values)
ttime = df['traveltime(stationA至stationB兩站間行駛時間，秒)'].values
intervals = np.array(A+B).reshape(2,len(A)).T #intervals放入stationA、stationB的兩個columns
nodes = np.array(list(set(A+B))) #nodes放入所有捷運站

### Dijkstra's algorithm

In [8]:
def ShortestTime(start, end):
    dists = np.ones(nodes.size)*np.inf
    statuses = np.zeros(nodes.size)
    dists[nodes==start] = 0
    
    def NearbyNodes(node):
        '''回傳node的所有鄰近車站及所需的行駛時間'''
        r = []
        args = np.argwhere(intervals==node)
        for i in args:
            counterpart = intervals[i[0], (i[1]+1)%2]
            if (statuses[nodes==counterpart] == 0).all():
                r.append([counterpart, ttime[i[0]]])
        return r
    
    ##################### 開始 Dijkstra's algorithm #####################
    while 0 in statuses:
        current_node = nodes[statuses==0][np.argmin(dists[statuses==0])]
        neighbors = NearbyNodes(current_node)
        cindex = int(np.argwhere(nodes==current_node))
        for j in neighbors:
            jindex = int(np.argwhere(nodes==j[0]))
            if dists[cindex] + j[-1] < dists[jindex]:
                dists[jindex] = dists[cindex] + j[-1]
        statuses[cindex] = 1
    ##################### 結束 Dijkstra's algorithm #####################
    
    st = int(dists[nodes==end])
    print('從「%s」到「%s」： %d分%02d秒' %(start, end, st//60, st%60))

for n in range(10):
    start, end = np.random.choice(nodes, 2, replace=False) #取不同的兩個站算時間
    ShortestTime(start,end)

從「捷運內湖站」到「捷運南港站」： 9分07秒
從「捷運永寧站」到「捷運圓山站」： 23分07秒
從「捷運中正紀念堂站」到「捷運市政府站」： 9分29秒
從「捷運北投站」到「捷運中山國中站」： 19分22秒
從「捷運海山站」到「捷運台北101/世貿站」： 22分57秒
從「捷運三民高中站」到「捷運公館站」： 17分40秒
從「捷運台北101/世貿站」到「捷運新莊站」： 22分15秒
從「捷運新店站」到「捷運府中站」： 25分11秒
從「捷運大橋頭站」到「捷運善導寺站」： 5分19秒
從「捷運萬芳醫院站」到「捷運三重國小站」： 19分42秒


In [9]:
interact_manual(ShortestTime, start=nodes, end=nodes); #令使用者選擇起站與終站

interactive(children=(Dropdown(description='start', options=('捷運頂溪站', '捷運石牌站', '捷運大湖公園站', '捷運行天宮站', '捷運南京復興站',…