## 火車站進出站總人數


```
透過政府資料開放平台取得json資料
取出進站人數和出站人數超過500000人次的火車站
```

In [23]:
%matplotlib notebook
import requests
import json 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
from matplotlib.font_manager import FontProperties
font=FontProperties(fname='/Library/Fonts/Arial Unicode.ttf',size=8)
#下載進出站人數資料
url = 'http://ods.railway.gov.tw/tra-ods-web/ods/download/dataResource/8ae4cabf6973990e0169947ed32454b9'

#透過requests.get()方法取得requests.responces物件
r=requests.get(url,verify=False)

#使用response的content屬性得到json的字串(str)
decoded_content = r.content.decode('utf-8')




In [24]:
#使用json.loads()方法,取得python的list物件
jsObject = json.loads(decoded_content)

#將list物件轉換為DataFrame
frame = pd.DataFrame(jsObject)

#取得的資料只有火車站的code,沒有站名,必需再下載火車站名的資料
frame

Unnamed: 0,trnOpDate,staCode,gateInComingCnt,gateOutGoingCnt
0,20190423,0900,8437,7739
1,20190423,0910,1393,1347
2,20190423,0920,2756,2416
3,20190423,0930,6086,6306
4,20190423,0940,2677,2723
...,...,...,...,...
60124,20191230,7360,6651,7705
60125,20191230,7361,231,222
60126,20191230,7362,260,281
60127,20191230,7380,640,668


In [25]:
#下載火車站資料
staCode_url = 'http://ods.railway.gov.tw/tra-ods-web/ods/download/dataResource/0518b833e8964d53bfea3f7691aea0ee'
staCode_r=requests.get(staCode_url,verify=False)
staCode_content = staCode_r.content.decode('utf-8')
staCode_jsObject = jsObject = json.loads(staCode_content)

#下載的火車站資料,過濾資料,只要取出火車站code,火車站名,火車站的地址
staCode_frame = pd.DataFrame(staCode_jsObject,columns=['stationCode', 'stationName','stationAddrTw'])
staCode_frame



Unnamed: 0,stationCode,stationName,stationAddrTw
0,6000,臺東,臺東縣 臺東市 岩灣里岩灣路 101 巷 598 號
1,6010,山里,臺東縣 卑南鄉 嘉豐村山里路 108 號
2,6020,鹿野,臺東縣 鹿野鄉 鹿野村中正路 38 號
3,6030,瑞源,臺東縣 鹿野鄉 瑞源村瑞景路一段 336 巷 8 號 之 1
4,6040,瑞和,臺東縣 鹿野鄉 瑞和村瑞景路三段 1 之 1 號
...,...,...,...
235,7150,冬山,宜蘭縣 冬山鄉 冬山村中正路 1 號
236,3435,水里,南投縣 水里鄉 水里村民生路 440 號
237,7080,武塔,宜蘭縣 南澳鄉 武塔村新溪路 18 號
238,5020,麟洛,屏東縣 麟洛鄉 田道村中華路站前巷 15 號


In [26]:
#僅取出火車站地址內的縣市資料
#利用DataFrame的apply()方法,取出每一個series
#利用索引名程取出地址,並分割取出第一個縣市資料
#由於其中有一筆資料是空的，split()時會raise exception, 使用try except來排除錯誤

def county(x):
    try:
        x['stationAddrTw'] = x['stationAddrTw'].split()[0]
        return x;
    except:
        pass;    

staCode_frame = staCode_frame.apply(county,axis=1) 
staCode_frame.head(20)

Unnamed: 0,stationCode,stationName,stationAddrTw
0,6000,臺東,臺東縣
1,6010,山里,臺東縣
2,6020,鹿野,臺東縣
3,6030,瑞源,臺東縣
4,6040,瑞和,臺東縣
5,6050,關山,臺東縣
6,6060,海端,臺東縣
7,6070,池上,臺東縣
8,6080,富里,花蓮縣
9,6100,東里,花蓮縣


In [27]:
#使用pd.merge()方法將frame和staCode_frame做left_join
mergeFrame = pd.merge(frame,staCode_frame,left_on='staCode',right_on='stationCode',how='left')

In [28]:
mergeFrame

Unnamed: 0,trnOpDate,staCode,gateInComingCnt,gateOutGoingCnt,stationCode,stationName,stationAddrTw
0,20190423,0900,8437,7739,0900,基隆,基隆市
1,20190423,0910,1393,1347,0910,三坑,基隆市
2,20190423,0920,2756,2416,0920,八堵,基隆市
3,20190423,0930,6086,6306,0930,七堵,基隆市
4,20190423,0940,2677,2723,0940,百福,基隆市
...,...,...,...,...,...,...,...
60124,20191230,7360,6651,7705,7360,瑞芳,新北市
60125,20191230,7361,231,222,7361,海科館,基隆市
60126,20191230,7362,260,281,7362,八斗子,基隆市
60127,20191230,7380,640,668,7380,四腳亭,新北市


In [29]:
#將日期欄位資料類型改為datetime
mergeFrame['trnOpDate'] = mergeFrame['trnOpDate'].map(lambda x:datetime.strptime(x,'%Y%m%d'))

In [30]:
#檢查類型是否有改變
mergeFrame.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 60129 entries, 0 to 60128
Data columns (total 7 columns):
trnOpDate          60129 non-null datetime64[ns]
staCode            60129 non-null object
gateInComingCnt    60129 non-null object
gateOutGoingCnt    60129 non-null object
stationCode        60129 non-null object
stationName        60129 non-null object
stationAddrTw      60129 non-null object
dtypes: datetime64[ns](1), object(6)
memory usage: 3.7+ MB


In [31]:
#將進入人數改為int類型
mergeFrame['gateInComingCnt'] = mergeFrame['gateInComingCnt'].map(lambda x:int(x))

In [32]:
#使用astype改為int類型
mergeFrame['gateOutGoingCnt'] = mergeFrame['gateOutGoingCnt'].map(lambda x:int(x))
mergeFrame.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 60129 entries, 0 to 60128
Data columns (total 7 columns):
trnOpDate          60129 non-null datetime64[ns]
staCode            60129 non-null object
gateInComingCnt    60129 non-null int64
gateOutGoingCnt    60129 non-null int64
stationCode        60129 non-null object
stationName        60129 non-null object
stationAddrTw      60129 non-null object
dtypes: datetime64[ns](1), int64(2), object(4)
memory usage: 3.7+ MB


In [33]:
#使用reindex取出想要的欄位
mergeFrame = mergeFrame.reindex(columns=['trnOpDate','stationName','stationAddrTw', 'gateInComingCnt','gateOutGoingCnt'])
mergeFrame

Unnamed: 0,trnOpDate,stationName,stationAddrTw,gateInComingCnt,gateOutGoingCnt
0,2019-04-23,基隆,基隆市,8437,7739
1,2019-04-23,三坑,基隆市,1393,1347
2,2019-04-23,八堵,基隆市,2756,2416
3,2019-04-23,七堵,基隆市,6086,6306
4,2019-04-23,百福,基隆市,2677,2723
...,...,...,...,...,...
60124,2019-12-30,瑞芳,新北市,6651,7705
60125,2019-12-30,海科館,基隆市,231,222
60126,2019-12-30,八斗子,基隆市,260,281
60127,2019-12-30,四腳亭,新北市,640,668


In [34]:
mergeFrame.columns = ['日期','站名', '縣市','進站數量','出站數量']
mergeFrame

Unnamed: 0,日期,站名,縣市,進站數量,出站數量
0,2019-04-23,基隆,基隆市,8437,7739
1,2019-04-23,三坑,基隆市,1393,1347
2,2019-04-23,八堵,基隆市,2756,2416
3,2019-04-23,七堵,基隆市,6086,6306
4,2019-04-23,百福,基隆市,2677,2723
...,...,...,...,...,...
60124,2019-12-30,瑞芳,新北市,6651,7705
60125,2019-12-30,海科館,基隆市,231,222
60126,2019-12-30,八斗子,基隆市,260,281
60127,2019-12-30,四腳亭,新北市,640,668


In [35]:
sumFrame=mergeFrame.groupby(['縣市','站名']).sum()
sumFrame

Unnamed: 0_level_0,Unnamed: 1_level_0,進站數量,出站數量
縣市,站名,Unnamed: 2_level_1,Unnamed: 3_level_1
南投縣,水里,48427,49909
南投縣,濁水,38156,34364
南投縣,車埕,120384,153826
南投縣,集集,128211,96512
南投縣,龍泉,4064,4956
...,...,...,...
高雄市,美術館,224861,217328
高雄市,路竹,442266,455950
高雄市,高雄,4312547,4321579
高雄市,鳳山,1335169,1303015


In [36]:
#使用concat結合進站數量>=5000000 boolean的series,和出站數量>=5000000 boolean的series
conditions = pd.concat([sumFrame['進站數量'] >= 5000000, sumFrame['出站數量'] >= 5000000],axis=1)

#使用dataFrame的boolean方法all()或 any()取得seriese boolean
andCondition = conditions.all(axis=1)
andCondition

縣市   站名 
南投縣  水里     False
     濁水     False
     車埕     False
     集集     False
     龍泉     False
            ...  
高雄市  美術館    False
     路竹     False
     高雄     False
     鳳山     False
     鼓山     False
Length: 239, dtype: bool

In [39]:
result = sumFrame[andCondition]
result

Unnamed: 0_level_0,Unnamed: 1_level_0,進站數量,出站數量
縣市,站名,Unnamed: 2_level_1,Unnamed: 3_level_1
新北市,板橋,5619082,5632896
新竹市,新竹,5162739,5214551
桃園市,中壢,6893703,6964635
桃園市,桃園,7175863,7393189
臺中市,臺中,6694968,6580779
臺北市,臺北,16224914,16109677
臺南市,臺南,6752339,6863950


In [38]:
figure1, ax1 = plt.subplots() #使用pyplot的subplots()建立單獨figure和AxesSubplot
result.plot(ax = ax1, kind='bar')
ax1.legend(prop=font)
ax1.set_title('進站人數和出站數量都超過500萬的車站',fontproperties=font)
ax1.set_xticklabels(result.index,fontproperties=font,rotation=30)
ax1.set_yticklabels(['0','200萬','400萬', '600萬', '800萬','1000萬', '1200萬', '1400萬', '1600萬'],fontproperties=font)

<IPython.core.display.Javascript object>

[Text(0, 0, '0'),
 Text(0, 0, '200萬'),
 Text(0, 0, '400萬'),
 Text(0, 0, '600萬'),
 Text(0, 0, '800萬'),
 Text(0, 0, '1000萬'),
 Text(0, 0, '1200萬'),
 Text(0, 0, '1400萬'),
 Text(0, 0, '1600萬')]