# 使用Python來讀取OpenData，以台北市政府為例

## 案例幫助我們學會什麼?  
首先，這個案例可以幫助我們了解如何使用**OpenData**，我們在這個案例之中使用了台北市政府的開放資料，並且透過開放資料來分析相關資料。在本節範例中我們選擇**台北捷運各站進出量統計**，這份資料相當適合`房仲業`、`零售業`等等產業使用。我們可以透過定期取得每個捷運站的資料來推論，此處地價以及人流的成長以及衰退。通常流量越高的捷運站，也代表著附近的人潮流動量很大，透過這樣的分析我們可以與其他資料交叉分析，建立我們將來會使用的交叉比對模型。

開放式資料庫查詢:[台北市政府開放資料](http://data.taipei/)

## 如何使用python來擷取開放資料，並且做一些基本處理呢?

- 範例選擇: 台北捷運各站進出量統計
- 讀取檔案格式: JSON格式
- API接口位置: http://data.taipei/opendata/datalist/apiAccess?scope=datasetMetadataSearch&q=id:1d71c478-205f-42c5-8386-35f86d74fdd1 

## 程式語言環境
- Python3.6
- 使用套件 `requests` `json`
    - Requests套件說明: 用來傳遞Http/Https封包，並且擷取內容回來

In [14]:
import requests
import json
r = requests.get("http://data.taipei/opendata/datalist/apiAccess?scope=resourceAquire&rid=3bab319a-5a0e-403c-8660-a70d48380162") ##填入想要查詢的API位置
data =r.json() ## 取得JSON格式的封裝資料data

>> 以上操作，我們便可以將台北捷運的旅客流量取得，並且根據所取得的資料來製作表格統計

In [26]:
##print(data) ## 印出data的資料
print(data.get('result').get('results')[0]) ## __id代表日期  可以透過日期來取得時間

{'_id': '1', '日期': '2015/1/1', '松山機場': '4,417', '中山國中': '10,131', '南京復興': '17,318', '忠孝復興': '51,438', '大安': '11,067', '科技大樓': '8,230', '六張犁': '7,997', '麟光': '3,619', '辛亥': '2,225', '萬芳醫院': '8,093', '萬芳社區': '2,092', '木柵': '3,899', '動物園': '18,539', '大直': '5,710', '劍南路': '13,257', '西湖': '5,024', '港墘': '5,532', '文德': '3,386', '內湖': '6,689', '大湖公園': '3,785', '葫洲': '5,342', '東湖': '6,161', '南港軟體園區': '1,392', '南港展覽館': '18,569', '小碧潭': '2,012', '新店': '13,249', '新店區公所': '9,020', '七張': '12,019', '大坪林': '13,547', '景美': '13,138', '萬隆': '7,659', '公館': '27,443', '台電大樓': '17,455', '古亭': '20,993', '中正紀念堂': '22,463', '小南門': '3,267', '頂溪': '28,573', '永安市場': '20,280', '景安': '18,957', '南勢角': '17,170', '台大醫院': '13,950', '台北車站': '164,779', '中山': '34,240', '雙連': '18,178', '民權西路': '16,950', '圓山': '30,512', '劍潭': '53,275', '士林': '32,035', '芝山': '19,894', '明德': '8,029', '石牌': '22,173', '唭哩岸': '5,555', '奇岩': '5,848', '北投': '14,424', '新北投': '14,187', '復興崗': '2,835', '忠義': '1,868', '關渡': '9,810', '竹圍': '8,143', '紅樹

>> 以上我們就可以獲得每一天，每一站的進出資料，並且藉由EXCEL或者相關軟體，更深入的解析我們的系統，以及相關使用方式囉。

## 當然我們可以將表格更加精緻的進行處理，讓顯示的過程更好看

### 我今天想要找2015/1/1日，哪一個站的進出站流量最高，哪一個站最低呢?


In [51]:
dayChoose = int(input("選擇一天(時間介於1~31之間)"))
day_2015_1 = data.get('result').get('results')[dayChoose-1] ## 先將資料存放至 day_2015_1的變數之中

for i in day_2015_1.items():
    print(i) ## 透過迴圈的方式可以幫助我們更容易理解

選擇一天(時間介於1~31之間)2
('_id', '2')
('日期', '2015/1/2')
('松山機場', '4,360')
('中山國中', '10,136')
('南京復興', '18,182')
('忠孝復興', '54,697')
('大安', '11,889')
('科技大樓', '8,876')
('六張犁', '7,965')
('麟光', '3,608')
('辛亥', '2,354')
('萬芳醫院', '8,947')
('萬芳社區', '2,171')
('木柵', '4,601')
('動物園', '23,470')
('大直', '5,735')
('劍南路', '12,009')
('西湖', '5,261')
('港墘', '5,728')
('文德', '3,691')
('內湖', '7,222')
('大湖公園', '4,381')
('葫洲', '5,714')
('東湖', '6,245')
('南港軟體園區', '1,201')
('南港展覽館', '17,443')
('小碧潭', '1,913')
('新店', '14,387')
('新店區公所', '8,997')
('七張', '12,123')
('大坪林', '13,920')
('景美', '12,779')
('萬隆', '7,617')
('公館', '27,016')
('台電大樓', '17,766')
('古亭', '22,299')
('中正紀念堂', '20,623')
('小南門', '3,091')
('頂溪', '29,752')
('永安市場', '20,876')
('景安', '20,662')
('南勢角', '17,878')
('台大醫院', '14,963')
('台北車站', '168,677')
('中山', '34,832')
('雙連', '19,628')
('民權西路', '17,670')
('圓山', '26,989')
('劍潭', '52,322')
('士林', '32,466')
('芝山', '21,406')
('明德', '9,389')
('石牌', '25,090')
('唭哩岸', '5,865')
('奇岩', '6,281')
('北投', '15,613')
('新北投', 