## 高交通量參考值
#### 分組後再找出車流量大於 20萬 的路線或者做其他分析過濾，只顯示周 六與周日，X、Y 軸上的標籤可做修改，再以圖表顯示
- [政府資料開放平台](https://data.gov.tw/dataset/21115)

In [3]:
%matplotlib notebook
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
font=FontProperties(fname='/Library/Fonts/Arial Unicode.ttf',size=8)

In [4]:
#讀取csv
#確認需要欄位(路線方向,週六,週日)
#路線方向的value有重覆

df = pd.read_csv('examples/交通流量.csv')
#檢查是否有null
df.isnull().sum()

路線方向    0
路段      0
交流道     0
進出口     0
週六      0
週日      0
週2-4    0
dtype: int64

In [5]:
#如果有nan的處理方法
df.dropna(inplace=True)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 756 entries, 0 to 755
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   路線方向    756 non-null    object
 1   路段      756 non-null    object
 2   交流道     756 non-null    object
 3   進出口     756 non-null    object
 4   週六      756 non-null    object
 5   週日      756 non-null    object
 6   週2-4    756 non-null    object
dtypes: object(7)
memory usage: 41.5+ KB


In [7]:
#檢查是否可以轉換為整數,不可轉換,輸出文字的格式
def checkConvert(s):
    global i
    try:
        int(s)
    except:
        print(s)
        
df['週六'].map(checkConvert)

19,726
17,193


0      None
1      None
2      None
3      None
4      None
       ... 
751    None
752    None
753    None
754    None
755    None
Name: 週六, Length: 756, dtype: object

In [7]:
#由於週六和週日欄位是字串,字串內有「,」號,要將dtype轉換為int64
#使用pd.Series的map()->Data Transformation

def f(x):
    if ',' in x:
        l=x.split(',')
        return int(''.join(l))
    else:
        return int(x)

df['週六'] = df['週六'].map(f)
df['週日'] = df['週日'].map(f)
df

Unnamed: 0,路線方向,路段,交流道,進出口,週六,週日,週2-4
0,國1南向,非主線資料,基隆端,進口,34246,31547,29403
1,國1南向,非主線資料,基隆,出口,9484,8123,9403
2,國1南向,非主線資料,基隆,"進口1-尚仁路,基隆",2108,1997,2579
3,國1南向,非主線資料,基隆,"進口2-麥金路,金山",6051,5398,5895
4,國1南向,非主線資料,八堵,進口,10785,11990,9027
...,...,...,...,...,...,...,...
751,國10西向,非主線資料,燕巢系統,出口,4612,4647,3906
752,國10西向,非主線資料,燕巢系統,進口1-國3南,6515,8890,6517
753,國10西向,非主線資料,燕巢系統,進口2-國3北,10822,13415,11181
754,國10西向,非主線資料,嶺口,進口,5196,5680,4242


In [8]:
#使用info() method,檢查資料是否已經轉換為int
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 756 entries, 0 to 755
Data columns (total 7 columns):
路線方向    756 non-null object
路段      756 non-null object
交流道     756 non-null object
進出口     756 non-null object
週六      756 non-null int64
週日      756 non-null int64
週2-4    756 non-null object
dtypes: int64(2), object(5)
memory usage: 47.2+ KB


In [9]:
#將路線groupby後,取出週六和週日欄位
grouped = df.groupby('路線方向')['週六','週日']
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f87b8a07ad0>

In [10]:
#使用groupby物件的sum()方法,計算出每條路線周六和周日的總流量
sum = grouped.sum()
sum

Unnamed: 0_level_0,週六,週日
路線方向,Unnamed: 1_level_1,Unnamed: 2_level_1
國10東向,190315,179386
國10西向,203908,212663
國1北向,2201802,2087014
國1南向,2274715,2066203
國1高架北向,294048,294671
國1高架南向,287731,265966
國2東向,339452,322930
國2西向,309509,298983
國3北向,1309358,1349691
國3南向,1364935,1257226


In [11]:
#使用stack()方法,建立series_sum
series_sum = sum.stack()
series_sum

路線方向      
國10東向   週六     190315
        週日     179386
國10西向   週六     203908
        週日     212663
國1北向    週六    2201802
        週日    2087014
國1南向    週六    2274715
        週日    2066203
國1高架北向  週六     294048
        週日     294671
國1高架南向  週六     287731
        週日     265966
國2東向    週六     339452
        週日     322930
國2西向    週六     309509
        週日     298983
國3北向    週六    1309358
        週日    1349691
國3南向    週六    1364935
        週日    1257226
國3甲東向   週六      87002
        週日      74524
國3甲西向   週六     104507
        週日     100709
國4東向    週六     102624
        週日      98616
國4西向    週六     103744
        週日     104851
國5北向    週六     109263
        週日     110033
國5南向    週六     123497
        週日      96328
國6東向    週六      60824
        週日      52078
國6西向    週六      54810
        週日      68804
國8東向    週六      90036
        週日      89496
國8西向    週六      89276
        週日      94721
dtype: int64

In [12]:
#使用比較運算子建立boolean series,再將資料過濾

series_sum = series_sum[series_sum >= 200000]
series_sum

路線方向      
國10西向   週六     203908
        週日     212663
國1北向    週六    2201802
        週日    2087014
國1南向    週六    2274715
        週日    2066203
國1高架北向  週六     294048
        週日     294671
國1高架南向  週六     287731
        週日     265966
國2東向    週六     339452
        週日     322930
國2西向    週六     309509
        週日     298983
國3北向    週六    1309358
        週日    1349691
國3南向    週六    1364935
        週日    1257226
dtype: int64

In [13]:
#使用unstack(),將series轉換為DataFrame,以利於資料的顯示
result = series_sum.unstack()
result

Unnamed: 0_level_0,週六,週日
路線方向,Unnamed: 1_level_1,Unnamed: 2_level_1
國10西向,203908,212663
國1北向,2201802,2087014
國1南向,2274715,2066203
國1高架北向,294048,294671
國1高架南向,287731,265966
國2東向,339452,322930
國2西向,309509,298983
國3北向,1309358,1349691
國3南向,1364935,1257226


In [14]:
#figure1, ax1 = plt.subplots() #使用pyplot的subplots()建立單獨figure和AxesSubplot
figure1 = plt.figure()
ax1 = figure1.add_subplot(1,1,1)
result.plot(ax = ax1, kind='bar')
ax1.legend(prop=font)
ax1.set_title('流量超過20萬的路線',fontproperties=font)
ax1.set_xticklabels(sum.index,fontproperties=font)

<IPython.core.display.Javascript object>

[Text(0, 0, '國10東向'),
 Text(0, 0, '國10西向'),
 Text(0, 0, '國1北向'),
 Text(0, 0, '國1南向'),
 Text(0, 0, '國1高架北向'),
 Text(0, 0, '國1高架南向'),
 Text(0, 0, '國2東向'),
 Text(0, 0, '國2西向'),
 Text(0, 0, '國3北向')]