分析改用特定道路組合下為有設施的機率

In [None]:
import os
import pandas as pd
import bnlearn as bn
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = ['Arial Unicode Ms']

current_dir = os.getcwd()
parent_dir = os.path.dirname(current_dir)
analyze_path = os.path.join(parent_dir, "utils")

os.chdir(analyze_path)

In [None]:
# This is from TDAv2
combined_data = pd.read_csv('../ComputedData/ForModel/combined_data_with_hotspot.csv')
combined_data.shape

In [None]:
select_group = [
    # 號誌
    '號誌-號誌種類名稱', '號誌-號誌動作名稱',

    # 車道劃分
    '車道劃分設施-分道設施-快車道或一般車道間名稱',
    '車道劃分設施-分道設施-快慢車道間名稱', '車道劃分設施-分道設施-路面邊線名稱',

    # 大類別
    '事故類型及型態子類別名稱', '車道劃分設施-分向設施子類別名稱',
    '道路型態子類別名稱',

    # 其他
    '速限-第1當事者',
    '道路類別-第1當事者-名稱',

    # 設施
    'youbike_100m_count',
    
    # 駕駛、行人行為
    '肇因研判子類別名稱-主要',

    'COUNTYNAME'
    ]

data = combined_data[select_group].copy()
data['facility'] = data[['youbike_100m_count']].apply(lambda row: '1' if (row > 0).any() else '0', axis=1)
data.drop(columns=['youbike_100m_count'], inplace=True)

max_speed = data['速限-第1當事者'].max()
bins = range(0, int(max_speed) + 11, 10)

data['速限-第1當事者'] = pd.cut(
    data['速限-第1當事者'],
    bins=bins,
    right=False, 
    include_lowest=True,
    labels=[f"{i}-{i+9}" for i in bins[:-1]]
)

In [None]:
parent = [
    '號誌-號誌種類名稱', '號誌-號誌動作名稱','車道劃分設施-分道設施-快車道或一般車道間名稱', '車道劃分設施-分道設施-快慢車道間名稱',
    '車道劃分設施-分道設施-路面邊線名稱', '車道劃分設施-分向設施子類別名稱', '道路型態子類別名稱',
    '速限-第1當事者', '道路類別-第1當事者-名稱', 'facility', 'COUNTYNAME'
    ]
cause = ['肇因研判子類別名稱-主要']
result = ['事故類型及型態子類別名稱']

white_list = [
    ('速限-第1當事者', '肇因研判子類別名稱-主要'),
    ('道路類別-第1當事者-名稱', '肇因研判子類別名稱-主要'),
    ('道路型態子類別名稱', '肇因研判子類別名稱-主要'),
    ('facility', '肇因研判子類別名稱-主要'),
    ('號誌-號誌種類名稱', '肇因研判子類別名稱-主要'),
]

black_list = []
# cause -> parent
black_list += [(c, p) for c in cause for p in parent]
# result -> parent/cause
black_list += [(r, x) for r in result for x in (parent + cause + result)]

In [None]:
def get_model(dt):
    # 學哪些變數之間有邊，結果是一個DAG
    model = bn.structure_learning.fit(dt, methodtype='hc', scoretype='bic', bw_list_method='edges',
                                    # 肇因對於事故類型一定是上游。ex. 不會因為撞路樹而造成患病，而是因為患病才造成撞路樹
                                    black_list=black_list, white_list=white_list,
                                    fixed_edges=white_list, max_indegree=None)
    # 計算每個節點的 條件機率表 (CPT, Conditional Probability Table)
    model_param = bn.parameter_learning.fit(model, dt, scoretype='bdeu', methodtype='bayes')
    # 計算邊緣強度，如果p小於顯著就是有相關
    model_independence = bn.independence_test(model_param, dt, test='chi_square', prune=True)

    return model, model_param, model_independence

model_all, model_param_all, model_independence_all = get_model(data)

In [None]:
from utils_behaviour import draw_bn_plotly
draw_bn_plotly(model_independence_all, layout_algo='spring', en=False, width=600, height=400, seed=42, iter=30)

In [None]:
from utils_behaviour import cpd_add_n, filter_cpd_for_hotspot, get_outlier
from config import category_value_map, feature_name_map
parent = ['速限-第1當事者', '道路類別-第1當事者-名稱', '道路型態子類別名稱', 'facility', '號誌-號誌種類名稱']
child = '肇因研判子類別名稱-主要'
evidence_v = list(data['肇因研判子類別名稱-主要'].value_counts().head(5).index)

In [None]:
CPDs = bn.print_CPD(model_param_all)
dfprob_cause = CPDs[child]
filtered = cpd_add_n(parent, child, dfprob_cause, data, threshold=0)

In [8]:
filtered_n = filtered[filtered['n'] > 0]
filtered_n.sort_values(by=['號誌-號誌種類名稱', '速限-第1當事者', '道路型態子類別名稱', 'facility', 'p'], ascending=False, inplace=True)

filtered_n['total_n'] = (
    filtered_n
    .groupby(parent)['n']
    .transform('sum')
)

filtered_n.sort_values(by=['total_n', 'p'], ascending=False, inplace=True)

In [9]:
check_sum = (filtered_n.groupby(parent)['p'].sum())
check_sum

速限-第1當事者  道路類別-第1當事者-名稱  道路型態子類別名稱  facility  號誌-號誌種類名稱
0-9       其他             三岔路        0         無號誌          0.9964
                                              行車管制號誌       0.9658
                                              閃光號誌         0.9331
                                    1         無號誌          0.9827
                                              行車管制號誌       0.9331
                                                            ...  
90-99     省道             彎曲路及附近     0         無號誌          0.9331
                         直路         0         無號誌          0.9984
                                              行車管制號誌       0.9331
                         高架道路       0         無號誌          0.9954
          縣道             直路         0         無號誌          0.9331
Name: p, Length: 1931, dtype: float64

In [10]:
filtered_n = filtered_n[['道路類別-第1當事者-名稱', '號誌-號誌種類名稱', '速限-第1當事者', '道路型態子類別名稱', '肇因研判子類別名稱-主要', 'facility', 'p', 'n', 'total_n']]
filtered_n.sort_values(
    by=['號誌-號誌種類名稱', '速限-第1當事者', '道路型態子類別名稱', '肇因研判子類別名稱-主要', '道路類別-第1當事者-名稱', 'facility'], 
    ascending=False, inplace=False)
filtered_n

Unnamed: 0,道路類別-第1當事者-名稱,號誌-號誌種類名稱,速限-第1當事者,道路型態子類別名稱,肇因研判子類別名稱-主要,facility,p,n,total_n
623208,市區道路,無號誌,50-59,直路,未保持行車安全距離,0,0.1401,5473,39056
111720,市區道路,無號誌,50-59,直路,其他不當駕車行為,0,0.1346,5258,39056
402024,市區道路,無號誌,50-59,直路,恍神、緊張、心不在焉分心駕駛,0,0.1076,4202,39056
996456,市區道路,無號誌,50-59,直路,起步時未注意安全,0,0.0763,2981,39056
637032,市區道路,無號誌,50-59,直路,未保持行車安全間隔,0,0.0541,2114,39056
...,...,...,...,...,...,...,...,...,...
221209,縣道,無號誌,0-9,其他,右轉彎未依規定,0,0.9331,1,1
1230362,鄉道,無號誌,0-9,其他,違反其他標誌(線)禁制,0,0.9331,1,1
877831,縣道,無號誌,0-9,三岔路,穿越道路未注意左右來車,1,0.9331,1,1
1499909,村里道路,無號誌,0-9,三岔路,開啟或關閉車門不當,1,0.9331,1,1


In [27]:
import numpy as np
design = ['道路類別-第1當事者-名稱', '號誌-號誌種類名稱', '速限-第1當事者', '道路型態子類別名稱']
df = filtered_n.copy()
df['facility'] = df['facility'].astype(int)

# 對「道路組合 + facility」把 n 加總
g = (df.groupby(design + ['facility'])['n']
       .sum()
       .unstack('facility', fill_value=0)
       .rename(columns={0: 'facility_0', 1: 'facility_1'})
    )

# P(facility=1 | 道路組合)
g['total_n'] = g['facility_0'] + g['facility_1']
g['Facility_P'] = g['facility_1'] / (g['total_n']).replace(0, np.nan)

g = g.reset_index()
g = g[(g['total_n'] > 0) &
      (g['Facility_P'] > 0.1)]
g.sort_values(by='Facility_P', ascending=False, inplace=True)
g_hotspot = filter_cpd_for_hotspot(g)

In [16]:
for_hotspot = ['號誌-號誌種類名稱', '速限-第1當事者', '道路型態子類別名稱', 'Facility_P']
g_hotspot = g_hotspot[['號誌-號誌種類名稱', '速限-第1當事者', '道路型態子類別名稱', 'Facility_P', 'total_n']]
g_hotspot.sort_values(by=['號誌-號誌種類名稱', '速限-第1當事者', 'Facility_P'], ascending=False, inplace=True)
g_hotspot['Facility_P'] = g_hotspot['Facility_P'].round(3)
for col in ['號誌-號誌種類名稱', '道路型態子類別名稱']:
    g_hotspot[col] = g_hotspot[col].map(category_value_map[col])
g_hotspot.rename(columns=feature_name_map, inplace=True)

In [None]:
g_hotspot.to_excel('../ComputedData/Behaviour/BehaviourV2_hotspot.xlsx', index=False)

## 去掉肇因重新分析
他的效果和BehaviourV2_hotspot相似，都是找出有設施的機率

In [None]:
parent = [
    '號誌-號誌種類名稱', '號誌-號誌動作名稱','車道劃分設施-分道設施-快車道或一般車道間名稱', '車道劃分設施-分道設施-快慢車道間名稱',
    '車道劃分設施-分道設施-路面邊線名稱', '車道劃分設施-分向設施子類別名稱', '道路型態子類別名稱',
    '速限-第1當事者', '道路類別-第1當事者-名稱', 'facility', 'COUNTYNAME'
    ]
cause = ['facility']
result = ['事故類型及型態子類別名稱']

white_list = [
    ('速限-第1當事者', 'facility'),
    ('道路類別-第1當事者-名稱', 'facility'),
    ('道路型態子類別名稱', 'facility'),
    ('號誌-號誌種類名稱', 'facility'),
]

black_list = []
# cause -> parent
black_list += [(c, p) for c in cause for p in parent]
# result -> parent/cause
black_list += [(r, x) for r in result for x in (parent + cause + result)]

In [None]:
def get_model(dt):
    # 學哪些變數之間有邊，結果是一個DAG
    model = bn.structure_learning.fit(dt, methodtype='hc', scoretype='bic', bw_list_method='edges',
                                    # 肇因對於事故類型一定是上游。ex. 不會因為撞路樹而造成患病，而是因為患病才造成撞路樹
                                    black_list=black_list, white_list=white_list,
                                    fixed_edges=white_list, max_indegree=None)
    # 計算每個節點的 條件機率表 (CPT, Conditional Probability Table)
    model_param = bn.parameter_learning.fit(model, dt, scoretype='bdeu', methodtype='bayes')
    # 計算邊緣強度，如果p小於顯著就是有相關
    model_independence = bn.independence_test(model_param, dt, test='chi_square', prune=True)

    return model, model_param, model_independence

model_all, model_param_all, model_independence_all = get_model(data)

In [None]:
from utils_behaviour import draw_bn_plotly
draw_bn_plotly(model_independence_all, layout_algo='spring', en=False, width=600, height=400, seed=42, iter=30)

In [None]:
from utils_behaviour import cpd_add_n, filter_cpd_for_hotspot, get_outlier
from config import category_value_map, feature_name_map
parent = ['速限-第1當事者', '道路類別-第1當事者-名稱', '道路型態子類別名稱', '號誌-號誌種類名稱']
child = 'facility'
evidence_v = list(data['facility'].value_counts().head(5).index)
CPDs = bn.print_CPD(model_param_all)
dfprob_cause = CPDs[child]
filtered = cpd_add_n(parent, child, dfprob_cause, data, threshold=0)

In [None]:
hotspot = filter_cpd_for_hotspot(filtered)
hotspot = hotspot[(hotspot['p'] > 0.1) &
                  (hotspot['n'] > 100)]

In [None]:
filtered_0 = hotspot[(hotspot['facility'] == '0')].sort_values(by=['p'], ascending=False)#.head(10)
filtered_1 = hotspot[(hotspot['facility'] == '1')].sort_values(by=['p'], ascending=False)#.head(10)
full_filter = pd.concat([filtered_0, filtered_1], axis=0)
full_filter.sort_values(by=['facility', '號誌-號誌種類名稱', '速限-第1當事者', 'p'], ascending=False, inplace=True)
full_filter
# for col in ['道路類別-第1當事者-名稱', '道路型態子類別名稱', '號誌-號誌種類名稱']:
#     full_filter[col] = full_filter[col].map(category_value_map[col])
# full_filter.rename(columns=feature_name_map, inplace=True)
# full_filter.to_excel(f'../ComputedData/Behaviour/Origin_outlierV2.xlsx', index=False)

In [None]:
full_filter[
    (full_filter['facility'] == '0') &
    (full_filter['號誌-號誌種類名稱'] == '行車管制號誌(附設行人專用號誌)')
]