## やっていること
- ICネットワークから各ICのdegreeを取り出し、ICマスタに付与

## Input
- ICネットワークデータ: `Input_processed_data/road_master/220303-doronet_ic.csv`
- ICマスタデータ: `Input_processed_data/road_master/220303-ic.csv`

## Output
- degree情報が付与されたICマスタデータ: `Input_processed_data/road_master/ic_merged.csv`

In [1]:
import numpy as np
import pandas as pd

In [2]:
# data directory
PROCESSED_DATA_DIR = '../../Input_processed_data'
ORI_DATA_DIR = '../../Input_original_data'

# ICマスタ, ICネットワーク CSV
IC_CSV = f'{PROCESSED_DATA_DIR}/road_master/220303-ic.csv'
IC_NET_CSV = f'{PROCESSED_DATA_DIR}/road_master/220303-doronet_ic.csv'

## ICネットワークデータからdegree情報を取り出す

In [3]:
# ICネットワークデータを読み込む
df_icnet = pd.read_csv(IC_NET_CSV)
df_icnet.head()

Unnamed: 0,rosen_code,road_code,road_name,direction,start_code,end_code,billing_No,start_name,end_name,start_lat,start_lng,end_lat,end_lng,distance,start_degree,end_degree
0,109,1010,【E1】東名高速道路,0,1010001,1010004,1,東京,東京本線,35.62455,139.626661,35.5911,139.576578,5.86,4,4
1,109,1010,【E1】東名高速道路,0,1010004,1010006,6,東京本線,東名川崎,35.5911,139.576578,35.58415,139.573103,0.83,4,4
2,109,1010,【E1】東名高速道路,0,1010006,1010016,11,東名川崎,横浜青葉,35.58415,139.573103,35.54295,139.540811,5.43,4,4
3,109,1010,【E1】東名高速道路,0,1010016,1010018,16,横浜青葉,横浜青葉ＪＣＴ,35.54295,139.540811,35.54295,139.540811,0.0,4,6
4,109,1010,【E1】東名高速道路,0,1010018,1010011,21,横浜青葉ＪＣＴ,港北ＰＡ,35.54295,139.540811,35.53066,139.533192,1.53,6,4


In [4]:
df_start = df_icnet.loc[:, ['start_code', 'start_name', 'start_degree']]
df_end = df_icnet.loc[:, ['end_code', 'end_name', 'end_degree']]

In [5]:
df_start.head()

Unnamed: 0,start_code,start_name,start_degree
0,1010001,東京,4
1,1010004,東京本線,4
2,1010006,東名川崎,4
3,1010016,横浜青葉,4
4,1010018,横浜青葉ＪＣＴ,6


In [6]:
df_end.head()

Unnamed: 0,end_code,end_name,end_degree
0,1010004,東京本線,4
1,1010006,東名川崎,4
2,1010016,横浜青葉,4
3,1010018,横浜青葉ＪＣＴ,6
4,1010011,港北ＰＡ,4


In [7]:
df_tmp = df_start.merge(
    df_end, 
    left_on=['start_code', 'start_name'], 
    right_on=['end_code', 'end_name'], 
    how='outer'
)
df_tmp

Unnamed: 0,start_code,start_name,start_degree,end_code,end_name,end_degree
0,1010001,東京,4,1010001,東京,4
1,1010001,東京,4,1010001,東京,4
2,1010001,東京,4,1010001,東京,4
3,1010001,東京,4,1010001,東京,4
4,1010004,東京本線,4,1010004,東京本線,4
...,...,...,...,...,...,...
12335,9131040,上野吉無田,4,9131040,上野吉無田,4
12336,9131040,上野吉無田,4,9131040,上野吉無田,4
12337,9131050,山都中島西,2,9131050,山都中島西,2
12338,9134010,谷原交差点,2,9134010,谷原交差点,2


In [8]:
# 各ICのstart_degreeとend_degreeが一致することを確認
df_tmp.start_degree.equals(df_tmp.end_degree)

True

In [9]:
df_tmp.drop_duplicates()

Unnamed: 0,start_code,start_name,start_degree,end_code,end_name,end_degree
0,1010001,東京,4,1010001,東京,4
4,1010004,東京本線,4,1010004,東京本線,4
8,1010006,東名川崎,4,1010006,東名川崎,4
12,1010016,横浜青葉,4,1010016,横浜青葉,4
16,1010018,横浜青葉ＪＣＴ,6,1010018,横浜青葉ＪＣＴ,6
...,...,...,...,...,...,...
12329,9131030,小池高山,4,9131030,小池高山,4
12333,9131040,上野吉無田,4,9131040,上野吉無田,4
12337,9131050,山都中島西,2,9131050,山都中島西,2
12338,9134010,谷原交差点,2,9134010,谷原交差点,2


In [10]:
# ICとdegreeの対応表を作成
df_degree = df_tmp.loc[:, ['start_code', 'start_name', 'start_degree']]
df_degree.columns = ['ic_code', 'ic_name', 'degree']
df_degree

Unnamed: 0,ic_code,ic_name,degree
0,1010001,東京,4
1,1010001,東京,4
2,1010001,東京,4
3,1010001,東京,4
4,1010004,東京本線,4
...,...,...,...
12335,9131040,上野吉無田,4
12336,9131040,上野吉無田,4
12337,9131050,山都中島西,2
12338,9134010,谷原交差点,2


## ICマスタデータにdegree列を付与

In [11]:
# ICマスタデータにdegree列を付与
df_ic = pd.read_csv(IC_CSV)
df_ic.head()

Unnamed: 0,ic_code,ic_name,ic_reading,area_code,pref_code,type,緯度,経度,lat,lng,pref_name
0,1010001,東京,とうきょう,3,13,IC,35/37/28.38,139/37/35.98,35.62455,139.626661,東京都
1,1010004,東京本線,とうきょうほんせん,3,14,IC,35/35/27.96,139/34/35.68,35.5911,139.576578,神奈川県
2,1010006,東名川崎,とうめいかわさき,3,14,IC,35/35/2.93,139/34/23.17,35.58415,139.573103,神奈川県
3,1010011,港北ＰＡ,こうほくぱーきんぐえりあ,3,14,PA,35/31/50.36,139/31/59.49,35.53066,139.533192,神奈川県
4,1010016,横浜青葉,よこはまあおば,3,14,IC,35/32/34.62,139/32/26.92,35.54295,139.540811,神奈川県


In [12]:
# ICマスタデータにdegree列を付与
df_ic = df_ic.merge(df_degree, on=['ic_code', 'ic_name'], how='left')
df_ic.head()

Unnamed: 0,ic_code,ic_name,ic_reading,area_code,pref_code,type,緯度,経度,lat,lng,pref_name,degree
0,1010001,東京,とうきょう,3,13,IC,35/37/28.38,139/37/35.98,35.62455,139.626661,東京都,4.0
1,1010001,東京,とうきょう,3,13,IC,35/37/28.38,139/37/35.98,35.62455,139.626661,東京都,4.0
2,1010001,東京,とうきょう,3,13,IC,35/37/28.38,139/37/35.98,35.62455,139.626661,東京都,4.0
3,1010001,東京,とうきょう,3,13,IC,35/37/28.38,139/37/35.98,35.62455,139.626661,東京都,4.0
4,1010004,東京本線,とうきょうほんせん,3,14,IC,35/35/27.96,139/34/35.68,35.5911,139.576578,神奈川県,4.0


In [13]:
print(df_ic.degree.unique())
print(df_ic.degree.value_counts())

[ 4.  6.  8.  2. nan]
4.0    8952
6.0    1931
8.0    1184
2.0     201
Name: degree, dtype: int64


In [14]:
OUTPUT_CSV = f'{PROCESSED_DATA_DIR}/road_master/ic_merged.csv'

In [18]:
%time df_ic.to_csv(OUTPUT_CSV, index=False)

CPU times: user 92.9 ms, sys: 1.75 ms, total: 94.7 ms
Wall time: 92.7 ms
