## ライブラリインポート

In [1]:
# 標準ライブラリ
import os
import pickle
import random

In [2]:
# サードパーティー
import pandas as pd

In [3]:
# 自作ライブラリ
from entity import get_area_list, load_data, get_coordinates, get_dist_matrix
from visualize import visualize

## データ入力

- 全データ取得

In [4]:
area_df = load_data('13tokyo.csv')

In [5]:
area_list = get_area_list(area_df)
area_list

[AreaModel(id=0, address_code=101006401, prefectures_code=13, municipalities_code=13101, town_area_code=131010042, post_code='101-0064', office_flg=0, obsolete_flg=1, prefectures_name='東京都', prefectures_name_kana='トウキョウト', municipalities_name='千代田区', municipalities_name_kana='チヨダク', town_area_name='猿楽町', town_area_name_kana=nan, town_area_supplement=nan, kyoto_street_name=nan, character_chome_name=nan, character_chome_name_kana=nan, supplement_name=nan, office_name=nan, office_name_kana=nan, office_address_name=nan, new_address_code=nan, coordinate=None),
 AreaModel(id=1, address_code=101006101, prefectures_code=13, municipalities_code=13101, town_area_code=131010056, post_code='101-0061', office_flg=0, obsolete_flg=1, prefectures_name='東京都', prefectures_name_kana='トウキョウト', municipalities_name='千代田区', municipalities_name_kana='チヨダク', town_area_name='三崎町', town_area_name_kana=nan, town_area_supplement=nan, kyoto_street_name=nan, character_chome_name=nan, character_chome_name_kana=nan, s

- 住所情報が格納されているデータのみ抽出

In [6]:
office_address_exist_df = area_df[pd.isna(area_df["office_address_name"]) == False]
office_address_exist_df

Unnamed: 0,address_code,prefectures_code,municipalities_code,town_area_code,post_code,office_flg,obsolete_flg,prefectures_name,prefectures_name_kana,municipalities_name,...,town_area_name_kana,town_area_supplement,kyoto_street_name,character_chome_name,character_chome_name_kana,supplement_name,office_name,office_name_kana,office_address_name,new_address_code
3,101867200,13,13101,131010000,101-8672,1,0,東京都,トウキョウト,千代田区,...,,（該当なし）,,,,,株式会社　極東書店,カブシキガイシヤ　キヨクトウシヨテン,三崎町２－７－１０帝都三崎町ビル,
4,101822800,13,13101,131010000,101-8228,1,0,東京都,トウキョウト,千代田区,...,,（該当なし）,,,,,大林道路　株式会社,オオバヤシドウロ　カブシキガイシヤ,猿楽町２丁目８番８号住友不動産猿楽町ビル１６階,
5,101842100,13,13101,131010000,101-8421,1,0,東京都,トウキョウト,千代田区,...,,（該当なし）,,,,,株式会社　じほう,カブシキガイシヤ　ジホウ,猿楽町１－５－１５猿楽町ＳＳビル,
6,101836600,13,13101,131010000,101-8366,1,0,東京都,トウキョウト,千代田区,...,,（該当なし）,,,,,鉄建建設　（株）,テツケンケンセツ,三崎町２丁目５－３,
7,101837200,13,13101,131010000,101-8372,1,0,東京都,トウキョウト,千代田区,...,,（該当なし）,,,,,公益財団法人　結核予防会　総合健診推進センター,コウエキザイダンホウジン　ケツカクヨボウカイ　ソウゴウケンシンスイシンセンタ－,三崎町１丁目３－１２,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8804,190129300,13,13303,133030012,190-1293,1,0,東京都,トウキョウト,西多摩郡瑞穂町,...,ハコネガサキヒガシマツバラ,,,,,,株式会社　桝屋,カブシキガイシヤ　マスヤ,箱根ケ崎東松原２６－１７,
8805,190129501,13,13303,133030012,190-1295,1,0,東京都,トウキョウト,西多摩郡瑞穂町,...,ハコネガサキヒガシマツバラ,,,,,,株式会社　ソニック,カブシキガイシヤ　ソニツク,箱根ケ崎東松原１０番地２２,
8813,190019200,13,13305,133050002,190-0192,1,0,東京都,トウキョウト,西多摩郡日の出町,...,ヒライ,,,,,,日の出町役場,ヒノデマチヤクバ,平井２７８０,
8866,100149200,13,13401,134010001,100-1492,1,0,東京都,トウキョウト,八丈島八丈町,...,オオカゴウ,,,,,,東京都八丈支庁,トウキヨウトハチジヨウシチヨウ,大賀郷２４６６－２,


In [7]:
office_address_exist_list = get_area_list(office_address_exist_df)
office_address_exist_list

[AreaModel(id=3, address_code=101867200, prefectures_code=13, municipalities_code=13101, town_area_code=131010000, post_code='101-8672', office_flg=1, obsolete_flg=0, prefectures_name='東京都', prefectures_name_kana='トウキョウト', municipalities_name='千代田区', municipalities_name_kana='チヨダク', town_area_name=nan, town_area_name_kana='\u3000', town_area_supplement='（該当なし）', kyoto_street_name=nan, character_chome_name=nan, character_chome_name_kana=nan, supplement_name=nan, office_name='株式会社\u3000極東書店', office_name_kana='カブシキガイシヤ\u3000キヨクトウシヨテン', office_address_name='三崎町２－７－１０帝都三崎町ビル', new_address_code=nan, coordinate=None),
 AreaModel(id=4, address_code=101822800, prefectures_code=13, municipalities_code=13101, town_area_code=131010000, post_code='101-8228', office_flg=1, obsolete_flg=0, prefectures_name='東京都', prefectures_name_kana='トウキョウト', municipalities_name='千代田区', municipalities_name_kana='チヨダク', town_area_name=nan, town_area_name_kana='\u3000', town_area_supplement='（該当なし）', kyoto_street_na

## 住所から緯度経度を取得
- データ数が多いので、処理時間を短縮させるためにpickleでデータ保存しておく
- 初回実行のみAPI経由で緯度経度を取得する。再度実行時は、ダンプファイルをロードする。

In [8]:
# データ数を減らす場合
filter_flg = False
if filter_flg:
    office_address_exist_list = random.sample(office_address_exist_list, 100)

In [9]:
dump_file = '13tokyo.pickle'
if os.path.exists(dump_file):
    with open(dump_file, mode='br') as fi:
        office_address_exist_list = pickle.load(fi)
else:
    for row in office_address_exist_list:
        row.coordinate = get_coordinates(row.office_address_name)
    with open(dump_file, mode='wb') as fo:
        pickle.dump(office_address_exist_list, fo)

In [10]:
office_address_exist_list

[AreaModel(id=3, address_code=101867200, prefectures_code=13, municipalities_code=13101, town_area_code=131010000, post_code='101-8672', office_flg=1, obsolete_flg=0, prefectures_name='東京都', prefectures_name_kana='トウキョウト', municipalities_name='千代田区', municipalities_name_kana='チヨダク', town_area_name=nan, town_area_name_kana='\u3000', town_area_supplement='（該当なし）', kyoto_street_name=nan, character_chome_name=nan, character_chome_name_kana=nan, supplement_name=nan, office_name='株式会社\u3000極東書店', office_name_kana='カブシキガイシヤ\u3000キヨクトウシヨテン', office_address_name='三崎町２－７－１０帝都三崎町ビル', new_address_code=nan, coordinate=[139.754791, 35.700401]),
 AreaModel(id=4, address_code=101822800, prefectures_code=13, municipalities_code=13101, town_area_code=131010000, post_code='101-8228', office_flg=1, obsolete_flg=0, prefectures_name='東京都', prefectures_name_kana='トウキョウト', municipalities_name='千代田区', municipalities_name_kana='チヨダク', town_area_name=nan, town_area_name_kana='\u3000', town_area_supplement='（該当なし

## 距離のマトリクスを取得

In [11]:
dist_matrix = get_dist_matrix(office_address_exist_list)

In [12]:
dist_matrix

{(3, 4): 0.0028913477826038206,
 (3, 5): 0.005305191419734481,
 (3, 6): 0.0014858509346512621,
 (3, 7): 0.0010164767582052146,
 (3, 8): 0.0009548664828149709,
 (3, 9): 0.0028913477826038206,
 (3, 10): 0.000869000000001563,
 (3, 11): 0.005305191419734481,
 (3, 12): 0.001977580339726354,
 (3, 13): 0.004260157860920317,
 (3, 15): 0.00831144668514764,
 (3, 16): 0.0035254786908988102,
 (3, 17): 0.0059588107874072,
 (3, 18): 0.0059588107874072,
 (3, 19): 0.0059588107874072,
 (3, 20): 0.0037210818319390157,
 (3, 21): 0.00831144668514764,
 (3, 22): 0.0057980311313396956,
 (3, 23): 0.00650828126312751,
 (3, 24): 0.005808429822248361,
 (3, 25): 0.006014864005135394,
 (3, 26): 0.005604359106996133,
 (3, 27): 0.003563845395085241,
 (3, 28): 0.006508604305092373,
 (3, 29): 0.005737924537680982,
 (3, 30): 0.004376022394840864,
 (3, 31): 0.005218048006701389,
 (3, 32): 0.005604359106996133,
 (3, 33): 0.007092876708364632,
 (3, 35): 1.0200575284507238,
 (3, 36): 7.624781302076802,
 (3, 37): 3.21633641

## 可視化

In [13]:
visualize(office_address_exist_list)