In [2]:
# モジュールの読み込み
import geopandas as gpd
from geopandas.geoseries import *
import pandas as pd
import numpy as np
from multiprocessing import Pool
import multiprocessing

# シェイプファイルから検索するやり方
ベンチマークなので本来は1万回とか繰り返して実行時間の分布をみるべきですが、時間がかかるので1回だけの実行時間で見ています。

In [3]:
# 関数定義
def reverse_geo(shdf, lon, lat):
    """
    逆ジオコーディング
    shdfは、geopandasでshapefileを読み込んだデータフレーム
    lon, latは経度、緯度
    """
    polygon = shdf['geometry']
    point = Point(lon, lat)
    
    whichtrue = polygon.contains(point)
    whichrow = whichtrue[whichtrue == True].index

    geos = shdf.ix[whichrow]
    
    if geos.empty == True:
        return(None)

    reslist = [geos['KEN_NAME'].to_string(index=False),
               geos['GST_NAME'].to_string(index=False),
               geos['CSS_NAME'].to_string(index=False),
               geos['MOJI'].to_string(index=False)]

    res = ','.join(reslist)
    
    return(res)

In [4]:
# シェイプファイルの読み込み
shp_df = gpd.read_file("./zenkoku_shp/zenkoku.shp")
shp_df

Unnamed: 0,AREA,PERIMETER,H27KA01_,H27KA01_ID,KEN,CITY,KEN_NAME,SITYO_NAME,GST_NAME,CSS_NAME,...,KIGO_I,MOJI,KBSUM,JINKO,SETAI,X_CODE,Y_CODE,KCODE1,KEY_CODE,geometry
0,2.637905e+04,657.549,43,42,01,101,北海道,石狩振興局,札幌市,中央区,...,,南四条西１７丁目,3,67.0,2.0,141.33055,43.05328,6904-17,01101690417,"POLYGON ((141.3313634588293 43.05355600354581,..."
1,1.245680e+04,559.764,57,56,01,101,北海道,石狩振興局,札幌市,中央区,...,,北三条西１９丁目,1,12.0,7.0,141.32710,43.06170,7903-19,01101790319,"POLYGON ((141.3277345866784 43.06119803446951,..."
2,1.706418e+04,522.485,96,95,01,101,北海道,石狩振興局,札幌市,中央区,...,,北五条西１３丁目,2,172.0,114.0,141.33554,43.06532,7905-13,01101790513,"POLYGON ((141.3363191849461 43.06541252147492,..."
3,1.767797e+04,640.693,111,110,01,101,北海道,石狩振興局,札幌市,中央区,...,,宮の森四条２丁目,4,419.0,149.0,141.30578,43.06722,1204-02,01101120402,"POLYGON ((141.3069093224036 43.06666552734587,..."
4,9.255150e+04,1275.223,134,133,01,101,北海道,石狩振興局,札幌市,中央区,...,,宮の森三条１２丁目,8,310.0,118.0,141.29760,43.05649,1203-12,01101120312,"POLYGON ((141.2994496960457 43.05513154111654,..."
5,2.185254e+04,603.469,142,141,01,101,北海道,石狩振興局,札幌市,中央区,...,,南十四条西６丁目,8,498.0,325.0,141.35147,43.04154,6914-06,01101691406,"POLYGON ((141.3517987119577 43.04072091547856,..."
6,1.649549e+04,513.483,203,202,01,101,北海道,石狩振興局,札幌市,中央区,...,,南一条西８丁目,2,85.0,51.0,141.34543,43.05805,6901-08,01101690108,"POLYGON ((141.3463531174399 43.05758568257657,..."
7,2.120619e+04,585.128,227,226,01,101,北海道,石狩振興局,札幌市,中央区,...,,南八条西１６丁目,3,310.0,135.0,141.33286,43.04846,6908-16,01101690816,"POLYGON ((141.3337202075989 43.0485115292328, ..."
8,1.494582e+04,489.396,249,248,01,101,北海道,石狩振興局,札幌市,中央区,...,,南四条西２５丁目,3,266.0,151.0,141.32048,43.05232,6904-25,01101690425,"POLYGON ((141.3202409197141 43.05171838742188,..."
9,1.952287e+04,560.746,272,271,01,101,北海道,石狩振興局,札幌市,中央区,...,,北二条西１丁目,1,1.0,1.0,141.35531,43.06434,7902-01,01101790201,"POLYGON ((141.3563431065884 43.06386570621805,..."


## 1件のみの逆ジオコーディング

In [5]:
# 1件のみの逆ジオコーディンング
reverse_geo(shp_df, 135.728965, 35.039200)

'京都府,京都市,北区,金閣金閣寺町'

In [6]:
# 実行時間を計測
%time reverse_geo(shp_df, 135.728965, 35.039200)

CPU times: user 1.27 s, sys: 15.5 ms, total: 1.28 s
Wall time: 1.28 s


'京都府,京都市,北区,金閣金閣寺町'

1.28秒

## 1000行の逆ジオコーディング

In [7]:
# データの読み込み
# 4箇所を250回繰り返しただけ
df = pd.read_csv('./dat1000.csv')
df

Unnamed: 0,long,lat,location,id
0,139.884678,35.626065,東京ディズニーシー,1
1,139.742946,35.649114,慶應義塾大学,2
2,135.728965,35.039200,金閣寺,3
3,139.526510,35.494865,よこはま動物園ズーラシア,4
4,139.884678,35.626065,東京ディズニーシー,5
5,139.742946,35.649114,慶應義塾大学,6
6,135.728965,35.039200,金閣寺,7
7,139.526510,35.494865,よこはま動物園ズーラシア,8
8,139.884678,35.626065,東京ディズニーシー,9
9,139.742946,35.649114,慶應義塾大学,10


### 普通に計算

In [19]:
# 普通に計算
df['place'] = df.apply(lambda x: reverse_geo(shp_df, x['long'], x['lat']), axis = 1)

In [30]:
# 実行時間
%time df['place'] = df.apply(lambda x: reverse_geo(shp_df, x['long'], x['lat']), axis = 1)

CPU times: user 20min 23s, sys: 6.27 s, total: 20min 30s
Wall time: 20min 35s


In [20]:
df

Unnamed: 0,long,lat,location,id,place
0,139.884678,35.626065,東京ディズニーシー,1,"千葉県,浦安市,,舞浜"
1,139.742946,35.649114,慶應義塾大学,2,"東京都,港区,,三田２丁目"
2,135.728965,35.039200,金閣寺,3,"京都府,京都市,北区,金閣金閣寺町"
3,139.526510,35.494865,よこはま動物園ズーラシア,4,"神奈川県,横浜市,旭区,上白根町"
4,139.884678,35.626065,東京ディズニーシー,5,"千葉県,浦安市,,舞浜"
5,139.742946,35.649114,慶應義塾大学,6,"東京都,港区,,三田２丁目"
6,135.728965,35.039200,金閣寺,7,"京都府,京都市,北区,金閣金閣寺町"
7,139.526510,35.494865,よこはま動物園ズーラシア,8,"神奈川県,横浜市,旭区,上白根町"
8,139.884678,35.626065,東京ディズニーシー,9,"千葉県,浦安市,,舞浜"
9,139.742946,35.649114,慶應義塾大学,10,"東京都,港区,,三田２丁目"


In [28]:
# 列を分割
df['pref'] = df['place'].str.split(',').str.get(0)
df['city'] = df['place'].str.split(',',).str.get(1)
df['town'] = df['place'].str.split(',').str.get(2)
df['banchi'] = df['place'].str.split(',').str.get(3)
df

Unnamed: 0,long,lat,location,id,place,pref,city,town,banchi
0,139.884678,35.626065,東京ディズニーシー,1,"千葉県,浦安市,,舞浜",千葉県,浦安市,,舞浜
1,139.742946,35.649114,慶應義塾大学,2,"東京都,港区,,三田２丁目",東京都,港区,,三田２丁目
2,135.728965,35.039200,金閣寺,3,"京都府,京都市,北区,金閣金閣寺町",京都府,京都市,北区,金閣金閣寺町
3,139.526510,35.494865,よこはま動物園ズーラシア,4,"神奈川県,横浜市,旭区,上白根町",神奈川県,横浜市,旭区,上白根町
4,139.884678,35.626065,東京ディズニーシー,5,"千葉県,浦安市,,舞浜",千葉県,浦安市,,舞浜
5,139.742946,35.649114,慶應義塾大学,6,"東京都,港区,,三田２丁目",東京都,港区,,三田２丁目
6,135.728965,35.039200,金閣寺,7,"京都府,京都市,北区,金閣金閣寺町",京都府,京都市,北区,金閣金閣寺町
7,139.526510,35.494865,よこはま動物園ズーラシア,8,"神奈川県,横浜市,旭区,上白根町",神奈川県,横浜市,旭区,上白根町
8,139.884678,35.626065,東京ディズニーシー,9,"千葉県,浦安市,,舞浜",千葉県,浦安市,,舞浜
9,139.742946,35.649114,慶應義塾大学,10,"東京都,港区,,三田２丁目",東京都,港区,,三田２丁目


### 並列処理で計算
データをコア数分に分割し処理を分ける

In [9]:
# 関数定義
def split_parallel(df, num_split, map_func):
    p = Pool(multiprocessing.cpu_count())
    df_split = np.array_split(df,num_split)
    result = p.map(map_func,df_split)
    p.close()
    return pd.concat(result)

def revgeo_df(df):
    df['place'] = df.apply(lambda x: reverse_geo(shp_df, x['long'], x['lat']), axis = 1)
    return(df)

In [40]:
# 実行
df_2 = split_parallel(df, 100, revgeo_df)
df_2

Unnamed: 0,long,lat,location,id,place,pref,city,town,banchi
0,139.884678,35.626065,東京ディズニーシー,1,"千葉県,浦安市,,舞浜",千葉県,浦安市,,舞浜
1,139.742946,35.649114,慶應義塾大学,2,"東京都,港区,,三田２丁目",東京都,港区,,三田２丁目
2,135.728965,35.039200,金閣寺,3,"京都府,京都市,北区,金閣金閣寺町",京都府,京都市,北区,金閣金閣寺町
3,139.526510,35.494865,よこはま動物園ズーラシア,4,"神奈川県,横浜市,旭区,上白根町",神奈川県,横浜市,旭区,上白根町
4,139.884678,35.626065,東京ディズニーシー,5,"千葉県,浦安市,,舞浜",千葉県,浦安市,,舞浜
5,139.742946,35.649114,慶應義塾大学,6,"東京都,港区,,三田２丁目",東京都,港区,,三田２丁目
6,135.728965,35.039200,金閣寺,7,"京都府,京都市,北区,金閣金閣寺町",京都府,京都市,北区,金閣金閣寺町
7,139.526510,35.494865,よこはま動物園ズーラシア,8,"神奈川県,横浜市,旭区,上白根町",神奈川県,横浜市,旭区,上白根町
8,139.884678,35.626065,東京ディズニーシー,9,"千葉県,浦安市,,舞浜",千葉県,浦安市,,舞浜
9,139.742946,35.649114,慶應義塾大学,10,"東京都,港区,,三田２丁目",東京都,港区,,三田２丁目


In [10]:
# 実行時間
%time df_2 = split_parallel(df, 100, revgeo_df)

CPU times: user 501 ms, sys: 123 ms, total: 623 ms
Wall time: 11min 52s


約12分