## 「風しん抗体検査・風しん第５期定期接種受託医療機関」の可視化

「[厚生労働省　風しんの追加的対策について](https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/kenkou/kekkaku-kansenshou/rubella/index_00001.html)」で公開されている「風しん抗体検査・風しん第５期定期接種受託医療機関」を地図上に可視化する．


PDFファイルから表データを取り出し，所在地の住所をアドレス・マッチングにより経緯度座標を割り出し，地図上にその位置を表示する．

## 利用したサービスやライブラリ

### 東京大学空間情報科学研究センター「CSVアドレスマッチングサービス」

http://newspat.csis.u-tokyo.ac.jp/geocode/modules/addmatch/index.php?content_id=1


### tabula

[tabula](https://tabula.technology/)は，PDFから表データを抽出するJavaアプリケーションです（Javaの実行環境が必要です）

### tabula-py

[tabula-py](https://pypi.org/project/tabula-py/) は，Pythonから tabula を利用して PDFの表データを pandas の DataFrame として取り出すことが可能なライブラリです

In [1]:
import tabula
import pandas as pd
import requests
from io import StringIO

In [2]:
# PDFファイルの URLを指定し，tabulaを使って表データを読み込み DataFrame にする
pdf_url = "https://www.mhlw.go.jp/content/000516970.pdf"

df = tabula.read_pdf(pdf_url, 
                     pages='all', # or 読み込むページ番号をリストで指定 ex. [1,2,3]
                     lattice=True, 
                     pandas_options={'header':[0,1]}
                    )

# カラム名を変更する
column_names = ['No', '実施機関名', '郵便番号', '所在地', '電話番号', '受託範囲：風しんの抗体検査', '受託範囲：風しんの第5期の定期接種']
df.columns = column_names

In [3]:
# 不要なカラムを削除
df.drop('No', axis='columns', inplace=True)

In [4]:
# 文字列のクレンジング

# 混在している◯と〇や，×を 1/0 に置換する
for col in ['受託範囲：風しんの抗体検査', '受託範囲：風しんの第5期の定期接種']:
    df[col] = df[col].fillna(0)
    df[col] = df[col].replace('×', 0)
    df[col] = df[col].replace('〇', 1).replace('○', 1)
    
# 値の中の改行除去
df['実施機関名'] = df['実施機関名'].str.replace('\r','')
df['所在地'] = df['所在地'].str.replace('`b\r','')

# 所在地の文字列からマンション名などを分離して住所のみ取り出す
df['所在地'] = df['所在地'].str.split(' ', expand=True)[0]

## アドレスマッチング・サービスで経緯度を割り出す

In [5]:
# DataFrameから所在地を文字列バッファにCSVデータにして出力する（エンコードは Shift_JISにしておく）
buffer = StringIO('csv-data')
df[['所在地']].to_csv(buffer, encoding='shift_jis', index=False, header=None)

In [6]:
# アドレスマッチング・サービスの設定
url_adress_matching = 'http://newspat.csis.u-tokyo.ac.jp/geocode-cgi/geocode.cgi'

params = {
    'action':'input',
    'spat_host':'newspat.csis.u-tokyo.ac.jp',
    'spat_port':8801, # 北海道，街区レベル（経緯度・世界測地系）
    'ncolumn': [1],   # カラム番号（先頭＝1）
    'input_kanji_code':'auto',
    'output_kanji_code':'auto',
    'exact_level':0
}

buffer.seek(0)

files = {'file': ("address.csv", buffer, 'text/csv')}

# アドレスマッチング・サービスにPOST
res = requests.post(url_adress_matching, files=files, data=params)
res.headers

{'Date': 'Fri, 02 Aug 2019 02:10:14 GMT', 'Server': 'Apache/2.2.15 (Red Hat)', 'Content-Disposition': 'attachment; filename=address.csv', 'Keep-Alive': 'timeout=15, max=100', 'Connection': 'Keep-Alive', 'Transfer-Encoding': 'chunked', 'Content-Type': 'application/octet-stream'}

In [7]:
# アドレスマッチングの結果のCSVデータを DataFrame にして，元の DataFrameに joinする
df_geodata = pd.read_csv( StringIO(res.text) )
df_result = df.join(df_geodata[['LocName', 'fX', 'fY', 'iConf', 'iLvl']])

In [8]:
# 経緯度のカラムをリネームする
df_result.rename({'fX':'Longitude', 'fY':'Latitude'}, axis='columns', inplace=True)

## kepler.glで可視化する

In [9]:
from keplergl import KeplerGl 
kepler = KeplerGl(height=500)
kepler.add_data(data=df_result, name="rubella")

kepler

User Guide: https://github.com/keplergl/kepler.gl/blob/master/docs/keplergl-jupyter/user-guide.md
