In [1]:
SRC = 'https://www.kyoukaikenpo.or.jp/~/media/Files/shared/hokenryouritu/h31/ippan/h31313tokyo.pdf'
DST = '2019-04.csv'

In [2]:
import datetime
import hashlib
import io
import pathlib
import urllib.request

try:
    import tabula
except ModuleNotFoundError:
    !pip install tabula-py
    import tabula

datetime.datetime.now().astimezone(datetime.timezone.utc).isoformat()

'2022-05-07T15:37:43.524337+00:00'

In [3]:
data = io.BytesIO()

with urllib.request.urlopen(SRC) as f:
    data.write(f.read())

hashlib.sha256(data.getvalue()).hexdigest()

'99d96249e4545015f23362f6c58c8c996dd5ea2e065965e039396f37258cd6db'

In [4]:
data.seek(0)

df = tabula.read_pdf(data, lattice=True, pages=1)[0]

df = df.iloc[:, [1, 2, 3, 4, 5, 6, 7]]

df.columns = """
標準報酬:等級
標準報酬:月額
報酬月額
介護保険の被保険者でない場合:全額
介護保険の被保険者でない場合:折半額
介護保険の被保険者の場合:全額
介護保険の被保険者の場合:折半額
""".strip().split()

df['標準報酬:等級'] = df['標準報酬:等級'].str.replace(r'\([0-9]+\)', '', regex=True)
df = df[~df['標準報酬:等級'].isnull()]
df = df[df['標準報酬:等級'].str.match(r'^[0-9]+$')]
df['標準報酬:等級'] = df['標準報酬:等級'].astype(int)
df = df.set_index('標準報酬:等級').sort_index()

assert df.shape[0] == 50, f'等級数 ({df.shape[0]}) に過不足があります。'

s = df['報酬月額'].str.replace(r'[^0-9~]', '', regex=True)
df_ = s.str.split('~', n=1, expand=True)
df_ = df_.rename(columns={0: '報酬月額:以上', 1: '報酬月額:未満'})
df = df.merge(df_, left_index=True, right_index=True)

del df['報酬月額']

for x in df.columns:
    df[x] = df[x].str.replace(',', '')

df = df.replace('', float('nan'))
df['報酬月額:以上'] = df['報酬月額:以上'].fillna(float('-inf')).astype(float)
df['報酬月額:未満'] = df['報酬月額:未満'].fillna(float('+inf')).astype(float)
df['標準報酬:月額'] = df['標準報酬:月額'].astype(int)

for x in """
介護保険の被保険者でない場合:全額
介護保険の被保険者でない場合:折半額
介護保険の被保険者の場合:全額
介護保険の被保険者の場合:折半額
""".strip().split():
    df[x] = df[x].astype(float)

for x in """
介護保険の被保険者でない場合:
介護保険の被保険者の場合:
""".strip().split():
    df[x + '控除額'] = (df[x + '折半額'] + .49).astype(int)

df = df["""
標準報酬:月額
報酬月額:以上
報酬月額:未満
介護保険の被保険者でない場合:全額
介護保険の被保険者でない場合:折半額
介護保険の被保険者でない場合:控除額
介護保険の被保険者の場合:全額
介護保険の被保険者の場合:折半額
介護保険の被保険者の場合:控除額
""".strip().split()]

df.to_csv(DST)

hashlib.sha256(pathlib.Path(DST).read_bytes()).hexdigest()

'ecb25f58871b08215c1ffe50551ebbdf7510dcbffea3aab97972eb6c838703c3'