In [43]:
import os
import pickle
import pandas as pd
import numpy as np
import jaconv
import re
import itertools

#from get_symspell_obj_test import get_symspell_obj_full as sym
#import tabula
import Levenshtein as L

import sys

from tqdm.notebook import tqdm_notebook as tqdm

data_dir = r'/home/yukim/Desktop/prescription/mzd_for_upload/update_medicine_DB_and_symspell/med_data_raw_of_20201115'
#data_dir = r'C:\\Users\\yukim\\github\\prescription\\mzd_for_upload\\\\update_medicine_DB_and_symspell\\med_data_raw_of_20201115'
save_dir = r'/home/yukim/Desktop/prescription'
#save_dir = r'C:\\Users\\yukim\\github\\prescription'

In [44]:
os.chdir(data_dir)

### 情報ソース概要
- 11月15日時点での最新情報をDB化中<br><br>

- 社会保険診療報酬支払基金が出している医薬品DBを参照すれば、厚労省コード～レセプト電算コード～単位名～GEか否か +その他重要諸情報、が一意に紐づいた情報が取得可能<br>
https://www.ssk.or.jp/seikyushiharai/tensuhyo/kihonmasta/kihonmasta_04.html
- 厚労省の出している医薬品DBを参照すれば、医薬品名～成分名～厚労省コード、が一意に紐づいた情報が取得可能<br>
https://www.mhlw.go.jp/topics/2020/04/tp20200401-01.html
- 厚労省が出している一般名DBを参照すれば、成分名～一般名～一般名コード、が一意に紐づいた情報が取得可能<br>
https://www.mhlw.go.jp/seisakunitsuite/bunya/kenkou_iryou/iryouhoken/shohosen_200401.html
- 投与剤形の種類はpmdaの出しているものを参照。csv形式かつアップデートされるものを模索中<br>
https://www.pmda.go.jp/files/000199487.pdf
- これらは年イチとかの更新と高をくくってたが、よくよく見ると2週に一度くらいのハイペースで更新されている ... updateオペレーションは構築した方が吉。

https://github.com/taichiobara/prescription/issues/259#issuecomment-646407263

### 医薬品DBの読み込み

#### 社会保険診療報酬支払基金の医薬品マスタの読込

In [45]:
#memo
#後発品は0が先発, 1が後発

In [46]:
#読込
df_receipt_master=pd.read_csv('y_ALL20200918.csv',encoding='shift-jis',header=None)

#columnsのチューニング
l_col=['変更区分','マスター種別','医薬品コード','医薬品名・規格名漢字有効桁数','医薬品名・規格名漢字名称',
       '医薬品名・規格名カナ有効桁数','医薬品名・規格名カナ名称','単位コード','単位漢字有効桁数','単位漢字名称','金額種別',
       '新又は現金額','予備','麻薬・毒薬・覚せい剤原料・向精神薬','神経破壊剤','生物学的製剤','後発品','予備','歯科特定薬剤',
       '造影剤','注射容量','収載方式等識別','商品名等関連','旧金額金額種別','旧金額旧金額','漢字名称変更区分','カナ名称変更区分',
       '剤形','予備','変更年月日','廃止年月日','薬価基準収載医薬品コード','公表順序番号','経過措置年月日又は商品名医薬品コード使用期限',
       '基本漢字名称']
df_receipt_master.columns=l_col
df_receipt_master=df_receipt_master.rename(columns={'医薬品名・規格名漢字名称':'name',
                                                    '医薬品コード':'2_レセプト電算コード',
                                                    '薬価基準収載医薬品コード':'3_厚労省コード',
                                                    '単位漢字名称':'unit',
                                                    '後発品':'GE'})

#nameの正規化
df_receipt_master['name'] = [jaconv.normalize(i) for i in df_receipt_master['name'].values.tolist()]

In [47]:
len(df_receipt_master)

21659

#### 薬価基準収載品目リスト及び後発医薬品に関する情報の読込

In [48]:
#memo
#6月19日の改定では歯科用医薬品に変更がなく、それだけ古いファイル名なことに注意
#また、歯科用医薬品は一部なぜか品名覧が空白, 名称がUnnamed:7に記載されているケースが存在する。これだけ現状手作業で補完してあげる。
#レセプト作成の際は別物として扱うが、厚労省の収載品目としては同一、という医薬品が多数存在することに注意

In [49]:
#読込
df_naiyou = pd.read_excel('tp20200826-01_01.xlsx')
df_chuusha = pd.read_excel('tp20200826-01_02.xlsx')
df_gaiyou = pd.read_excel('tp20200826-01_03.xlsx')
df_shikayou = pd.read_excel('tp20200826-01_04.xlsx') 
l_dfs = [df_naiyou,df_chuusha,df_gaiyou,df_shikayou]

#各dataframeの統合
df_mhlw_master = pd.DataFrame(columns=df_naiyou.columns)
for val in l_dfs:
    df_mhlw_master=df_mhlw_master.append(val).reset_index(drop=True)
    
#columnsのチューニング
df_mhlw_master=df_mhlw_master.rename(columns={'薬価基準収載医薬品コード':'3_厚労省コード','品名':'name'})

#nameの正規化
raw=df_mhlw_master['name'].values.tolist()
l=[]
for val in df_mhlw_master['name']:
    if type(val)==float:
        l.append('')
    else:
        l.append(jaconv.normalize(val))
df_mhlw_master['name']=l

In [50]:
len(df_mhlw_master)

14548

#### 一般名処方マスタの読込

In [51]:
#読込
df_ippan_master=pd.read_excel('ippanmeishohoumaster_200619.xlsx')

#columnsのチューニング
l_col = df_ippan_master.loc[1].values.tolist()
df_ippan_master = df_ippan_master.iloc[2:].reset_index(drop=True)
df_ippan_master.columns=l_col
df_ippan_master = df_ippan_master.rename(columns={'一般名処方の標準的な記載':'name',
                                                  '一般名コード':'7_一般名コード'})

#nameの正規化
df_ippan_master['name'] = [jaconv.normalize(re.sub('【般】','',i).strip(' ')) for i in df_ippan_master['name']]

#### 薬の形状の種類を読込

In [52]:
#memo
#現状、ここは自動化があまりできていない

In [53]:
sys.exit()

l_df = tabula.read_pdf("000199487.pdf", pages='all')
len(l_df)

SystemExit: 

In [None]:
sys.exit()

df1,df2=l_df

#df1のパース
##カラムの調整
df1.columns=['a','b','c']

##先頭行んのノイズを除去
df1=df1[1:].reset_index(drop=True)

##2行に渡ってしまっていることのよるノイズを除去
l=[]
for i in df1.index:
    if type(df1.at[i,'b'])!=str:
        if np.isnan(df1.at[i,'b'])==False:
            l.append(i)
    else:
          l.append(i)
df1=df1.loc[l]

##カッコ書きを削除
df1['c']=[i.split('(')[0].strip('剤') for i in df1['c'].values.tolist()]


#df2のパース
##不明、は落とす
df2=df2[:-1]

##カラムの調整
s_append=pd.Series(df2.columns.values.tolist(),name=len(df2),index=df2.columns)
df2=df2.append(s_append)
df2.columns=['a','b','c']

#投与剤形がズレている部分の調整
for i in df2.index:
    if type(df2.at[i,'c'])!=str:
        if np.isnan(df2.at[i,'c'])==True:
            df2.at[i,'c']=df2.at[i,'b']

df2['c']=[i.split('(')[0].strip('剤') for i in df2['c'].values.tolist()]

#list化
l_shapes=df1['c'].values.tolist()
l_shapes.extend(df2['c'].values.tolist())

#listの調整
l_shapes.append('トローチ')
l_shapes = [jaconv.normalize(i) for i in l_shapes if '形の明確でない' not in i]
for val in l_shapes:
    if '・' in val:
        str_ = l_shapes.pop(l_shapes.index(val))
        l_shapes.extend(str_.split('・'))
l_shapes.sort(key=len,reverse=True)

### 医薬品RDBの生成

In [54]:
#memo
#後発品は0が先発, 1が後発
#レセプトマスタの剤形とJAHISの剤形の番号は分析してみると合致していない

In [55]:
#医薬品DBのcolumnsの宣言
l_col = ['name','unit','GE_Branded_ippan','剤形区分','2_レセプト電算コード','3_厚労省コード','4_YJコード','6_HOTコード','7_一般名コード']

#レセプトマスタ→JAHISの剤形区分番号変換辞書
'''
レセプトマスタ
1:内用薬, 3:その他, 4:注射薬, 6:外用薬, 8:歯科用薬剤
JAHIS
1:内服、2:頓服、3:外用、4:内服滴剤、5:注射、6:医療材料 9:不明
'''
dict_receipt2JAHIS = {1:'1',3:'9',4:'5',6:'3',8:'9'}

#一般名マスタ→JAHISの剤形区分番号変換辞書
dict_ippan2JAHIS = {'内用薬':'1','外用薬':'3'}

In [56]:
#レセプトマスタより、特定銘柄の情報を取得 & 成型
df_specific = df_receipt_master[['name','unit','剤形','GE','2_レセプト電算コード',
                                 '3_厚労省コード']].rename(columns={'剤形':'剤形区分','GE':'GE_Branded_ippan'})

##不足しているcolumnをNoneで補充
for col in l_col:
    if col not in df_specific.columns.values.tolist():
        df_specific[col]=None
        
##先発・後発・一般名情報を変換
l=[]
for bool_ in df_specific['GE_Branded_ippan']:
    if bool_==0:
        l.append('Branded')
    elif bool_==1:
        l.append('GE')
    else:
        l.append(None)
        print('unclear')
df_specific['GE_Branded_ippan']=l

##剤形区分情報をJAHISへと変換
l=[]
for master_id in df_specific['剤形区分']:
    l.append(dict_receipt2JAHIS[master_id])
df_specific['剤形区分']=l

In [57]:
#一般名マスタより、一般名の情報を取得 & 成型
df_ippan = df_ippan_master[['name','区分','7_一般名コード','規格']].rename(columns={'区分':'剤形区分'})

##不足しているcolumnをNoneで補充
for col in l_col:
    if col not in df_ippan.columns.values.tolist():
        df_ippan[col]=None
        
##先発・後発・一般名情報を変換
df_ippan['GE_Branded_ippan']='ippan'

##剤形区分情報をJAHISへと変換
l=[]
for str_ in df_ippan['剤形区分']:
    l.append(dict_ippan2JAHIS[str_])
df_ippan['剤形区分']=l

In [58]:
#一般名マスタの規格情報を単位情報へと変換する

##単位名候補を取得する
l_units = list(set(df_specific['unit'].values.tolist()))
l_units.remove(np.nan)
l_units = [jaconv.normalize(i) for i in l_units if type(i)==str]

l_units_conflict = ['g','mL']
for val in l_units_conflict:
    l_units.remove(val) #医薬品の規格情報とコンフリすることが多いため、落とす
    

##まずはコンフリがない単位について、単位名を安定的に取得する
l_not_found_index = []
df_ippan['unit'] = None

for i in df_ippan.index:
    name = df_ippan.at[i,'name']
    product_info = jaconv.normalize(df_ippan.at[i,'規格'])
    found,cnt,unit_now = False,0,None
    for unit in l_units:
        if unit in product_info:
            found = True
            cnt += 1
            unit_now = unit
            
    if cnt>1:
        raise ValueError('more than one unit found for',name)
        
    elif not found:
        print('unit was not found for',name,product_info)
        l_not_found_index.append(i)
        
    else:
        df_ippan.at[i,'unit'] = unit_now
        
print('')
        
##次に、コンフリが生じる単位名について、慎重に単位を取得する
for i in l_not_found_index:
    name = df_ippan.at[i,'name']
    product_info = jaconv.normalize(df_ippan_master.at[i,'規格'])
    found,cnt,unit_now = False,0,None
    for unit in l_units_conflict:
        if unit in product_info:
            found = True
            cnt += 1
            unit_now = unit
            
    if cnt>1:
        print('more than one conflict unit found for',name)
        continue
        
    elif not found:
        print('conflict unit was not found for',name,product_info)
        continue
        
    else:
        df_ippan.at[i,'unit'] = unit_now
        
        
df_ippan = df_ippan.drop('規格',axis=1)

unit was not found for ニトラゼパム散1% 1%1g
unit was not found for ニトラゼパム細粒1% 1%1g
unit was not found for ジアゼパム散1% 1%1g
unit was not found for ブロマゼパム細粒1% 1%1g
unit was not found for トフィソパム細粒10% 10%1g
unit was not found for カルバマゼピン細粒50% 50%1g
unit was not found for バルプロ酸Na細粒20% 20%1g
unit was not found for バルプロ酸Na細粒40% 40%1g
unit was not found for バルプロ酸Na徐放顆粒40% 40%1g
unit was not found for バルプロ酸Naシロップ5% 5%1mL
unit was not found for ゾニサミド散20% 20%1g
unit was not found for アセトアミノフェン細粒20% 20%1g
unit was not found for アセトアミノフェン細粒50% 50%1g
unit was not found for アセトアミノフェンシロップ2% 2%1mL
unit was not found for アセトアミノフェンシロップ用20% 20%1g
unit was not found for アセトアミノフェンシロップ用40% 40%1g
unit was not found for イブプロフェン顆粒20% 20%1g
unit was not found for ロキソプロフェンNa細粒10% 10%1g
unit was not found for ロキソプロフェンNa経口液0.6% 0.6%1mL
unit was not found for アマンタジン塩酸塩細粒10% 10%1g
unit was not found for ビペリデン塩酸塩散1% 1%1g
unit was not found for ビペリデン塩酸塩細粒1% 1%1g
unit was not found for トリヘキシフェニジル塩酸塩散1% 1%1g
unit was not found fo

In [59]:
#統合
df_medicineInfo = pd.DataFrame(columns=l_col)
df_medicineInfo=df_medicineInfo.append(df_specific)
df_medicineInfo=df_medicineInfo.append(df_ippan).reset_index(drop=True)

#単位がnoneのものをfillする
df_medicineInfo['unit'] = df_medicineInfo['unit'].fillna('')

In [60]:
#厚労省コードをkeyに、成分名情報を付与する
l=[]
l_errors_1,tmp=[],[]

for index in tqdm(df_medicineInfo.index):
    type_=df_medicineInfo.at[index,'GE_Branded_ippan']
    if type_=='ippan':
        code=df_medicineInfo.at[index,'7_一般名コード']
        t=df_ippan_master[df_ippan_master['7_一般名コード']==code]
    else:
        code=df_medicineInfo.at[index,'3_厚労省コード']
        t = df_mhlw_master[df_mhlw_master['3_厚労省コード']==code]
        
    if len(t)>1:
        raise ValueError('more than one medicine to number 3 code.')
    elif len(t)==0:
        l_errors_1.append(index)
        tmp.append(code)
        l.append(None)
    else:
        l.append(jaconv.normalize(t['成分名'].iloc[0]))
    
df_medicineInfo['ingredient']=l
print(tmp)

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=23231.0), HTML(value='')))


['248210BF1020', nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan]


In [61]:
#最後に並び替え・文字列正規化
for i,j in itertools.product(df_medicineInfo.index,df_medicineInfo.columns):
    val = df_medicineInfo.at[i,j]
    if type(val)==str:
        df_medicineInfo.at[i,j] = jaconv.normalize(val)
    elif type(val)==int:
        df_medicineInfo.at[i,j] = jaconv.normalize(str(val))
    elif val is None:
        continue
    elif np.isnan(val):
        df_medicineInfo.at[i,j] = None
    else:
        print(i,j)
        break

l_col_final = l_col[:]
l_col_final.append('ingredient')
df_medicineInfo = df_medicineInfo[l_col_final]

### double check DB and save

In [62]:
#check data type
for i in df_medicineInfo.index:
    if (df_medicineInfo.at[i,'2_レセプト電算コード'] is None) and (df_medicineInfo.at[i,'7_一般名コード'] is None):
        raise ValueError(i,'has no medicine code')
    
    if df_medicineInfo.at[i,'unit'] is None:
        raise ValueError(i, 'is a none unit')
        
    if df_medicineInfo.at[i,'unit'] is None:
        raise ValueError(i, 'has no zaikei-kubun')

In [63]:
#作成したDBに合わせ、symspellを更新 ... 最新化していない
sys.exit()

os.chdir(save_dir)
l_max_edit_dist_dict,l_prefix = [1,7],[5,8]

for max_ed_dict,prefix in zip(l_max_edit_dist_dict,l_prefix):
    sym_spell_med = sym(max_ed_dict,prefix,df_medicineInfo['name'].values.tolist())
    with open('medicine'+str(max_ed_dict)+'_'+str(prefix)+'_NEW.pickle', 'wb') as f:
        pickle.dump(sym_spell_med, f)

SystemExit: 

In [64]:
#df_medicineInfoをpickle化
os.chdir(save_dir)
with open('df_medicineInfo_NEW.pickle', 'wb') as f:
    pickle.dump(df_medicineInfo, f)

### 一般名 -> 特定銘柄dictの生成

In [None]:
#memo:
#厚労省の推奨する一般名称が書いてあるという前提で実装をするが、実際にはここは表記ゆれが存在する(byユニケ中西CTO)
#よって、一般名っぽいか判定→成分名・含量の情報を抽出し医薬品を導出、という処理の柔軟化が必要となるケースが考えられる

In [20]:
#対象データを抽出

##内用薬・外用薬に限定
df_search_ippan = df_medicineInfo[(df_medicineInfo['剤形区分']=='1')|(df_medicineInfo['剤形区分']=='3')]

##後発品の存在する成分のみを抽出
l_GE_ingredient = list(set(df_search_ippan[df_search_ippan.GE_Branded_ippan=='GE']['ingredient'].values.tolist()))
l=[]
for i in df_search_ippan.index:
    if df_medicineInfo.at[i,'ingredient'] in l_GE_ingredient:
        l.append(i)
df_search_ippan = df_search_ippan.loc[l].reset_index(drop=True)

In [21]:
#特定銘柄の諸情報から一般名を推定

##カッコ情報のない医薬品情報を付加
l=[]
for name in df_search_ippan['name']:
    name = re.sub('「.+」',' ',name)
    name = re.sub(r'\(.+\)',' ',name)
    l.append(name)
df_search_ippan['name_clensed']=l

##含量情報(とおぼしき)情報を付加
l,l_errors_2=[],[]
for i in df_search_ippan.index:
    name = df_search_ippan.at[i,'name_clensed']
    dose = re.findall('[0-9|\.]+',name)
    if len(dose)==0:
        dose = ''
        l_errors_2.append(i)
    else:
        dose=dose[-1]
    l.append(dose)
df_search_ippan['dose']=l

##投与剤形の情報を付加
l,l_errors_3=[],[]
cnt=0
for i in df_search_ippan.index:
    name = df_search_ippan.at[i,'name_clensed']
    shape=''
    for val in l_shapes:
        if val in name:
            shape=val
            break
    l.append(shape)
    
    if shape=='':
        l_errors_3.append(i)
df_search_ippan['shape']=l

##「一般的名称」＋「剤形」＋「含量」の形で一般名を推定
l=[]
for i in df_search_ippan.index:
    s=df_search_ippan.loc[i]
    ippan_guess = s['ingredient']+s['shape']+s['dose']
    l.append(ippan_guess)
df_search_ippan['ippan_guessed']=l

NameError: name 'l_shapes' is not defined

In [22]:
#成分名が同じものの中で、想定一般名～実際の一般名編集距離, dose情報が近い順に並び替える
dict_ippan2specific={}

for ingredient in l_GE_ingredient:
    #成分の共通する医薬品グループを取得
    df_group = df_search_ippan[df_search_ippan.ingredient==ingredient]
    
    #成分が共有する医薬品がないケースは、ここで可視化
    if len(df_group)==1:
        print(ingredient)
    
    #該当材料における一般名・その含量、を取得
    l_ippan_med = df_group[df_group.GE_Branded_ippan=='ippan']['name'].values.tolist()
    l_ippan_dose = df_group[df_group.GE_Branded_ippan=='ippan']['dose'].values.tolist()
    
    #該当材料における特定銘柄の一般名guess・その含量、を取得
    l_specific_guess = df_group[df_group.GE_Branded_ippan!='ippan']['ippan_guessed'].values.tolist()
    l_specific_med = df_group[df_group.GE_Branded_ippan!='ippan']['name'].values.tolist()
    l_specific_dose = df_group[df_group.GE_Branded_ippan!='ippan']['dose'].values.tolist()
    
    for i in range(len(l_ippan_med)):
        ippan_med=l_ippan_med[i]
        ippan_dose=l_ippan_dose[i]
        
        l_dist_med,l_dist_name,l_dist_dose=[],[],[]
        for j in range(len(l_specific_med)):
            specific_guess=l_specific_guess[j]
            specific_med = l_specific_med[j]
            specific_dose=l_specific_dose[j]
            l_dist_med.append(L.distance(ippan_med,specific_guess))
            l_dist_name.append(L.distance(ippan_med,specific_med))
            l_dist_dose.append(L.distance(ippan_dose,specific_dose))
        l_med_sorted = pd.Series(l_specific_med,index=[l_dist_dose,l_dist_name,l_dist_med]).sort_index().values.tolist()
        dict_ippan2specific[ippan_med]=l_med_sorted

KeyError: 'ippan_guessed'

In [24]:
#dict_ippan2specificをpickle化
os.chdir(save_dir)
with open('dict_ippan2specific_new.pickle', 'wb') as f:
    pickle.dump(dict_ippan2specific, f)

### 先発医薬品名 -> 後発医薬品名dictの生成

In [23]:
#対象データを抽出

##後発品の存在する成分のみを抽出
l_GE_ingredient = list(set(df_medicineInfo[df_medicineInfo.GE_Branded_ippan=='GE']['ingredient'].values.tolist()))
l=[]
for i in df_medicineInfo.index:
    if df_medicineInfo.at[i,'ingredient'] in l_GE_ingredient:
        l.append(i)
df_search_GE = df_medicineInfo.loc[l].reset_index(drop=True)

In [24]:
#特定銘柄の諸情報から一般名を推定

##カッコ情報のない医薬品情報を付加
l=[]
for name in df_search_GE['name']:
    name = re.sub('「.+」',' ',name)
    name = re.sub(r'\(.+\)',' ',name)
    l.append(name)
df_search_GE['name_clensed']=l

##含量情報(とおぼしき)情報を付加 ... l_errors_2は#4の方で取得
l=[]
for name in df_search_GE['name_clensed']:
    dose = re.findall('[0-9|\.]+',name)
    if len(dose)==0:
        dose = ''
    else:
        dose=dose[-1]
    l.append(dose)
df_search_GE['dose']=l

##投与剤形の情報を付加 ... l_errors_3は#4の方で取得
l=[]
cnt=0
for name in df_search_GE['name_clensed']:
    shape=''
    for val in l_shapes:
        if val in name:
            shape=val
            break
    l.append(shape)
df_search_GE['shape']=l

##「一般的名称」＋「剤形」＋「含量」の形で一般名を推定
l=[]
for i in df_search_GE.index:
    s=df_search_GE.loc[i]
    ippan_guess = s['ingredient']+s['shape']+s['dose']
    l.append(ippan_guess)
df_search_GE['ippan_guessed']=l

In [25]:
##成分名が同じものの中で、想定一般名～実際の一般名編集距離, dose情報が近い順に並び替える
dict_branded2GE={}
l_errors_4=[]

for ingredient in l_GE_ingredient:
    #成分の共通する医薬品グループを取得
    df_group = df_search_GE[df_search_GE.ingredient==ingredient]
        
    #該当材料における先発名・その含量・おそらくの一般名、を取得
    l_branded_med = df_group[df_group.GE_Branded_ippan=='Branded']['name'].values.tolist()
    l_branded_dose = df_group[df_group.GE_Branded_ippan=='Branded']['dose'].values.tolist()
    l_branded_guess = df_group[df_group.GE_Branded_ippan=='Branded']['ippan_guessed'].values.tolist()
    
    #該当材料における特定銘柄の一般名guess・その含量、を取得
    l_GE_guess = df_group[df_group.GE_Branded_ippan=='GE']['ippan_guessed'].values.tolist()
    l_GE_med = df_group[df_group.GE_Branded_ippan=='GE']['name'].values.tolist()
    l_GE_dose = df_group[df_group.GE_Branded_ippan=='GE']['dose'].values.tolist()
    
    #先発薬がなく、ジェネリックしか存在しない医薬品の成分名をprint
    if len(l_branded_med)==0:
        print(ingredient)
        l_errors_4.append(ingredient)
    
    for i in range(len(l_branded_med)):
        branded_med=l_branded_med[i]
        branded_dose=l_branded_dose[i]
        branded_guess=l_branded_guess[i]
        
        l_dist_med,l_dist_name,l_dist_dose=[],[],[]
        for j in range(len(l_GE_med)):
            GE_guess=l_GE_guess[j]
            GE_med = l_GE_med[j]
            GE_dose=l_GE_dose[j]
            l_dist_med.append(L.distance(branded_guess,GE_guess))
            l_dist_name.append(L.distance(branded_med,GE_med))
            l_dist_dose.append(L.distance(branded_dose,GE_dose))
        l_med_sorted = pd.Series(l_GE_med,index=[l_dist_dose,l_dist_name,l_dist_med]).sort_index().values.tolist()
        dict_branded2GE[branded_med]=l_med_sorted

インスリングラルギン(遺伝子組換え)[インスリングラルギン後続1]
ホモクロルシクリジン塩酸塩
ジオクチルソジウムスルホサクシネート
フィルグラスチム(遺伝子組換え)[フィルグラスチム後続2]
ヒドロキシエチルデンプン70000
サナクターゼ配合剤
インフリキシマブ(遺伝子組換え)[インフリキシマブ後続1]
オウヒエキス
安息香
Lーシステイン
ドセタキセル
リツキシマブ(遺伝子組換え)[リツキシマブ後続1]
酸化亜鉛・チョウジ油
リドカイン塩酸塩・アドレナリン酒石酸水素塩
胎盤絨毛分解物
胎盤加水分解物
レボブノロール塩酸塩
ベンフォチアミン
アスコルビン酸・Lーシステイン
ベバシズマブ(遺伝子組換え)[ベバシズマブ後続2]
インフリキシマブ(遺伝子組換え)[インフリキシマブ後続2]
エタネルセプト(遺伝子組換え)[エタネルセプト後続2]
ベルベリン塩化物水和物
水酸化アルミニウムゲル・水酸化マグネシウム
リツキシマブ(遺伝子組換え)[リツキシマブ後続2]
ベクロニウム臭化物
リン酸二カリウム
アガルシダーゼベータ(遺伝子組換え)[アガルシダーゼベータ後続1]
アズレン
グルカゴン
インスリングラルギン(遺伝子組換え)[インスリングラルギン後続2]
溶性ピロリン酸第二鉄
水酸化カルシウム
オーラノフィン
ヘキサミン
テリパラチド(遺伝子組換え)[テリパラチド後続1]
デキストラン40・ブドウ糖
塩化アンモニウム
ジフェンヒドラミン塩酸塩・臭化カルシウム
デカリニウム塩化物
アリルエストレノール
ビオヂアスターゼ1000配合剤
チアミン・アスコルビン酸配合剤
ペントキシベリンクエン酸塩
ヒドロクロロチアジド
エタネルセプト(遺伝子組換え)[エタネルセプト後続1]
バラシクロビル塩酸塩水和物
ヘパリンカルシウム
塩化第二鉄・硫酸亜鉛水和物配合剤
アザセトロン塩酸塩
カルプロニウム塩化物
アルキルジアミノエチルグリシン塩酸塩
パップ剤
ウイテプゾール
エリスロマイシン
ブホルミン塩酸塩
ダルベポエチンアルファ(遺伝子組換え)[ダルベポエチンアルファ後続3]
メリロートエキス
セファゾリンナトリウム
オンダンセトロン塩酸塩水和物
複方カンゾウ
フィルグラスチム(遺伝子組換え)[フィルグラスチム後続3]
レゾルシン
チオ硫酸ナトリウム水和物・エタノール
ジプロフィリン・メト

In [64]:
#dict_branded2GEをpickle化
os.chdir(save_dir)
with open('dict_branded2GE_new.pickle', 'wb') as f:
    pickle.dump(dict_branded2GE, f)

### DBが保証できない領域の明確化

#### summary

- 本DBは社会保険診察報酬支払基金・厚生労働省、が公開しているマスタ情報より作成しておりますが、その情報完全性や紐づけ可能性により、一部保証できない情報が存在します

<br>

- 欠損している情報
    - ほぼ歯科用医薬品ですが、成分名が不明な医薬品が少しだけ存在します
    - 注射薬・歯科用医薬品、は一般名が不明です
    - 各医薬品の投与剤形・成分含量の情報は統一的なマスタがなく, 医薬品名称からの推定のため, ヌケモレが想定されます

<br>

- 情報欠損により生じうる不具合
    - 成分名が不明な医薬品については, 一般名->特定銘柄, 先発品->後発品, の紐付けがそもそもできていないため, それと関連する医薬品が処方箋にあっても, 調剤確定候補listに存在しえません
    - 投与剤形・成分含量の情報は不確かな部分があるため、この情報に基づいては医薬品listをsliceせず, あくまでlistの並び替えのみを行っています。そのため、調剤確定の際の医薬品候補には明らかなノイズが現状混ざっています<br>
    e.g. *dict_ippan2specific*では, 【般】カルボシステイン錠250mg, に, 後ろの方に,カルボシステイン錠500mg「サワイ」,が紐付いている
    
<br>
    
- その他
    - 成分の中にはGEしか存在しない成分が一定数存在し、違和感があるが、その要因は現状不明。

#### 成分名が不明な医薬品

In [31]:
#成分数が不明瞭な医薬品の集計
cnt=0
for i in range(len(df_medicineInfo)):
    if df_medicineInfo.at[i,'ingredient'] is None:
        #print(df_medicineInfo.at[i,'name'])
        cnt+=1

#上の集計がレセコンマスタ～厚労省マスタ紐づけerror数と一致するか確認
print(cnt==len(l_errors_1))

True


In [32]:
df_medicineInfo.loc[l_errors_1]

Unnamed: 0,name,unit,GE_Branded_ippan,剤形区分,2_レセプト電算コード,3_厚労省コード,4_YJコード,6_HOTコード,7_一般名コード,ingredient
12208,ヤーズ配合錠,錠,Branded,1,621982201,248210BF1020,,,,
20095,薬剤料減点(合算薬剤料上限超),,Branded,9,630010001,,,,,
20096,薬剤料逓減(90/100)(内服薬),,Branded,9,630010002,,,,,
20097,包括点数の治験減点分,,Branded,9,630010004,,,,,
20098,薬剤料逓減(80/100)(向精神薬多剤投与),,Branded,9,630010005,,,,,
20099,薬剤料逓減(40/100)(紹介率が低い大病院30日以上投薬),,Branded,9,630010006,,,,,
20100,薬剤料減点(湿布薬薬剤料上限超),,Branded,9,630010007,,,,,
20101,薬評(内用薬),,Branded,1,630010011,,,,,
20102,薬評(注射薬),,Branded,5,630010012,,,,,
20103,薬評(外用薬),,Branded,3,630010013,,,,,


#### 正解の一般名が不明な医薬品

In [33]:
#そもそも、注射薬や歯科用材はカバーしていない
df_ippan_master['区分'].unique()

array(['内用薬', '外用薬'], dtype=object)

#### 含量の特定が出来ておらず, 一般名特定や先発～後発紐づけの精度が落ちる医薬品

In [34]:
df_search_ippan.loc[l_errors_2]

NameError: name 'df_search_ippan' is not defined

#### 投与剤形の特定が出来ておらず, 一般名特定や先発～後発紐づけの精度が落ちる医薬品

In [53]:
df_search_ippan.loc[l_errors_3]

Unnamed: 0,name,unit,GE_Branded_ippan,剤形区分,2_レセプト電算コード,3_厚労省コード,4_YJコード,6_HOTコード,7_一般名コード,ingredient,name_clensed,dose,shape,ippan_guessed
5,バリトゲンHD 98.6%,g,Branded,1,610406231,7212029X1023,,,,硫酸バリウム,バリトゲンHD 98.6%,98.6,,硫酸バリウム98.6
6,バリトップHD 99%,g,Branded,1,610406232,7212022A1037,,,,硫酸バリウム,バリトップHD 99%,99,,硫酸バリウム99
24,バリトップCT 1.5%300mL,瓶,Branded,1,610406404,7212030S1029,,,,硫酸バリウム,バリトップCT 1.5%300mL,300,,硫酸バリウム300
42,カリセラム-Na末,g,GE,1,610407233,2190009A1013,,,,ポリスチレンスルホン酸ナトリウム,カリセラム-Na末,,,ポリスチレンスルホン酸ナトリウム
47,重カマ「ヨシダ」,g,Branded,1,610409004,2344002X1241,,,,酸化マグネシウム,重カマ,,,酸化マグネシウム
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12958,エピナスチン塩酸塩経口液0.2%,,ippan,1,,,,,4490014S1ZZZ,エピナスチン塩酸塩,エピナスチン塩酸塩経口液0.2%,0.2,,エピナスチン塩酸塩0.2
13057,レボフロキサシン経口液250mg10mL,,ippan,1,,,,,6241013S2ZZZ,レボフロキサシン水和物,レボフロキサシン経口液250mg10mL,10,,レボフロキサシン水和物10
13089,イトラコナゾール経口液1%,,ippan,1,,,,,6290004S1ZZZ,イトラコナゾール,イトラコナゾール経口液1%,1,,イトラコナゾール1
13091,ウイテプゾール,,ippan,3,,,,,7190700X1ZZZ,ウイテプゾール,ウイテプゾール,,,ウイテプゾール


#### GEしか存在しない医薬品

In [54]:
l=[]
for i in df_search_GE.index:
    if df_search_GE.at[i,'ingredient'] in l_errors_4:
        l.append(i) 
df_search_GE.loc[l]

Unnamed: 0,name,unit,GE_Branded_ippan,剤形区分,2_レセプト電算コード,3_厚労省コード,4_YJコード,6_HOTコード,7_一般名コード,ingredient,name_clensed,dose,shape,ippan_guessed
43,コバレノール錠25 25mg,錠,GE,1,610407255,2479003F2094,,,,アリルエストレノール,コバレノール錠25 25mg,25,錠,アリルエストレノール錠25
45,メイエストン錠25 25mg,錠,GE,1,610407449,2479003F2108,,,,アリルエストレノール,メイエストン錠25 25mg,25,錠,アリルエストレノール錠25
268,ハイチオール散32%,g,GE,1,610454056,3999006A1030,,,,Lーシステイン,ハイチオール散32%,32,散,Lーシステイン散32
269,ハイチオール錠40 40mg,錠,GE,1,610454057,3999006F1037,,,,Lーシステイン,ハイチオール錠40 40mg,40,錠,Lーシステイン錠40
300,オキサトミド30mg錠,錠,GE,1,610461103,4490005F1018,,,,オキサトミド,オキサトミド30mg錠,30,錠,オキサトミド錠30
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15957,エリスロマイシン錠200mg,,ippan,1,,,,,6141002F2ZZZ,エリスロマイシン,エリスロマイシン錠200mg,200,錠,エリスロマイシン錠200
15975,アンピシリン・クロキサシリンNa配合錠,,ippan,1,,,,,6191001F1ZZZ,アンピシリン水和物・クロキサシリンナトリウム水和物,アンピシリン・クロキサシリンNa配合錠,,錠,アンピシリン水和物・クロキサシリンナトリウム水和物錠
16026,ウイテプゾール,,ippan,3,,,,,7190700X1ZZZ,ウイテプゾール,ウイテプゾール,,,ウイテプゾール
16027,フルオレセインNa試験紙0.7mg,,ippan,3,,,,,7290703T1ZZZ,フルオレセイン,フルオレセインNa試験紙0.7mg,0.7,,フルオレセイン0.7
