In [1]:
"""生体医工学ウェブ辞典（第一分冊・第二分冊）
cf. http://jsmbe.org/cyclopedia.html
"""
import re
import os
import collections
import pandas as pd
from pprint import pprint

from termextract import LRValue
from termextract.preprocessing import MeCabTokenizer

In [2]:
file_path = "datasets/生体医工学ウェブ辞典用語リスト.csv"
df = pd.read_csv(file_path, encoding='utf-8')

In [3]:
df.head()

Unnamed: 0,NO,ヨミ,用語名称
0,1,B,BRS・Bioresorbable vascular scaffold・生体吸収性スキャフォールド
1,2,J,Judkinsカテーテル
2,3,あ,f-TUL・r-TUL・経尿道的尿管砕石術
3,4,あ,iPS細胞・人工多能性幹細胞
4,5,あ,アナログ信号・アナログ信号処理


In [4]:
idx_ = dict()  # id => term-list 
ivt_ = dict() # term=> id   
for index, row in df.iterrows():
    id = f"{row['NO']:03d}"
    terms = row['用語名称'].split("・")
    idx_[id] = terms
    # print(id, terms)
    for term in terms:
       ivt_[term.strip()] = id     

list(idx_.items())[:10]

[('001', ['BRS', 'Bioresorbable vascular scaffold', '生体吸収性スキャフォールド']),
 ('002', ['Judkinsカテーテル']),
 ('003', ['f-TUL', 'r-TUL', '経尿道的尿管砕石術']),
 ('004', ['iPS細胞', '人工多能性幹細胞']),
 ('005', ['アナログ信号', 'アナログ信号処理']),
 ('006', ['アナログ電気回路']),
 ('007', ['アンプ', '生体アンプ']),
 ('008', ['多極集積化アンプ', 'アナログ集積化アンプ']),
 ('009', ['ES細胞']),
 ('010', ['イメージベーストシミュレーション'])]

In [5]:
list(ivt_.items())[:10]

[('BRS', '001'),
 ('Bioresorbable vascular scaffold', '001'),
 ('生体吸収性スキャフォールド', '001'),
 ('Judkinsカテーテル', '002'),
 ('f-TUL', '003'),
 ('r-TUL', '003'),
 ('経尿道的尿管砕石術', '003'),
 ('iPS細胞', '004'),
 ('人工多能性幹細胞', '004'),
 ('アナログ信号', '005')]

In [6]:
item = '経尿道的尿管砕石術'
idx_[ivt_[item]]

['f-TUL', 'r-TUL', '経尿道的尿管砕石術']

In [7]:
item = 'BRS'
idx_[ivt_[item]]

['BRS', 'Bioresorbable vascular scaffold', '生体吸収性スキャフォールド']

In [24]:
tok = MeCabTokenizer() 
def wakati(text, tok):
    if text.isascii():
        return [[text]]

    tokens = tok.iter_token(text)
    # nouns = [token.surface for token in tokens]
    nouns = tok.extract_nouns(tokens)
    if len(nouns) > 0:
        return nouns
        
    return []

In [42]:
for term, _ in ivt_.items():
    nouns = wakati(term, tok)
    # pprint(nouns)
    if len(nouns)==1 and len(nouns[0])==1:#固有名詞
        print(nouns[0][0])
    elif len(nouns) > 0:#非固有名詞複合語
        m = sum([len(x) for x in nouns])
        print(f"({m})", "・".join([" ".join(n) for n in nouns]))
        


BRS
Bioresorbable vascular scaffold
(4) 生体 吸収 性 スキャフォールド
(2) Judkins カテーテル
f-TUL
r-TUL
(6) 経 尿道 的 尿管 砕石 術
iPS細胞
人工多能性幹細胞
(2) アナログ 信号
アナログ信号処理
(2) アナログ 電気回路
アンプ
(2) 生体 アンプ
(5) 多 極 集積 化 アンプ
(4) アナログ 集積 化 アンプ
ES細胞
イメージベーストシミュレーション
(2) 医用 画像
(2) 医療 情報
画像処理
画像解析
高分子
(2) 医用 高分子
統計
(2) 医学 統計
(2) 数理 統計学
膜電位
オンチャネル
活動電位
(2) VOF 法
(4) Volume Of Flud 法
Volume Of Flud
ウィンドケッセルモデル
(2) AD 変換
(2) DA 変換
LDD
Local Drug Delivery
(3) 局所 薬物 投与
(2) N・イソプロピルアクリルアミド
NIPAM
SHD
Structural Heart Disease
omics
オミックス
オキシメータ
オペアンプ
応力
CABG
(3) 冠動脈 バイパス 術
カテーテルアブレーション
(2) 活動電位 伝播
(2) 興奮 伝播
(3) 株 化 細胞
(3) 冠動脈 形成 術
(2) 冠動脈 造影
間葉系幹細胞
義肢
装具
虚血性心疾患
境界条件
(3) 局所 集合 電位
(3) 筋 音 図
(3) 筋 音 計
筋電図
筋電計
EMG
PCL
Percutaneous Coronary Intervention
経皮的冠動脈形成術
経カテーテル的大動脈弁置換術
TAVI
(3) 継 代 培養
血管造影
(7) 抗 血小板 薬 二 剤 併用 療法
高分子ミセル
(2) サンプリング 定理
再生医療
(2) 細 動
心室細動
心房細動
(2) システム 生理学
シナプス
(2) 自律 神経
交感神経
(2) 副 交感神経
(2) 受動 計測
(2) 能動 計測
(3) 集中 定数 モデル
循環系
(2) 初代 培養細胞
(3) 上流工程・上 工程
(4) 下流 工程・下 工程
心臓
(2) 心 機能
(3) 心臓 カテーテル シミュレーター
(2) 神経 補綴
(2) 人工 視覚
補綴