In [1]:
"""termextract 
URL:　https://github.com/kanjirz50/termextract
次の論文の内容を練習で実装しました。
中川 裕志, 湯本 紘彰, 森 辰則, 出現頻度と連接頻度に基づく専門用語抽出, 
自然言語処理, 2003, 10巻, 1号, p.27-45
"""
import re
import collections
from pprint import pprint

from termextract import LRValue
from termextract.preprocessing import extract_nouns, morphemes_to_surface, MeCabTokenizer

In [2]:
def mk_phrase(text):
    tok = MeCabTokenizer()
    
    compound_nouns = []
    for sentence in text.splitlines():
        tokens = tok.iter_token(sentence)
        nouns = extract_nouns(tokens)
        # print(nouns)
        if len(nouns) > 0 :
            compound_nouns.extend(nouns)

    lr = LRValue()
    lr_values = lr.fit_transform(compound_nouns)
    lr_values = [(k,v) for k,v in lr_values.items() if v>0]
    data_collection = sorted(lr_values, key=lambda x:x[1], reverse=True)
    return list(data_collection)

In [3]:
# https://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD
text = """「人工知能」という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。
現在では、記号処理を用いた知能の記述を主体とする情報処理や研究でのアプローチという意味あいでも使われている。
日常語としての「人工知能」という呼び名は非常に曖昧なものになっており、多少気の利いた家庭用電気機械器具の制御システムやゲームソフトの思考ルーチンなどがこう呼ばれることもある。"""

phrases = mk_phrase(text)
pprint(phrases[:20])

[('人工 知能', 3.4641016151377544),
 ('家庭 用 電気 機械 器具', 1.7411011265922482),
 ('知能', 1.7320508075688772),
 ('記号 処理', 1.5650845800732873),
 ('情報 処理', 1.5650845800732873),
 ('ダートマス 会議', 1.4142135623730951),
 ('意味 あい', 1.4142135623730951),
 ('日常 語', 1.4142135623730951),
 ('多少 気', 1.4142135623730951),
 ('制御 システム', 1.4142135623730951),
 ('ゲーム ソフト', 1.4142135623730951),
 ('思考 ルーチン', 1.4142135623730951),
 ('名前', 1.0),
 ('年', 1.0),
 ('ジョン', 1.0),
 ('マッカーシー', 1.0),
 ('命名', 1.0),
 ('現在', 1.0),
 ('記述', 1.0),
 ('主体', 1.0)]


In [5]:
path = "datasets/mbe_workshops_titles.txt"
with open(path) as f:
    text = f.read()
    phrases = mk_phrase(text.strip())
    pprint(phrases[:20])

[('検討', 4996.2836188511155),
 ('解析', 3020.1403940876658),
 ('評価', 2801.906850700073),
 ('脳波', 1887.0368305891648),
 ('推定', 1332.6079693593313),
 ('基礎 的 検討', 1240.406795377713),
 ('関連 性', 931.0536308807118),
 ('ニューラル ネットワーク', 720.1345109122797),
 ('運動', 673.4567543651189),
 ('研究', 487.99590162213457),
 ('関連', 423.5563716909474),
 ('最適 化', 411.35019218754746),
 ('学習', 367.42346141747674),
 ('影響', 343.693177121688),
 ('検出', 338.98672540381284),
 ('特徴 抽出', 334.5260322087514),
 ('開発', 328.2316255329458),
 ('計測', 317.1781833607097),
 ('画像', 309.98225755678345),
 ('神経 活動', 296.35781890257635)]


In [6]:
path = "datasets/deim2022program.txt"
with open(path) as f:
    lines = [re.sub("[A-Z][1-9]+-[1-9]","", t.strip()) for t in f.readlines() if re.match(r"[A-Z][1-9]+.+", t.strip())]
    # pprint(lines)
    text = "\n".join(lines)
    phrases = mk_phrase(text)
    pprint(phrases[:50])

[('データ', 318.28289303699626),
 ('可視 化', 292.4699567536729),
 ('技術 報告', 224.77299000744762),
 ('評価', 136.0624856453828),
 ('学習', 127.27922061357856),
 ('検索', 123.6931687685298),
 ('学習 データ', 100.63647271290844),
 ('分析', 91.21403400793103),
 ('推定', 81.97560612767678),
 ('支援', 80.49844718999243),
 ('高速 化', 74.53014717771555),
 ('自動 生成', 63.95209467714902),
 ('情報', 62.71363488110062),
 ('ユーザ', 62.35382907247958),
 ('生成', 62.22539674441618),
 ('利用', 60.249481325568276),
 ('手法', 53.38539126015655),
 ('推薦 システム', 46.50955235930698),
 ('自動 化', 45.4986860323833),
 ('提案', 45.254833995939045),
 ('抽出', 43.30127018922194),
 ('ため', 43.0),
 ('最適 化', 42.341298304496725),
 ('学習 支援', 41.323479239905794),
 ('効率 化', 41.240583177090876),
 ('BERT', 40.0),
 ('効率 的', 39.689832851096774),
 ('分類', 31.74901573277509),
 ('性能 評価', 27.77182511616094),
 ('検討', 27.712812921102035),
 ('表現 学習', 26.832815729997478),
 ('機械 学習', 26.727380230532123),
 ('自動 推定', 25.95184636243266),
 ('生成 手法', 25.775675166789053),
 ('予測', 25.0

In [8]:
path = "pytermextract/test_data/jpn_sample.txt"
with open(path) as f:
    text = f.read()
    phrases = mk_phrase(text.strip())
    pprint(phrases[:100])

[('人工 知能', 484.8433856699842),
 ('AI', 117.77945491468365),
 ('知能', 108.83014288330233),
 ('年', 58.88972745734183),
 ('研究', 41.569219381653056),
 ('人工 的', 27.11809455758294),
 ('人間', 24.0),
 ('システム', 22.360679774997898),
 ('可能', 20.0),
 ('計算 知能', 19.934680700343144),
 ('こと', 18.38477631085024),
 ('学習', 16.97056274847714),
 ('エキスパート システム', 16.548754598234364),
 ('可能 性', 16.288952797169987),
 ('開発', 15.588457268119894),
 ('年 代', 15.136135474566862),
 ('もの', 15.0),
 ('人工 知能 学会', 13.59615752819759),
 ('記号 的 AI', 13.564845772056666),
 ('ニューラル ネットワーク', 13.228756555322953),
 ('手法', 12.727922061357857),
 ('認識', 12.24744871391589),
 ('コンピュータ', 11.618950038622252),
 ('プログラム', 11.313708498984761),
 ('自律 的', 11.285985407784526),
 ('ら', 10.392304845413264),
 ('意識', 9.899494936611665),
 ('哲学', 9.0),
 ('登場', 9.0),
 ('ロボット', 9.0),
 ('AI プログラム', 8.853455357602572),
 ('機械 式 計算 機', 8.840965303173386),
 ('機械 的', 8.831760866327848),
 ('問題', 8.660254037844386),
 ('機械', 8.48528137423857),
 ('論理 的', 8.4382422

In [9]:
"""
コンピュータ,
機械式計算機',
ロボット,
人工知能, 
計算知能,
ニューラルネットワーク,
エキスパートシステム,
ロボット向け人工知能,
制御システム,
AIプログラム,
記号的AI, 
論理的AI,
記号的推論,
機械学習,
統計的学習
記号的明示性
進化的計算, 
ファジィ制御,
遺伝的アルゴリズム,
軍事利用,
戦闘指揮システム
自動戦闘システム
"""
pass