# Gephiで共起ネットワークの可視化
Mecabで形態素解析し、同じ文中で出現する[名詞、形容詞、動詞]をノードとする。

共起関係がエッジ。

抽出した単語を文ごとにカンマで区切り，CSVファイルを作成する。

In [3]:
## 分かち書きデータの用意janome

from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.charfilter import UnicodeNormalizeCharFilter, RegexReplaceCharFilter
from janome.tokenfilter import POSStopFilter, LowerCaseFilter, ExtractAttributeFilter

# 助詞などを除外した上で分かち書き
def wakati_filter(text: str,
                  char_reg_filter=[("[,\.\(\)\{\}\[\]]"," ")],
                  ignore_filter=['接続詞', '接頭辞', '接尾辞',  '助詞', '助動詞']):
    
    char_filters = [UnicodeNormalizeCharFilter(), # UnicodeをNFKCで正規化
                    RegexReplaceCharFilter('\d+', '0')] # 数字を全て0に置換
    for reg in char_reg_filter:
        char_filters.append(RegexReplaceCharFilter(*reg))

    tokenizer = Tokenizer()

    token_filters = [POSStopFilter(ignore_filter), # 除外対象を設定
                     LowerCaseFilter(), # 英字は小文字に統一
#                     ExtractAttributeFilter('base_form')  # 原型のみを取得
                    ]

    analyzer = Analyzer(char_filters, tokenizer, token_filters)
    return [token.surface for token in analyzer.analyze(text)] # token.surfaceは表層形(語彙)

# 頻出語カウント
def countwords(textlist):
    # counting
    words = {}
    for word in textlist:
        words[word] = words.get(word, 0) + 1

    # sort by count
    d = [(v,k) for k,v in words.items()]
    d.sort()
    d.reverse()
    for count, word in d[:50]:
        print(count, word)
        
# 除去
def remove_stopwords(words, stopwords):
    words = [word for word in words if word not in stopwords]
    return words

In [15]:
# 分かち書きさせるファイルの読み込み
filename = "../text/test.txt"
text = open(filename, "r",encoding="utf-8").read()

# 分かち書き
wakati_text = wakati_filter(text)

# ストップワード
#stopwords = get_stop_words(wakati_text)
#print('stop words: {}'.format(stopwords))

# 頻出語を確認して不要な語を指定(データをもながら増やす)

stopwords = ['0', 'し', 'する', '化', '年', '月', '日',
         'できる', 'こと', 'さ', 'いる', '者', '向け', '的', 
         '利用', '開始', '発表', '社','れ', '型', 'なる', '性', 'ら',
         '加え', 'でき', '全', '行う', '円', 'おり', 'なっ', '会', '第','。','、','「','」',' ', '・']

# 除去
wakati_text = remove_stopwords(wakati_text, stopwords)
print(countwords(wakati_text))
# 分かち書き後のデータを出力
file = open('wakati_text.csv', 'w',encoding="utf-8")
file.writelines(" ".join(wakati_text))
file.close() 

485 

192 保険
91 ai
86 サービス
74 業務
66 開発
66 活用
66 データ
66 システム
61 提供
57 技術
52 導入
47 企業
44 情報
40 生命
39 顧客
34 分析
33 日本
31 銀行
31 認証
31 自動
31 管理
31 実証
30 商品
30 効率
29 連携
29 人材
29 ブロック
29 チェーン
28 可能
27 実験
27 健康
26 スマート
25 金融
24 ジャパン
24 rpa
23 確認
23 時間
23 必要
23 人
23 三井
22 音声
22 採用
22 アプリ
21 証券
21 育成
21 支援
21 専門
21 対象
21 nec
None
