In [1]:
from collections import Counter # データ保管用
import glob  # 指定ディレクトリ以下のファイルを得る

import MeCab
from tqdm import tqdm  # プログラスバーは表示

# CoARiJの2014データが保存されているディレクトリ
coarij_dir = 'data/CoARiJ/2014/docs'

# MeCabのTaggerインスタンスは先に生成しておく
tagger = MeCab.Tagger("")

In [2]:
def get_postag(feature):
    return feature.split(',')[0]

def extract_words(node):
    words = []
    while node:
        postag = get_postag(node.feature)
        if postag.startswith('名詞'):
            words.append(node.surface)
        node = node.next
    return words

def parse_file(path, tagger):
    words_all = []
    with open(path, 'r') as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            node = tagger.parseToNode(line)
            words = extract_words(node)
            words_all.extend(words)
    return words_all

In [3]:
# ファイル一覧を得る
paths = glob.glob(f'{coarij_dir}/**/**.txt', recursive=True)

# 語の頻度を数えるための辞書型オブジェクト
counter = Counter()

# 単語の数を数える
for path in tqdm(paths):
    words = parse_file(path, tagger)
    counter.update(words)

100%|█████████████████████████████████████████████████████████████████████████████| 40563/40563 [08:12<00:00, 82.40it/s]


In [4]:
# 頻度の高い語を上位20個表示
for i, (word, count) in enumerate(counter.most_common(20)):
    print("{:d}, {}, {:d}".format(i+1, word, count))

1, (, 915545
2, ), 864240
3, ,, 688285
4, 年, 582750
5, 月, 576795
6, 当社, 452978
7, 平成, 415277
8, 取締役, 358095
9, 監査, 353541
10, 1, 342582
11, 円, 334876
12, 事業, 319149
13, ., 314982
14, 等, 286308
15, 3, 250223
16, 2, 239998
17, 4, 236426
18, 万, 233527
19, 百, 226568
20, 連結, 217947
