In [1]:
from collections import Counter # データ保管用
import glob  # 指定ディレクトリ以下のファイルを得る

import MeCab
from tqdm import tqdm  # プログラスバーは表示

# CoARiJの2014データが保存されているディレクトリ
coarij_dir = 'data/CoARiJ/2014/docs'

# MeCabのTaggerインスタンスは先に生成しておく
tagger = MeCab.Tagger("")

In [2]:
def get_postag(feature):
    return feature.split(',')[0]

def extract_words(node):
    words = []
    while node:
        postag = get_postag(node.feature)
        if postag.startswith('名詞'):
            words.append(node.surface)
        node = node.next
    return words

def parse_file(path, tagger):
    words_all = []
    with open(path, 'r') as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            node = tagger.parseToNode(line)
            words = extract_words(node)
            words_all.extend(words)
    return words_all

In [3]:
# ファイル一覧を得る
paths = glob.glob(f'{coarij_dir}/**/**.txt', recursive=True)

# 語の頻度を数えるための辞書型オブジェクト
counter = Counter()

# 単語の数を数える
for path in tqdm(paths):
    words = parse_file(path, tagger)
    counter.update(words)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 55658/55658 [02:40<00:00, 346.45it/s]


In [4]:
# 頻度の高い語を上位20個表示
for i, (word, count) in enumerate(counter.most_common(20)):
    print("{:d}, {}, {:d}".format(i+1, word, count))

1, ,, 682950
2, 年, 582744
3, 当社, 452977
4, 平成, 415267
5, 取締役, 358117
6, 監査, 353546
7, 円, 334874
8, (, 323318
9, 事業, 319185
10, ), 287824
11, 等, 286322
12, 万, 233498
13, 百, 226565
14, ., 223137
15, 連結, 217948
16, 役, 201814
17, 会計, 178779
18, 年度, 170543
19, １, 167608
20, 株式会社, 157233
