In [8]:
from collections import Counter # データ保管用
import glob  # 指定ディレクトリ以下のファイルを得る

import spacy
from tqdm import tqdm  # プログラスバーは表示

# CoARiJの2014データが保存されているディレクトリ
coarij_dir = 'data/CoARiJ/2014/docs'

# 解析の対象とする品詞
noun_tags = set(['NOUN', 'PRON', 'PROPN'])

# spacyのインスタンスを生成
nlp = spacy.load('ja_ginza')

In [9]:
def extract_words(doc, pos_tags):
    words = [token.string for token in doc
             if token.pos_ in pos_tags]
    return words

def parse_file(path, nlp, pos_tags):
    words_all = []
    with open(path, 'r') as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            doc = nlp.tokenizer(line)
            words = extract_words(doc, pos_tags)
            words_all.extend(words)
    return words_all

In [11]:
# ファイル一覧を得る
paths = glob.glob(f'{DATA_DIR}/**/**.txt', recursive=True)

# 語の頻度を数えるための辞書型オブジェクト
counter = Counter()

# 単語の数を数える
for path in tqdm(paths):
    words = parse_file(path, nlp, noun_tags)
    counter.update(words)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 55658/55658 [1:07:34<00:00, 13.73it/s]


In [12]:
# 頻度の高い語を上位20個表示
for i, (word, count) in enumerate(counter.most_common(20)):
    print("{:d}, {}, {:d}".format(i+1, word, count))

1, 年, 576470
2, 月, 567931
3, 当社, 451887
4, 平成, 412532
5, 円, 328609
6, 等, 287525
7, 事業, 246360
8, 連結, 208021
9, 取締役, 198451
10, こと, 156442
11, 株式会社, 156149
12, グループ, 153850
13, ため, 142240
14, 監査役, 123592
15, セグメント, 121435
16, 状況, 114749
17, 昭和, 110426
18, 株式, 108475
19, 経営, 105743
20, 日, 105595
