In [None]:
!pip install coarij
!coarij download --kind E --year 2014
!mv data/interim data/CoARiJ

In [None]:
from collections import Counter # データ保管用
import glob  # 指定ディレクトリ以下のファイルを得る

import spacy
from tqdm import tqdm  # プログラスバーは表示

# CoARiJの2014データが保存されているディレクトリ
coarij_dir = 'data/CoARiJ/2014/docs'

# 解析の対象とする品詞
noun_tags = set(['NOUN', 'PRON', 'PROPN'])

# spacyのインスタンスを生成
nlp = spacy.load('ja_ginza')

In [None]:
def extract_words(doc, pos_tags):
    words = [token.string for token in doc
             if token.pos_ in pos_tags]
    return words

def parse_file(path, nlp, pos_tags):
    words_all = []
    with open(path, 'r') as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            doc = nlp.tokenizer(line)
            words = extract_words(doc, pos_tags)
            words_all.extend(words)
    return words_all

In [None]:
# ファイル一覧を得る
paths = glob.glob(f'{coarij_dir}/**/**.txt', recursive=True)

# 語の頻度を数えるための辞書型オブジェクト
counter = Counter()

# 単語の数を数える
for path in tqdm(paths):
    words = parse_file(path, nlp, noun_tags)
    counter.update(words)

In [None]:
# 頻度の高い語を上位20個表示
for i, (word, count) in enumerate(counter.most_common(20)):
    print("{:d}, {}, {:d}".format(i+1, word, count))