In [1]:
# count_word.py

from collections import Counter

import spacy
import pandas as pd

# 使用する単語の品詞とストップワードの指定
include_pos = ('NOUN', 'PROPN', 'VERB', 'ADJ')
stopwords = ('する', 'ある', 'ない', 'いう', 'もの', 'こと', 'よう',
             'なる', 'ほう', 'いる', 'くる', 'お', 'できる')

# 口コミデータの読み込み
df = pd.read_csv('text/miyajima_sample.csv', encoding='utf-8',
                 parse_dates=['旅行の時期'])

# 口コミに含まれている空行を削除
df['口コミ'] = df['口コミ'].replace('\n+', '\n', regex=True)

nlp = spacy.load('ja_ginza')

# 出現する単語をリストに追加
words = []
for doc in nlp.pipe(df['口コミ'] ):
    words.extend([token.lemma_ for token in doc
                  if token.pos_ in include_pos and
                  token.lemma_ not in stopwords])

# 単語の頻度をカウント
counter = Counter(words)

print('count word')
for word, count in counter.most_common(10):
    print(f'{count:>5} {word}')

count word
  209 宮島
  125 行く
   96 食べる
   84 もみじ
   77 思う
   74 厳島神社
   66 牡蠣
   52 水族館
   52 鹿
   48 饅頭
