In [4]:
# count_food1.py

from collections import Counter

import spacy
from spacy.pipeline import EntityRuler
import pandas as pd

# 1. 口コミデータの読み込み
df = pd.read_csv('text/miyajima_sample.csv', encoding='utf-8',
                 parse_dates=['旅行の時期'])

nlp = spacy.load('ja_ginza')

In [5]:
# 2. 固有表現抽出のルールを追加
ruler = EntityRuler(nlp, overwrite_ents=True)
patterns = [
    {'label': 'Dish', 'pattern': [
        {'TEXT': 'あなご'},
        {'TEXT': {'REGEX': r'飯|めし'}},
    ]},
    {'label': 'Dish', 'pattern': '揚げもみじ'},
    {'label': 'Dish', 'pattern': 'ガンス'},
    {'label': 'Dish', 'pattern': [
        {'TEXT': 'にぎり'},
        {'TEXT': '天'}
    ]}
]

ruler.add_patterns(patterns)
nlp.add_pipe(ruler,  before='ner')

In [6]:
# 3. 料理名をリストに追加
food = []
for doc in nlp.pipe(df['口コミ']):
    # 料理名（Dishタグ）を抽出
    for ent in doc.ents:
        if ent.label_ == 'Dish':
            food.append(ent.text)

# 4. 料理名の頻度をカウント
counter = Counter(food)

# 5. 料理名の頻度を表示
print('count word')
for word, count in counter.most_common():
    print(f'{count:>5} {word}')

count word
   31 もみじ饅頭
   27 揚げもみじ
   11 焼き牡蠣
    8 饅頭
    6 にぎり天
    6 あなご飯
    6 あなごめし
    6 ガンス
    5 コーヒー
    4 牡蠣料理
    4 アイスクリーム
    4 お茶
    3 穴子飯
    3 鹿せんべい
    3 穴子
    3 タピオカ
    3 クリーム
    2 サンドdeおにぎり
    2 アナゴ飯
    2 宮島ビール
    2 チーズ
    2 ビール
    2 日本酒
    1 昼食
    1 カクテル
    1 ジュース
    1 おにぎり
    1 勝谷菓子パン舗
    1 アナゴ飯弁当
    1 地ビール
    1 サイコロステーキ
    1 ケーキ
    1 作り立て
    1 アイス
    1 せんべい
    1 穴子入り竹輪
    1 スターバックス
    1 レモンジュース
    1 揚げ紅葉
    1 抹茶
    1 包々浦自然公園
    1 お好み焼き
    1 自然公園
    1 多宝塔
    1 包々浦
    1 揚げ紅葉饅頭
    1 カワウソ
    1 殻付き牡蠣
    1 牡蠣のパスタ
    1 牡蠣入り
    1 海鮮丼
    1 牡蠣入りのカレーパン
    1 ごはん
    1 焼き立て
    1 スターバックスコーヒー
    1 プリップリ
    1 七味
    1 かきフライ
    1 醤油マヨ
    1 もみじ饅頭焼き
