In [1]:
from collections import Counter
from typing import List, Iterator, TextIO
import pandas as pd
import numpy as np
import MeCab
import csv
import pprint

In [38]:
tagger = MeCab.Tagger('/usr/local/lib/mecab/dic/mecab-ipadic-neologd')
tagger.parse('')

def main(place):
    """
    コマンドライン引数で指定したディレクトリ内のファイルを読み込んで、頻出単語を表示する
    """
    word_list = []

    year = []
    for i in range(1998, 2015):
        year.append(i)

    for i in year:
        # つくレポ数が多いレシピを抽出する。閾値は300
        report_recipe_id = pd.read_csv(f"/Users/tamuramasayuki/Desktop/3S/基礎プロジェクトB/programming/dataset/report 2/report{i}.csv", names=["recipe_id"], usecols=[0])

        value_count = report_recipe_id["recipe_id"].value_counts()
        df_value_count = pd.DataFrame(value_count)
        df_value_count["quantity"] = df_value_count["recipe_id"]
        df_v = pd.DataFrame({"recipe_id":df_value_count.index, "quantity":df_value_count["quantity"]})
        good_recipe_id = df_v[df_v["quantity"] >= 300]
        good_recipe_id.reset_index(drop=True)


        df = pd.read_csv(f'/Users/tamuramasayuki/Desktop/3S/基礎プロジェクトB/programming/dataset/recipe/recipe{i}.csv', names=["recipe_id", "dish_name"], usecols=[0, 2])

        good_recipe = pd.merge(good_recipe_id, df, on="recipe_id", how="left")

        # データのクレンジングを行う。
        df["dish_name"] = df["dish_name"].fillna("non-data") # 欠損値を補完する
        good_recipe["dish_name"] = good_recipe["dish_name"].replace(" ", "") # 半角スペースを消去する
        good_recipe["dish_name"] = good_recipe["dish_name"].replace("　", "") # 全角スペースを消去する
        good_recipe["dish_name"] = good_recipe["dish_name"].replace("〜", "ー") # 伸ばす棒の〜をーに統一する。

        print(f'{i}:')

        frequency = Counter()

        frequency = count_words(good_recipe["dish_name"])

        words = []
        for word, count in frequency.most_common(place):
            words.append(word)
            # print(word, count)
        word_list.append(words)
    return word_list

def count_words(data):
    frequency = Counter()

    for content in data:
        words = get_words(content) # 料理名に含まれる名詞のリストを取得する。
        # Counterのupdate()メソッドにリストなどの反復可能オブジェクトを指定すると、
        # リストに含まれる値の出現回数を一度に増やせる
        frequency.update(words)

    print(f'Found {len(frequency)} words from {len(data)} dishes.\n')
    return frequency

def get_words(content):
    """
    文字列内に出現するリスト（重複含む）を取得する関数
    """

    words = []
    node = tagger.parseToNode(content)
    while node:
        # node.featureはカンマで区切られた文字列なので、split()で分割して
        # 最初の2項目をposとpos_sub1に代入する。posはPart of Speech（品詞）の略
        pos = node.feature.split(',')[0]
        if pos == '名詞':
            words.append(node.surface)
        node = node.next

    return words

In [39]:
word_list = main(21)

1998:
Found 0 words from 0 dishes.

1999:
Found 0 words from 0 dishes.

2000:
Found 8 words from 3 dishes.

2001:
Found 25 words from 5 dishes.

2002:
Found 29 words from 9 dishes.

2003:
Found 99 words from 30 dishes.

2004:
Found 92 words from 32 dishes.

2005:
Found 213 words from 78 dishes.

2006:
Found 659 words from 349 dishes.

2007:
Found 970 words from 550 dishes.

2008:
Found 800 words from 448 dishes.

2009:
Found 954 words from 542 dishes.

2010:


TypeError: in method 'Tagger_parseToNode', argument 2 of type 'char const *'

In [13]:
word_list

[[],
 [],
 ['', 'も', 'もち', 'だし', '水', 'いっさい', '使わ', 'ない', '肉じゃが', 'ベーグル'],
 ['',
  'の',
  '∽∽',
  'とろ',
  '～',
  'り',
  '♪',
  'ピーマン',
  '肉',
  '詰め',
  '。',
  '本格',
  '的',
  'な',
  '味',
  '☆',
  '麻',
  '婆',
  '茄子',
  'うち',
  'タコ'],
 ['',
  'の',
  '秘密',
  'バナナ',
  'ケーキ',
  '入れ',
  'て',
  '炊く',
  'だけ',
  '☆',
  '鮭',
  '炊き込み',
  'ご飯',
  '揚げ',
  'ない',
  '、',
  'チョー',
  'かん',
  'た',
  'ん',
  '酢豚'],
 ['',
  '！',
  'の',
  '。',
  '南蛮',
  '？',
  'と',
  'ツナ',
  '簡単',
  '納豆',
  'で',
  '\u3000',
  '一番',
  '人気',
  'チキン',
  'おぉ',
  'まさに',
  'これ',
  'は',
  'ハトサブレ',
  '本当に'],
 ['',
  'の',
  '。',
  '！',
  '＊',
  '、',
  'と',
  'ー',
  'かぼちゃ',
  '豚',
  'に',
  '甘酢',
  '胡麻',
  '♪',
  'トマト',
  '☆',
  'サラダ',
  '卵',
  '大根',
  '風',
  '鶏'],
 ['',
  'の',
  '☆',
  '！',
  '◆',
  '～',
  '。',
  '（',
  '）',
  'と',
  'お',
  '簡単',
  'ケーキ',
  '味',
  'な',
  'サラダ',
  '風',
  'たっぷり',
  '炒め',
  '和風',
  '美味しい'],
 ['',
  'の',
  '☆',
  '♪',
  '！',
  '簡単',
  'で',
  'と',
  'お',
  '炒め',
  '風',
  'に',
  '焼き',
  '★',
  '。',
  '豆腐',
 

In [37]:
word_list

[[],
 [],
 ['もち', 'だし', '水', 'いっさい', '肉じゃが', 'ベーグル'],
 ['∽∽',
  '～',
  '♪',
  'ピーマン',
  '肉',
  '詰め',
  '本格',
  '的',
  '味',
  '麻',
  '婆',
  '茄子',
  'うち',
  'タコ',
  '飯',
  '好評',
  '簡単',
  'ベークドチーズケーキ'],
 ['秘密',
  'バナナ',
  'ケーキ',
  '鮭',
  'ご飯',
  'ん',
  '酢豚',
  'いかが',
  '簡単',
  'すぎ',
  'レタス',
  '海苔',
  'サラダ',
  'ほた',
  'バター',
  'ダイコン',
  'ベーコン',
  'スープ煮',
  '大人気',
  '♪◆',
  'カリフラワー'],
 ['簡単',
  '納豆',
  'プリン',
  '南蛮',
  'ツナ',
  'サラダ',
  '♪',
  '豚肉',
  'にんにく',
  '風',
  '一番',
  '人気',
  'チキン',
  'これ',
  'ハトサブレ',
  '手作り',
  'サクサククッキー',
  '鶏',
  '胸',
  '肉',
  '漬け'],
 ['♪',
  'ー',
  '鶏',
  '胸',
  '肉',
  'かぼちゃ',
  '豚',
  '甘酢',
  '胡麻',
  'トマト',
  'サラダ',
  '卵',
  '～',
  '大根',
  '風',
  'スープ',
  '簡単',
  '美味',
  '煮付け',
  'バラ',
  'ネギ'],
 ['～',
  '簡単',
  '♪',
  'ケーキ',
  '味',
  '豚',
  '風',
  'サラダ',
  '味噌',
  '牛',
  '丼',
  '大人気',
  '和風',
  '焼き',
  '鶏',
  '店',
  '豆腐',
  'ちの',
  'ソース',
  'おから',
  'クルミ'],
 ['♪',
  '簡単',
  '鶏',
  '豆腐',
  '焼き',
  '豚',
  '風',
  'サラダ',
  '大根',
  'ケーキ',
  '味',
  '醤油',
  'キャベツ',
 

In [41]:
a = np.delete(word_list, [0, 1, 2, 3])

In [42]:
with open("/Users/tamuramasayuki/Desktop/3S/基礎プロジェクトB/programming/dataset/analysis/frequent_words.csv", "a") as f:
    writer = csv.writer(f)
    writer.writerows(a)
with open("/Users/tamuramasayuki/Desktop/3S/基礎プロジェクトB/programming/dataset/analysis/frequent_words.csv") as f:
    print(f.read())

﻿料理名での頻出単語上位20位,,,,,,,,,,,,,,,,,,,,
年,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,202
1998,の,サラダ,て,、,焼き,！,煮,肉,簡単,リゾット,紅茶,お,に,＆,豆腐,た,で,ホイル,パン,。
1999,の,と,簡単,！,サラダ,風,煮,炒め,揚げ,。,焼き,　,た,で,トマト,な,、,チーズ,お,スープ
2000,の,と,！,簡単,風,サラダ,♪,煮,・,　,焼き,炒め,お,で,☆,スープ,ケーキ,トマト,揚げ,（
2001,の,と,♪,！,☆,簡単,煮,サラダ,風,★,で,炒め,　,・,焼き,お,ケーキ,）,（,豆腐
2002,の,と,！,☆,簡単,♪,サラダ,★,で,　,風,～,煮,お,炒め,・,焼き,）,ケーキ,（
2003,の,と,！,☆,で,♪,簡単,　,サラダ,煮,風,お,★,。,炒め,・,焼き,ケーキ,）,（
2004,の,と,☆,！,簡単,♪,で,　,★,サラダ,お,・,煮,風,炒め,。,ケーキ,）,（,焼き
2005,の,と,☆,！,♪,で,簡単,★,　,サラダ,煮,お,風,）,炒め,ケーキ,（,焼き,・,～
2006,の,☆,と,♪,！,簡単,で,★,サラダ,　,お,煮,炒め,風,焼き,に,ケーキ,豆腐,～,・
2007,の,☆,と,♪,！,簡単,で,★,お,サラダ,　,炒め,に,煮,風,焼き,～,・,豆腐,ケーキ
2008,の,☆,と,♪,簡単,で,！,★,お,　,サラダ,に,炒め,焼き,風,煮,～,✿,♡,・
2009,の,☆,と,簡単,♪,！,で,★,お,　,に,サラダ,炒め,焼き,風,煮,～,野菜,トマト,豆腐
2010,の,☆,と,簡単,♪,で,！,★,お,に,　,炒め,サラダ,風,焼き,煮,＊,チーズ,野菜,豆腐
2011,の,☆,と,簡単,で,♪,！,に,お,★,　,サラダ,炒め,＊,焼き,風,煮,チーズ,野菜,トマト
2012,の,と,☆,簡単,で,！,♪,お,に,サラダ,炒め,★,塩,＊,焼き,　,風,煮,麹,野菜
2013,の,と,簡単,☆,！,で,♪,に,お,♡,サラダ,炒め,焼き,＊,風,★,煮,　,野菜,トマト
2014,の,と,簡単,☆,！,で,♪,♡,に,お,炒め,サラダ,焼き,風,★,煮,＊,トマト,野菜,鶏
,,