### 食料品のクラス分類

食料品をクラス分類する手順

データ収集：分類するためのデータを集めます。例えば、食品メーカーの商品リストやオンラインストアの商品カテゴリーなどがあります。

データの前処理：集めたデータを分析しやすい形に整形します。例えば、カテゴリ名の揺れを修正したり、欠損値を処理したりします。

特徴量の選択：分類するための特徴量を選択します。例えば、商品名、商品説明文、販売元、価格、成分表などがあります。

モデルの選択：分類するためのモデルを選択します。例えば、決定木、ランダムフォレスト、ニューラルネットワークなどがあります。

モデルの学習：選んだモデルに対して、データを学習させます。

モデルの評価：学習したモデルの性能を評価します。ホールドアウト法や交差検証法などがあります。

モデルの改善：モデルの性能が十分でない場合は、特徴量の追加や削除、モデルのパラメーターの調整などを行い、モデルの性能を改善します。

モデルの運用：学習したモデルを実際のデータに適用します。分類精度が低い場合は、モデルの再学習や特徴量の追加などが必要です。

### 前処理と特徴量

In [1]:
%load_ext sql
%sql sqlite:///zaim.db

%%sql

select * from food limit 20;

#### カテゴリ定義

In [16]:
!pip install 'PyPDF2<3.0'

[0m

In [None]:
from PyPDF2 import PdfFileReader
import json

# PDFファイルを開く
pdf_file = open('../pdf/product_category.pdf', 'rb')

# PDFファイルを読み込む
pdf_reader = PdfFileReader(pdf_file)

# ページの数を取得
page_count = pdf_reader.getNumPages()

# ページごとにテキストを抽出
text_list = []
for page_num in range(page_count):
    page = pdf_reader.getPage(page_num)
    text_list.append(page.extractText())

# リストを結合して文字列に変換
text = '\n'.join(text_list)
print(text)

# ファイルを閉じる
pdf_file.close()


In [28]:
import food_categories
dfs = []
for cat1, sub_cats in food_categories.cate_dict.items():
    for sub_cat1, sub_cat2_list in sub_cats.items():
        for sub_cat2 in sub_cat2_list:
            dfs.append(pd.DataFrame({
            "大カテゴリ": [cat1],
            "サブカテゴリ1": [sub_cat1],
            "サブカテゴリ2": [sub_cat2]
            }))
df = pd.concat(dfs, ignore_index=True)

print(df)

         大カテゴリ    サブカテゴリ1    サブカテゴリ2
0          食料品  米・雑穀・シリアル          米
1          食料品  米・雑穀・シリアル         玄米
2          食料品  米・雑穀・シリアル       雑穀・麦
3          食料品  米・雑穀・シリアル   もち米・お粥・餅
4          食料品  米・雑穀・シリアル       米加工品
..         ...        ...        ...
458  水・ソフトドリンク         紅茶      ダージリン
459  水・ソフトドリンク         紅茶      フレバリー
460  水・ソフトドリンク         紅茶       ブレンド
461  水・ソフトドリンク         紅茶  セット・詰め合わせ
462  水・ソフトドリンク         紅茶        その他

[463 rows x 3 columns]


In [35]:
import pandas as pd

def categorize_product_name(products):
    category_dict = {
        '食料品': {
            '卵・チーズ・乳製品': {
                '鶏卵': ['サンランタマゴ', 'パラエティタマゴ', '安心タマゴ'],
                'チーズ': ['チェダーチーズ', 'モッツァレラチーズ', 'カマンベールチーズ']
            }
        }
    }
    
    categorized_products = []
    for product in products:
        category1 = product[:2]
        category2 = ''
        category3 = ''
        for c1, c1_dict in category_dict.items():
            if category1 in c1_dict.keys():
                category2_dict = c1_dict[category1]
                category2 = list(category2_dict.keys())[0]
                for c3, c3_list in category2_dict[category2].items():
                    if product in c3_list:
                        categorized_products.append([c1, category2, c3, product])
                        break
                break
        
    return pd.DataFrame(categorized_products, columns=['大カテゴリ', '中カテゴリ', '小カテゴリ', '商品名'])

In [36]:
products = ['サンランタマゴ', 'パラエティタマゴ', '安心タマゴ']
df = categorize_product_name(products)
df

Unnamed: 0,大カテゴリ,中カテゴリ,小カテゴリ,商品名


In [None]:
import pandas as pd

def categorize_product_name(products):
    category_dict = {
        '食料品': {
            '卵・チーズ・乳製品': {
                '鶏卵': ['サンランタマゴ', 'パラエティタマゴ', '安心タマゴ'],
                'チーズ': ['チェダーチーズ', 'モッツァレラチーズ', 'カマンベールチーズ']
            }
        }
    }
    
    categorized_products = []
    for product in products:
        category1 = product[:2]
        category2 = ''
        category3 = ''
        for c1, c1_dict in category_dict.items():
            if category1 in c1_dict.keys():
                category2_dict = c1_dict[category1]
                category2 = list(category2_dict.keys())[0]
                for c3, c3_list in category2_dict[category2].items():
                    if product in c3_list:
                        categorized_products.append([c1, category2, c3, product])
                        break
                else:
                    continue
                break
            else:
                continue
        else:
            continue
        
    return pd.DataFrame(categorized_products, columns=['大カテゴリ', '中カテゴリ', '小カテゴリ', '商品名'])

products = ['サンランタマゴ', 'パラエティタマゴ', '安心タマゴ']
df = categorize_product_name(products)
print(df)


## 商品名の形態素解析

In [None]:
from module import query_function