# Grocery Store Sales Forecasting & Insights

## Overview
本プロジェクトでは、スーパーマーケットチェーンの売上データを用いて、
店舗および商品カテゴリ別の需要予測と、価格・割引・ロイヤルティ施策が売上に与える影響の分析を行う。


## Objective
本プロジェクトでは、スーパーマーケットチェーンにおける
店舗 × 商品カテゴリ別の**売上需要を予測**し、
価格・割引・ロイヤルティ施策が売上に与える影響を定量的に分析する。

これにより、**在庫補充やプロモーション施策の改善、価格戦略の意思決定**に資するインサイトを得ることを目的とする。

## Dataset
- 対象期間：2023年 8月〜2025年 8月
- 行数：1980行
- 店舗数：9店舗
- 商品カテゴリ数：11
- 主な特徴量：
  - 価格
  - 割引率
  - ロイヤルティポイント
  - 売上数量（ターゲット）
- ライセンス：Apache License 2.0


## Analysis Flow
1. データ概要と品質確認（本ノート）
2. 探索的データ分析（10_eda.ipynb）
3. 特徴量エンジニアリング（20_features.ipynb）
4. モデル構築と評価（30_model.ipynb）
5. 結果の可視化と考察（90_plots.ipynb）


In [1]:
import pandas as pd

df = pd.read_csv("../data/raw/grocery_chain_data.csv")

df.info()

df.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1980 entries, 0 to 1979
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customer_id       1980 non-null   int64  
 1   store_name        1955 non-null   object 
 2   transaction_date  1980 non-null   object 
 3   aisle             1980 non-null   object 
 4   product_name      1980 non-null   object 
 5   quantity          1980 non-null   float64
 6   unit_price        1980 non-null   float64
 7   total_amount      1980 non-null   float64
 8   discount_amount   1980 non-null   float64
 9   final_amount      1980 non-null   float64
 10  loyalty_points    1980 non-null   int64  
dtypes: float64(5), int64(2), object(4)
memory usage: 170.3+ KB


Unnamed: 0,customer_id,store_name,transaction_date,aisle,product_name,quantity,unit_price,total_amount,discount_amount,final_amount,loyalty_points
0,2824,GreenGrocer Plaza,2023-08-26,Produce,Pasta,2.0,7.46,14.92,0.0,14.92,377
1,5506,ValuePlus Market,2024-02-13,Dairy,Cheese,1.0,1.85,1.85,3.41,-1.56,111
2,4657,ValuePlus Market,2023-11-23,Bakery,Onions,4.0,7.38,29.52,4.04,25.48,301
3,2679,SuperSave Central,2025-01-13,Snacks & Candy,Cereal,3.0,5.5,16.5,1.37,15.13,490
4,9935,GreenGrocer Plaza,2023-10-13,Canned Goods,Orange Juice,5.0,8.66,43.3,1.5,41.8,22


## Initial Observations
- 日付カラムが object 型であり、時系列分析のために型変換が必要
- store_name に欠損値が存在し、店舗単位の分析に影響する可能性がある
- カテゴリ変数と数値変数が混在しており、前処理および特徴量設計が必要


## Next Step
次の 10_eda.ipynb では、店舗・商品カテゴリ・時系列の観点から
売上の分布や傾向を詳しく探索する。
