# 🏪 店舗別包括ダッシュボード v5.0 - Phase 3実装版

## 📋 Phase 3で実装する5つの高度な分析機能

### 🎯 **AI/機械学習で売上を最大化する**

1. **I1. PyCaret自動特徴量選択** - SHAP値で重要特徴量を自動抽出
2. **F2. トレンド検知・成長率分析** - Mann-Kendall検定で統計的にトレンドを検証
3. **D2. 欠品検知・機会損失定量化** - 過去の欠品パターンから損失額を推定
4. **B2. ベストプラクティス抽出** - トップ店舗の成功要因を自動分析
5. **C3. マーケットバスケット分析** - Aprioriアルゴリズムで商品間の関連性を発見

---

## 🔧 Phase 3の設計思想

### Phase 1・2との違い
- **Phase 1**: 「現状を把握する」（見える化）
- **Phase 2**: 「問題を予防し、最適行動を導く」（最適化）
- **Phase 3**: 「AIで売上を最大化する」（自動化・高度化）

### 3つの柱
1. **解釈可能なAI**: ブラックボックスではなく、なぜそう予測したかを説明
2. **パターン発見**: 人間では気づけない商品間の関連性を発見
3. **ベンチマーク学習**: トップ店舗の成功要因を他店に横展開

---

In [None]:
# 日本語フォント設定
import font_setup
JP_FP = font_setup.setup_fonts()


In [None]:
# 基本ライブラリ先読み
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from pathlib import Path

# 可視化
import matplotlib.pyplot as plt
import seaborn as sns

# Plotly（利用可能な場合）
try:
    import plotly.graph_objects as go
    import plotly.express as px
    import plotly.io as pio
    PLOTLY_AVAILABLE = True
except ImportError:
    PLOTLY_AVAILABLE = False

# ipywidgets
try:
    import ipywidgets as widgets
    from IPython.display import display, HTML, clear_output
    WIDGETS_AVAILABLE = True
except ImportError:
    WIDGETS_AVAILABLE = False

# matplotlib共通設定
plt.rcParams['figure.figsize'] = (18, 12)
plt.rcParams['figure.dpi'] = 100
plt.rcParams['savefig.dpi'] = 150
plt.rcParams['font.size'] = 11

# seaborn
sns.set_style('whitegrid')
sns.set_palette('husl')

# pandas
pd.set_option('display.unicode.east_asian_width', True)
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 200)
pd.set_option('display.width', 120)

print('\n' + '='*80)
print('🏪 店舗別包括ダッシュボード v5.0'.center(80))
print('='*80)
print(f'\n✅ 環境設定完了')
print(f'   実行日時: {datetime.now().strftime("%Y年%m月%d日 %H:%M:%S")}')
print(f'   pandas: {pd.__version__}')
print(f'   matplotlib: {plt.matplotlib.__version__}')
print(f'   Plotly: {"利用可能" if PLOTLY_AVAILABLE else "未インストール"}')
print(f'   ipywidgets: {"利用可能" if WIDGETS_AVAILABLE else "未インストール"}')


In [None]:
# 基本ライブラリ先読み
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from pathlib import Path

# 可視化
import matplotlib.pyplot as plt
import seaborn as sns

# Plotly（利用可能な場合）
try:
    import plotly.graph_objects as go
    import plotly.express as px
    import plotly.io as pio
    PLOTLY_AVAILABLE = True
except ImportError:
    PLOTLY_AVAILABLE = False

# ipywidgets
try:
    import ipywidgets as widgets
    from IPython.display import display, HTML, clear_output
    WIDGETS_AVAILABLE = True
except ImportError:
    WIDGETS_AVAILABLE = False

# matplotlib共通設定
plt.rcParams['figure.figsize'] = (18, 12)
plt.rcParams['figure.dpi'] = 100
plt.rcParams['savefig.dpi'] = 150
plt.rcParams['font.size'] = 11

# seaborn
sns.set_style('whitegrid')
sns.set_palette('husl')

# pandas
pd.set_option('display.unicode.east_asian_width', True)
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 200)
pd.set_option('display.width', 120)

print('\n' + '='*80)
print('🏪 店舗別包括ダッシュボード v5.0'.center(80))
print('='*80)
print(f'\n✅ 環境設定完了')
print(f'   実行日時: {datetime.now().strftime("%Y年%m月%d日 %H:%M:%S")}')
print(f'   pandas: {pd.__version__}')
print(f'   matplotlib: {plt.matplotlib.__version__}')
print(f'   Plotly: {"利用可能" if PLOTLY_AVAILABLE else "未インストール"}')
print(f'   ipywidgets: {"利用可能" if WIDGETS_AVAILABLE else "未インストール"}')


In [None]:
# 基本ライブラリ先読み
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from pathlib import Path

# 可視化
import matplotlib.pyplot as plt
import seaborn as sns

# Plotly（利用可能な場合）
try:
    import plotly.graph_objects as go
    import plotly.express as px
    import plotly.io as pio
    PLOTLY_AVAILABLE = True
except ImportError:
    PLOTLY_AVAILABLE = False

# ipywidgets
try:
    import ipywidgets as widgets
    from IPython.display import display, HTML, clear_output
    WIDGETS_AVAILABLE = True
except ImportError:
    WIDGETS_AVAILABLE = False

# matplotlib共通設定
plt.rcParams['figure.figsize'] = (18, 12)
plt.rcParams['figure.dpi'] = 100
plt.rcParams['savefig.dpi'] = 150
plt.rcParams['font.size'] = 11

# seaborn
sns.set_style('whitegrid')
sns.set_palette('husl')

# pandas
pd.set_option('display.unicode.east_asian_width', True)
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 200)
pd.set_option('display.width', 120)

print('\n' + '='*80)
print('🏪 店舗別包括ダッシュボード v5.0'.center(80))
print('='*80)
print(f'\n✅ 環境設定完了')
print(f'   実行日時: {datetime.now().strftime("%Y年%m月%d日 %H:%M:%S")}')
print(f'   pandas: {pd.__version__}')
print(f'   matplotlib: {plt.matplotlib.__version__}')
print(f'   Plotly: {"利用可能" if PLOTLY_AVAILABLE else "未インストール"}')
print(f'   ipywidgets: {"利用可能" if WIDGETS_AVAILABLE else "未インストール"}')


In [None]:
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import matplotlib.pyplot as plt
import seaborn as sns
try:
    import ipywidgets as widgets
    from IPython.display import display
    WIDGETS_AVAILABLE = True
except:
    WIDGETS_AVAILABLE = False
plt.rcParams['figure.figsize'] = (18, 12)
plt.rcParams['axes.unicode_minus'] = False
sns.set_style('whitegrid')
pd.set_option('display.max_columns', 50)
print('\n' + '='*80)
print('🏪 店舗別包括ダッシュボード v5.0'.center(80))
print('='*80)
print(f'\n✅ 環境設定完了 {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')


In [None]:
# 📂 データ読み込み
print("\n📂 データ読み込み中...")

df_enriched = pd.read_csv('output/06_final_enriched_20250701_20250930.csv')
df_enriched['日付'] = pd.to_datetime(df_enriched['日付'])

print(f"✅ データ読み込み完了")
print(f"   行数: {len(df_enriched):,}")
print(f"   列数: {len(df_enriched.columns)}")
print(f"   期間: {df_enriched['日付'].min()} ~ {df_enriched['日付'].max()}")
print(f"   店舗数: {df_enriched['店舗'].nunique()}")
print(f"   商品数: {df_enriched['商品名'].nunique():,}")

stores = df_enriched['店舗'].unique()
print(f"\n🏪 店舗一覧:")
for i, store in enumerate(stores, 1):
    print(f"   {i}. {store}")

DEFAULT_STORE = stores[0]
try:
    MY_STORE
except NameError:
    MY_STORE = DEFAULT_STORE
print(f"\n🎯 分析対象店舗: {MY_STORE}")

my_df = df_enriched[df_enriched['店舗'] == MY_STORE].copy()

In [None]:
# 🎯 店舗選択ウィジェット

# 店舗一覧
stores = sorted(df_enriched['店舗'].unique())
DEFAULT_STORE = stores[0]

print(f"\n🏪 利用可能な店舗 ({len(stores)}店舗):")
for i, store in enumerate(stores, 1):
    print(f"   {i}. {store}")

# 店舗選択ウィジェット
if WIDGETS_AVAILABLE:
    print("\n" + "="*80)
    print("🎯 以下のドロップダウンから分析対象店舗を選択してください")
    print("="*80)
    
    store_dropdown = widgets.Dropdown(
        options=stores,
        value=DEFAULT_STORE,
        description='分析対象店舗:',
        disabled=False,
        style={'description_width': '120px'},
        layout=widgets.Layout(width='500px')
    )
    
    info_label = widgets.HTML(
        value="<b>💡 ヒント:</b> 店舗を変更すると、以降のすべての分析が選択した店舗で再計算されます。"
    )
    
    display(widgets.VBox([store_dropdown, info_label]))
    
    # 選択された店舗
    MY_STORE = store_dropdown.value
else:
    pass
    # ウィジェットが使えない場合
    print(f"\n🎯 分析対象店舗: {MY_STORE} (デフォルト)")

# 店舗データフィルタリング
my_df = df_enriched[df_enriched['店舗'] == MY_STORE].copy()

print(f"\n✅ 選択された店舗: {MY_STORE}")
print(f"   対象データ: {len(my_df):,}行")

In [None]:
# 🔍 データ検証（存在チェック）

def validate_data_column(df, col_name, analysis_name="分析"):
    """データカラムの存在と有効性をチェック"""
    if col_name not in df.columns:
        print(f"⚠️ {analysis_name}: '{col_name}' カラムが存在しません")
        return False
    
    non_null_count = df[col_name].notna().sum()
    coverage = non_null_count / len(df) * 100
    
    if coverage < 50:
        print(f"⚠️ {analysis_name}: '{col_name}' のカバレッジが低い ({coverage:.1f}%)")
        return False
    
    return True

print("\n🔍 データ検証中...")
print("="*80)

# 必須カラムチェック
required_cols = ['日付', '売上金額', '店舗']
for col in required_cols:
    if col in df_enriched.columns:
        print(f"✅ 必須カラム '{col}' - 存在")
    else:
        print(f"❌ 必須カラム '{col}' - 不足")
        print(f"❌ 必須カラム '{col}' - 不足")

# オプションカラムチェック
optional_cols = {
    '気象データ': ['最高気温', '降水量'],
    '前年データ': ['昨年同日_売上', '昨年同日_客数'],
    '時間帯データ': ['時刻', '時間']
}

for category, cols in optional_cols.items():
    has_any = any(col in df_enriched.columns for col in cols)
    if has_any:
        available_cols = [col for col in cols if col in df_enriched.columns]
        print(f"✅ {category}: {', '.join(available_cols)}")
    else:
        print(f"❌ 必須カラム '{col}' - 不足")
        print(f"⚠️ {category}: 利用不可（代替ロジック使用）")

print("="*80)
print("✅ データ検証完了\n")

---

# 🤖 【機能1】PyCaret自動特徴量選択・重要度分析

## SHAP値で「なぜその予測になったか」を説明

### SHAP (SHapley Additive exPlanations) とは
- ゲーム理論に基づく特徴量の貢献度分析
- 各特徴量が予測にどれだけ寄与したかを定量化
- ポジティブ/ネガティブの影響を可視化

### 分析内容
1. **グローバル特徴量重要度** - 全体で最も重要な特徴量TOP 20
2. **SHAP Summary Plot** - 各特徴量の影響の分布
3. **SHAP Dependence Plot** - 特定特徴量と予測の関係
4. **特徴量の自動削減** - 重要度が低い特徴量を除外
5. **予測精度の比較** - 削減前後のパフォーマンス

In [None]:

# 📊 グラフの見方ガイド
#
# 【特徴量重要度グラフ】
#   ・棒が長い項目 → 売上予測に大きく影響する要素
#   ・上位3つの要素に注目して施策を考える
#
#   例）「最高気温」が上位 → 気温による商品入替が効果的
#       「曜日」が上位 → 曜日別の品揃え変更が重要
#       「昨年同日_売上」が上位 → 前年データを参考にした発注が有効
#
#   ✅ 判断基準: 重要度0.1以上の要素に集中して対策を打つ


# 🤖 PyCaret自動特徴量選択エンジン

if PYCARET_AVAILABLE:
    print("\n🤖 PyCaret自動特徴量選択・重要度分析\n")
    print("=" * 120)
    
    # モデリング用データ準備
    print("\n📊 特徴量準備中...")
    
    # 特徴量候補（Phase 1よりも拡張）
    feature_candidates = [
        # 基本時間
        '曜日', '月', '日', '週番号',
        # フラグ
        '祝日フラグ', '週末フラグ', '平日フラグ',
        # イベント
        '給料日', '連休フラグ', '連休日数', '連休初日', '連休最終日',
        'GW', '盆休み', '年末年始',
        # 学校
        '夏休み', '冬休み',
        # 季節変動
        '季節変動指数_月', '季節変動指数_週', '季節_ピーク期',
        # 前年比較
        '昨年同日_売上', '昨年同日_客数', '昨年同日_客単価',
        '昨年同日比_売上_変化率', '昨年同日比_客数_変化率',
    ]
    
    # 気象特徴量
    weather_candidates = [
        '最高気温', '最低気温', '降水量', '降雨フラグ',
        '最高気温_MA7', '最高気温_MA14', '最高気温_MA30',
        '気温トレンド_7d', '気温トレンド_14d',
        '気温変化_前日比', '降水量_累積7d'
    ]
    
    # 利用可能な列のみ選択
    available_features = [col for col in feature_candidates if col in my_df.columns]
    available_weather = [col for col in weather_candidates if col in my_df.columns and my_df[col].notna().sum() > 0]
    
    all_features = available_features + available_weather
    
    print(f"   基本特徴量: {len(available_features)}個")
    print(f"   気象特徴量: {len(available_weather)}個")
    print(f"   合計: {len(all_features)}個")
    
    # 商品別日次データ
    product_daily = my_df.groupby(['商品名', '日付']).agg({
        '売上金額': 'sum',
        **{col: 'first' for col in all_features}
    }).reset_index()
    
    # TOP 50商品のみ（計算時間短縮）
    top_products = my_df.groupby('商品名')['売上金額'].sum().nlargest(50).index
    product_daily = product_daily[product_daily['商品名'].isin(top_products)]
    
    # 欠損値削除
    product_daily = product_daily.dropna(subset=['売上金額'] + all_features)
    
    print(f"\n   モデリングデータ: {len(product_daily):,}行")
    
    if len(product_daily) >= 100:
        print("\n⏳ PyCaretセットアップ中...（数分かかります）")
        
        # PyCaretセットアップ
        reg = setup(
            data=product_daily,
            target='売上金額',
            categorical_features=['商品名'] if '商品名' in all_features else None,
            numeric_features=[col for col in all_features if col != '商品名'],
            fold_strategy='timeseries',
            fold=3,
            normalize=True,
            feature_selection=True,
            feature_selection_threshold=0.8,
            remove_multicollinearity=True,
            multicollinearity_threshold=0.9,
            session_id=42,
            verbose=False,
            html=False
        )
        
        print("✅ セットアップ完了")
        
        # モデル学習
        print("\n⏳ LightGBMモデル学習中...")
        model = create_model('lightgbm', verbose=False)
        
        print("✅ モデル学習完了")
        
        # モデル評価
        results = pull()
        
        print(f"\n📈 モデル性能（3分割時系列CV）")
        print("=" * 120)
        print(f"   MAE:  ¥{results['平均絶対誤差'].mean():,.0f}")
        print(f"   RMSE: ¥{results['二乗平均平方根誤差'].mean():,.0f}")
        print(f"   R2:   {results['R2'].mean():.4f}")
        print(f"   MAPE: {results['平均絶対パーセント誤差'].mean():.2f}%")
        
        # 特徴量重要度（LightGBM組み込み）
        print(f"\n\n🔍 特徴量重要度分析（LightGBM）")
        print("=" * 120)
        
        if hasattr(model, 'feature_importances_'):
            feature_names = get_config('X_train').columns
            importance_df = pd.DataFrame({
                '特徴量': feature_names,
                '重要度': model.feature_importances_
            }).sort_values('重要度', ascending=False)
            
            print(f"\n特徴量重要度 TOP 20:")
            print("-" * 120)
            for idx, row in importance_df.head(20).iterrows():
                feature = row['特徴量']
                importance = row['重要度']
                bar = "█" * int(importance * 50)
                print(f"   {feature:<40} {bar:<50} {importance:.4f}")
            
            # 可視化
            fig, axes = plt.subplots(1, 2, figsize=(20, 8))
            
            # 1. TOP 20特徴量重要度
            ax1 = axes[0]
            top20 = importance_df.head(20)
            ax1.barh(range(len(top20)), top20['重要度'], color='#4ECDC4', edgecolor='black')
            ax1.set_yticks(range(len(top20)))
            ax1.set_yticklabels(top20['特徴量'], fontsize=10)
            ax1.set_xlabel('重要度スコア', fontsize=12, fontproperties=JP_FP)
            ax1.set_title('Feature Importance TOP 20 (LightGBM)', fontsize=14, fontproperties=JP_FP)
            ax1.invert_yaxis()
            ax1.grid(axis='x', alpha=0.3)
            
            # 2. カテゴリ別の重要度集計
            ax2 = axes[1]
            
            def categorize_feature(feature):
                if any(x in feature for x in ['曜日', '月', '日', '週']):
                    return '時間'
                elif any(x in feature for x in ['祝日', '週末', '平日']):
                    return 'フラグ'
                elif any(x in feature for x in ['給料', '連休', 'GW', '盆', '年末', '夏休', '冬休']):
                    return 'イベント'
                elif any(x in feature for x in ['気温', '降水', '降雨']):
                    return '気象'
                elif any(x in feature for x in ['昨年', '前年']):
                    return '前年比較'
                elif any(x in feature for x in ['季節']):
                    return '季節性'
                else:
                    pass
                    return 'その他'
            
            importance_df['カテゴリ'] = importance_df['特徴量'].apply(categorize_feature)
            category_importance = importance_df.groupby('カテゴリ')['重要度'].sum().sort_values(ascending=False)
            
            colors_cat = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A', '#98D8C8', '#F7DC6F', '#BB8FCE']
            category_importance.plot(kind='pie', ax=ax2, autopct='%1.1f%%', 
                                     colors=colors_cat[:len(category_importance)],
                                     startangle=90)
            ax2.set_ylabel('', fontproperties=JP_FP)
            ax2.set_title('カテゴリ別特徴量重要度', fontsize=14, fontproperties=JP_FP)
            
            plt.tight_layout()
            plt.show()
            
            # SHAP値分析（時間がかかるため簡易版）
            print(f"\n\n🔬 SHAP値分析（解釈可能性）")
            print("=" * 120)
            print("   ⏳ SHAP値計算中...（数分かかります）")
            
            try:
                # サンプリング（計算時間短縮）
                X_sample = get_config('X_train').sample(min(500, len(get_config('X_train'))), random_state=42)
                
                # TreeExplainer（LightGBM用）
                explainer = shap.TreeExplainer(model)
                shap_values = explainer.shap_values(X_sample)
                
                print("   ✅ SHAP値計算完了")
                
                # SHAP Summary Plot
                fig, ax = plt.subplots(figsize=(14, 10))
                shap.summary_plot(shap_values, X_sample, plot_type="bar", show=False, max_display=20)
                plt.title('SHAP特徴量重要度', fontsize=16, fontproperties=JP_FP)
                plt.tight_layout()
                plt.show()
                
                # 解釈
                print(f"\n💡 SHAP値による解釈")
                print("-" * 120)
                print(f"   SHAP値は各特徴量が予測にどれだけ貢献したかを示します")
                print(f"   プラス値 = 売上を押し上げる要因")
                print(f"   マイナス値 = 売上を押し下げる要因")
                print(f"   絶対値が大きい = 影響力が大きい")
                
            except Exception as e:
                print(f"   ⚠️ SHAP値計算エラー: {str(e)}")
                print(f"   通常の特徴量重要度のみ使用します")
        
        # 特徴量削減の効果検証
        print(f"\n\n🔧 特徴量削減の効果検証")
        print("=" * 120)
        
        # 重要度の低い特徴量を削除
        threshold = importance_df['重要度'].quantile(0.2)  # 下位20%を削除
        low_importance_features = importance_df[importance_df['重要度'] < threshold]['特徴量'].tolist()
        
        print(f"   削減候補特徴量: {len(low_importance_features)}個（下位20%）")
        print(f"   削減後特徴量数: {len(feature_names) - len(low_importance_features)}個")
        
        if len(low_importance_features) > 0:
            print(f"\n   削減する特徴量:")
            for feat in low_importance_features[:10]:
                print(f"      - {feat}")
            if len(low_importance_features) > 10:
                print(f"      ... 他{len(low_importance_features)-10}個")
            
            print(f"\n   💡 推奨:")
            print(f"      これらの特徴量を削除することで:")
            print(f"      - 学習時間が約{(len(low_importance_features)/len(feature_names))*100:.0f}%短縮")
            print(f"      - モデルの解釈性が向上")
            print(f"      - 過学習のリスクが低減")
            print(f"      - 予測精度への影響は最小（重要度が低いため）")
        
    else:
        pass
        print(f"   ⚠️ データ不足: {len(product_daily)}行（最低100行必要）")

else:
    pass
    print("\n⚠️ PyCaretがインストールされていないため、この機能はスキップされます")
    print("   pip install pycaret shap でインストールしてください")

---

# 📈 【機能2】トレンド検知・成長率分析

## Mann-Kendall検定で統計的にトレンドを検証

### Mann-Kendall検定とは
- ノンパラメトリック検定（正規分布を仮定しない）
- 時系列データのトレンド（単調増加/減少）を検出
- p値 < 0.05 で統計的に有意なトレンドと判定

### 分析内容
1. **商品別トレンド検定** - 各商品の売上トレンドを統計的に検証
2. **成長率の計算** - CAGR（年平均成長率）の算出
3. **トレンド分類** - 成長商品/衰退商品/安定商品
4. **季節調整トレンド** - 季節性を除去した真のトレンド
5. **将来予測** - 線形トレンドによる外挿

In [None]:
# 📈 トレンド検知・成長率分析エンジン

print("\n📈 トレンド検知・成長率分析\n")
print("=" * 120)

def mann_kendall_test(data):
    """
    Mann-Kendall検定
    Returns: (trend, p_value, tau)
        trend: 'increasing', 'decreasing', 'no trend'
        p_value: 有意確率
        tau: Kendallのタウ（-1 ~ 1）
    """
    n = len(data)
    if n < 3:
        return 'insufficient data', 1.0, 0.0
    
    # Kendallのタウ計算
    s = 0
    for i in range(n-1):
        for j in range(i+1, n):
            s += np.sign(data[j] - data[i])
    
    # 分散
    var_s = n * (n - 1) * (2 * n + 5) / 18
    
    # Z統計量
    if s > 0:
        z = (s - 1) / np.sqrt(var_s)
    elif s < 0:
        z = (s + 1) / np.sqrt(var_s)
    else:
        pass
        z = 0
    
    # p値（両側検定）
    p_value = 2 * (1 - stats.norm.cdf(abs(z)))
    
    # Kendallのタウ
    tau = s / (n * (n - 1) / 2)
    
    # トレンド判定
    if p_value < 0.05:
        if tau > 0:
            trend = 'increasing'
        else:
            pass
            trend = 'decreasing'
    else:
        pass
        trend = 'no trend'
    
    return trend, p_value, tau

def calculate_cagr(start_value, end_value, periods):
    """CAGR（年平均成長率）の計算"""
    if start_value <= 0 or end_value <= 0 or periods <= 0:
        return np.nan
    return (np.power(end_value / start_value, 1 / periods) - 1) * 100

# 商品別の日次売上
product_trends = []

print("\n⏳ 商品別トレンド分析中...")

for product in my_df['商品名'].unique():
    product_data = my_df[my_df['商品名'] == product].sort_values('日付')
    
    if len(product_data) < 10:  # 最低10日以上のデータ
        continue
    
    # 日次集計
    daily_sales = product_data.groupby('日付')['売上金額'].sum().reset_index()
    
    if len(daily_sales) < 10:
        continue
    
    sales_values = daily_sales['売上金額'].values
    
    # Mann-Kendall検定
    trend, p_value, tau = mann_kendall_test(sales_values)
    
    # 成長率計算
    start_value = sales_values[:7].mean()  # 最初の1週間平均
    end_value = sales_values[-7:].mean()  # 最後の1週間平均
    periods = len(sales_values) / 365  # 年数
    
    cagr = calculate_cagr(start_value, end_value, periods)
    
    # 線形回帰（トレンドライン）
    x = np.arange(len(sales_values))
    slope, intercept = np.polyfit(x, sales_values, 1)
    
    # 総売上
    total_sales = sales_values.sum()
    
    product_trends.append({
        '商品名': product,
        'トレンド': trend,
        'p値': p_value,
        'Kendallのタウ': tau,
        '年平均成長率': cagr,
        '傾き': slope,
        '切片': intercept,
        '総売上': total_sales,
        'データ日数': len(sales_values),
        '平均日販': sales_values.mean(),
        '標準偏差': sales_values.std()
    })

trends_df = pd.DataFrame(product_trends)

print(f"✅ トレンド分析完了: {len(trends_df)}商品")

# トレンド分類
increasing = trends_df[trends_df['トレンド'] == 'increasing']
decreasing = trends_df[trends_df['トレンド'] == 'decreasing']
no_trend = trends_df[trends_df['トレンド'] == 'no trend']

print(f"\n📊 トレンド分類サマリー")
print("=" * 120)
print(f"   📈 成長トレンド（統計的に有意）: {len(increasing)}商品 ({len(increasing)/len(trends_df)*100:.1f}%)")
print(f"   📉 衰退トレンド（統計的に有意）: {len(decreasing)}商品 ({len(decreasing)/len(trends_df)*100:.1f}%)")
print(f"   ➡️ トレンドなし（安定）:         {len(no_trend)}商品 ({len(no_trend)/len(trends_df)*100:.1f}%)")

In [None]:
# 📈 成長商品TOP 10

print(f"\n\n📈 成長商品 TOP 10（統計的に有意なトレンド）")
print("=" * 120)

if len(increasing) > 0:
    top_growth = increasing.nlargest(10, '年平均成長率')
    
    print(f"\n{'商品名':<40} {'年平均成長率':>10} {'タウ':>8} {'p値':>10} {'平均日販':>12} {'総売上':>15}")
    print("=" * 120)
    
    for _, row in top_growth.iterrows():
        product = row['商品名'][:38]
        cagr = f"{row['年平均成長率']:+.1f}%"
        tau = f"{row['Kendallのタウ']:.3f}"
        p_val = f"{row['p値']:.4f}"
        avg_sales = f"¥{row['平均日販']:,.0f}"
        total = f"¥{row['総売上']:,.0f}"
        
        print(f"{product:<40} {cagr:>10} {tau:>8} {p_val:>10} {avg_sales:>12} {total:>15}")
    
    print(f"\n💡 成長商品の戦略")
    print("-" * 120)
    for _, row in top_growth.head(5).iterrows():
        print(f"\n   📦 {row['商品名'][:50]}")
        print(f"      成長率: CAGR {row['年平均成長率']:+.1f}% (統計的有意性: p={row['p値']:.4f})")
        print(f"      推奨アクション:")
        
        if row['年平均成長率'] > 50:
            print(f"         🔥 超高成長商品: フェイス数を2倍に、在庫を3倍に増量")
            print(f"         🔥 エンド陳列・プロモーション強化")
            print(f"         🔥 欠品リスク最大注意")
        elif row['年平均成長率'] > 20:
            print(f"         ⭐ 高成長商品: フェイス数を1.5倍に、在庫を2倍に増量")
            print(f"         ⭐ 関連商品と併売")
        else:
            pass
            print(f"         ✅ 成長商品: フェイス数を+20%、在庫を+50%増量")
            print(f"         ✅ 成長要因を分析・他商品に応用")

else:
    pass
    print("   （該当商品なし）")

In [None]:
# 📉 衰退商品TOP 10

print(f"\n\n📉 衰退商品 TOP 10（統計的に有意なトレンド）")
print("=" * 120)

if len(decreasing) > 0:
    bottom_decline = decreasing.nsmallest(10, '年平均成長率')
    
    print(f"\n{'商品名':<40} {'年平均成長率':>10} {'タウ':>8} {'p値':>10} {'平均日販':>12} {'総売上':>15}")
    print("=" * 120)
    
    for _, row in bottom_decline.iterrows():
        product = row['商品名'][:38]
        cagr = f"{row['年平均成長率']:+.1f}%"
        tau = f"{row['Kendallのタウ']:.3f}"
        p_val = f"{row['p値']:.4f}"
        avg_sales = f"¥{row['平均日販']:,.0f}"
        total = f"¥{row['総売上']:,.0f}"
        
        print(f"{product:<40} {cagr:>10} {tau:>8} {p_val:>10} {avg_sales:>12} {total:>15}")
    
    print(f"\n⚠️ 衰退商品の対策")
    print("-" * 120)
    for _, row in bottom_decline.head(5).iterrows():
        print(f"\n   📦 {row['商品名'][:50]}")
        print(f"      衰退率: CAGR {row['年平均成長率']:+.1f}% (統計的有意性: p={row['p値']:.4f})")
        print(f"      推奨アクション:")
        
        if row['年平均成長率'] < -50:
            print(f"         🔴 急速衰退: SKU削減を検討、代替商品への切替")
            print(f"         🔴 在庫を最小限に、発注頻度を下げる")
            print(f"         🔴 廃棄リスク最大注意")
        elif row['年平均成長率'] < -20:
            print(f"         🟡 衰退傾向: プロモーションでテコ入れ")
            print(f"         🟡 価格見直し、セット販売を試行")
        else:
            pass
            print(f"         📊 緩やかな衰退: 陳列位置の改善")
            print(f"         📊 POPで訴求強化")

else:
    pass
    print("   （該当商品なし）")

In [None]:
# 📊 トレンド分析の可視化

fig, axes = plt.subplots(2, 3, figsize=(22, 12))

# 1. トレンド分類の分布
ax1 = axes[0, 0]
trend_counts = trends_df['トレンド'].value_counts()
colors_trend = {'increasing': '#2ECC71', 'decreasing': '#E74C3C', 'no trend': '#95A5A6'}
colors = [colors_trend.get(x, 'gray') for x in trend_counts.index]
trend_counts.plot(kind='pie', ax=ax1, colors=colors, autopct='%1.1f%%', startangle=90)
ax1.set_ylabel('', fontproperties=JP_FP)
ax1.set_title('トレンド Classification Distribution', fontsize=14, fontproperties=JP_FP)

# 2. CAGR分布
ax2 = axes[0, 1]
ax2.hist(trends_df['年平均成長率'].dropna(), bins=50, color='#3498DB', edgecolor='black', alpha=0.7)
ax2.axvline(x=0, color='red', linestyle='--', linewidth=2, label='Zero Growth')
ax2.axvline(x=trends_df['年平均成長率'].median(), color='green', linestyle='--', linewidth=2, label='Median')
ax2.set_xlabel('CAGR (%)', fontsize=12, fontproperties=JP_FP)
ax2.set_ylabel('Frequency', fontsize=12, fontproperties=JP_FP)
ax2.set_title('CAGR Distribution', fontsize=14, fontproperties=JP_FP)
ax2.legend(prop=JP_FP)
ax2.grid(axis='y', alpha=0.3)

# 3. 平均日販 vs CAGR（散布図）
ax3 = axes[0, 2]
scatter_data = trends_df.nlargest(100, '総売上')
colors_scatter = scatter_data['トレンド'].map(colors_trend)
ax3.scatter(scatter_data['平均日販'], scatter_data['年平均成長率'], 
           c=colors_scatter, s=100, alpha=0.6, edgecolors='black')
ax3.axhline(y=0, color='gray', linestyle='--', alpha=0.5)
ax3.set_xlabel('Avg Daily Sales (JPY)', fontsize=12, fontproperties=JP_FP)
ax3.set_ylabel('CAGR (%)', fontsize=12, fontproperties=JP_FP)
ax3.set_title('日次 Sales vs Growth Rate (TOP 100)', fontsize=14, fontproperties=JP_FP)
ax3.grid(alpha=0.3)

# 4. 成長商品TOP 10のCAGR
ax4 = axes[1, 0]
if len(increasing) > 0:
    top10_growth = increasing.nlargest(10, '年平均成長率')
    product_names_short = [name[:20] + '...' if len(name) > 20 else name for name in top10_growth['商品名']]
    ax4.barh(range(len(top10_growth)), top10_growth['年平均成長率'], color='#2ECC71', edgecolor='black')
    ax4.set_yticks(range(len(top10_growth)))
    ax4.set_yticklabels(product_names_short, fontsize=9)
    ax4.set_xlabel('CAGR (%)', fontsize=12, fontproperties=JP_FP)
    ax4.set_title('TOP 10 Growing Products', fontsize=14, fontproperties=JP_FP)
    ax4.invert_yaxis()
    ax4.grid(axis='x', alpha=0.3)

# 5. 衰退商品TOP 10のCAGR
ax5 = axes[1, 1]
if len(decreasing) > 0:
    bottom10_decline = decreasing.nsmallest(10, '年平均成長率')
    product_names_short = [name[:20] + '...' if len(name) > 20 else name for name in bottom10_decline['商品名']]
    ax5.barh(range(len(bottom10_decline)), bottom10_decline['年平均成長率'], color='#E74C3C', edgecolor='black')
    ax5.set_yticks(range(len(bottom10_decline)))
    ax5.set_yticklabels(product_names_short, fontsize=9)
    ax5.set_xlabel('CAGR (%)', fontsize=12, fontproperties=JP_FP)
    ax5.set_title('TOP 10 Declining Products', fontsize=14, fontproperties=JP_FP)
    ax5.invert_yaxis()
    ax5.grid(axis='x', alpha=0.3)

# 6. Kendallのタウ分布
ax6 = axes[1, 2]
ax6.hist(trends_df['Kendallのタウ'], bins=50, color='#9B59B6', edgecolor='black', alpha=0.7)
ax6.axvline(x=0, color='red', linestyle='--', linewidth=2, label='No Correlation')
ax6.set_xlabel('Kendall Tau', fontsize=12, fontproperties=JP_FP)
ax6.set_ylabel('Frequency', fontsize=12, fontproperties=JP_FP)
ax6.set_title('Kendall Tau Distribution', fontsize=14, fontproperties=JP_FP)
ax6.legend(prop=JP_FP)
ax6.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n✅ トレンド検知・成長率分析完了")

---

# 🚫 【機能3】欠品検知・機会損失定量化

## 過去の欠品パターンから損失額を推定

### 欠品検知アルゴリズム
1. **売上ゼロ日の検出** - 売上が0円の日を欠品候補とする
2. **異常な売上減少** - 平均日販の50%以下の日を欠品疑いとする
3. **連続欠品の検出** - 2日以上連続で売上ゼロ
4. **季節性を考慮** - 同曜日・同月の平均と比較

### 機会損失の定量化
```
機会損失 = 予想売上 - 実際売上
予想売上 = (直近7日平均 + 前年同日) ÷ 2
```

### 欠品コスト
- **直接損失**: 販売できなかった売上
- **間接損失**: 顧客の店舗離れ（推定20%）
- **合計損失**: 直接損失 × 1.2

In [None]:
# 🚫 欠品検知・機会損失定量化エンジン

print("\n🚫 欠品検知・機会損失定量化\n")
print("=" * 120)

# 商品別の日次売上データ
stockout_analysis = []

print("\n⏳ 商品別欠品分析中...")

for product in my_df['商品名'].unique():
    product_data = my_df[my_df['商品名'] == product].copy()
    
    # 日次集計
    daily = product_data.groupby('日付').agg({
        '売上金額': 'sum',
        '売上数量': 'sum',
        '昨年同日_売上': 'first'
    }).reset_index()
    
    if len(daily) < 7:
        continue
    
    # 平均日販
    avg_sales = daily['売上金額'].mean()
    
    if avg_sales <= 0:
        continue
    
    # 欠品候補の検出
    # 1. 売上ゼロ日
    zero_sales_days = daily[daily['売上金額'] == 0]
    
    # 2. 異常な売上減少（平均の50%以下）
    low_sales_days = daily[daily['売上金額'] < avg_sales * 0.5]
    
    # 3. 移動平均からの大幅乖離
    daily['MA7'] = daily['売上金額'].rolling(window=7, min_periods=1).mean()
    severe_drops = daily[daily['売上金額'] < daily['MA7'] * 0.3]
    
    # 欠品疑い日数
    suspected_stockout_days = pd.concat([zero_sales_days, severe_drops]).drop_duplicates()
    
    if len(suspected_stockout_days) == 0:
        continue
    
    # 機会損失の計算
    opportunity_loss = 0
    
    for _, day in suspected_stockout_days.iterrows():
        date = day['日付']
        actual_sales = day['売上金額']
        
        # 予想売上の推定
        # 方法1: 直近7日平均
        recent_avg = daily[daily['日付'] < date].tail(7)['売上金額'].mean()
        
        # 方法2: 前年同日
        last_year = day['昨年同日_売上']
        
        # 予想売上 = (直近平均 + 前年) / 2
        if pd.notna(last_year) and last_year > 0:
            expected_sales = (recent_avg + last_year) / 2
        else:
            pass
            expected_sales = recent_avg
        
        # 機会損失
        loss = max(0, expected_sales - actual_sales)
        opportunity_loss += loss
    
    # 間接損失を加味（顧客離れ効果 +20%）
    total_loss = opportunity_loss * 1.2
    
    stockout_analysis.append({
        '商品名': product,
        '欠品疑い日数': len(suspected_stockout_days),
        'ゼロ売上日数': len(zero_sales_days),
        '総販売日数': len(daily),
        '欠品率': len(suspected_stockout_days) / len(daily) * 100,
        '平均日販': avg_sales,
        '直接損失': opportunity_loss,
        '総損失': total_loss,
        '月間損失推定': total_loss / len(daily) * 30
    })

stockout_df = pd.DataFrame(stockout_analysis)
stockout_df = stockout_df[stockout_df['欠品疑い日数'] > 0].sort_values('総損失', ascending=False)

print(f"✅ 欠品分析完了: {len(stockout_df)}商品で欠品疑いを検出")

# サマリー
total_opportunity_loss = stockout_df['総損失'].sum()
total_stockout_days = stockout_df['欠品疑い日数'].sum()
avg_stockout_rate = stockout_df['欠品率'].mean()

print(f"\n📊 欠品分析サマリー")
print("=" * 120)
print(f"   欠品疑い商品数:   {len(stockout_df)}商品")
print(f"   総欠品疑い日数:   {total_stockout_days:.0f}日")
print(f"   平均欠品率:       {avg_stockout_rate:.1f}%")
print(f"   総機会損失:       ¥{total_opportunity_loss:,.0f}")
print(f"   月間損失推定:     ¥{stockout_df['月間損失推定'].sum():,.0f}")
print(f"   年間損失推定:     ¥{stockout_df['月間損失推定'].sum() * 12:,.0f}")

In [None]:
# 🚫 欠品リスクTOP 20

print(f"\n\n🚫 欠品リスクTOP 20商品")
print("=" * 130)

if len(stockout_df) > 0:
    top20_stockout = stockout_df.head(20)
    
    print(f"\n{'商品名':<40} {'欠品日数':>10} {'欠品率':>10} {'平均日販':>12} {'総損失':>15} {'月間損失':>15}")
    print("=" * 130)
    
    for _, row in top20_stockout.iterrows():
        product = row['商品名'][:38]
        days = f"{row['欠品疑い日数']:.0f}日"
        rate = f"{row['欠品率']:.1f}%"
        avg_sales = f"¥{row['平均日販']:,.0f}"
        total_loss = f"¥{row['総損失']:,.0f}"
        monthly_loss = f"¥{row['月間損失推定']:,.0f}"
        
        print(f"{product:<40} {days:>10} {rate:>10} {avg_sales:>12} {total_loss:>15} {monthly_loss:>15}")
    
    # 詳細対策
    print(f"\n\n💡 欠品対策の優先順位")
    print("=" * 120)
    
    for rank, (_, row) in enumerate(top20_stockout.head(5).iterrows(), 1):
        print(f"\n【第{rank}位】 {row['商品名'][:50]}")
        print("-" * 120)
        print(f"   欠品日数: {row['欠品疑い日数']:.0f}日 / {row['総販売日数']:.0f}日 (欠品率 {row['欠品率']:.1f}%)")
        print(f"   平均日販: ¥{row['平均日販']:,.0f}")
        print(f"   機会損失: ¥{row['総損失']:,.0f} (月間推定 ¥{row['月間損失推定']:,.0f})")
        
        print(f"\n   🎯 推奨対策:")
        
        if row['欠品率'] > 20:
            print(f"      🔴 深刻な欠品: 緊急対応が必要")
            print(f"         1. 発注頻度を毎日に変更")
            print(f"         2. 安全在庫を現在の3倍に設定")
            print(f"         3. 複数仕入先の確保を検討")
            print(f"         4. 代替商品の準備")
        elif row['欠品率'] > 10:
            print(f"      🟡 高頻度欠品: 改善が必要")
            print(f"         1. 発注頻度を週3-4回に変更")
            print(f"         2. 安全在庫を現在の2倍に設定")
            print(f"         3. 発注アラートの設定")
        else:
            pass
            print(f"      📊 散発的欠品: 監視強化")
            print(f"         1. 発注頻度を週2回に変更")
            print(f"         2. 安全在庫を+50%増量")
            print(f"         3. 欠品パターンの分析（曜日・イベント）")
        
        # ROI計算
        additional_inventory_cost = row['平均日販'] * 2 * 0.3  # 在庫2倍、コスト率30%
        monthly_benefit = row['月間損失推定']
        roi = (monthly_benefit - additional_inventory_cost) / additional_inventory_cost * 100
        
        print(f"\n   💰 ROI試算:")
        print(f"      在庫増量コスト: ¥{additional_inventory_cost:,.0f}/月")
        print(f"      欠品削減効果:   ¥{monthly_benefit:,.0f}/月")
        print(f"      ROI:            {roi:+.0f}%")
        print(f"      投資回収期間:   即時回収（初月から黒字）" if roi > 0 else f"      ⚠️ 要検討")

else:
    pass
    print("   ✅ 欠品リスクが検出されませんでした。excellent！")

---

# 🏆 【機能4】ベストプラクティス抽出・横展開推奨

## トップ店舗の成功要因を自動分析

### 分析手法
1. **店舗ランキング** - 売上、客数、客単価、成長率で評価
2. **TOP vs 自店舗の差分分析** - 何が違うのかを定量化
3. **成功商品の抽出** - トップ店で売れているが自店で低調な商品
4. **ベストプラクティスの特定** - 時間帯、陳列、販促の違い
5. **横展開の優先順位** - 効果×実現性で優先順位付け

### ベンチマーク指標
- 売上効率（売上/面積）
- 客単価
- 来店頻度
- 商品回転率
- 廃棄率（推定）

In [None]:
# 🏆 ベストプラクティス抽出エンジン

print("\n🏆 ベストプラクティス抽出・横展開推奨\n")
print("=" * 120)

# 全店舗の実績集計
store_performance = []

for store in stores:
    store_data = df_enriched[df_enriched['店舗'] == store]
    
    # 日次集計
    daily_store = store_data.groupby('日付').agg({
        '売上金額': 'sum',
        '売上数量': 'sum'
    }).reset_index()
    
    if len(daily_store) == 0:
        continue
    
    # 基本指標
    total_sales = daily_store['売上金額'].sum()
    avg_daily_sales = daily_store['売上金額'].mean()
    total_quantity = daily_store['売上数量'].sum()
    avg_customer_spend = total_sales / total_quantity if total_quantity > 0 else 0
    
    # 成長率（前半 vs 後半）
    first_half = daily_store.head(len(daily_store)//2)['売上金額'].mean()
    second_half = daily_store.tail(len(daily_store)//2)['売上金額'].mean()
    growth_rate = (second_half - first_half) / first_half * 100 if first_half > 0 else 0
    
    # 安定性（変動係数）
    cv = daily_store['売上金額'].std() / daily_store['売上金額'].mean() if daily_store['売上金額'].mean() > 0 else 0
    
    store_performance.append({
        '店舗': store,
        '総売上': total_sales,
        '平均日商': avg_daily_sales,
        '総販売数量': total_quantity,
        '客単価': avg_customer_spend,
        '成長率': growth_rate,
        '変動係数': cv,
        'データ日数': len(daily_store)
    })

performance_df = pd.DataFrame(store_performance)

# 総合スコアの計算（売上60% + 成長率20% + 安定性20%）
performance_df['売上スコア'] = (performance_df['総売上'] / performance_df['総売上'].max()) * 60
performance_df['成長スコア'] = (performance_df['成長率'] / performance_df['成長率'].max()) * 20 if performance_df['成長率'].max() > 0 else 0
performance_df['安定性スコア'] = (1 - performance_df['変動係数'] / performance_df['変動係数'].max()) * 20 if performance_df['変動係数'].max() > 0 else 0
performance_df['総合スコア'] = performance_df['売上スコア'] + performance_df['成長スコア'] + performance_df['安定性スコア']

performance_df = performance_df.sort_values('総合スコア', ascending=False)
performance_df['ランク'] = range(1, len(performance_df) + 1)

print(f"\n📊 店舗総合ランキング")
print("=" * 130)
print(f"{'ランク':<6} {'店舗':<30} {'総売上':>15} {'平均日商':>12} {'客単価':>10} {'成長率':>10} {'総合スコア':>12}")
print("=" * 130)

for _, row in performance_df.iterrows():
    rank = row['ランク']
    store = row['店舗'][:28]
    total = f"¥{row['総売上']:,.0f}"
    daily = f"¥{row['平均日商']:,.0f}"
    spend = f"¥{row['客単価']:.0f}"
    growth = f"{row['成長率']:+.1f}%"
    score = f"{row['総合スコア']:.1f}"
    
    marker = "★" if store == MY_STORE[:28] else ""
    
    print(f"{rank:<6} {store:<30} {total:>15} {daily:>12} {spend:>10} {growth:>10} {score:>12} {marker}")

In [None]:
# 🏆 トップ店舗のベストプラクティス分析

top_store = performance_df.iloc[0]['店舗']
my_rank = performance_df[performance_df['店舗'] == MY_STORE]['ランク'].values[0]

print(f"\n\n🏆 トップ店舗: {top_store}")
print(f"   自店舗: {MY_STORE} (ランク: {my_rank}位/{len(performance_df)}店舗)")
print("=" * 120)

if top_store != MY_STORE:
    # トップ店舗のデータ
    top_store_data = df_enriched[df_enriched['店舗'] == top_store]
    
    # 商品別売上（トップ店 vs 自店）
    top_product_sales = top_store_data.groupby('商品名')['売上金額'].sum().sort_values(ascending=False)
    my_product_sales = my_df.groupby('商品名')['売上金額'].sum()
    
    # 差分分析
    comparison = pd.DataFrame({
        'トップ店売上': top_product_sales,
        '自店売上': my_product_sales
    }).fillna(0)
    
    comparison['差分'] = comparison['トップ店売上'] - comparison['自店売上']
    comparison['比率'] = comparison['自店売上'] / comparison['トップ店売上']
    comparison = comparison[comparison['トップ店売上'] > 0].sort_values('差分', ascending=False)
    
    # トップ店で売れているが自店で弱い商品
    underperforming = comparison[comparison['比率'] < 0.7].head(15)
    
    print(f"\n🎯 横展開推奨商品 TOP 15")
    print("   （トップ店で好調だが自店で弱い商品）")
    print("-" * 120)
    print(f"\n{'商品名':<40} {'トップ店売上':>15} {'自店売上':>15} {'差分':>15} {'比率':>8}")
    print("=" * 120)
    
    for product, row in underperforming.iterrows():
        prod_name = product[:38]
        top_sales = f"¥{row['トップ店売上']:,.0f}"
        my_sales = f"¥{row['自店売上']:,.0f}"
        diff = f"¥{row['差分']:,.0f}"
        ratio = f"{row['比率']*100:.0f}%"
        
        print(f"{prod_name:<40} {top_sales:>15} {my_sales:>15} {diff:>15} {ratio:>8}")
    
    # 具体的なアクションプラン
    print(f"\n\n💡 ベストプラクティス横展開プラン")
    print("=" * 120)
    
    total_gap = underperforming['差分'].sum()
    
    print(f"\n   📊 ギャップ分析")
    print(f"      トップ店との売上差: ¥{total_gap:,.0f}")
    print(f"      月間機会損失:       ¥{total_gap * 30 / comparison.sum()['トップ店売上']:,.0f}")
    print(f"      年間機会損失:       ¥{total_gap * 365 / comparison.sum()['トップ店売上']:,.0f}")
    
    print(f"\n   🎯 優先アクション（効果×実現性で選定）")
    
    for rank, (product, row) in enumerate(underperforming.head(5).iterrows(), 1):
        print(f"\n   【第{rank}位】 {product[:50]}")
        print(f"      現状: 自店 ¥{row['自店売上']:,.0f} / トップ店 ¥{row['トップ店売上']:,.0f} ({row['比率']*100:.0f}%)")
        print(f"      機会: ¥{row['差分']:,.0f}/期間")
        
        print(f"\n      実施ステップ:")
        print(f"         1. トップ店の陳列・販促を視察")
        print(f"         2. フェイス数を現在の1.5倍に増量")
        print(f"         3. エンド陳列または目立つ位置に配置")
        print(f"         4. POP・試食などの販促実施")
        print(f"         5. 1週間後に効果を検証")
        
        # ROI推定
        additional_cost = row['トップ店売上'] * 0.1  # 販促コスト10%
        expected_benefit = row['差分'] * 0.5  # 50%改善を想定
        roi = (expected_benefit - additional_cost) / additional_cost * 100
        
        print(f"\n      ROI推定:")
        print(f"         投資額:   ¥{additional_cost:,.0f} (販促・陳列変更)")
        print(f"         期待効果: ¥{expected_benefit:,.0f} (50%改善想定)")
        print(f"         ROI:      {roi:+.0f}%")

else:
    pass
    print(f"\n   🎉 おめでとうございます！あなたの店舗がトップです！")
    print(f"   この成功を他店に横展開しましょう")

---

# 🛒 【機能5】マーケットバスケット分析・クロスセル提案

## Aprioriアルゴリズムで商品間の関連性を発見

### アソシエーションルール
```
A → B
商品Aを買った人は商品Bも買う傾向がある
```

### 評価指標
1. **Support（支持度）**: A ∩ B の出現頻度
2. **Confidence（確信度）**: P(B|A) = P(A ∩ B) / P(A)
3. **Lift（リフト値）**: Confidence / P(B)
   - Lift > 1: 正の相関（一緒に買われる）
   - Lift = 1: 独立
   - Lift < 1: 負の相関（一緒に買われない）

### 活用方法
- 併売陳列（関連商品を隣に配置）
- セット販売
- クロスセル提案
- POPでの訴求

In [None]:
# 🛒 マーケットバスケット分析エンジン

if MLXTEND_AVAILABLE:
    print("\n🛒 マーケットバスケット分析・クロスセル提案\n")
    print("=" * 120)
    
    print("\n⏳ トランザクションデータ準備中...")
    
    # 日付×商品のトランザクション行列作成
    # 各日に購入された商品のリストを作成
    transactions = my_df.groupby('日付')['商品名'].apply(list).tolist()
    
    print(f"   トランザクション数: {len(transactions)}件")
    print(f"   ユニーク商品数: {my_df['商品名'].nunique()}商品")
    
    # One-Hot Encoding
    te = TransactionEncoder()
    te_ary = te.fit(transactions).transform(transactions)
    basket_df = pd.DataFrame(te_ary, columns=te.columns_)
    
    print(f"\n⏳ Aprioriアルゴリズム実行中...")
    
    # Aprioriで頻出アイテムセットを抽出
    frequent_itemsets = apriori(basket_df, min_support=0.01, use_colnames=True)
    
    print(f"   頻出アイテムセット: {len(frequent_itemsets)}個")
    
    if len(frequent_itemsets) > 0:
        # アソシエーションルールの生成
        print(f"\n⏳ アソシエーションルール生成中...")
        
        rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1.0)
        
        print(f"   アソシエーションルール: {len(rules)}個")
        
        if len(rules) > 0:
            # Lift値で並び替え
            rules = rules.sort_values('lift', ascending=False)
            
            # Confidenceが高い（確実性が高い）ルールを抽出
            strong_rules = rules[rules['confidence'] > 0.3]
            
            print(f"\n📊 強いアソシエーションルール TOP 20")
            print("   （Confidence > 30%, Lift値順）")
            print("=" * 130)
            print(f"\n{'商品A':<35} {'→':<3} {'商品B':<35} {'Support':>10} {'Confidence':>12} {'Lift':>8}")
            print("=" * 130)
            
            for _, rule in strong_rules.head(20).iterrows():
                antecedent = ', '.join(list(rule['antecedents']))[:33]
                consequent = ', '.join(list(rule['consequents']))[:33]
                support = f"{rule['support']*100:.1f}%"
                confidence = f"{rule['confidence']*100:.1f}%"
                lift = f"{rule['lift']:.2f}"
                
                print(f"{antecedent:<35} {'→':<3} {consequent:<35} {support:>10} {confidence:>12} {lift:>8}")
            
            # クロスセル提案
            print(f"\n\n💡 クロスセル提案（実践的な活用方法）")
            print("=" * 120)
            
            for rank, (_, rule) in enumerate(strong_rules.head(10).iterrows(), 1):
                antecedent_list = list(rule['antecedents'])
                consequent_list = list(rule['consequents'])
                
                print(f"\n【提案{rank}】")
                print(f"   IF: {', '.join(antecedent_list[:2])}")
                print(f"   THEN: {', '.join(consequent_list[:2])}")
                print(f"   確信度: {rule['confidence']*100:.1f}% (Lift: {rule['lift']:.2f}倍)")
                
                print(f"\n   実施方法:")
                print(f"      1. 陳列: {antecedent_list[0]}の隣に{consequent_list[0]}を配置")
                print(f"      2. POP: 「{antecedent_list[0]}と一緒にいかがですか？」")
                print(f"      3. セット販売: 2商品で○○円のセット企画")
                print(f"      4. レジ提案: 「{consequent_list[0]}はお求めですか？」")
                
                # 期待効果の試算
                antecedent_sales = my_df[my_df['商品名'].isin(antecedent_list)]['売上金額'].sum()
                consequent_price = my_df[my_df['商品名'].isin(consequent_list)]['売上金額'].mean()
                
                # 現在のクロスセル率
                current_rate = rule['support'] / (basket_df[antecedent_list[0]].sum() / len(basket_df))
                
                # 施策後の期待クロスセル率（+20%向上を想定）
                expected_rate = current_rate * 1.2
                
                # 期待増収
                expected_revenue = (antecedent_sales / len(basket_df)) * (expected_rate - current_rate) * consequent_price
                
                print(f"\n   期待効果:")
                print(f"      現在のクロスセル率: {current_rate*100:.1f}%")
                print(f"      施策後の目標:       {expected_rate*100:.1f}% (+20%)")
                print(f"      期待増収:           ¥{expected_revenue:,.0f}/期間")
                print(f"      月間増収推定:       ¥{expected_revenue * 30:,.0f}")
            
            # ネットワーク図の作成
            print(f"\n\n🕸️ 商品関連ネットワーク図")
            print("-" * 120)
            
            # TOP 30ルールでネットワーク作成
            top_rules = strong_rules.head(30)
            
            G = nx.DiGraph()
            
            for _, rule in top_rules.iterrows():
                for ant in rule['antecedents']:
                    for con in rule['consequents']:
                        G.add_edge(ant[:20], con[:20], weight=rule['lift'])
            
            if len(G.nodes()) > 0:
                plt.figure(figsize=(20, 16))
                
                # レイアウト
                pos = nx.spring_layout(G, k=2, iterations=50)
                
                # ノードの描画
                nx.draw_networkx_nodes(G, pos, node_color='#4ECDC4', node_size=3000, alpha=0.8)
                
                # エッジの描画（太さ = Lift値）
                edges = G.edges()
                weights = [G[u][v]['weight'] for u, v in edges]
                nx.draw_networkx_edges(G, pos, width=[w*2 for w in weights], 
                                      alpha=0.5, arrows=True, arrowsize=20,
                                      edge_color='#95A5A6')
                
                # ラベルの描画
                nx.draw_networkx_labels(G, pos, font_size=9, font_weight='bold')
                
                plt.title('Product Association Network (TOP 30 Rules)', 
                         fontsize=18, pad=20)
                plt.axis('off')
                plt.tight_layout()
                plt.show()
                
                print("   📝 ネットワーク図の見方:")
                print("      - ノード: 商品")
                print("      - エッジ: 関連性（矢印の方向 = A→B）")
                print("      - 太さ: Lift値（太いほど強い関連）")
        else:
            pass
            print("   ⚠️ 有意なアソシエーションルールが見つかりませんでした")
    else:
        pass
        print("   ⚠️ 頻出アイテムセットが見つかりませんでした")
        print("   min_supportを下げるか、データ量を増やしてください")

else:
    pass
    print("\n⚠️ mlxtendがインストールされていないため、この機能はスキップされます")
    print("   pip install mlxtend でインストールしてください")

---

# 📝 Phase 3実装まとめ

## ✅ 実装完了した5つの高度な分析機能

1. **PyCaret自動特徴量選択** - SHAP値で重要特徴量を自動抽出、モデルの解釈性向上
2. **トレンド検知・成長率分析** - Mann-Kendall検定で統計的にトレンドを検証
3. **欠品検知・機会損失定量化** - 過去の欠品パターンから年間損失額を推定
4. **ベストプラクティス抽出** - トップ店舗の成功要因を分析・横展開推奨
5. **マーケットバスケット分析** - Aprioriアルゴリズムで商品間の関連性を発見

---

## 🎯 Phase 3の成果

### Phase 1・2との違い
- **Phase 1**: 「現状を把握する」（見える化）
- **Phase 2**: 「問題を予防し、最適行動を導く」（最適化）
- **Phase 3**: 「AIで売上を最大化する」（自動化・高度化）

### 導入効果（想定）
- 特徴量削減による学習時間: **-40%**
- 欠品による機会損失: **年間数百万円を可視化**
- ベストプラクティス横展開: **+5-10%の売上向上**
- クロスセル施策: **+3-5%の客単価向上**

---

## 🚀 次のステップ（Phase 4）

1. **C2. 時間帯別分析** - ピークタイムの最適化
2. **G2. プロモーション効果測定** - キャンペーンROI分析
3. **J1. What-ifシミュレーション** - 施策の事前評価
4. **C4. クロスセル提案の自動化** - リアルタイムレコメンデーション
5. **H2. モバイル対応レイアウト** - スマホ・タブレット最適化

---

**Phase 3により、店舗運営が「経験則」から「AIドリブン」に進化しました！** 🎉