# 補助金受給パターンの統計的異常検出

このノートブックでは、**補助金データ**から統計的に異常な受給パターンを検出します。
市民主導のデータ監視の実現可能性を探ります。

## 手法
1. 補助金受給回数の分布分析
2. 箱ひげ図による統計的外れ値検出
3. 時系列パターン分析
4. 組織種別ごとの異常値比較

## 注目事例
1. 一般社団法人環境共創イニシアチブ: 電通設立法人の補助金集中
2. ランドブレイン株式会社: 組織構造と不透明な補助金受給

## 目標
統計的手法のみで、潜在的な既得権益構造を可視化できるかを検証します。

In [None]:
# 必要なライブラリのインポート
import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.signal import savgol_filter
import time
from tqdm.notebook import tqdm
import json
from IPython.display import display, HTML

# グラフの見た目を設定
plt.style.use('ggplot')
sns.set(style="whitegrid")
plt.rcParams['font.size'] = 12

In [None]:
# APIの基本設定
API_TOKEN = "YOUR_API_TOKEN"  # 実際のAPIトークンに置き換えてください
BASE_URL = "https://info.gbiz.go.jp/hojin"
HEADERS = {"X-hojinInfo-api-token": API_TOKEN}

# APIリクエストの間隔（秒）- レート制限対策
REQUEST_INTERVAL = 0.5

print("API設定が完了しました")
print(f"Base URL: {BASE_URL}")

## 1. 企業別の補助金受給回数を取得

まず、補助金受給数の多い企業を取得し、傾向を分析します。
注：実際の分析ではプリロード済みのデータを使用することをお勧めします。

In [None]:
# データ収集・整形関数
def get_top_subsidy_recipients(limit=100, from_file=True, filename="top_subsidy_data.json"):
    """
    補助金受給回数の多い企業を取得する関数
    
    Parameters:
    -----------
    limit : int
        取得する企業数（デフォルト: 100）
    from_file : bool
        ファイルからデータを読み込むかどうか（デフォルト: True）
    filename : str
        データを保存/読み込むファイル名
        
    Returns:
    --------
    pandas.DataFrame
        企業ごとの補助金受給回数・金額データ
    """
    
    # ファイルからデータを読み込む場合
    if from_file:
        try:
            with open(filename, 'r', encoding='utf-8') as f:
                data = json.load(f)
            df = pd.DataFrame(data)
            print(f"データをファイルから読み込みました: {len(df)}件")
            return df
        except Exception as e:
            print(f"ファイルからの読み込みに失敗しました: {e}")
            print("APIからデータを取得します")
    
    # 以下の実装はAPIリクエストを行いますが、レート制限や実行時間の観点から
    # 実運用ではデータを事前に収集して保存するほうが効率的です
    
    # ここにAPIから大量データを取得する実装
    # （省略 - 大量リクエストが必要なため実際の実行には時間がかかります）
    
    # サンプルデータを使用（実際の実装では、これは実際のAPIレスポンスから構築されるべき）
    sample_data = [
        {"corporate_number": "8010605002161", "name": "一般社団法人環境共創イニシアチブ", "subsidy_count": 45, "total_amount": 1057200000000, "govt_departments": 1},
        {"corporate_number": "1010001145419", "name": "SBI新生銀行株式会社", "subsidy_count": 30, "total_amount": 185600000000, "govt_departments": 2},
        {"corporate_number": "9010001109037", "name": "ランドブレイン株式会社", "subsidy_count": 19, "total_amount": 29600000000, "govt_departments": 3},
        {"corporate_number": "3010001050411", "name": "三菱UFJ銀行", "subsidy_count": 18, "total_amount": 156000000000, "govt_departments": 2}
    ]
    
    # 100件にダミーデータを追加（実際の実装ではこのブロックは不要）
    for i in range(5, limit+1):
        subsidy_count = max(1, int(45 * np.exp(-0.05 * i) + np.random.normal(0, 0.5)))
        sample_data.append({
            "corporate_number": f"dummy{i:05d}", 
            "name": f"企業{i}", 
            "subsidy_count": subsidy_count, 
            "total_amount": int(subsidy_count * 5000000 * (1 + np.random.random())), 
            "govt_departments": min(4, max(1, int(np.random.normal(1.5, 0.8))))
        })
    
    df = pd.DataFrame(sample_data)
    
    # データをファイルに保存
    try:
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(df.to_dict('records'), f, ensure_ascii=False, indent=2)
        print(f"データをファイルに保存しました: {filename}")
    except Exception as e:
        print(f"ファイル保存に失敗しました: {e}")
    
    return df

# トップ企業データを取得
top_subsidy_df = get_top_subsidy_recipients(limit=500)
top_subsidy_df = top_subsidy_df.sort_values('subsidy_count', ascending=False).reset_index(drop=True)

# 上位10社を表示
display(top_subsidy_df.head(10))

## 2. 補助金受給回数の分布分析

受給回数の分布を調べ、統計的に異常な値を検出します。

In [None]:
plt.figure(figsize=(12, 6))
plt.hist(top_subsidy_df['subsidy_count'], bins=30, alpha=0.7, color='skyblue')
plt.title('Distribution of Subsidy Count')
plt.xlabel('Number of Subsidies Received')
plt.ylabel('Number of Companies')
plt.grid(True, alpha=0.3)
plt.show()

# 基本統計量
stats = top_subsidy_df['subsidy_count'].describe()
print("補助金受給回数の基本統計量:")
display(stats)

## 3. 統計的異常値の検出

Savitzky-Golayフィルタを使用して傾向を分析し、変化点を検出します。

In [None]:
def subsidy_trend_analysis(df, variable, window_size, polyorder, skip_initial=10, return_groups=True):
    """
    補助金受給パターンの変化点を検出する関数
    
    Parameters:
    -----------
    df : pandas.DataFrame
        分析対象のデータフレーム
    variable : str
        分析対象の変数名
    window_size : int
        Savitzky-Golayフィルタの窓サイズ
    polyorder : int
        Savitzky-Golayフィルタの多項式次数
    skip_initial : int
        分析から除外する初期データの数
    return_groups : bool
        グループ分けしたデータを返すかどうか
        
    Returns:
    --------
    tuple or None
        return_groups=Trueの場合、(high_group, low_group, threshold_value)を返す
    """
    # データを取得
    subsidy_counts = df[variable].values
    x = np.arange(len(subsidy_counts))
    
    # サブプロットを作成
    fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 10))
    
    # 全データをグラフに表示
    ax1.plot(x, subsidy_counts, 'o-', color='skyblue', alpha=0.5, label='Original Data')
    
    # Savitzky-Golay フィルターで平滑化
    smoothed = savgol_filter(subsidy_counts, window_size, polyorder)
    ax1.plot(x, smoothed, '-', color='blue', linewidth=2, label='Smoothed Curve')
    
    # 初期の急激な変化を除外した範囲を強調表示
    ax1.axvspan(skip_initial, len(x), alpha=0.2, color='green', label='Analysis Range')
    
    ax1.set_title('Distribution of Subsidy Count (Linear)', fontsize=16)
    ax1.set_xlabel('Company Index', fontsize=12)
    ax1.set_ylabel('Subsidy Count', fontsize=12)
    ax1.legend()
    ax1.grid(True, alpha=0.3)
    
    # 一次微分グラフ（変化率）
    x_limited = x[skip_initial:]
    smoothed_limited = smoothed[skip_initial:]
    derivatives = np.gradient(smoothed_limited)
    
    ax2.plot(x_limited, derivatives, '-', color='red', linewidth=2)
    
    # 変化点を検出
    threshold = np.std(derivatives) * 0.5
    significant_changes = np.where(np.abs(derivatives) > threshold)[0]
    
    # 変化点をマーク
    ax2.scatter(x_limited[significant_changes], derivatives[significant_changes], 
               color='darkred', s=50, label='Significant Change Points')
    
    # 上位の変化点をラベル付け
    top_changes = sorted(significant_changes, key=lambda i: abs(derivatives[i]), reverse=True)[:5]
    original_indices = [i + skip_initial for i in top_changes]
    
    for i, idx in enumerate(top_changes):
        original_idx = original_indices[i]
        ax2.annotate(f'idx={original_idx}, val={subsidy_counts[original_idx]}', 
                    xy=(x_limited[idx], derivatives[idx]),
                    xytext=(x_limited[idx]+5, derivatives[idx]),
                    arrowprops=dict(arrowstyle='->'))
    
    ax2.set_title('Change Rate (First Derivative)', fontsize=16)
    ax2.set_xlabel('Company Index', fontsize=12)
    ax2.set_ylabel('Change Rate', fontsize=12)
    ax2.axhline(y=0, color='k', linestyle='-', alpha=0.3)
    ax2.grid(True, alpha=0.3)
    ax2.legend()
    
    plt.tight_layout()
    plt.show()
    
    # 重要な変化点の表示
    print("重要な変化点:")
    for i, idx in enumerate(top_changes):
        original_idx = original_indices[i]
        print(f"Index: {original_idx}, 補助金受給回数: {subsidy_counts[original_idx]}, 変化率: {derivatives[idx]:.4f}")
    
    # グループ分割
    if return_groups:
        critical_idx = sorted(top_changes, key=lambda i: abs(derivatives[i]), reverse=True)[0]
        original_critical_idx = critical_idx + skip_initial
        threshold_value = subsidy_counts[original_critical_idx]
        
        print(f"\n閾値: {threshold_value}")
        
        high_frequency_group_df = df[df[variable] >= threshold_value].copy()
        low_frequency_group_df = df[df[variable] < threshold_value].copy()
        
        print(f"高頻度グループ件数: {len(high_frequency_group_df)}")
        print(f"低頻度グループ件数: {len(low_frequency_group_df)}")
        
        return high_frequency_group_df, low_frequency_group_df, threshold_value
    
    return None

# トレンド分析実行
high_frequency_group_df, low_frequency_group_df, threshold_value = subsidy_trend_analysis(
    df=top_subsidy_df, 
    variable='subsidy_count',
    window_size=31, 
    polyorder=3,
    skip_initial=10
)

## 4. 高頻度受給企業の分析

検出された閾値以上の補助金を受給している企業を詳細に分析します。

In [None]:
# 高頻度グループを表示
print(f"異常に多い補助金を受給している企業グループ（閾値:{threshold_value}回以上）:")
display(high_frequency_group_df)

# 組織種別に関する追加情報
# 実際の実装では、これらはAPI経由で取得した詳細情報から導出されるべき
org_types = ["民間企業", "一般社団法人", "公益財団法人", "独立行政法人", "国立大学法人"]
high_frequency_group_df["org_type"] = np.random.choice(org_types, size=len(high_frequency_group_df), p=[0.3, 0.2, 0.2, 0.15, 0.15])

# 組織種別ごとの箱ひげ図
plt.figure(figsize=(12, 6))
ax = sns.boxplot(x="org_type", y="subsidy_count", data=high_frequency_group_df)
plt.title("補助金受給回数の組織種別比較（異常値グループ）")
plt.xlabel("組織種別")
plt.ylabel("補助金受給回数")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 5. 注目事例の詳細分析

特に注目すべき2つの事例について詳細に分析します。

### 5.1 一般社団法人環境共創イニシアチブの分析