In [1]:
import pandas as pd
from sequential.seq2pat import Seq2Pat, Attribute

# 1. CSVデータの読み込み
# CSVの構成: 1行が1回の購買履歴 (user_id, item, timestamp, store)
csv_file = "./sorted_interaction_base_data.csv" # 用意したファイル名に合わせてください
df = pd.read_csv(csv_file)

# ---------------------------------------------------------
# 2. データのソート（重要）
# Seq2Patで正しくパターン認識するために、順序を整えます。
# 第1キー: user_id (ユーザーごとにまとめる)
# 第2キー: timestamp (時系列順にする)
# 第3キー: item (同一時刻の場合は、辞書順/50音順に並べる)
# ---------------------------------------------------------
df_sorted = df.sort_values(
    by=["user_id", "timestamp", "item"],
    ascending=[True, True, True]
)

# 3. ユーザーごとにリスト化（集約）
# groupbyを使って、ユーザーIDごとに各カラムをリストに変換します
grouped = df_sorted.groupby('user_id').agg({
    'item': list,
    'timestamp': list,
    'store': list
})

# 4. Seq2Pat用のデータ抽出
# そのまま .tolist() するだけで「リストのリスト」になります
sequences = grouped['item'].tolist()
timestamps = grouped['timestamp'].tolist()
stores = grouped['store'].tolist()

# --- ここまででデータ準備完了 ---
# 1. Seq2Patオブジェクトの作成
seq2pat = Seq2Pat(sequences=sequences)

# 2. 属性（Attribute）の作成と制約の追加
# タイムスタンプ属性を作成
time_attr = Attribute(values=timestamps)


# 例: 買い物と買い物の間隔が 10 以下であること
#seq2pat.add_constraint(time_attr.gap() <= 10)

#必要であれば「間隔が1以上（同じ時間の連投は除く）」なども可能です
seq2pat.add_constraint(0 <= time_attr.gap() <= 0)

# 3. パターン抽出の実行
# min_frequency: そのパターンが出現するユーザー数の最小値
patterns = seq2pat.get_patterns(min_frequency=5)

print(f"発見されたパターン数: {len(patterns)}")
if len(patterns) > 0:
    print("--- 上位パターン例 ---")
    for p in patterns[:5]:
        print(p)

発見されたパターン数: 35
--- 上位パターン例 ---
['パスタ', '緑茶', 7]
['マスク', 'ワイン', 7]
['ウイスキー', 'コーラ', 6]
['エナジードリンク', 'クッキー', 6]
['エナジードリンク', 'サンドイッチ', 6]


In [2]:
# 1. Seq2Patの初期化
seq2pat = Seq2Pat(sequences=sequences)

# 2. 属性（Attribute）の定義
# タイムスタンプを使って、「どれくらいの間隔で買ったか」を制約にします
time_attr = Attribute(values=timestamps)

# -----------------------------------------------------------------------
# 【重要】離脱予測・スイッチ分析のための制約設定
# -----------------------------------------------------------------------

# 制約A: 時間間隔 (Gap Constraint)
# 「数ヶ月ぶりの購入」ではなく、「習慣的な購買の流れ」を見たいので、
# アイテム間の間隔が「5単位以内（例: 短期間）」であるものに限定します。
seq2pat.add_constraint(time_attr.gap() <= 5)

# 3. パターンの抽出実行
# min_frequency: データ量が少ない場合は 2~3、多い場合はユーザー数の 1% 程度に設定
# ここではサンプルデータなので「2人以上に出現」するパターンを探します
patterns = seq2pat.get_patterns(min_frequency=2)

# -----------------------------------------------------------------------
# 4. 結果の整形と「ビール」関連パターンのフィルタリング
# -----------------------------------------------------------------------
print(f"全発見パターン数: {len(patterns)}")

# ビールを含むパターンだけを抽出して表示（これが離脱分析の鍵になります）
beer_patterns = [p for p in patterns if "ビール" in p]

print("\n--- ビールに関連する購買パターン (Top 10) ---")
# パターンは (sequence, frequency) のタプルで返ってきます
# frequency（出現数）が多い順にソートして表示
beer_patterns.sort(key=lambda x: x[-1], reverse=True)

print(beer_patterns)
for row in beer_patterns[:10]:
    # *pat で「最後の要素以外すべて」を受け取り、freq で「最後の要素」を受け取ります
    *pat, freq = row
    
    print(f"{freq}人のユーザー: {pat}")
# -----------------------------------------------------------------------
# 5. 特徴量化への応用イメージ
# 「ビール -> チューハイ」のようなスイッチパターンがあるか確認
# -----------------------------------------------------------------------
print("\n--- 要注意パターン（スイッチ/離脱の予兆）の探索例 ---")
switch_candidates = [
    p for p in beer_patterns 
    if len(p) >= 2         # 長さが2以上（連鎖している）
    and p[0] == "ビール"    # 最初がビールで...
]

if switch_candidates:
    for row in switch_candidates:
        *pat, freq = row
        print(f"スイッチの可能性あり ({freq}人): {pat}")
else:
    print("今回のサンプルデータでは明確なスイッチパターンは見つかりませんでした。")

全発見パターン数: 2708

--- ビールに関連する購買パターン (Top 10) ---
[['ビール', '洗剤', 9], ['コーラ', 'ビール', 7], ['パスタ', 'ビール', 7], ['エナジードリンク', 'ビール', 6], ['ビール', 'ポテトチップス', 6], ['ビール', '歯磨き粉', 6], ['せんべい', 'ビール', 5], ['ウイスキー', 'ビール', 5], ['コーヒー', 'ビール', 5], ['コーラ', 'ビール', '洗剤', 5], ['ビール', '紅茶', 5], ['歯磨き粉', 'ビール', 5], ['おにぎり', 'ビール', 4], ['エナジードリンク', 'パスタ', 'ビール', 4], ['クッキー', 'ビール', 4], ['サンドイッチ', 'ビール', 4], ['チューハイ', 'ビール', 4], ['ナッツ', 'パスタ', 'ビール', 4], ['ナッツ', 'ビール', 4], ['パスタ', 'ビール', '洗剤', 4], ['ビール', 'コーラ', 4], ['ビール', 'サンドイッチ', 4], ['ビール', 'パスタ', 4], ['ビール', 'ワイン', 4], ['ビール', '緑茶', 4], ['日本酒', 'ビール', 4], ['ウイスキー', 'サンドイッチ', 'ビール', 3], ['ウイスキー', 'ビール', 'サンドイッチ', 3], ['エナジードリンク', 'コーラ', 'ビール', 3], ['エナジードリンク', 'ナッツ', 'パスタ', 'ビール', 3], ['エナジードリンク', 'ナッツ', 'ビール', 3], ['エナジードリンク', 'パスタ', 'ビール', 'ナッツ', 3], ['エナジードリンク', 'ビール', '洗剤', 3], ['クッキー', 'ビール', '洗剤', 3], ['コーラ', 'コーラ', 'ビール', 3], ['コーラ', 'ビール', '紅茶', 3], ['チューハイ', 'パスタ', 'ビール', 3], ['チョコレート', 'ビール', 3], ['パスタ', 'ビール', 'ナッツ', 3], ['パスタ', 'ビール', '紅茶', 

In [3]:
# --- テクニック: 「アイテム」+「店名」の合成データを作る ---
# これにより「セブンでビール -> ライフでビール」のような移動をパターンとして発見できます
sequences_with_store = []
for i in range(len(sequences)):
    # zipを使って、アイテムと店名を「@」で結合
    new_seq = [f"{item}@{store}" for item, store in zip(sequences[i], stores[i])]
    sequences_with_store.append(new_seq)

# 確認
print("合成シーケンス例:", sequences_with_store[0][:3])
# 出力例: ['ビール@イトーヨーカドー', 'コーラ@セブンイレブン', 'お茶@ローソン']

合成シーケンス例: ['チョコレート@イオン', 'ポテトチップス@イオン', 'コーヒー@ウエルシア']


In [4]:
# 分析用のSeq2Patインスタンス作成
# ここでは「店名込み」のデータを使います
seq2pat = Seq2Pat(sequences=sequences_with_store)

# 時間属性の作成
time_attr = Attribute(values=timestamps)

# ------------------------------------------------------------------
# シナリオA: 「ビールの購入間隔が空いてきた」人の検出
# ------------------------------------------------------------------
print("\n=== A. ビールの購入間隔増大（Gap >= 7）の検出 ===")

# 制約: アイテム間の時間が「7以上（例: 1週間以上）」空いている場所を探す
# ※普段頻繁に買う人にとって、このパターンが出ると離脱の危険信号です
seq2pat.add_constraint(time_attr.gap() >= 7)

# 抽出実行（頻度が少なくても、この挙動がある人を見つけたいのでmin_frequency=1でもOK）
long_gap_patterns = seq2pat.get_patterns(min_frequency=1)

# 「ビール」が含まれるロングギャップパターンのみ表示
found_count = 0
for row in long_gap_patterns:
    *pat, freq = row # 可変長受け取り
    # パターンの最初と最後がビール（同一カテゴリ）なのに間隔が広いものを探す
    # (店名がついてるので "ビール" という文字が含まれるかで判定)
    if "ビール" in pat[0] and "ビール" in pat[-1]:
        print(f"間隔増大アラート: {pat} (出現人数: {freq})")
        found_count += 1
        if found_count >= 5: break # 表示制限

# ------------------------------------------------------------------
# シナリオB: 「店が変わった」人の検出（Store Change）
# ------------------------------------------------------------------
print("\n=== B. ビールを買う店が変わった（Store Switch）パターンの検出 ===")

# Seq2Patを再初期化（制約をリセットするため）
seq2pat_store = Seq2Pat(sequences=sequences_with_store)

# 制約: 今度は逆に、間隔は「そこそこ短い（<= 10）」＝習慣的に買っている中で店が変わった
seq2pat_store.add_constraint(time_attr.gap() <= 10)

patterns_store = seq2pat_store.get_patterns(min_frequency=1)

found_count = 0
for row in patterns_store:
    *pat, freq = row
    
    # 2回連続購入のパターンでチェック
    if len(pat) == 2 and "ビール" in pat[0] and "ビール" in pat[1]:
        # 店名を抽出して比較（"@"の後ろが店名）
        store1 = pat[0].split("@")[1]
        store2 = pat[1].split("@")[1]
        
        if store1 != store2:
            print(f"店舗スイッチ検知: {store1} -> {store2} ({freq}人)")
            found_count += 1
            if found_count >= 5: break

# ------------------------------------------------------------------
# シナリオC: 「代替品（チューハイ等）へ移った」人の検出
# ------------------------------------------------------------------
print("\n=== C. 代替品への移行（Substitution）の検出 ===")

# 元のアイテム名のみのシーケンスを使用（店名は不要なため）
seq2pat_sub = Seq2Pat(sequences=sequences)
seq2pat_sub.add_constraint(time_attr.gap() <= 5) # 直近の変化を知りたい

patterns_sub = seq2pat_sub.get_patterns(min_frequency=1)

found_count = 0
for row in patterns_sub:
    *pat, freq = row
    
    if len(pat) >= 2:
        # パターンの「最初がビール」で「最後がビール以外」
        first_item = pat[0]
        last_item = pat[-1]
        
        target_substitutes = ["チューハイ", "ハイボール", "発泡酒"] # 監視対象
        
        if first_item == "ビール" and last_item in target_substitutes:
            print(f"代替品スイッチ検知: {pat} ({freq}人)")
            found_count += 1
            if found_count >= 5: break


=== A. ビールの購入間隔増大（Gap >= 7）の検出 ===

=== B. ビールを買う店が変わった（Store Switch）パターンの検出 ===
店舗スイッチ検知: ファミリーマート -> ローソン (1人)
店舗スイッチ検知: ライフ -> 西友 (1人)

=== C. 代替品への移行（Substitution）の検出 ===
代替品スイッチ検知: ['ビール', 'チューハイ'] (2人)
代替品スイッチ検知: ['ビール', 'ナッツ', 'チューハイ'] (2人)
代替品スイッチ検知: ['ビール', '洗剤', '焼酎', 'チューハイ'] (2人)
代替品スイッチ検知: ['ビール', '焼酎', 'チューハイ'] (2人)
代替品スイッチ検知: ['ビール', '紅茶', 'チューハイ'] (2人)


In [9]:
from sequential.pat2feat import Pat2Feat # 特徴量生成器
from sequential.dpm import dichotomic_pattern_mining, DichotomicAggregation # 2群比較マイニング

# 1. データの準備（例としてラベルを適当に生成）
# 実際には、ユーザーごとの離脱フラグ(0/1)を用意してください
import random
# sequences = [...] # 前のステップで作ったシーケンスデータ
# y = [...] # 0:継続, 1:離脱 のリスト (sequencesと同じ長さ)

# ここではデモ用にランダムにラベルを振ります
y = [random.choice([0, 1]) for _ in range(len(sequences))]

# 2. データを「継続群(Pos)」と「離脱群(Neg)」に分割
sequences_pos = [seq for seq, label in zip(sequences, y) if label == 0] # 継続
sequences_neg = [seq for seq, label in zip(sequences, y) if label == 1] # 離脱

print(f"継続ユーザー数: {len(sequences_pos)}")
print(f"離脱ユーザー数: {len(sequences_neg)}")

# 3. それぞれでSeq2Patモデルを作成
seq2pat_pos = Seq2Pat(sequences=sequences_pos)
seq2pat_neg = Seq2Pat(sequences=sequences_neg)

# ★ここがポイント！制約も入れられます
# 「直近の動き」を見るためにGap制約などをここに入れてもOKです
# seq2pat_neg.add_constraint(...) 

# 4. Dichotomic Pattern Mining (DPM) の実行
# 「離脱者(Neg)には頻出(min=2)するが、継続者(Pos)にはあまり出ない」パターンを探すなど
patterns = dichotomic_pattern_mining(
    seq2pat_pos, 
    seq2pat_neg,
    min_frequency_pos=4, # 継続者でも2人以上には出る
    min_frequency_neg=4  # 離脱者でも2人以上には出る
)

# ユニークなパターン（どちらか一方に偏っているパターンなど）を統合して取得
# DichotomicAggregation.union は「両方の群で見つかった特徴的なパターンの和集合」を取ります
dpm_patterns = patterns[DichotomicAggregation.union]

print(f"\n発見された識別パターン数: {len(dpm_patterns)}")
print("--- 離脱/継続を分けるパターンの例 ---")
for p in dpm_patterns[:5]:
    print(p)

# -----------------------------------------------------------
# 5. Pat2Featで機械学習用データへ一発変換
# -----------------------------------------------------------
# これが「上手い使い方」の肝です。
# 発見したパターンを使って、全データを0/1の特徴量行列に変換します。

pat2feat = Pat2Feat()

# 全データ（pos + neg）を結合して変換
all_sequences = sequences_pos + sequences_neg
all_labels = [0]*len(sequences_pos) + [1]*len(sequences_neg)

# get_featuresを実行すると、One-Hotエンコーディングされた疎行列(CSR matrix)が返ってきます
feature_matrix = pat2feat.get_features(
    sequences=all_sequences,
    patterns=dpm_patterns,
    drop_pattern_frequency=False # Trueにすると0/1、Falseだと出現回数になる
)
feature_matrix

                                  

継続ユーザー数: 31
離脱ユーザー数: 19

発見された識別パターン数: 499
--- 離脱/継続を分けるパターンの例 ---
['おにぎり', 'おにぎり']
['おにぎり', 'せんべい']
['おにぎり', 'クッキー']
['おにぎり', 'コーヒー']
['おにぎり', 'サラダ']


  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'], pattern,
  df['feature_' + str(i)] = df.apply(lambda row: is_satisfiable_in_rolling(row['sequence'],

Unnamed: 0,sequence,feature_0,feature_1,feature_2,feature_3,feature_4,feature_5,feature_6,feature_7,feature_8,...,feature_489,feature_490,feature_491,feature_492,feature_493,feature_494,feature_495,feature_496,feature_497,feature_498
0,"[からあげ, コーヒー, チューハイ, 焼酎, 洗剤, 焼酎, エナジードリンク, チューハイ]",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,"[マスク, エナジードリンク, クッキー, マスク, 紅茶, 緑茶, おにぎり, 洗剤, せ...",1,1,1,0,1,1,0,0,1,...,0,0,1,0,1,0,0,1,1,0
2,"[コーヒー, サラダ, サンドイッチ, ポテトチップス, ウイスキー, コーヒー, 紅茶, ...",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,"[チューハイ, ワイン, チョコレート, 歯磨き粉, からあげ, エナジードリンク, ナッツ...",0,0,0,0,0,0,1,1,0,...,0,0,0,1,0,0,1,0,0,1
4,"[ウイスキー, 焼酎, おにぎり, ウイスキー, クッキー, シャンプー, おにぎり, コー...",1,0,1,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,"[からあげ, コーラ, ウイスキー, エナジードリンク, サンドイッチ, 紅茶, せんべい,...",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,"[ウイスキー, サラダ, 焼酎, サラダ, ワイン, マスク, 紅茶, チョコレート, マス...",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,"[クッキー, エナジードリンク, コーヒー, ナッツ, ワイン, 歯磨き粉, 洗剤, 緑茶,...",0,0,0,0,0,0,0,0,0,...,1,1,1,1,0,0,0,1,0,1
8,"[シャンプー, チューハイ, パスタ, ワイン, おにぎり, チョコレート, ワイン, サン...",0,0,0,1,0,1,0,0,1,...,0,0,0,0,0,0,0,0,0,0
9,"[ビール, ウイスキー, コーラ, 焼酎, コーラ, 焼酎, おにぎり, ウイスキー, コー...",0,1,1,1,0,1,0,0,1,...,0,0,0,0,0,0,0,0,0,0
