# csvのデータ作成

In [13]:
import pandas as pd
import random

# 1. マスターデータの定義（候補をさらに拡充）
items = [
    "ビール", "日本酒", "ウイスキー", "ワイン", "焼酎", "チューハイ", # 酒類
    "ポテトチップス", "チョコレート", "クッキー", "せんべい", "ナッツ", # 菓子
    "おにぎり", "サンドイッチ", "からあげ", "サラダ", "パスタ",       # 食品
    "コーヒー", "緑茶", "紅茶", "コーラ", "エナジードリンク",          # 飲料
    "シャンプー", "洗剤", "ティッシュ", "歯磨き粉", "マスク"           # 日用品
]

stores = [
    "イトーヨーカドー", "イオン", "西友", "ライフ", # スーパー
    "セブンイレブン", "ローソン", "ファミリーマート", # コンビニ
    "マツモトキヨシ", "ウエルシア" # ドラッグストア
]

# 2. データ生成設定
num_users = 50        # 作成するユーザー数
min_trips = 3         # ユーザーごとの来店回数（最小）
max_trips = 10        # ユーザーごとの来店回数（最大）

all_sequences = []

for user_id in range(1, num_users + 1):
    # 一時的なリスト
    seq_items = []
    seq_timestamps = []
    seq_stores = []
    
    # このユーザーの買い物回数
    num_trips = random.randint(min_trips, max_trips)
    
    # 時間の初期値
    current_time = random.randint(1, 10)
    
    for _ in range(num_trips):
        # --- 1回の買い物（バスケット） ---
        
        # 時間を進める
        current_time += random.randint(1, 5)
        # 店舗を決める
        current_store = random.choice(stores)
        
        # 同一バスケット内の購入数（1〜5個）
        basket_size = random.choices([1, 2, 3, 4, 5], weights=[30, 30, 20, 15, 5])[0]
        
        # アイテムを選ぶ（バスケット内では重複なしとする）
        basket_items = random.sample(items, k=basket_size)
        
        # --- シーケンスに追加 ---
        # 同じバスケットの商品は、同じtimestamp、同じstoreを持つ
        for item in basket_items:
            seq_items.append(item)
            seq_timestamps.append(current_time)
            seq_stores.append(current_store)
            
    # ユーザー1人分のデータを辞書化
    user_record = {
        "user_id": user_id,
        "item_sequence": seq_items,
        "time_sequence": seq_timestamps,
        "store_sequence": seq_stores
    }
    all_sequences.append(user_record)

# 3. DataFrame作成
df = pd.DataFrame(all_sequences)

# 4. 確認表示（ご希望の形式になっているか確認）
print("--- データプレビュー（最初の5行） ---")
print(df.head())

# データの中身の例を表示
print("\n--- 1行目のデータ詳細 ---")
print(f"User ID: {df.iloc[0]['user_id']}")
print(f"Items  : {df.iloc[0]['item_sequence']}")
print(f"Times  : {df.iloc[0]['time_sequence']}")
print(f"Stores : {df.iloc[0]['store_sequence']}")

# 5. CSV出力
csv_filename = "seq2pat_user_sequences.csv"
# リスト形式を保ったままCSVにするため、pandasのデフォルト挙動（文字列表現）を利用します
df.to_csv(csv_filename, index=False, encoding='utf-8-sig')

print(f"\nCSVファイル '{csv_filename}' を保存しました。")

--- データプレビュー（最初の5行） ---
   user_id                                      item_sequence  \
0        1  [ポテトチップス, チョコレート, コーヒー, 日本酒, シャンプー, 緑茶, サンドイッチ...   
1        2  [サラダ, チューハイ, ウイスキー, ポテトチップス, コーラ, クッキー, チョコレート...   
2        3   [コーヒー, からあげ, チューハイ, 焼酎, 洗剤, 焼酎, チューハイ, エナジードリンク]   
3        4   [マスク, 日本酒, ワイン, からあげ, サンドイッチ, エナジードリンク, 紅茶, パスタ]   
4        5  [マスク, クッキー, エナジードリンク, マスク, 紅茶, 緑茶, 洗剤, おにぎり, せ...   

                                       time_sequence  \
0  [11, 11, 16, 16, 21, 21, 22, 22, 26, 26, 26, 2...   
1       [4, 4, 4, 4, 4, 6, 6, 6, 11, 11, 16, 16, 17]   
2                   [15, 15, 18, 18, 23, 23, 28, 28]   
3                   [11, 11, 11, 15, 16, 16, 17, 22]   
4  [15, 18, 18, 18, 20, 20, 24, 24, 29, 29, 30, 3...   

                                      store_sequence  
0  [イオン, イオン, ウエルシア, ウエルシア, セブンイレブン, セブンイレブン, マツモ...  
1  [ローソン, ローソン, ローソン, ローソン, ローソン, ファミリーマート, ファミリー...  
2  [イトーヨーカドー, イトーヨーカドー, イオン, イオン, ローソン, ローソン, ウエル...  
3  [ライフ, ライフ, ライフ, ファミリーマート,

## dfをインタラクションベースのものに変換する

In [14]:
import pandas as pd
import ast 

csv_filename = "seq2pat_user_sequences.csv"

df_loaded = pd.read_csv(
    csv_filename,
    converters={
        "item_sequence": ast.literal_eval,
        "time_sequence": ast.literal_eval,
        "store_sequence": ast.literal_eval
    }
)

df_interaction = df_loaded.explode(
    ["item_sequence", "time_sequence", "store_sequence"], 
    ignore_index=True
)

df_interaction = df_interaction.rename(columns={
    "item_sequence": "item",
    "time_sequence": "timestamp",
    "store_sequence": "store"
})

print(f"変換後のデータ行数: {len(df_interaction)}")
print(df_interaction.head(10))
# インタラクションベースのcsvを作成
df_interaction.to_csv("interaction_base_data.csv", index=False, encoding='utf-8-sig')
# itemの名前でソートする
df_sorted = df_interaction.sort_values(
    by=["user_id", "timestamp", "item"], 
    ascending=[True, True, True]
)
df_sorted.to_csv("sorted_interaction_base_data.csv", index=False, encoding='utf-8-sig')

変換後のデータ行数: 822
   user_id     item timestamp     store
0        1  ポテトチップス        11       イオン
1        1   チョコレート        11       イオン
2        1     コーヒー        16     ウエルシア
3        1      日本酒        16     ウエルシア
4        1    シャンプー        21   セブンイレブン
5        1       緑茶        21   セブンイレブン
6        1   サンドイッチ        22   マツモトキヨシ
7        1    チューハイ        22   マツモトキヨシ
8        1   サンドイッチ        26  イトーヨーカドー
9        1      コーラ        26  イトーヨーカドー


# インタラクションベースのdfをユーザーごとのリストに変換する

In [15]:
# ユーザーごとにリストにまとめる
df_final_sequences = df_sorted.groupby('user_id').agg({
    'item': list,       # ソートされた順序でリスト化されます
    'timestamp': list,  # itemに対応した順序になります
    'store': list       # itemに対応した順序になります
}).reset_index()

# カラム名を元の形式に戻す（必要であれば）
df_final_sequences = df_final_sequences.rename(columns={
    'item': 'item_sequence',
    'timestamp': 'time_sequence',
    'store': 'store_sequence'
})

print("\n--- 最終的な整形済みデータ（リスト形式） ---")
print(df_final_sequences.head())

# 確認：中身を見てみる
print("\n--- 1人目のデータ詳細 ---")
print("Items:", df_final_sequences.iloc[0]['item_sequence'])
print("Times:", df_final_sequences.iloc[0]['time_sequence'])


--- 最終的な整形済みデータ（リスト形式） ---
   user_id                                      item_sequence  \
0        1  [チョコレート, ポテトチップス, コーヒー, 日本酒, シャンプー, 緑茶, サンドイッチ...   
1        2  [ウイスキー, コーラ, サラダ, チューハイ, ポテトチップス, クッキー, サンドイッチ...   
2        3   [からあげ, コーヒー, チューハイ, 焼酎, 洗剤, 焼酎, エナジードリンク, チューハイ]   
3        4   [マスク, ワイン, 日本酒, からあげ, エナジードリンク, サンドイッチ, 紅茶, パスタ]   
4        5  [マスク, エナジードリンク, クッキー, マスク, 紅茶, 緑茶, おにぎり, 洗剤, せ...   

                                       time_sequence  \
0  [11, 11, 16, 16, 21, 21, 22, 22, 26, 26, 26, 2...   
1       [4, 4, 4, 4, 4, 6, 6, 6, 11, 11, 16, 16, 17]   
2                   [15, 15, 18, 18, 23, 23, 28, 28]   
3                   [11, 11, 11, 15, 16, 16, 17, 22]   
4  [15, 18, 18, 18, 20, 20, 24, 24, 29, 29, 30, 3...   

                                      store_sequence  
0  [イオン, イオン, ウエルシア, ウエルシア, セブンイレブン, セブンイレブン, マツモ...  
1  [ローソン, ローソン, ローソン, ローソン, ローソン, ファミリーマート, ファミリー...  
2  [イトーヨーカドー, イトーヨーカドー, イオン, イオン, ローソン, ローソン, ウエル...  
3  [ライフ, ライフ, ライフ, ファミリー