In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# テーマリストと各テーマの賛成割合（パーセンテージ）
themes = {
    "外国人労働者の受け入れ拡大": 60,
    "子育て支援の充実": 70,
    "インフラ投資の強化": 50,
    "イノベーションの促進": 80,
    "防衛力の強化": 30,
    "憲法９条の改正": 40,
    "再生可能エネルギーの導入促進": 90,
    "エネルギー安全保障の確保": 20,
    "日米同盟の廃止": 10,
    "教育格差の是正": 55,
    "地域資源の活用": 75,
    "働き方の多様化": 65,
    "労働法制の整備": 85,
    "在宅医療の推進": 95,
    "介護人材の確保": 25,
    "医療費の持続可能性確保": 45,
    "サイバーセキュリティの強化": 35,
    "電子政府（e-Government）の推進": 15,
}

for theme, agree_percentage in themes.items():
    themes[theme] = agree_percentage * 0.8

prefecture_city = pd.read_csv("../data/prefecture_city_lonlat.csv", encoding="utf-8")
# prefecture_city.to_csv("data/prefecture_city_lonlat.csv", index=False, encoding="utf-8")
prefecture_city_list = (
    prefecture_city.iloc[:, 1] + prefecture_city.iloc[:, 3]
).tolist()
print(prefecture_city_list)
# 人数
num_people = 1000

# 回答日時の範囲を設定（例：過去3ヶ月）
end_date = datetime.now()
start_date = end_date - timedelta(days=90)

# 空のデータフレームを作成
data = pd.DataFrame()

# 各人のIDを追加
data["ID"] = range(1, num_people + 1)

# 各人の回答日時をランダムに生成
data["response_datetime"] = [
    start_date
    + timedelta(
        seconds=np.random.randint(0, int((end_date - start_date).total_seconds()))
    )
    for _ in range(num_people)
]
data["sex"] = np.random.choice(["男性", "女性"], size=num_people)
data["age"] = np.random.randint(10, 100, size=num_people)
data["address"] = np.random.choice(prefecture_city_list, size=num_people)

# 各テーマに対して賛成か反対かをランダムに割り当てる
for theme, agree_percentage in themes.items():
    # 賛成の割合を計算
    agree_prob = agree_percentage / 100
    # 中立の割合
    neutral_or_oppose_prob = 1 - agree_prob
    # 中立か反対かをランダムに割り当てる
    oppose_prob = np.random.uniform(low=0, high=neutral_or_oppose_prob)
    neutral_prob = neutral_or_oppose_prob - oppose_prob
    # ランダムに意見を生成
    opinions = np.random.choice(
        [1, 0, -1], size=num_people, p=[agree_prob, neutral_prob, oppose_prob]
    )
    # データフレームに追加
    data[theme] = opinions

# 回答日時をISO形式の文字列に変換（オプション）
data["response_datetime"] = data["response_datetime"].dt.strftime("%Y-%m-%d %H:%M:%S")


# CSVファイルに保存
data.to_csv("dummy_political_opinions_with_datetime.csv", index=False, encoding="utf-8")

print(
    "ダミーデータのCSVファイル 'dummy_political_opinions_with_datetime.csv' を作成しました。"
)


['北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区', '北海道札幌市中央区'