In [35]:
import random
import string
import pandas as pd
from faker import Faker

# 使用Faker來生成虛假的姓名和生日
fake = Faker()

# 生成一些範例資料
num_samples = 1000

# 日期格式映射
DATE_STYLE1_MAP = {
    1: '%Y/%m/%d',
    2: '%Y-%m-%d',
    3: '%Y年%m月%d日',
    4: '%Y%m%d',
    5: '%m/%d/%Y',
    6: '%m-%d-%Y',
    7: '%m%d%Y',
    8: '%m/%d/%Y',
    9: '%m-%d-%Y',
    10: '%m%d%Y',
    11: '%d-%m-%Y',
    12: '/%m/%d',
    13: '%y-%m-%d',
    14: '中華民國%y年%m月%d日',
    15: '民國%y年%m月%d日',
    16: '%y年%m月%d日',
    17: '%y%m%d',
    18: '%m/%d/%y',
    19: '%m-%d-%y',
    20: '%m%d%y',
}

def generate_employee_id():
    # 定義員工編號的可能字符
    characters = string.ascii_letters + string.digits + string.punctuation
    # 隨機生成8個字符的員工編號
    return ''.join(random.choice(characters) for _ in range(8))

def generate_random_date():
    # 隨機選擇日期格式
    random_style = random.choice(list(DATE_STYLE1_MAP.values()))
    # 使用Faker來生成虛假的生日
    fake_date = fake.date_of_birth(minimum_age=18, maximum_age=65)
    # 將日期格式化為隨機選擇的格式
    formatted_date = fake_date.strftime(random_style)
    return formatted_date

def random_chinese_name():
    family = ["李", "王", "張", "劉", "陳", "楊", "黃", "趙", "周", "吳", "徐", "孫", "朱", "馬", "胡", "郭", "林", "何", "高", "梁", "鄭", "羅", "宋", "謝", "唐", "韓", "曹", "許", "鄧", "蕭", "馮", "曾", "程", "蔡", "彭", "潘", "袁", "於", "董", "餘", "蘇", "葉", "呂", "魏", "蔣", "田", "杜", "丁", "沈", "姜", "範", "江", "傅", "鐘", "盧", "汪", "戴", "崔", "任", "陸", "廖", "姚", "方", "金", "邱", "夏", "譚", "韋", "賈", "鄒", "石", "熊", "孟", "秦", "閻", "薛", "侯", "雷", "白", "龍", "段", "郝", "孔", "邵", "史", "毛", "常", "萬", "顧", "賴", "武", "康", "賀", "嚴", "尹", "錢", "施", "牛", "洪", "龔"]
    given = ["世", "中", "仁", "伶", "佩", "佳", "俊", "信", "倫", "偉", "傑", "儀", "元", "冠", "凱", "君", "哲", "嘉", "國", "士", "如", "娟", "婷", "子", "孟", "宇", "安", "宏", "宗", "宜", "家", "建", "弘", "強", "彥", "彬", "德", "心", "志", "忠", "怡", "惠", "慧", "慶", "憲", "成", "政", "敏", "文", "昌", "明", "智", "曉", "柏", "榮", "欣", "正", "民", "永", "淑", "玉", "玲", "珊", "珍", "珮", "琪", "瑋", "瑜", "瑞", "瑩", "盈", "真", "祥", "秀", "秋", "穎", "立", "維", "美", "翔", "翰", "聖", "育", "良", "芬", "芳", "英", "菁", "華", "萍", "蓉", "裕", "豪", "貞", "賢", "郁", "鈴", "銘", "雅", "雯", "霖", "青", "靜", "韻", "鴻", "麗", "龍"]
    return random.choice(family) + ''.join(random.choices(given, k = random.choice([1,2])));

def generate_name():
    # 隨機決定使用哪種方法來生成姓名
    if random.random() < 0.2:  # 50% 的機率使用 faker 生成姓名
        return fake.name()
    else:  # 50% 的機率使用 zh-name-generator 生成中文姓名
        return random_chinese_name()


data = []
labels = []

for _ in range(num_samples):
    # 隨機生成姓名、員工編號和日期的順序
    order = random.sample(['Name', 'Employee_ID', 'Birthday'], 3)
    name, employee_id, birthday = None, None, None


    for feature in order:
        if feature == 'Name':
            name = generate_name()
            data.append(name)
            labels.append(0)
        elif feature == 'Employee_ID':
            employee_id = generate_employee_id()
            data.append(employee_id)
            labels.append(1)
        elif feature == 'Birthday':
            random_style = random.choice(list(DATE_STYLE1_MAP.keys()))
            birthday = generate_random_date()
            data.append(birthday)
            labels.append(2)


# 將資料轉換成DataFrame
df = pd.DataFrame(data, columns=['Input'])
df['Label'] = labels

# 保存資料到CSV檔案
df.to_csv('training_data_with_labels_1000.csv', index=False)
