In [1]:
import pandas as pd
import numpy as np
import random

# 1. 원본 데이터 로드 및 필터링
file_path = r"c:\agent_b\data\public\1.병원정보서비스(2025.12.).xlsx"
df = pd.read_excel(file_path)
df_hospitals = df[df['종별코드명'].isin(['종합병원', '상급종합'])].copy()

# [추가] 병원 ID 생성 (H001, H002, ...)
df_hospitals = df_hospitals.reset_index(drop=True)
df_hospitals['병원ID'] = [f"H{str(i+1).zfill(3)}" for i in range(len(df_hospitals))]

# 2. 10개 지점 정의 및 지점 ID 매핑
branch_info = {
    '서울': ('서울지점', 'B01'),
    '경기': ('경기지점', 'B02'),
    '인천': ('인천지점', 'B03'),
    '강원': ('강원지점', 'B04'),
    '대전': ('충청지점', 'B05'), '세종시': ('충청지점', 'B05'), '충남': ('충청지점', 'B05'), '충북': ('충청지점', 'B05'),
    '전북': ('전북지점', 'B06'),
    '광주': ('광주전남지점', 'B07'), '전남': ('광주전남지점', 'B07'),
    '대구': ('대구경북지점', 'B08'), '경북': ('대구경북지점', 'B08'),
    '부산': ('부울경지점', 'B09'), '울산': ('부울경지점', 'B09'), '경남': ('부울경지점', 'B09'),
    '제주': ('제주지점', 'B10')
}

df_hospitals['지점명'] = df_hospitals['시도코드명'].apply(lambda x: branch_info[x][0])
df_hospitals['지점ID'] = df_hospitals['시도코드명'].apply(lambda x: branch_info[x][1])

# 3. 가상의 담당자 45명 생성 및 담당자 ID 부여
last_names = ['김', '이', '박', '최', '정', '강', '조', '윤', '장', '임']
first_names = ['민준', '서연', '도윤', '하은', '주원', '지유', '예준', '수빈', '준서', '지민']

# 지점별 인원 배분 계산 (이전과 동일)
hospital_counts = df_hospitals['지점명'].value_counts()
rep_allocation = (hospital_counts / hospital_counts.sum() * 45).round().astype(int)
diff = 45 - rep_allocation.sum()
if diff != 0: rep_allocation.iloc[0] += diff

reps_data = []
rep_id_counter = 1
for branch_name, count in rep_allocation.items():
    # 해당 지점의 ID 찾기
    branch_id = df_hospitals[df_hospitals['지점명'] == branch_name]['지점ID'].iloc[0]
    
    for _ in range(count):
        reps_data.append({
            '담당자ID': f"R{str(rep_id_counter).zfill(3)}", # [추가] 담당자 ID (R001~R045)
            '담당자명': random.choice(last_names) + random.choice(first_names),
            '지점명': branch_name,
            '지점ID': branch_id,
            '사번': f"S{random.randint(10000, 99999)}"
        })
        rep_id_counter += 1

df_reps = pd.DataFrame(reps_data)

# 4. 담당자 배정 (지점 내 균등 배분)
def assign_reps(group):
    branch_name = group.name
    branch_reps = df_reps[df_reps['지점명'] == branch_name][['담당자ID', '담당자명']].values.tolist()
    if not branch_reps: return group
    
    # 병원별로 담당자 ID와 이름을 순환 배정
    group['담당자ID'] = [branch_reps[i % len(branch_reps)][0] for i in range(len(group))]
    group['담당자명'] = [branch_reps[i % len(branch_reps)][1] for i in range(len(group))]
    return group

df_final = df_hospitals.groupby('지점명', group_keys=False).apply(assign_reps)

# 5. 결과 확인 및 저장
result_cols = ['병원ID', '요양기관명', '종별코드명', '지점ID', '지점명', '담당자ID', '담당자명', '주소']
df_result = df_final[result_cols]

print(f"✅ 데이터 생성 완료 (병원: {len(df_result)}개, 담당자: {len(df_reps)}명)")
print("\n[생성된 ID 샘플]")
display(df_result.head())

# 파일 저장
df_result.to_excel("hospital_assignment_data_v2.xlsx", index=False)
print("\n'hospital_assignment_data_v2.xlsx' 파일이 생성되었습니다.")

✅ 데이터 생성 완료 (병원: 384개, 담당자: 45명)

[생성된 ID 샘플]


  df_final = df_hospitals.groupby('지점명', group_keys=False).apply(assign_reps)


Unnamed: 0,병원ID,요양기관명,종별코드명,지점ID,지점명,담당자ID,담당자명,주소
0,H001,(의)나사렛의료재단 나사렛국제병원,종합병원,B03,인천지점,R039,장지민,"인천광역시 연수구 먼우금로 98, (동춘동)"
1,H002,(의)성세의료재단 뉴성민병원,종합병원,B03,인천지점,R040,이민준,"인천광역시 서구 신석로 70, (석남동)"
2,H003,(의)영문의료재단 다보스병원,종합병원,B02,경기지점,R001,강민준,"경기도 용인시 처인구 백옥대로1082번길 18, 다보스종합병원 (김량장동)"
3,H004,(재)미리내천주성삼성직수도회천주성삼병원,종합병원,B08,대구경북지점,R029,장도윤,"대구광역시 수성구 달구벌대로 3190, (신매동, 천주성삼병원)"
4,H005,KS병원,종합병원,B07,광주전남지점,R023,조민준,"광주광역시 광산구 왕버들로 220, (수완동)"



'hospital_assignment_data_v2.xlsx' 파일이 생성되었습니다.
