In [6]:
import pandas as pd
import numpy as np
import re

def load_busan_hospitals_csv(file_path):
    """기존 부산광역시 종합병원 CSV 파일 로드"""
    
    # 인코딩 문제 해결
    encodings = ['utf-8', 'cp949', 'euc-kr', 'latin1']
    
    for encoding in encodings:
        try:
            df = pd.read_csv(file_path, encoding=encoding)
            print(f"✓ CSV 파일 로드 성공 (인코딩: {encoding})")
            print(f"  로드된 데이터 수: {len(df)}개")
            return df
        except:
            continue
    
    print("✗ CSV 파일 로드 실패")
    return None

def add_egen_emergency_rooms():
    """E-GEN에서 확인한 추가 응급실 데이터"""
    
    # E-GEN에서 확인된 부산 응급실 데이터 (기존 종합병원 CSV에 없는 병원들)
    additional_hospitals = [
        {
            'name': '동래안락병원',
            'address': '부산광역시 동래구 안연로109번길 27',
            'phone': '051-520-5500',
            'latitude': 35.2049,
            'longitude': 129.0832,
            'district': '동래구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 300
        },
        {
            'name': '좋은삼선병원',
            'address': '부산광역시 부산진구 가야대로 719',
            'phone': '051-638-8000',
            'latitude': 35.1623,
            'longitude': 129.0538,
            'district': '부산진구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 400
        },
        {
            'name': '양정병원',
            'address': '부산광역시 부산진구 양정로 62',
            'phone': '051-867-5101',
            'latitude': 35.1654,
            'longitude': 129.0597,
            'district': '부산진구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 350
        },
        {
            'name': '온종합병원',
            'address': '부산광역시 수영구 수영로 615',
            'phone': '051-756-0081',
            'latitude': 35.1453,
            'longitude': 129.1136,
            'district': '수영구',
            'emergency_level': '지역응급의료센터',
            'hospital_type': '종합병원',
            'beds_total': 500
        },
        {
            'name': '좋은강안병원',
            'address': '부산광역시 수영구 수영로679번길 8',
            'phone': '051-750-5000',
            'latitude': 35.1480,
            'longitude': 129.1145,
            'district': '수영구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 380
        },
        {
            'name': '침례병원',
            'address': '부산광역시 남구 수영로 100',
            'phone': '051-664-8000',
            'latitude': 35.1400,
            'longitude': 129.0890,
            'district': '남구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 420
        },
        {
            'name': '메리놀병원',
            'address': '부산광역시 중구 중앙대로 121',
            'phone': '051-461-2000',
            'latitude': 35.1067,
            'longitude': 129.0324,
            'district': '중구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 360
        },
        {
            'name': '대동병원',
            'address': '부산광역시 서구 대신공원로 53',
            'phone': '051-554-1200',
            'latitude': 35.0972,
            'longitude': 129.0244,
            'district': '서구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 320
        },
        {
            'name': '성분도병원',
            'address': '부산광역시 동구 범일로 114',
            'phone': '051-632-8800',
            'latitude': 35.1367,
            'longitude': 129.0567,
            'district': '동구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 290
        },
        {
            'name': '좌천병원',
            'address': '부산광역시 동구 정공단로 27',
            'phone': '051-636-7700',
            'latitude': 35.1283,
            'longitude': 129.0478,
            'district': '동구',
            'emergency_level': '응급의료기관 외',
            'hospital_type': '병원',
            'beds_total': 200
        },
        {
            'name': '봉생병원',
            'address': '부산광역시 동구 중앙대로 401',
            'phone': '051-664-4000',
            'latitude': 35.1350,
            'longitude': 129.0520,
            'district': '동구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 380
        },
        {
            'name': '세일병원',
            'address': '부산광역시 동구 중앙대로 317',
            'phone': '051-464-8110',
            'latitude': 35.1180,
            'longitude': 129.0410,
            'district': '동구',
            'emergency_level': '응급의료기관 외',
            'hospital_type': '병원',
            'beds_total': 180
        },
        {
            'name': '부산서병원',
            'address': '부산광역시 서구 구덕로 179',
            'phone': '051-240-5000',
            'latitude': 35.0972,
            'longitude': 129.0244,
            'district': '서구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 310
        },
        {
            'name': '화명병원',
            'address': '부산광역시 북구 화명대로 59',
            'phone': '051-330-3000',
            'latitude': 35.2097,
            'longitude': 128.9898,
            'district': '북구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 450
        },
        {
            'name': '금강병원',
            'address': '부산광역시 금정구 서동로 162',
            'phone': '051-500-9700',
            'latitude': 35.2380,
            'longitude': 129.0910,
            'district': '금정구',
            'emergency_level': '응급의료기관 외',
            'hospital_type': '병원',
            'beds_total': 220
        },
        {
            'name': '재송병원',
            'address': '부산광역시 해운대구 해운대로 135',
            'phone': '051-709-3000',
            'latitude': 35.1820,
            'longitude': 129.1150,
            'district': '해운대구',
            'emergency_level': '응급의료기관 외',
            'hospital_type': '병원',
            'beds_total': 190
        },
        {
            'name': '천안병원',
            'address': '부산광역시 수영구 수영로 493',
            'phone': '051-625-0900',
            'latitude': 35.1510,
            'longitude': 129.1080,
            'district': '수영구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 360
        },
        {
            'name': '안락병원',
            'address': '부산광역시 동래구 충렬대로 96',
            'phone': '051-503-2111',
            'latitude': 35.2000,
            'longitude': 129.0800,
            'district': '동래구',
            'emergency_level': '지역응급의료기관',
            'hospital_type': '종합병원',
            'beds_total': 280
        }
    ]
    
    return additional_hospitals

def create_comprehensive_csv(existing_csv_path):
    """기존 CSV + E-GEN 데이터 통합"""
    
    print("="*60)
    print("부산 응급실 종합 데이터 생성 시작")
    print("="*60)
    
    # 1. 기존 CSV 로드
    print("\n[1단계] 기존 CSV 파일 로드 중...")
    existing_df = load_busan_hospitals_csv(existing_csv_path)
    
    if existing_df is None:
        print("기존 CSV 로드 실패. E-GEN 데이터만 사용합니다.")
        existing_hospitals = []
    else:
        # 컬럼명이 한글로 깨져있을 경우 영문으로 변환
        existing_df.columns = ['number', 'hospital_type', 'name', 'representative', 
                              'address', 'latitude', 'longitude', 'phone', 
                              'beds_total', 'license_date']
        
        # 필요한 컬럼만 선택
        existing_hospitals = existing_df[['name', 'hospital_type', 'address', 
                                         'phone', 'latitude', 'longitude', 'beds_total']].to_dict('records')
        
        # 구(district) 정보 추가
        for hospital in existing_hospitals:
            # 주소에서 구 추출
            address = hospital['address']
            district_match = re.search(r'부산광역시\s+(\S+구)', address)
            if district_match:
                hospital['district'] = district_match.group(1)
            else:
                hospital['district'] = '미상'
            
            # 응급실 등급 추가 (기본값)
            hospital['emergency_level'] = '지역응급의료기관'
        
        print(f"  기존 CSV에서 {len(existing_hospitals)}개 병원 로드")
    
    # 2. E-GEN 추가 데이터
    print("\n[2단계] E-GEN 추가 데이터 로드 중...")
    additional_hospitals = add_egen_emergency_rooms()
    print(f"  E-GEN에서 {len(additional_hospitals)}개 병원 추가")
    
    # 3. 데이터 병합 (중복 제거)
    print("\n[3단계] 데이터 병합 및 중복 제거 중...")
    all_hospitals = existing_hospitals + additional_hospitals
    
    # 병원명 기준으로 중복 제거
    unique_hospitals = []
    seen_names = set()
    
    for hospital in all_hospitals:
        name = hospital['name']
        if name not in seen_names:
            unique_hospitals.append(hospital)
            seen_names.add(name)
    
    print(f"  중복 제거 후: {len(unique_hospitals)}개 병원")
    
    # 4. DataFrame 생성 및 ID 부여
    print("\n[4단계] 최종 데이터 정리 중...")
    df = pd.DataFrame(unique_hospitals)
    
    # ID 부여
    df.insert(0, 'id', ['ER' + str(i+1).zfill(3) for i in range(len(df))])
    
    # 응급실 직통번호 생성 (일반 전화번호에서 생성)
    df['emergency_phone'] = df['phone'].apply(
        lambda x: x.replace(x.split('-')[-1], '0119') if isinstance(x, str) else None
    )
    
    # CT/MRI 보유 여부 (병상 수 기준으로 추정)
    df['has_ct'] = df['beds_total'].apply(lambda x: True if x >= 200 else False)
    df['has_mri'] = df['beds_total'].apply(lambda x: True if x >= 400 else False)
    
    # 컬럼 순서 정리
    final_columns = ['id', 'name', 'address', 'phone', 'emergency_phone',
                    'latitude', 'longitude', 'district', 'emergency_level', 
                    'hospital_type', 'beds_total', 'has_ct', 'has_mri']
    
    df = df[final_columns]
    
    # 5. CSV 저장
    output_path = '../data/processed/busan_hospitals_static.csv'
    df.to_csv(output_path, index=False, encoding='utf-8-sig')
    
    # 6. 결과 출력
    print("\n" + "="*60)
    print("✓ 부산 응급실 종합 데이터 생성 완료!")
    print("="*60)
    print(f"파일 저장 위치: {output_path}")
    print(f"총 병원 수: {len(df)}개")
    print(f"\n구별 분포:")
    print(df['district'].value_counts())
    print(f"\n응급실 등급별 분포:")
    print(df['emergency_level'].value_counts())
    print(f"\n병원 유형별 분포:")
    print(df['hospital_type'].value_counts())
    
    # 7. 데이터 미리보기
    print(f"\n데이터 미리보기 (처음 10개):")
    print(df[['id', 'name', 'district', 'emergency_level', 'beds_total']].head(10).to_string(index=False))
    
    return output_path, df

# 실행
if __name__ == "__main__":
    # 기존 CSV 파일 경로 (notebooks 폴더 기준)
    csv_path = '../data/raw/부산광역시_종합병원 현황_20250513.csv'
    
    # 통합 CSV 생성
    output_file, final_df = create_comprehensive_csv(csv_path)
    
    print(f"\n✓ 완료! 생성된 파일을 확인하세요: {output_file}")

부산 응급실 종합 데이터 생성 시작

[1단계] 기존 CSV 파일 로드 중...
✓ CSV 파일 로드 성공 (인코딩: cp949)
  로드된 데이터 수: 29개


NameError: name 're' is not defined