In [14]:
import requests
import pandas as pd
import time
from tqdm import tqdm
import os

tqdm.pandas()

# CSV 파일 불러오기
file_path = "C:/Users/jeong/Desktop/작업파일.csv" #파일명
data = pd.read_csv(file_path, encoding='utf-8')

# ✅ [추가된 부분] 종별코드명으로 필터링
data = data[data['종별코드명'].isin(['종합병원', '상급종합'])]
print(f"필터링된 데이터 개수: {len(data)}개")

data.head(2)

필터링된 데이터 개수: 372개


Unnamed: 0,암호화YKIHO코드,요양기관명,종별코드,종별코드명,시도코드,시도명,시군구코드,시군구명,읍면동,우편번호,...,병원URL,개설일자,의사총수,일반의 의사수,인턴 의사수,레지던트 의사수,전문의 의사수,좌표정보(X),좌표정보(Y),Unnamed: 21
0,JDQ4MTYyMiM1MSMkMSMkMCMkODkkMzgxMzUxIzExIyQxIy...,가톨릭대학교인천성모병원,1,상급종합,220000,인천,220003,인천부평구,,,...,http://www.cmcism.or.kr/,1981-08-06,332,2,23,73,234,126.724899,37.484831,2823756000.0
1,JDQ4MTYyMiM1MSMkMSMkNCMkODkkMzgxMzUxIzExIyQxIy...,강릉아산병원,1,상급종합,320000,강원,320100,강릉시,,25440.0,...,http://www.gnah.co.kr,1996-07-30,208,5,0,37,166,128.857841,37.818433,4215036000.0


In [15]:
# 2. 불러온 파일명을 기반으로 저장할 파일명 만들기
base_name = os.path.splitext(file_path)[0]
output_file_path = f"{base_name}_지오코딩.csv"


# 주소를 좌표로 변환하는 함수 (이전과 동일)
def get_coordinates(address):
    time.sleep(0.01)
    apiurl = "https://api.vworld.kr/req/address?"
    params = {
        "service": "address",
        "request": "getcoord",
        "crs": "epsg:4326",
        "address": address,
        "format": "json",
        "type": "road",
        "key": "B0586898-546F-3E6D-9D49-D569D3262EEE" #api
    }
    try:
        response = requests.get(apiurl, params=params)
        if response.status_code == 200:
            json_data = response.json()
            if json_data['response']['status'] == 'OK':
                point_info = json_data['response']['result']['point']
                return point_info['x'], point_info['y']
    except Exception as e:
        print(f"주소 변환 중 에러 발생: {address}, 오류: {e}")
    return None, None

# 함수를 '주소' 컬럼에 적용하고 결과를 새 컬럼에 저장
data[['X', 'Y']] = data['주소'].progress_apply(lambda addr: pd.Series(get_coordinates(addr)))

# 결과 확인
print(data.head())

# 3. 직접 지정한 파일명 대신, 위에서 만든 변수(output_file_path)를 사용
data.to_csv(output_file_path, index=False, encoding='utf-8-sig')

print(f"\n지오코딩 작업이 완료되어 '{output_file_path}' 파일로 저장되었습니다.")

100%|████████████████████████████████████████████████████████████████████████████████| 372/372 [00:38<00:00,  9.59it/s]

                                          암호화YKIHO코드         요양기관명  종별코드  \
0  JDQ4MTYyMiM1MSMkMSMkMCMkODkkMzgxMzUxIzExIyQxIy...  가톨릭대학교인천성모병원     1   
1  JDQ4MTYyMiM1MSMkMSMkNCMkODkkMzgxMzUxIzExIyQxIy...        강릉아산병원     1   
2  JDQ4MTg4MSM1MSMkMSMkMCMkODkkMzgxMzUxIzExIyQxIy...        강북삼성병원     1   
3  JDQ4MTg4MSM1MSMkMSMkMCMkODkkMzgxMzUxIzExIyQxIy...       건국대학교병원     1   
4  JDQ4MTYyMiM4MSMkMSMkMCMkODkkMzgxMzUxIzExIyQxIy...       경북대학교병원     1   

  종별코드명    시도코드 시도명   시군구코드   시군구명  읍면동     우편번호  ... 의사총수 일반의 의사수 인턴 의사수  \
0  상급종합  220000  인천  220003  인천부평구  NaN      NaN  ...  332       2     23   
1  상급종합  320000  강원  320100    강릉시  NaN  25440.0  ...  208       5      0   
2  상급종합  110000  서울  110016    종로구  NaN   3181.0  ...  406       5     26   
3  상급종합  110000  서울  110023    광진구  NaN   5030.0  ...  427       2     36   
4  상급종합  230000  대구  230006   대구중구  NaN  41944.0  ...  479       4     62   

  레지던트 의사수  전문의 의사수     좌표정보(X)    좌표정보(Y)   Unnamed: 21              X  \
0    




In [29]:
# X, Y 컬럼의 결측치 개수 확인
print(data[['X', 'Y']].isnull().sum())

#결측치 행 확인
null_rows = data[data['X'].isnull() | data['Y'].isnull()]
print(null_rows[['주소', '종별코드명']])

X    8
Y    8
dtype: int64
                                           주소 종별코드명
39         울산광역시 동구 방어진순환도로 877 울산대학교병원 (전하동)  상급종합
41   경상남도 창원시 마산회원구 팔용로 158-158 (합성동, 삼성창원병원)  상급종합
46                       인천광역시 서구 신석로 70-  70  종합병원
95              경기도 성남시 분당구 새마을로177번길 81 (율동)  종합병원
211           경기도 시흥시 복지로 57 복지로 61, 2층 (대야동)  종합병원
212                  경상남도 거제시 두모길 16-16 (두모동)  종합병원
300                  서울특별시 중구 마른내로 9-9 (저동2가)  종합병원
309             경상남도 창원시 의창구 창이대로 45-45 (명서동)  종합병원


In [19]:
# 좌표가 정상 범위 안에 있는지 확인
invalid = data[
    (data['Y'] < 33) | (data['Y'] > 39) |
    (data['X'] < 124) | (data['X'] > 132)
]
print(f"비정상 좌표 개수: {len(invalid)}개")

비정상 좌표 개수: 0개
