## 1. 라이브러리 불러오기

In [17]:
import pandas as pd
import glob
import os
from collections import defaultdict

## 2. csv 파일 목록 불러오기

In [10]:
data_path = "./data"

folders = [f for f in os.listdir(data_path) if os.path.isdir(os.path.join(data_path, f))]

data_dict = {}

## 3. 모든 CSV를 DataFrame 형태로 저장

In [12]:
# 각 폴더마다 csv 파일 불러오기
for folder in folders:
    csv_path = os.path.join(data_path, folder, f"{folder}.csv")
    if os.path.exists(csv_path):
        try:
            df = pd.read_csv(csv_path, encoding="utf-8")
        except UnicodeDecodeError:
            df = pd.read_csv(csv_path, encoding="cp949")  # 한글 깨짐 대비
        data_dict[folder] = df
        print(f"{folder}: {df.shape}")
    else:
        print(f"{csv_path} 없음")

DRM-QUAKEOUTSHELTER: (1585, 14)
RST-COLDSHELTER: (1387, 27)
TRA-TRASAFETYIDX: (25, 5)
MED-MEDINST: (29, 32)
DRM-NATDISASTER: (28, 12)
DRM-PMSHELTER: (206, 13)
RST-LIBSHELTER: (190, 6)
TRA-SUBCONGEST: (1662, 45)
CRI-BIG5CRIME: (29, 14)
RST-CLIMATESHELTER: (505, 8)
MED-PHCENTER: (453, 6)
FIR-FIRESTATION: (180, 9)
TRA-TRAACCIDENT: (27, 8)
DRM-EMERGWATER: (20440, 23)
DRM-FLOODSHELTER: (1125, 19)
RST-HEATSHELTER: (4070, 14)
DRM-CIVDEF: (2736, 29)
CRI-CCTV: (29, 12)
MED-PHARM: (22111, 27)
FIR-RESCUE119: (30, 23)
DRM-QUAKESHELTER: (1551, 11)
RST-SMARTSHELTER: (200, 6)


In [16]:
# 데이터 구조 탐색 함수
def explore_dataframe(name, df, n=3):
    print(f"\n데이터셋: {name}")
    print(f" - shape: {df.shape[0]} rows, {df.shape[1]} cols")
    print(" - 컬럼 목록:", list(df.columns))
    
    # 결측치 비율 계산
    missing = df.isnull().sum() / len(df) * 100
    missing = missing[missing > 0].sort_values(ascending=False)
    if not missing.empty:
        print(" - 결측치 비율 상위 컬럼:")
        print(missing.head(n).round(2))
    else:
        print(" - 결측치 없음")
    
    # 데이터 타입 분포
    print(" - 데이터 타입:")
    print(df.dtypes.value_counts())
    
    # 샘플 출력
    display(df.head(n))


# 모든 데이터셋 구조 탐색
for name, df in data_dict.items():
    explore_dataframe(name, df)



데이터셋: DRM-QUAKEOUTSHELTER
 - shape: 1585 rows, 14 cols
 - 컬럼 목록: ['시설번호', '지역코드', '시설일련번호', '시도명', '시군구명', '수용시설명', '법정동코드', '행정동코드', '상세주소', '시설면적', '경도', '위도', 'X좌표', 'Y좌표']
 - 결측치 없음
 - 데이터 타입:
int64      5
float64    5
object     4
Name: count, dtype: int64


Unnamed: 0,시설번호,지역코드,시설일련번호,시도명,시군구명,수용시설명,법정동코드,행정동코드,상세주소,시설면적,경도,위도,X좌표,Y좌표
0,47,1114000000,23,서울특별시,중구,충무초등학교 운동장,1114014400,1114058000,서울특별시 중구 퇴계로50길 13(장충동2가),3863.0,127.001883,37.562261,200166.333261,551414.319071
1,48,1135000000,56,서울특별시,노원구,공연초등학교 운동장,1135010300,1135059500,서울특별시 노원구 동일로192가길 16(공릉동),3800.0,127.074461,37.62695,206573.119646,558596.676782
2,49,1135000000,57,서울특별시,노원구,연촌초등학교 운동장,1135010400,1135061100,서울특별시 노원구 공릉로58길 36(하계동),3680.0,127.072801,37.634747,206425.874982,559461.919531



데이터셋: RST-COLDSHELTER
 - shape: 1387 rows, 27 cols
 - 컬럼 목록: ['순번', '쉼터명칭', '사용여부', '도로명주소', '지번주소', '시설유형', '시설면적', '이용가능인원', '운영시작일', '운영종료일', '평일개방여부', '평일 개방시간', '평일 종료시간', '토요일개방여부', '토요일 개방시간', '토요일 종료시간', '일요일 개방여부', '일요일 개방시간', '일요일 종료시간', '공휴일 개방여부', '공휴일 개방시간', '공휴일 종료시간', '위도', '경도', '비고', 'X좌표', 'Y좌표']
 - 결측치 비율 상위 컬럼:
공휴일 개방시간    93.37
공휴일 종료시간    93.37
일요일 개방시간    91.64
dtype: float64
 - 데이터 타입:
object     21
float64     4
int64       2
Name: count, dtype: int64


Unnamed: 0,순번,쉼터명칭,사용여부,도로명주소,지번주소,시설유형,시설면적,이용가능인원,운영시작일,운영종료일,...,일요일 개방시간,일요일 종료시간,공휴일 개방여부,공휴일 개방시간,공휴일 종료시간,위도,경도,비고,X좌표,Y좌표
0,1,청운효자동주민센터,Y,서울특별시 종로구 자하문로 92,서울특별시 종로구 궁정동 12-1,주민센터,200.0,50,2024-11-15,2025-03-15,...,,,N,,,126.970656,37.584095,"한파특보 발효 시 연장 운영(평일 09:00~21:00, 주말 및 휴일 10:00~...",197408.138837,553838.071974
1,2,세종마을경로당,Y,서울특별시 종로구 자하문로11길 33,서울특별시 종로구 통인동 54,노인시설,141.9,50,2024-11-15,2025-03-15,...,,,N,,,126.969915,37.580371,,197342.6186,553424.771148
2,3,사직동주민센터,Y,서울특별시 종로구 경희궁1길 15,서울특별시 종로구 신문로2가 1-122,주민센터,400.0,50,2024-11-15,2025-03-15,...,,,N,,,126.970652,37.571394,"한파특보 발효 시 연장 운영(평일 09:00~21:00, 주말 및 휴일 10:00~...",197407.336351,552428.384882



데이터셋: TRA-TRASAFETYIDX
 - shape: 25 rows, 5 cols
 - 컬럼 목록: ['자치구별(1)', '자치구별(2)', '2021', '2022', '2023']
 - 결측치 없음
 - 데이터 타입:
float64    3
object     2
Name: count, dtype: int64


Unnamed: 0,자치구별(1),자치구별(2),2021,2022,2023
0,서울시,종로구,80.25,79.09,76.36
1,서울시,중구,78.12,77.92,75.86
2,서울시,용산구,81.45,78.53,78.98



데이터셋: DRM-NATDISASTER
 - shape: 28 rows, 12 cols
 - 컬럼 목록: ['자치구별(1)', '자치구별(2)', '2023', '2023.1', '2023.2', '2023.3', '2023.4', '2023.5', '2023.6', '2023.7', '2023.8', '2023.9']
 - 결측치 없음
 - 데이터 타입:
object    12
Name: count, dtype: int64


Unnamed: 0,자치구별(1),자치구별(2),2023,2023.1,2023.2,2023.3,2023.4,2023.5,2023.6,2023.7,2023.8,2023.9
0,자치구별(1),자치구별(2),사망및실종 (명),부상 (명),이재민 (명),주택침수세대 (세대),피해액 (천원),피해액 (천원),피해액 (천원),피해액 (천원),피해액 (천원),피해액 (천원)
1,자치구별(1),자치구별(2),소계,소계,소계,소계,소계,건물,선박,농경지,공공시설,사유시설
2,서울시,소계,3,1,130,...,1173718,316500,-,-,857218,-



데이터셋: DRM-PMSHELTER
 - shape: 206 rows, 13 cols
 - 컬럼 목록: ['순번', '행정동 이름', '시설 이름', '주소', '시설유형', '이용가능인원', '평일이용시간', '주말이용시간', '회원제 여부', 'X좌표', 'Y좌표', '면적', '비고']
 - 결측치 비율 상위 컬럼:
주말이용시간    100.0
면적        100.0
비고        100.0
dtype: float64
 - 데이터 타입:
object     6
float64    5
int64      2
Name: count, dtype: int64


Unnamed: 0,순번,행정동 이름,시설 이름,주소,시설유형,이용가능인원,평일이용시간,주말이용시간,회원제 여부,X좌표,Y좌표,면적,비고
0,3,종로구,혜명경로당,서울특별시 종로구 혜화로9길 24-9,노인시설,100,09:00~18:00,,,199848.342439,554277.074165,,
1,4,중구,광희경로당,서울특별시 중구 퇴계로 303-9 광희동주민센터 4층,복지회관,30,09:00~18:00,,,200445.672843,551660.313597,,
2,5,중구,약수노인종합복지관,서울특별시 중구 다산로6길 11,복지회관,150,09:00~18:00,,,200823.359322,550327.417073,,



데이터셋: RST-LIBSHELTER
 - shape: 190 rows, 6 cols
 - 컬럼 목록: ['연번', '자치구', '도서관명', '이용시간', '휴관일', '주소']
 - 결측치 없음
 - 데이터 타입:
object    5
int64     1
Name: count, dtype: int64


Unnamed: 0,연번,자치구,도서관명,이용시간,휴관일,주소
0,1,강남구,논현도서관,"평일 : 09:00~22:00, 주말 : 09:00~17:00",매주 화요일 및 법정공휴일,서울특별시 강남구 학동로43길 17(논현동) 논현2동주민센터 6층
1,2,강남구,논현문화마루도서관(본관),"평일 : 09:00~22:00, 주말 : 09:00~17:00",매주 월요일 및 법정공휴일,"서울특별시 강남구 논현로131길 40, 4~5층"
2,3,강남구,정다운도서관,"평일 : 09:00~22:00, 주말 : 09:00~17:00",매주 화요일 및 법정공휴일,서울특별시 강남구 학동로67길 11 3층



데이터셋: TRA-SUBCONGEST
 - shape: 1662 rows, 45 cols
 - 컬럼 목록: ['연번', '요일구분', '호선', '역번호', '출발역', '상하구분', '5시30분', '6시00분', '6시30분', '7시00분', '7시30분', '8시00분', '8시30분', '9시00분', '9시30분', '10시00분', '10시30분', '11시00분', '11시30분', '12시00분', '12시30분', '13시00분', '13시30분', '14시00분', '14시30분', '15시00분', '15시30분', '16시00분', '16시30분', '17시00분', '17시30분', '18시00분', '18시30분', '19시00분', '19시30분', '20시00분', '20시30분', '21시00분', '21시30분', '22시00분', '22시30분', '23시00분', '23시30분', '00시00분', '00시30분']
 - 결측치 비율 상위 컬럼:
00시30분    66.67
dtype: float64
 - 데이터 타입:
float64    39
int64       3
object      3
Name: count, dtype: int64


Unnamed: 0,연번,요일구분,호선,역번호,출발역,상하구분,5시30분,6시00분,6시30분,7시00분,...,20시00분,20시30분,21시00분,21시30분,22시00분,22시30분,23시00분,23시30분,00시00분,00시30분
0,1,평일,1,158,청량리,상선,7.2,6.9,4.5,8.3,...,24.8,26.1,28.2,24.5,23.0,22.2,21.7,14.9,8.5,0.0
1,2,평일,1,157,제기동,상선,7.6,8.7,6.5,8.7,...,30.0,26.0,34.8,27.5,25.7,25.4,24.2,16.8,11.6,0.0
2,3,평일,1,156,신설동,상선,6.7,11.2,7.2,9.6,...,30.7,26.8,36.3,28.6,26.6,26.1,25.2,16.1,12.6,0.0



데이터셋: CRI-BIG5CRIME
 - shape: 29 rows, 14 cols
 - 컬럼 목록: ['자치구별(1)', '자치구별(2)', '2023', '2023.1', '2023.2', '2023.3', '2023.4', '2023.5', '2023.6', '2023.7', '2023.8', '2023.9', '2023.10', '2023.11']
 - 결측치 없음
 - 데이터 타입:
object    14
Name: count, dtype: int64


Unnamed: 0,자치구별(1),자치구별(2),2023,2023.1,2023.2,2023.3,2023.4,2023.5,2023.6,2023.7,2023.8,2023.9,2023.10,2023.11
0,자치구별(1),자치구별(2),합계,합계,합계,합계,합계,합계,합계,합계,합계,합계,합계,합계
1,자치구별(1),자치구별(2),소계,소계,살인,살인,강도,강도,강간·강제추행,강간·강제추행,절도,절도,폭력,폭력
2,자치구별(1),자치구별(2),발생,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,검거



데이터셋: RST-CLIMATESHELTER
 - shape: 505 rows, 8 cols
 - 컬럼 목록: ['순번', '쉼터_구분', '쉼터명', '구이름', '도로명주소', 'X좌표', 'Y좌표', '운영시간']
 - 결측치 없음
 - 데이터 타입:
object     5
float64    2
int64      1
Name: count, dtype: int64


Unnamed: 0,순번,쉼터_구분,쉼터명,구이름,도로명주소,X좌표,Y좌표,운영시간
0,1,CU,남대문로5가점,중구,"중구 세종대로 8-1, (남대문로5가)",197649.2868,550893.7822,24시간
1,2,CU,경희당점,종로구,종로구 경희궁길 36 (신문로2가),197352.6385,552593.6265,24시간
2,3,CU,동숭아트점,종로구,종로구 동숭길 114 (동숭동) 1층 CU,200338.5856,553737.1762,24시간



데이터셋: MED-PHCENTER
 - shape: 453 rows, 6 cols
 - 컬럼 목록: ['동별(1)', '동별(2)', '동별(3)', '2023', '2023.1', '2023.2']
 - 결측치 없음
 - 데이터 타입:
object    6
Name: count, dtype: int64


Unnamed: 0,동별(1),동별(2),동별(3),2023,2023.1,2023.2
0,동별(1),동별(2),동별(3),보건소,보건분소,보건지소
1,합계,소계,소계,25,12,41
2,합계,종로구,소계,1,1,-



데이터셋: FIR-FIRESTATION
 - shape: 180 rows, 9 cols
 - 컬럼 목록: ['연번', '서ㆍ센터ID', '서ㆍ센터명', '유형구분명', '도서지역포함여부', '상위서ㆍ센터ID', '일련번호', 'X좌표', 'Y좌표']
 - 결측치 비율 상위 컬럼:
도서지역포함여부    100.0
dtype: float64
 - 데이터 타입:
int64      4
float64    3
object     2
Name: count, dtype: int64


Unnamed: 0,연번,서ㆍ센터ID,서ㆍ센터명,유형구분명,도서지역포함여부,상위서ㆍ센터ID,일련번호,X좌표,Y좌표
0,1,1110108,쌍문119안전센터,안전센터/구조대,,1110000,1,202367.981,560953.287
1,2,1125000,강북소방서,소방서,,1100000,2,203372.13415,559271.253735
2,3,1125101,번동119안전센터,안전센터/구조대,,1125000,3,203369.039207,559276.675604



데이터셋: TRA-TRAACCIDENT
 - shape: 27 rows, 8 cols
 - 컬럼 목록: ['자치구별(1)', '자치구별(2)', '2024', '2024.1', '2024.2', '2024.3', '2024.4', '2024.5']
 - 결측치 없음
 - 데이터 타입:
object    8
Name: count, dtype: int64


Unnamed: 0,자치구별(1),자치구별(2),2024,2024.1,2024.2,2024.3,2024.4,2024.5
0,자치구별(1),자치구별(2),발생건수 (건),자동차 1만대당 발생건수 (건),사망자수 (명),인구 10만명당 사망자수 (명),부상자수 (명),인구 10만명당 부상자수 (명)
1,합계,소계,33465,92.9,212,2.2,44327,461.9
2,합계,종로구,917,146.0,5,3.3,1253,837.5



데이터셋: DRM-EMERGWATER
 - shape: 20440 rows, 23 cols
 - 컬럼 목록: ['관리번호', '등록구분', '등록년도', '모터펌프종류', '모터펌프출력(kw)', '비고', '설치년도', '설치심도(m)', '시설구분', '시설명(설치장소)', '시설유형', '시설주소', '양수량(톤/일)', '용도구분', '자가발전기종류', '자가발전기출력(kw)', '자치구', '전화번호', '최종수정일시', '최초등록일시', '해지날짜', '해지사유', '해지여부']
 - 결측치 비율 상위 컬럼:
해지날짜    100.00
해지사유    100.00
비고       93.95
dtype: float64
 - 데이터 타입:
object     17
float64     4
int64       2
Name: count, dtype: int64


Unnamed: 0,관리번호,등록구분,등록년도,모터펌프종류,모터펌프출력(kw),비고,설치년도,설치심도(m),시설구분,시설명(설치장소),...,용도구분,자가발전기종류,자가발전기출력(kw),자치구,전화번호,최종수정일시,최초등록일시,해지날짜,해지사유,해지여부
0,2018_1_0359,1,2018,수중펌프,30.0,,2002.0,700.0,빌딩,금강산보석사우나,...,생활용수,,,노원구,,2019-04-11 18:07:58.0,2019-04-11 18:07:58.0,,,지정
1,2018_1_0360,1,2018,수중펌프,2.25,,2002.0,150.0,병원,을지병원(별관),...,생활용수,디젤엔진,600.0,노원구,,2019-04-11 18:07:58.0,2019-04-11 18:07:58.0,,,지정
2,2018_1_0361,1,2018,수중펌프,5.63,,2007.0,250.0,빌딩,궁전사우나,...,생활용수,,,노원구,,2019-04-11 18:07:58.0,2019-04-11 18:07:58.0,,,지정



데이터셋: DRM-FLOODSHELTER
 - shape: 1125 rows, 19 cols
 - 컬럼 목록: ['R_SEQ_NO', 'CD_AREA', 'NO_EQUP_SE', 'SD_NM', 'SGG_NM', 'CD_EQUP', 'GB_ACMD', 'EQUP_NM', 'RDNMADR_CD', 'BDONG_CD', 'HDONG_CD', 'LOC_SFPR_A', 'SECT_EQUP', 'QTY_CPTY', 'XCORD', 'YCORD', 'XX', 'YY', 'CD_GUBUN']
 - 결측치 비율 상위 컬럼:
RDNMADR_CD    0.09
BDONG_CD      0.09
dtype: float64
 - 데이터 타입:
int64      7
object     7
float64    5
Name: count, dtype: int64


Unnamed: 0,R_SEQ_NO,CD_AREA,NO_EQUP_SE,SD_NM,SGG_NM,CD_EQUP,GB_ACMD,EQUP_NM,RDNMADR_CD,BDONG_CD,HDONG_CD,LOC_SFPR_A,SECT_EQUP,QTY_CPTY,XCORD,YCORD,XX,YY,CD_GUBUN
0,3751,1156000000,416,서울특별시,영등포구,1,학교,양화중학교,1156012100100480000037220,1156012000.0,1156060500,서울특별시 영등포구 당산로 56(문래동3가),725,279,126.89605,37.51977,190810.6356,546703.32,긴급
1,3800,1159000000,11,서울특별시,동작구,1,학교,서울신상도초등학교,1159010200102040333026309,1159010000.0,1159054000,서울특별시 동작구 장승배기로 14(상도동),530,203,126.94406,37.50028,195053.8134,544536.2178,안전
2,3798,1156000000,461,서울특별시,영등포구,14,"공공시설(국·공립도서관, 공립병원, 시·도민회관, 구민회관 주민체육시설, 노인병원,...",푸드뱅크마켓3호점,1156013200147290000009413,1156013000.0,1156068000,서울특별시 영등포구 신길로8길 7(신길동),62,24,126.90933,37.49573,191982.1121,544034.2814,안전



데이터셋: RST-HEATSHELTER
 - shape: 4070 rows, 14 cols
 - 컬럼 목록: ['시설년도', '위치코드', '시설구분1', '시설구분2', '쉼터명칭', '도로명주소', '지번주소', '시설면적', '이용가능인원', '비고', '경도', '위도', 'X좌표(EPSG:5186)', 'Y좌표(EPSG:5186)']
 - 결측치 비율 상위 컬럼:
비고        84.82
이용가능인원    23.17
시설면적      22.78
dtype: float64
 - 데이터 타입:
object     7
float64    5
int64      2
Name: count, dtype: int64


Unnamed: 0,시설년도,위치코드,시설구분1,시설구분2,쉼터명칭,도로명주소,지번주소,시설면적,이용가능인원,비고,경도,위도,X좌표(EPSG:5186),Y좌표(EPSG:5186)
0,2025,1114067000,생활밀착민간시설,유통?판매?서비스시설,신당지하도상가고객쉼터,서울특별시 중구 퇴계로85길 지하56 (신당지하쇼핑센터),서울특별시 중구 황학동 1207,32.0,6.0,8월부터는 5시~01시 운영 예정,127.020152,37.568391,201780.32306,552094.872866
1,2025,1114067000,특정계층이용시설,회원이용시설,SH황학롯데캐슬경로당,서울특별시 중구 청계천로 400,서울특별시 중구 황학동 2545,264.46,30.0,,127.021214,37.571025,201874.105668,552387.259039
2,2025,1114067000,공공시설,공공청사,황학동주민센터,서울특별시 중구 난계로11길 52,서울특별시 중구 황학동 1010,330.0,30.0,특보 시 주말 공휴일 9시~18시 운영,127.021367,37.567438,201887.668298,551989.102509



데이터셋: DRM-CIVDEF
 - shape: 2736 rows, 29 cols
 - 컬럼 목록: ['개방자치단체코드', '관리번호', '인허가일자', '인허가취소일자', '영업상태코드', '영업상태명', '상세영업상태코드', '상세영업상태명', '폐업일자', '휴업시작일자', '휴업종료일자', '재개업일자', '전화번호', '소재지면적', '소재지우편번호', '지번주소', '도로명주소', '도로명우편번호', '사업장명', '최종수정일자', '데이터갱신구분', '데이터갱신일자', '업태구분명', '좌표정보(X)', '좌표정보(Y)', '비상시설위치', '시설구분명', '시설명_건물명', '해제일자']
 - 결측치 비율 상위 컬럼:
휴업시작일자    100.0
휴업종료일자    100.0
재개업일자     100.0
dtype: float64
 - 데이터 타입:
object     16
float64    10
int64       3
Name: count, dtype: int64


Unnamed: 0,개방자치단체코드,관리번호,인허가일자,인허가취소일자,영업상태코드,영업상태명,상세영업상태코드,상세영업상태명,폐업일자,휴업시작일자,...,최종수정일자,데이터갱신구분,데이터갱신일자,업태구분명,좌표정보(X),좌표정보(Y),비상시설위치,시설구분명,시설명_건물명,해제일자
0,3080000,3080000-S202300006,2023-07-31,,1,영업/정상,18,사용중,,,...,2024-01-06 20:08:45,U,2023-12-01 00:08:00.0,,201045.611312,457292.961457,,,,
1,3080000,3080000-S202400001,2024-01-22,,1,영업/정상,18,사용중,,,...,2024-01-30 12:33:59,U,2023-12-02 00:01:00.0,,202624.617263,456818.852071,,,,
2,3030000,3030000-S202300027,2023-07-07,,1,영업/정상,18,사용중,,,...,2023-07-18 13:44:25,I,2022-12-06 22:00:00.0,,204522.096092,448925.421927,,,,



데이터셋: CRI-CCTV
 - shape: 29 rows, 12 cols
 - 컬럼 목록: ['Unnamed: 0', "(단위 : 대, '24.12.31. 기준)", 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11']
 - 결측치 비율 상위 컬럼:
Unnamed: 0    100.0
Unnamed: 2      6.9
Unnamed: 4      6.9
dtype: float64
 - 데이터 타입:
object     11
float64     1
Name: count, dtype: int64


Unnamed: 0.1,Unnamed: 0,"(단위 : 대, '24.12.31. 기준)",Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11
0,,구 분,CCTV 총계,범죄예방 및 수사,,,,,시설안전\n·\n화재예방,교통단속,교통정보수집\n·\n분석,기타\n목적
1,,,,소 계,방범,어린이\n보호구역,공원·놀이터,쓰레기\n무단투기,,,,
2,,자치구,113273,99758,74807,8704,15417,830,4482,8648,18,367



데이터셋: MED-PHARM
 - shape: 22111 rows, 27 cols
 - 컬럼 목록: ['개방자치단체코드', '관리번호', '인허가일자', '인허가취소일자', '영업상태코드', '영업상태명', '상세영업상태코드', '상세영업상태명', '폐업일자', '휴업시작일자', '휴업종료일자', '재개업일자', '전화번호', '소재지면적', '소재지우편번호', '지번주소', '도로명주소', '도로명우편번호', '사업장명', '최종수정일자', '데이터갱신구분', '데이터갱신일자', '업태구분명', '좌표정보(X)', '좌표정보(Y)', '약국영업면적', '지정일자']
 - 결측치 비율 상위 컬럼:
재개업일자    100.0
소재지면적    100.0
업태구분명    100.0
dtype: float64
 - 데이터 타입:
object     17
float64     7
int64       3
Name: count, dtype: int64


Unnamed: 0,개방자치단체코드,관리번호,인허가일자,인허가취소일자,영업상태코드,영업상태명,상세영업상태코드,상세영업상태명,폐업일자,휴업시작일자,...,도로명우편번호,사업장명,최종수정일자,데이터갱신구분,데이터갱신일자,업태구분명,좌표정보(X),좌표정보(Y),약국영업면적,지정일자
0,3240000,PHMD120253240033084000018,2025-03-04,,1,영업/정상,13,영업중,,,...,5378,365연약국,2025-03-04 15:29:44,I,2024-12-03 00:06:00.0,,,,,
1,3190000,PHMD120253190033084000001,2025-02-27,,1,영업/정상,13,영업중,,,...,7004,다나은 약국,2025-03-04 11:14:31,I,2024-12-03 00:06:00.0,,197486.501626,442493.781452,,
2,3230000,PHMD120253230034084000003,2025-02-21,,1,영업/정상,13,영업중,,,...,5543,잠실하나약국,2025-03-04 14:51:24,U,2024-12-03 00:06:00.0,,209687.792466,446023.390116,,



데이터셋: FIR-RESCUE119
 - shape: 30 rows, 23 cols
 - 컬럼 목록: ['소방서별(1)', '소방서별(2)', '2023', '2023.1', '2023.2', '2023.3', '2023.4', '2023.5', '2023.6', '2023.7', '2023.8', '2023.9', '2023.10', '2023.11', '2023.12', '2023.13', '2023.14', '2023.15', '2023.16', '2023.17', '2023.18', '2023.19', '2023.20']
 - 결측치 없음
 - 데이터 타입:
object    23
Name: count, dtype: int64


Unnamed: 0,소방서별(1),소방서별(2),2023,2023.1,2023.2,2023.3,2023.4,2023.5,2023.6,2023.7,...,2023.11,2023.12,2023.13,2023.14,2023.15,2023.16,2023.17,2023.18,2023.19,2023.20
0,소방서별(1),소방서별(2),출동건수 (건),출동건수 (건),출동건수 (건),출동건수 (건),출동건수 (건),출동건수 (건),구조인원 (명),구조인원 (명),...,구조인원 (명),구조인원 (명),구조인원 (명),구조인원 (명),구조인원 (명),구조인원 (명),구조인원 (명),구조인원 (명),구조인원 (명),구조인원 (명)
1,소방서별(1),소방서별(2),소계,처리,처리,처리,처리,미처리(자체처리허위등),사상별,사상별,...,사고종별,사고종별,사고종별,사고종별,사고종별,사고종별,사고종별,사고종별,사고종별,사고종별
2,소방서별(1),소방서별(2),소계,소계,인명구조,안전조치,기타활동,소계,소계,사망,...,화재,교통사고,수난사고,기계사고,건물사고,승강기사고,산악사고,갇힘사고,폭발사고,기타



데이터셋: DRM-QUAKESHELTER
 - shape: 1551 rows, 11 cols
 - 컬럼 목록: ['피난처 ID', '시도명', '시군구명', '시설명', '상세주소', '시설면적', '경도', '위도', '구분', '구분명', '관리부서']
 - 결측치 없음
 - 데이터 타입:
object     6
float64    3
int64      2
Name: count, dtype: int64


Unnamed: 0,피난처 ID,시도명,시군구명,시설명,상세주소,시설면적,경도,위도,구분,구분명,관리부서
0,1,서울특별시,동작구,동작고등학교 운동장,서울특별시 동작구 솔밭로 51(사당동),3246.0,126.9655,37.482,1,지진실내구호소,070-4629-6407
1,2,서울특별시,동작구,동작초등학교 운동장,서울특별시 동작구 동작대로29길 214(사당동),2763.0,126.9768,37.494,1,지진실내구호소,02-537-1773
2,3,서울특별시,도봉구,창림초등학교 운동장,서울특별시 도봉구 덕릉로63길 46(창동),2584.0,127.0417,37.6431,1,지진실내구호소,02-2091-5718



데이터셋: RST-SMARTSHELTER
 - shape: 200 rows, 6 cols
 - 컬럼 목록: ['스마트쉼터 현황', 'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5']
 - 결측치 없음
 - 데이터 타입:
object    6
Name: count, dtype: int64


Unnamed: 0,스마트쉼터 현황,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,시도,시군구,시설명,설치장소,상세주소,설치년도
1,서울,-,스마트셸터,14-015 홍대입구역(중) 버스정류소,서울 마포구 동교동 155-55,2021
2,서울,-,스마트셸터,14-016 홍대입구역(중) 버스정류소,서울 마포구 동교동 155-55,2021



데이터셋: MED-MEDINST
 - shape: 29 rows, 32 cols
 - 컬럼 목록: ['자치구별(1)', '자치구별(2)', '2024', '2024.1', '2024.2', '2024.3', '2024.4', '2024.5', '2024.6', '2024.7', '2024.8', '2024.9', '2024.10', '2024.11', '2024.12', '2024.13', '2024.14', '2024.15', '2024.16', '2024.17', '2024.18', '2024.19', '2024.20', '2024.21', '2024.22', '2024.23', '2024.24', '2024.25', '2024.26', '2024.27', '2024.28', '2024.29']
 - 결측치 없음
 - 데이터 타입:
object    32
Name: count, dtype: int64


Unnamed: 0,자치구별(1),자치구별(2),2024,2024.1,2024.2,2024.3,2024.4,2024.5,2024.6,2024.7,...,2024.20,2024.21,2024.22,2024.23,2024.24,2024.25,2024.26,2024.27,2024.28,2024.29
0,자치구별(1),자치구별(2),계,계,계,계,계,계,계,계,...,계,계,계,계,계,계,계,계,계,계
1,자치구별(1),자치구별(2),소계,소계,종합병원,종합병원,병원,병원,의원,의원,...,치과병원,치과병원,치과의원,치과의원,한방병원,한방병원,한방의원,한방의원,조산원,조산원
2,자치구별(1),자치구별(2),병원수,병상수,병원수,병상수,병원수,병상수,병원수,병상수,...,병원수,병상수,병원수,병상수,병원수,병상수,병원수,병상수,병원수,병상수


## 4. 안전 요소 측정 시작...

### 1) 데이터셋을 하위요소별로 자동 분류 + 기대 개수 검증

In [18]:
import pandas as pd
from collections import defaultdict

# 하위요소 코드 → 한글명
cat_names = {'MED':'의료','RST':'휴식','CRI':'범죄','DRM':'재난대응','FIR':'소방안전','TRA':'교통안전'}

# 예인님이 알려준 기대 개수
expected_counts = {'MED':3,'RST':5,'CRI':2,'DRM':7,'FIR':2,'TRA':3}

# data_dict의 key(폴더명=데이터코드)에서 하위요소 코드 추출
by_cat = defaultdict(list)
for name in data_dict.keys():
    prefix = name.split('-')[0]
    by_cat[prefix].append(name)

# 요약 테이블
rows = []
for code in sorted(cat_names.keys()):
    actual = len(by_cat.get(code, []))
    expected = expected_counts.get(code, None)
    rows.append({
        '하위요소코드': code,
        '하위요소명': cat_names[code],
        '데이터셋수(actual)': actual,
        '데이터셋수(expected)': expected,
        '일치': (expected is None) or (actual == expected)
    })
summary_df = pd.DataFrame(rows)
display(summary_df)

# 상세 나열 + 불일치 경고
for code in sorted(cat_names.keys()):
    print(f"\n[{code} {cat_names[code]}] {len(by_cat.get(code, []))}개")
    for n in sorted(by_cat.get(code, [])):
        print(" -", n)
    exp = expected_counts.get(code)
    if exp is not None and len(by_cat.get(code, [])) != exp:
        print(f"기대 개수 {exp}와 불일치")


Unnamed: 0,하위요소코드,하위요소명,데이터셋수(actual),데이터셋수(expected),일치
0,CRI,범죄,2,2,True
1,DRM,재난대응,7,7,True
2,FIR,소방안전,2,2,True
3,MED,의료,3,3,True
4,RST,휴식,5,5,True
5,TRA,교통안전,3,3,True



[CRI 범죄] 2개
 - CRI-BIG5CRIME
 - CRI-CCTV

[DRM 재난대응] 7개
 - DRM-CIVDEF
 - DRM-EMERGWATER
 - DRM-FLOODSHELTER
 - DRM-NATDISASTER
 - DRM-PMSHELTER
 - DRM-QUAKEOUTSHELTER
 - DRM-QUAKESHELTER

[FIR 소방안전] 2개
 - FIR-FIRESTATION
 - FIR-RESCUE119

[MED 의료] 3개
 - MED-MEDINST
 - MED-PHARM
 - MED-PHCENTER

[RST 휴식] 5개
 - RST-CLIMATESHELTER
 - RST-COLDSHELTER
 - RST-HEATSHELTER
 - RST-LIBSHELTER
 - RST-SMARTSHELTER

[TRA 교통안전] 3개
 - TRA-SUBCONGEST
 - TRA-TRAACCIDENT
 - TRA-TRASAFETYIDX


### 2) 공통 유틸(구 단위 컬럼 식별 & 표준화)

In [23]:
def find_gu_col(df):
    candidates = ['시군구명','자치구','자치구명','구','구명']
    for c in candidates:
        if c in df.columns:
            return c
    raise KeyError("구(시군구) 식별 컬럼을 찾지 못했습니다. 유효 컬럼명을 확인하세요.")

def standardize_gu(df, gu_col=None):
    if gu_col is None:
        gu_col = find_gu_col(df)
    out = df.copy()
    out = out.rename(columns={gu_col: '구'})
    # 필요 시 정규화 규칙 추가 (띄어쓰기/괄호 제거 등)
    out['구'] = out['구'].astype(str).str.strip()
    return out

In [None]:
metric_funcs = {}  # '데이터코드' → 함수

def register_metric(dataset_code):
    def deco(func):
        metric_funcs[dataset_code] = func
        return func
    return deco

# === 새 데이터셋용 집계 함수 템플릿 ===
@register_metric('DATASET_CODE')  # 예: 'CRI-BIG5CRIME', 'FIR-HYDRANT'
def agg_dataset_code(df):
    """
    구 단위 지표 예시:
      - xxx_count: 시설/사건 개수(행 수 또는 고유 ID 기준)
      - xxx_sum:   총량(면적, 대수, 건수, 병상수 등 합계)
      - xxx_mean:  평균(참고용)
    """
    d = standardize_gu(df)  # '구' 컬럼 표준화
    
    # 🔧 아래 부분만 실제 컬럼명에 맞춰 수정하면 됩니다.
    # 1) 개수(행 또는 고유 ID 기준)
    id_col = '시설번호'  # 없으면 None로 두고 len 집계 사용
    if id_col in d.columns:
        cnt = ('xxx_count', (id_col, 'nunique'))
    else:
        cnt = ('xxx_count', (d.columns[0], 'size'))  # 행 개수
    
    # 2) 합계/평균 지표 예시 (있을 때만 추가)
    sum_cols = []  # 예: ['시설면적', '설치대수', '건수', '병상수']
    mean_cols = [] # 예: ['시설면적']
    
    agg_dict = dict([cnt])
    for c in sum_cols:
        if c in d.columns:
            agg_dict[f'{c}_sum'] = (c, 'sum')
    for c in mean_cols:
        if c in d.columns:
            agg_dict[f'{c}_mean'] = (c, 'mean')
    
    # 그룹 집계
    out = (
        d.groupby('구')
         .agg(**agg_dict)
         .reset_index()
    )
    return out


@register_metric('DRM-QUAKEOUTSHELTER')
def agg_drm_quakeoutshelter(df):
    """
    구 단위 지표:
      - quake_shelter_count: 대피소 개수
      - quake_shelter_area_sum: 총 시설면적 합
      - quake_shelter_area_mean: 대피소 평균 면적(참고용)
    """
    d = standardize_gu(df)
    out = (
        d.groupby('구').agg(
            quake_shelter_count=('시설번호', 'nunique'),
            quake_shelter_area_sum=('시설면적', 'sum'),
            quake_shelter_area_mean=('시설면적', 'mean')
        )
        .reset_index()
    )
    return out


In [None]:
from functools import reduce

aggregated_list = []

for code, func in metric_funcs.items():
    if code not in data_dict:
        print(f"⏭️ {code}: data_dict에 없음 → 스킵")
        continue
    try:
        res = func(data_dict[code])
        res['__source__'] = code  # 추적용
        aggregated_list.append(res)
        print(f"{code}: {res.shape}")
    except Exception as e:
        print(f"{code}: {e}")

# 구 기준으로 모두 병합
if aggregated_list:
    # 첫 결과부터 시작해 '구' 기준 외부조인으로 합치기
    merged = reduce(lambda l, r: pd.merge(l, r, on='구', how='outer'), aggregated_list)
    # 소스 컬럼 정리(원하면 유지)
    cols = [c for c in merged.columns if c != '__source__']
    metrics_by_gu = merged[cols].copy()
    # 결측치 0 채움(합계/개수 류), 평균 류는 남겨두고 싶다면 필요한 컬럼만 선택적으로 채우세요.
    for c in metrics_by_gu.columns:
        if c == '구': 
            continue
        if c.endswith(('_count','_sum')):
            metrics_by_gu[c] = metrics_by_gu[c].fillna(0)
    display(metrics_by_gu.head())
else:
    print("아직 실행된 지표 함수가 없습니다. metric_funcs에 등록을 추가하세요.")


✅ DRM-QUAKEOUTSHELTER: (25, 5)


Unnamed: 0,구,quake_shelter_count,quake_shelter_area_sum,quake_shelter_area_mean
0,강남구,120,506340.0,4219.5
1,강동구,53,293460.0,5536.981132
2,강북구,51,820490.6,16088.05098
3,강서구,116,507293.0,4373.215517
4,관악구,102,397374.0,3895.823529


In [22]:
def minmax(df, col):
    mn, mx = df[col].min(), df[col].max()
    if pd.isna(mn) or pd.isna(mx) or mn == mx:
        return pd.Series([0]*len(df), index=df.index)  # 변동이 없으면 0 처리
    return (df[col] - mn) / (mx - mn)

def compute_drm_subindex(metrics_by_gu):
    drm_cols = []
    # DRM에 속하는 지표 컬럼들을 여기에 모읍니다. (추가되는 대로 확장)
    # 예시: quake_shelter_count, quake_shelter_area_sum 등
    for c in metrics_by_gu.columns:
        if c.startswith('quake_'):  # 현재는 지진 대피 관련만
            drm_cols.append(c)

    if not drm_cols:
        raise ValueError("DRM 관련 지표 컬럼이 없습니다. DRM-* 집계 함수를 더 등록하세요.")

    drm_df = metrics_by_gu[['구'] + drm_cols].copy()
    # 컬럼별 min-max 정규화
    for c in drm_cols:
        drm_df[c + '_norm'] = minmax(drm_df, c)

    # 가중치(동일가중 예시)
    w = {c + '_norm': 1/len(drm_cols) for c in drm_cols}

    drm_df['DRM_subindex'] = sum(drm_df[k] * w[k] for k in w)
    return drm_df[['구', 'DRM_subindex']]

# 사용 예시(지표들 더 쌓인 뒤 실행 권장)
# drm_sub = compute_drm_subindex(metrics_by_gu)
# display(drm_sub.sort_values('DRM_subindex', ascending=False).head())


### RST-COLDSHELTER