In [37]:
import pandas as pd

df = pd.read_csv('../data/VL_CSV/tc_sgg_시군구코드.csv')

In [38]:
df.head(3).T

Unnamed: 0,0,1,2
SGG_CD,1100000000,1111000000,1111010100
SGG_CD1,11,11,11
SGG_CD2,,110.0,110.0
SGG_CD3,,,101.0
SGG_CD4,,,0.0
SIDO_NM,서울특별시,서울특별시,서울특별시
SGG_NM,,종로구,종로구
DONG_NM,,,청운동
RI_NM,,,


## 시도별 고유 시군구 이름 추출

In [39]:
sido_df = df.groupby('SIDO_NM')['SGG_NM'].unique().reset_index()

sido_df

Unnamed: 0,SIDO_NM,SGG_NM
0,강원도,"[nan, 춘천시, 원주시, 강릉시, 동해시, 태백시, 속초시, 삼척시, 홍천군, ..."
1,경기도,"[nan, 수원시 장안구, 수원시 권선구, 수원시 팔달구, 수원시 영통구, 성남시 ..."
2,경상남도,"[nan, 창원시 의창구, 창원시 성산구, 창원시 마산합포구, 창원시 마산회원구, ..."
3,경상북도,"[nan, 포항시 남구, 포항시 북구, 경주시, 김천시, 안동시, 구미시, 영주시,..."
4,광주광역시,"[nan, 동구, 서구, 남구, 북구, 광산구]"
5,대구광역시,"[nan, 중구, 동구, 서구, 남구, 북구, 수성구, 달서구, 달성군]"
6,대전광역시,"[nan, 동구, 중구, 서구, 유성구, 대덕구]"
7,부산광역시,"[nan, 중구, 서구, 동구, 영도구, 부산진구, 동래구, 남구, 북구, 해운대구..."
8,서울특별시,"[nan, 종로구, 중구, 용산구, 성동구, 광진구, 동대문구, 중랑구, 성북구, ..."
9,세종특별자치시,"[nan, 세종특별자치시]"


In [40]:
import numpy as np
for i, row in sido_df.iterrows():
    sido = row['SIDO_NM']
    sgg_list = [s for s in row['SGG_NM'].tolist() if not pd.isna(s)]
    sido_df.at[i, 'SGG_NM'] = sgg_list

In [41]:
sido_df

Unnamed: 0,SIDO_NM,SGG_NM
0,강원도,"[춘천시, 원주시, 강릉시, 동해시, 태백시, 속초시, 삼척시, 홍천군, 횡성군, ..."
1,경기도,"[수원시 장안구, 수원시 권선구, 수원시 팔달구, 수원시 영통구, 성남시 수정구, ..."
2,경상남도,"[창원시 의창구, 창원시 성산구, 창원시 마산합포구, 창원시 마산회원구, 창원시 진..."
3,경상북도,"[포항시 남구, 포항시 북구, 경주시, 김천시, 안동시, 구미시, 영주시, 영천시,..."
4,광주광역시,"[동구, 서구, 남구, 북구, 광산구]"
5,대구광역시,"[중구, 동구, 서구, 남구, 북구, 수성구, 달서구, 달성군]"
6,대전광역시,"[동구, 중구, 서구, 유성구, 대덕구]"
7,부산광역시,"[중구, 서구, 동구, 영도구, 부산진구, 동래구, 남구, 북구, 해운대구, 사하구..."
8,서울특별시,"[종로구, 중구, 용산구, 성동구, 광진구, 동대문구, 중랑구, 성북구, 강북구, ..."
9,세종특별자치시,[세종특별자치시]


In [42]:
sido_df.to_csv('../data/VL_CSV/sido_sgg.csv', index=False, encoding='utf-8-sig')

## 지역명 > 코드 변환 알고리즘

In [43]:
# NaN 제거 (이름 기준)
df_clean = df.copy()
df_clean = df_clean.dropna(subset=['SIDO_NM'])

# 시도 > 시군구 > 동 단계를 위한 함수
def get_sgg_list_by_sido(sido_name):
    return df_clean[df_clean['SIDO_NM'] == sido_name]['SGG_NM'].dropna().unique().tolist()

def get_dong_list_by_sgg(sgg_name):
    return df_clean[df_clean['SGG_NM'] == sgg_name]['DONG_NM'].dropna().unique().tolist()

# 이름 > 코드 매핑
def get_code_by_name(col_nm: str, val: str):
    row = df_clean[df_clean[col_nm] == val]
    if row.empty:
        return None
    return row[['SGG_CD', 'SGG_CD1', 'SGG_CD2', 'SGG_CD3', 'SGG_CD4']].values[0].tolist()


In [44]:
# 시도 > 시군구
print(get_sgg_list_by_sido("충청남도"))

# 시군구 > 동
print(get_dong_list_by_sgg("천안시 서북구"))

# 이름 > 코드
print(get_code_by_name("SGG_NM", "천안시 서북구"))
print(get_code_by_name("DONG_NM", "청운동"))


['천안시 동남구', '천안시 서북구', '공주시', '보령시', '아산시', '서산시', '논산시', '계룡시', '당진시', '금산군', '부여군', '서천군', '청양군', '홍성군', '예산군', '태안군']
['와촌동', '성정동', '백석동', '두정동', '성성동', '차암동', '쌍용동', '불당동', '업성동', '신당동', '부대동', '성환읍', '성거읍', '직산읍', '입장면']
[4413300000.0, 44.0, 133.0, nan, nan]
[1111010100.0, 11.0, 110.0, 101.0, 0.0]
