# 3.3 도로명주소 데이터 EDA

## 라이브러리 설정

In [None]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import plotly.express as px
import glob

## 데이터 불러오기

데이터는 주소기반산업지원서비스에서 제공하는 공개하는 주소 중 도로명주소 한글의 2024년 1월 전체자료입니다.

깃헙에는 2024년 1월 기준 데이터가 저장되어 있고, 다른 시기의 데이터를 사용하고 싶다면 사이트에서 직접 다운 받을 수 있습니다.

- [깃헙]()
- [공개하는 주소>도로명주소 한글](https://business.juso.go.kr/addrlink/attrbDBDwld/attrbDBDwldList.do?cPath=99MD&menu=%EB%8F%84%EB%A1%9C%EB%AA%85%EC%A3%BC%EC%86%8C%20%ED%95%9C%EA%B8%80)

(다운받은 데이터 용량이 다소 크므로, 직접 업로드 하기 보단 개인 구글 드라이브에 저장한 뒤 연결하여 가져오는 것을 권장합니다.)

In [None]:
def merged_df(columns, name):
    files = glob.glob("202401_도로명주소 한글_전체분/*.txt")

    total_df = pd.DataFrame()

    for file_name in tqdm(files):
        df = pd.read_csv(file_name, sep = "\|", engine='python', encoding = "cp949", names=columns, dtype = str, keep_default_na=False)
        total_df = pd.concat((total_df, df))

    ## 전체 데이터 저장
    total_df.to_csv(f"total-{name}.csv", index=False, encoding="utf-8")

    return total_df

In [None]:
# 활용가이드에서 확인한 컬럼명 붙여주기

columns = ["도로명주소관리번호","법정동코드","시도명","시군구명","법정법정읍면동명","법정리명","산여부","지번본번(번지)","지번부번(호)", \
           "도로명코드","도로명","지하여부","건물본번","건물부번","행정동코드","행정동명","기초구역번호(우편번호)", \
           "이전도로명주소","효력발생일","공동주택구분","이동사유코드","건축물대장건물명","시군구용건물명","비고"]

df = merged_df(columns, "road-name-address_2401")

100%|██████████| 17/17 [02:13<00:00,  7.86s/it]


In [None]:
# 재실행 시, 이 코드 부터 실행
df = pd.read_csv('total-road-name-address_2401.csv', encoding='utf-8')
df


Columns (5) have mixed types. Specify dtype option on import or set low_memory=False.



Unnamed: 0,도로명주소관리번호,법정동코드,시도명,시군구명,법정읍면동명,법정리명,산여부,지번본번(번지),지번부번(호),도로명코드,...,행정동코드,행정동명,기초구역번호(우편번호),이전도로명주소,효력발생일,공동주택구분,이동사유코드,건축물대장건물명,시군구용건물명,비고
0,27110101300701700008800000,2711010100,대구광역시,중구,동인동1가,,0,2,1,271103007017,...,2.711052e+09,동인동,41911,,20110729,0,,,대구광역시 동인청사,
1,27110101300701700009600000,2711010100,대구광역시,중구,동인동1가,,0,30,1,271103007017,...,2.711052e+09,동인동,41911,,20110729,0,,,,
2,27110101300701700010000000,2711010100,대구광역시,중구,동인동1가,,0,49,3,271103007017,...,2.711052e+09,동인동,41911,,20110729,0,,,,
3,27110101314100500018000000,2711010100,대구광역시,중구,동인동1가,,0,289,2,271103141005,...,2.711052e+09,동인동,41908,,20111028,0,,,동인치안센터,
4,27110101314100500018200000,2711010100,대구광역시,중구,동인동1가,,0,292,1,271103141005,...,2.711052e+09,동인동,41908,,20110729,0,,,대구광역시시청어린이집,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6384983,46910420470604800015900000,4691042029,전라남도,신안군,암태면,당사리,0,107,2,469104706048,...,4.691042e+09,암태면,58832,,20110729,0,,,,
6384984,46910420470604800016800000,4691042029,전라남도,신안군,암태면,당사리,0,107,1,469104706048,...,4.691042e+09,암태면,58832,,20110729,0,,,,
6384985,46910420470604800021400000,4691042029,전라남도,신안군,암태면,당사리,0,116,2,469104706048,...,4.691042e+09,암태면,58832,,20110729,0,,,,
6384986,46910420470604800021600000,4691042029,전라남도,신안군,암태면,당사리,0,116,0,469104706048,...,4.691042e+09,암태면,58832,,20110729,0,,,,


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6384988 entries, 0 to 6384987
Data columns (total 24 columns):
 #   Column        Dtype  
---  ------        -----  
 0   도로명주소관리번호     object 
 1   법정동코드         int64  
 2   시도명           object 
 3   시군구명          object 
 4   법정읍면동명        object 
 5   법정리명          object 
 6   산여부           int64  
 7   지번본번(번지)      int64  
 8   지번부번(호)       int64  
 9   도로명코드         int64  
 10  도로명           object 
 11  지하여부          int64  
 12  건물본번          int64  
 13  건물부번          int64  
 14  행정동코드         float64
 15  행정동명          object 
 16  기초구역번호(우편번호)  int64  
 17  이전도로명주소       float64
 18  효력발생일         int64  
 19  공동주택구분        int64  
 20  이동사유코드        float64
 21  건축물대장건물명      object 
 22  시군구용건물명       object 
 23  비고            float64
dtypes: float64(4), int64(11), object(9)
memory usage: 1.1+ GB


In [None]:
print('총 열 수: ', len(df.columns))
print('총 행 수: ', len(df))
print('중복 제거 후 총 행 수', len(df.drop_duplicates()))

총 열 수:  24
총 행 수:  6384988
중복 제거 후 총 행 수 6384988


In [None]:
# null이 있는 컬럼 확인
df.isnull().sum()

도로명주소관리번호             0
법정동코드                 0
시도명                   0
시군구명              27510
법정읍면동명                0
법정리명            2932575
산여부                   0
지번본번(번지)              0
지번부번(호)               0
도로명코드                 0
도로명                   0
지하여부                  0
건물본번                  0
건물부번                  0
행정동코드              7360
행정동명               7360
기초구역번호(우편번호)          0
이전도로명주소         6384988
효력발생일                 0
공동주택구분                0
이동사유코드          6384988
건축물대장건물명        6202948
시군구용건물명         5665875
비고              6384988
dtype: int64

In [None]:
# 각 컬럼별 유니크 개수 확인
for i in df.columns:
    print(i, len(df[i].unique()))

도로명주소관리번호 6384988
법정동코드 18709
시도명 17
시군구명 230
법정읍면동명 3967
법정리명 7005
산여부 2
지번본번(번지) 7102
지번부번(호) 2902
도로명코드 166283
도로명 137322
지하여부 2
건물본번 8227
건물부번 653
행정동코드 3616
행정동명 3279
기초구역번호(우편번호) 34376
이전도로명주소 1
효력발생일 3767
공동주택구분 2
이동사유코드 1
건축물대장건물명 87827
시군구용건물명 414120
비고 1


## 분석1. 행정구역 기준 도로명주소 개수

In [None]:
# 시각화 공통 함수

def graph_viz(df, title):
    fig = px.bar(df,
            x = df.index,
            y = df.columns,
            color = df.index,
            title=f"{title}",
            color_discrete_sequence=px.colors.qualitative.Set2,
            height=400
    )

    fig.update_layout(yaxis={'visible': True, 'showticklabels': False},
                      plot_bgcolor="#F9FAFB",  showlegend=False, paper_bgcolor='#F9FAFB', margin=dict(l=0, r=0, t=40),
                      title={'text': "%s" % title,'y':0.95,'x':0,'xanchor': 'left','yanchor': 'top'},)
    fig.update_xaxes(title=None)
    fig.update_yaxes(title=None, gridcolor='lightgray', mirror=True)
    fig.write_html("%s.html" % title)
    fig.show()

### 시도별

In [None]:
sido = pd.DataFrame(df.groupby('시도명')["도로명주소관리번호"].count())
sido = sido.sort_values('도로명주소관리번호', ascending=False)
sido

Unnamed: 0_level_0,도로명주소관리번호
시도명,Unnamed: 1_level_1
경기도,1020563
경상북도,713862
경상남도,653480
전라남도,598298
서울특별시,530721
충청남도,491608
전북특별자치도,437063
강원특별자치도,364686
충청북도,335225
부산광역시,301822


In [None]:
# 시각화
graph_viz(sido, "시도별 도로명주소 개수")

### 시군구별

In [None]:
sigungu = pd.DataFrame(df.groupby(['시도명','시군구명'])["도로명주소관리번호"].count()).reset_index()

sigungu["전체 시군구명"] = sigungu["시도명"] + " " + sigungu["시군구명"]
sigungu.index = sigungu["전체 시군구명"]
sigungu = sigungu.drop(['시도명',"시군구명", "전체 시군구명"], axis=1)
print(len(sigungu))

# 상위 10개 시군구만 추출
sigungu_top10 = sigungu.sort_values("도로명주소관리번호", ascending=False).iloc[:10,:]

sigungu_top10

251


Unnamed: 0_level_0,도로명주소관리번호
전체 시군구명,Unnamed: 1_level_1
제주특별자치도 제주시,92252
경기도 화성시,79685
경상북도 경주시,77004
제주특별자치도 서귀포시,63174
경상남도 진주시,62627
경기도 평택시,60172
경상남도 김해시,54526
전라남도 여수시,54228
경기도 파주시,54165
전북특별자치도 익산시,53499


In [None]:
graph_viz(sigungu_top10, "시군구별 도로명주소 개수")

### 시도별 시군구

In [None]:
# 시도별 시군구 도로명주소 개수 시각화
sido_list = list(df['시도명'].unique())

def sido_sigungu_df(total_df, sido_name):
    df = total_df[total_df["시도명"] == f"{sido_name}"]
    df = pd.DataFrame(df.groupby("시군구명")["도로명주소관리번호"].count()).sort_values("도로명주소관리번호", ascending=False)
    return df

In [None]:
# 세종시는 시군구가 없으므로 제외함
sido_list.remove('세종특별자치시')

for sido in sido_list:
    each = sido_sigungu_df(df, sido)
    print(len(each))
    graph_viz(each, f"{sido}의 도로명주소 개수")

9


16


5


16


14


25


15


23


2


22


18


44


5


5


10


22


### 읍면동별

In [None]:
emd = pd.DataFrame(df.groupby(['시도명','시군구명','법정읍면동명'])["도로명주소관리번호"].count()).reset_index()
emd["전체 법정읍면동명"] = emd["시도명"] + " " + emd["시군구명"] + " " + emd["법정읍면동명"]

emd.index = emd["전체 법정읍면동명"]
emd = emd.drop(['시도명',"시군구명", "법정읍면동명", "전체 법정읍면동명"], axis=1)
print(len(emd))

# 상위 10개 읍면동만 추출
emd_top10 = emd.sort_values("도로명주소관리번호", ascending=False).iloc[:10,:]

emd_top10

5017


Unnamed: 0_level_0,도로명주소관리번호
전체 법정읍면동명,Unnamed: 1_level_1
서울특별시 관악구 신림동,18583
대구광역시 남구 대명동,16054
제주특별자치도 제주시 애월읍,13349
서울특별시 관악구 봉천동,12769
서울특별시 강서구 화곡동,12453
인천광역시 미추홀구 주안동,12041
부산광역시 연제구 연산동,11858
제주특별자치도 서귀포시 남원읍,11626
대구광역시 서구 비산동,11506
서울특별시 강북구 미아동,11396


In [None]:
graph_viz(emd_top10, "읍면동별 도로명주소 개수")

## 분석2. 도로명 기준 도로명주소 개수

In [None]:
# 같은 도로명이지만 도로명코드는 상이한 경우 확인하기
pd.DataFrame(df[['시도명', '시군구명', '도로명','도로명코드']].drop_duplicates(keep='first').groupby('도로명')['도로명코드'].count()).sort_values(by='도로명코드', ascending=False)

Unnamed: 0_level_0,도로명코드
도로명,Unnamed: 1_level_1
중앙로,93
신촌길,50
신기길,49
향교길,45
신흥길,42
...,...
백령로75번길,1
백령로67번길,1
백령로659번길,1
백령로61번길,1


In [None]:
df.loc[df['도로명']=='중앙로'].drop_duplicates(subset=['시도명', '시군구명'])[['시도명', '시군구명', '도로명','도로명코드']]

Unnamed: 0,시도명,시군구명,도로명,도로명코드
230299,충청남도,천안시 동남구,중앙로,441313249040
332915,충청남도,보령시,중앙로,441803252052
365928,충청남도,아산시,중앙로,442003253096
414925,충청남도,서산시,중앙로,442103254220
446997,충청남도,논산시,중앙로,442303255047
...,...,...,...,...
6095792,전라남도,화순군,중앙로,467903291050
6123502,전라남도,장흥군,중앙로,468003292043
6143965,전라남도,강진군,중앙로,468103293060
6198955,전라남도,영암군,중앙로,468303295123


In [None]:
# 하나의 도로(도로명코드) 당 부여된 주소(도로명주소관리번호)의 개수
most_count_roadName = pd.DataFrame(df.groupby(['시도명', '시군구명', '도로명','도로명코드'])['도로명주소관리번호'].count()).reset_index().sort_values(by='도로명주소관리번호', ascending=False)
most_count_roadName

Unnamed: 0,시도명,시군구명,도로명,도로명코드,도로명주소관리번호
4038,강원특별자치도,원주시,치악로,511303219054,1847
32404,경기도,포천시,호국로,416503000136,1741
138324,제주특별자치도,서귀포시,중산간동로,501303349238,1599
138240,제주특별자치도,서귀포시,일주동로,501303349235,1553
61239,경상북도,영덕군,영덕대게로,477703318005,1490
...,...,...,...,...,...
47335,경상남도,창원시 의창구,도계로107번길,481214781111,1
94079,서울특별시,동작구,매봉로6길,115904157213,1
94086,서울특별시,동작구,보라매로3길,115904160384,1
147051,충청남도,부여군,통뫼길,447604858712,1


In [None]:
# 시각화
most_count_roadName['행정구역+도로명'] = most_count_roadName['시도명'] + ' ' + most_count_roadName['시군구명'] + ' ' + most_count_roadName['도로명']
most_count_roadName.index = most_count_roadName['행정구역+도로명']
most_count_roadName.drop(columns=['시도명', '시군구명', '도로명', '도로명코드', '행정구역+도로명'], inplace=True)

In [None]:
graph_viz(most_count_roadName.head(10), "도로 당 주소 개수")