# Access

## Import

- 접근 데이터 : 생활권공원(시군구)_0.75km

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('access.csv')

In [3]:
df

Unnamed: 0,sgg_cd,sgg_nm_k,sgg_nm_e,sido_cd,sido_nm_k,sido_nm_e,cd_fac,cd_range,value,stats_year,raw_d_year,pop_year
0,11110,종로구,Jongno-gu,11,서울특별시,Seoul,1,0.75,92898,2022,202210,202210
1,11140,중구,Jung-gu,11,서울특별시,Seoul,1,0.75,108295,2022,202210,202210
2,11170,용산구,Yongsan-gu,11,서울특별시,Seoul,1,0.75,133566,2022,202210,202210
3,11200,성동구,Seongdong-gu,11,서울특별시,Seoul,1,0.75,192946,2022,202210,202210
4,11215,광진구,Gwangjin-gu,11,서울특별시,Seoul,1,0.75,256088,2022,202210,202210
...,...,...,...,...,...,...,...,...,...,...,...,...
245,48880,거창군,Geochang-gun,48,경상남도,Gyeongsangnam-do,1,0.75,26909,2022,202210,202210
246,48890,합천군,Hapcheon-gun,48,경상남도,Gyeongsangnam-do,1,0.75,0,2022,202210,202210
247,50110,제주시,Jeju-si,50,제주특별자치도,Jeju-do,1,0.75,272400,2022,202210,202210
248,50130,서귀포시,Seogwipo-si,50,제주특별자치도,Jeju-do,1,0.75,50245,2022,202210,202210


## Data Preprocessing

- 광역시같은 경우 "구"로 구분이 되어있어 이를 합치는 과정이 필요

In [4]:
# 필요없는 열 제거
df = df[['sgg_nm_k','sido_nm_k','value']]

In [5]:
df

Unnamed: 0,sgg_nm_k,sido_nm_k,value
0,종로구,서울특별시,92898
1,중구,서울특별시,108295
2,용산구,서울특별시,133566
3,성동구,서울특별시,192946
4,광진구,서울특별시,256088
...,...,...,...
245,거창군,경상남도,26909
246,합천군,경상남도,0
247,제주시,제주특별자치도,272400
248,서귀포시,제주특별자치도,50245


In [6]:
# 광역시는 sgg_nm_k에서 "구"로 구분되어 있어 광역시는 구의 값을 합치는 과정 필요
metropolitan_city = ['대구광역시','광주광역시','대전광역시','부산광역시','서울특별시','세종특별자치시','울산광역시','인천광역시']

In [7]:
# 광역시에 해당하는 데이터만 추출
metro_df = df[df['sido_nm_k'].isin(metropolitan_city)]

In [8]:
# 광역시별로 'value' 값을 합산
metro_aggregated = metro_df.groupby('sido_nm_k')['value'].sum().reset_index()

In [9]:
metro_aggregated

Unnamed: 0,sido_nm_k,value
0,광주광역시,1019609
1,대구광역시,1573167
2,대전광역시,1092084
3,부산광역시,1738929
4,서울특별시,7218902
5,세종특별자치시,194112
6,울산광역시,816851
7,인천광역시,2104299


In [10]:
# 광역시 제외 도시는 sgg_nm_k에서 "시"이름으로 값 존재
cities = [
    '강릉시', '동해시', '삼척시', '속초시', '원주시', '춘천시', '태백시', '고양시', '과천시', '광명시', '광주시', 
    '구리시', '군포시', '김포시', '남양주시', '동두천시', '부천시', '성남시', '수원시', '시흥시', '안산시', 
    '안성시', '안양시', '양주시', '여주시', '오산시', '용인시', '의왕시', '의정부시', '이천시', '파주시', 
    '평택시', '포천시', '하남시', '화성시', '거제시', '김해시', '밀양시', '사천시', '양산시', '진주시', 
    '창원시', '통영시', '경산시', '경주시', '구미시', '김천시', '문경시', '상주시', '안동시', '영주시', 
    '영천시', '포항시', '광양시', '나주시', '목포시', '순천시', '여수시', '군산시', '김제시', '남원시', 
    '익산시', '전주시', '정읍시', '서귀포시', '제주시', '계룡시', '공주시', '논산시', '당진시', '보령시', 
    '서산시', '아산시', '천안시', '제천시', '청주시', '충주시'
]

In [11]:
# 데이터셋에서 도시명이 도시 리스트에 포함되어 있는 경우 추출
city_df = df[df['sgg_nm_k'].apply(lambda x: any(city in x for city in cities))]

In [12]:
city_aggregated = city_df.groupby('sgg_nm_k')['value'].sum()

In [13]:
# 인덱스를 컬럼으로 변환
city_aggregated = city_aggregated.reset_index()

In [14]:
city_aggregated

Unnamed: 0,sgg_nm_k,value
0,강릉시,85973
1,거제시,122349
2,경산시,197160
3,경주시,111813
4,계룡시,28750
...,...,...
93,포천시,39614
94,포항시 남구,130787
95,포항시 북구,168321
96,하남시,232583


In [15]:
# 도시 이름이 같아도 구로 나눠지는 경우가 존재하여 값 합산 진행
city_aggregated = city_aggregated.groupby(city_aggregated['sgg_nm_k'].str.split().str[0])['value'].sum().\
reset_index()

In [16]:
city_aggregated

Unnamed: 0,sgg_nm_k,value
0,강릉시,85973
1,거제시,122349
2,경산시,197160
3,경주시,111813
4,계룡시,28750
...,...,...
72,평택시,387402
73,포천시,39614
74,포항시,299108
75,하남시,232583


In [17]:
# 데이터프레임을 통합하기 위해 열 이름을 통일
metro_aggregated.rename(columns={'sido_nm_k': 'sgg_nm_k'}, inplace=True)

In [18]:
# 두 데이터프레임 병합
combined_df = pd.concat([metro_aggregated, city_aggregated], ignore_index=True)

In [19]:
combined_df

Unnamed: 0,sgg_nm_k,value
0,광주광역시,1019609
1,대구광역시,1573167
2,대전광역시,1092084
3,부산광역시,1738929
4,서울특별시,7218902
...,...,...
80,평택시,387402
81,포천시,39614
82,포항시,299108
83,하남시,232583


In [20]:
# parkscore 데이터셋 순서에 맞게 정렬
order = [
    '대구광역시', '광주광역시', '대전광역시', '부산광역시', '서울특별시', '세종특별자치시', '울산광역시', '인천광역시',
    '강릉시', '동해시', '삼척시', '속초시', '원주시', '춘천시', '태백시', '고양시', '과천시', '광명시', '광주시', 
    '구리시', '군포시', '김포시', '남양주시', '동두천시', '부천시', '성남시', '수원시', '시흥시', '안산시', 
    '안성시', '안양시', '양주시', '여주시', '오산시', '용인시', '의왕시', '의정부시', '이천시', '파주시', 
    '평택시', '포천시', '하남시', '화성시', '거제시', '김해시', '밀양시', '사천시', '양산시', '진주시', 
    '창원시', '통영시', '경산시', '경주시', '구미시', '김천시', '문경시', '상주시', '안동시', '영주시', 
    '영천시', '포항시', '광양시', '나주시', '목포시', '순천시', '여수시', '군산시', '김제시', '남원시', 
    '익산시', '전주시', '정읍시', '서귀포시', '제주시', '계룡시', '공주시', '논산시', '당진시', '보령시', 
    '서산시', '아산시', '천안시', '제천시', '청주시', '충주시'
]

In [21]:
# 최종 데이터셋 재정렬
combined_df = combined_df.set_index('sgg_nm_k').loc[order].reset_index()

In [22]:
combined_df

Unnamed: 0,sgg_nm_k,value
0,대구광역시,1573167
1,광주광역시,1019609
2,대전광역시,1092084
3,부산광역시,1738929
4,서울특별시,7218902
...,...,...
80,아산시,150504
81,천안시,432616
82,제천시,82953
83,청주시,618970


In [23]:
# combined_df.to_csv('access_result.csv')