In [1]:
import pandas as pd
import numpy as np

# 경기도 42개 지역(구, 시) 선정

In [4]:
# 행정구역상 경기도에 소속되어 있는 지역들 중
# 구(區)가 존재하지 않는 시(市)의 경우에는 시를
# 구가 존재하는 시는 구를 고려하면, 총 42개의 지역을 선정할 수 있다.
# 출처 : https://www.gg.go.kr/contents/contents.do?ciIdx=468&menuId=1831
regions = pd.read_csv("../data/data_raw/2216_1230_rows.csv")
regions = regions['지역']
regions = sorted(list(regions))
regions

['가평군',
 '고양시 덕양구',
 '고양시 일산동구',
 '고양시 일산서구',
 '과천시',
 '광명시',
 '광주시',
 '구리시',
 '군포시',
 '김포시',
 '남양주시',
 '동두천시',
 '부천시',
 '성남시 분당구',
 '성남시 수정구',
 '성남시 중원구',
 '수원시 권선구',
 '수원시 영통구',
 '수원시 장안구',
 '수원시 팔달구',
 '시흥시',
 '안산시 단원구',
 '안산시 상록구',
 '안성시',
 '안양시 동안구',
 '안양시 만안구',
 '양주시',
 '양평군',
 '여주시',
 '연천군',
 '오산시',
 '용인시 기흥구',
 '용인시 수지구',
 '용인시 처인구',
 '의왕시',
 '의정부시',
 '이천시',
 '파주시',
 '평택시',
 '포천시',
 '하남시',
 '화성시']

In [5]:
# 시 목록
city_list = ['부천시', '화성시', '평택시', '시흥시', '김포시', '광주시', '광명시', '군포시', '하남시', '오산시', '이천시', '안성시',
             '의왕시', '양평군', '여주시', '과천시', '남양주시', '파주시', '의정부시', '양주시', '구리시', '포천시', '동두천시',
             '가평군', '연천군']
# 구 목록
district_list = [
    '장안구', '권선구', '팔달구', '영통구', # 수원
    '처인구', '기흥구', '수지구', #용인
    '수정구', '중원구', '분당구', #성남
    '단원구', '상록구', #안산
    '동안구', '만안구', # 안양
    '덕양구', '일산동구', '일산서구'] #고양

In [6]:
# sanity check
print(len(city_list),'+',len(district_list),'=', len(regions))

25 + 17 = 42


# 각 feature별 데이터 수집
- raw data -> intermediate data

## 쏘카존 갯수 : `socar_zone_count`

In [8]:
# 쏘카존 갯수 데이터(김선중)
# 출처 : https://d3s0tskafalll9.cloudfront.net/media/documents/20210823_socar_zone.csv (going deeper 4-6)
zones = pd.read_csv("../data/data_raw/2201_1228_20210823_socar_zone.csv")
zones

Unnamed: 0,zone_name,lng,lat,region1,region2,region3
0,비전2 파출소사거리,127.102939,36.995989,경기도,평택시,비전동
1,수원시청역 9번출구,127.032953,37.262378,경기도,수원시　팔달구,인계동
2,목포 상동현대아파트 앞,126.415655,34.811289,전라남도,목포시,상동
3,단국대 산학협력관 앞,127.166626,36.832965,충청남도,천안시　동남구,신부동
4,목원대학교 앞,127.337858,36.329906,대전광역시,서구,도안동
...,...,...,...,...,...,...
4323,서울숲역 5번출구(D타워),127.044386,37.544701,서울특별시,성동구,성수동1가
4324,홍대입구역 교차로,126.920696,37.555192,서울특별시,마포구,서교동
4325,서대전역 앞(KTX),127.404434,36.322323,대전광역시,중구,오류동
4326,롯데백화점 울산점 옆,129.340630,35.537504,울산광역시,남구,삼산동


In [9]:
zones = zones[zones['region1']=="경기도"] # 경기도 자료만 자르기
zones = zones.reset_index(drop=True)
zones

Unnamed: 0,zone_name,lng,lat,region1,region2,region3
0,비전2 파출소사거리,127.102939,36.995989,경기도,평택시,비전동
1,수원시청역 9번출구,127.032953,37.262378,경기도,수원시　팔달구,인계동
2,수원대 쪽문(평생교육원 뒤),126.980617,37.213111,경기도,화성시,봉담읍
3,수원시청역 1번출구,127.034731,37.258294,경기도,수원시　팔달구,인계동
4,판곡초등학교 앞,127.240318,37.657671,경기도,남양주시,호평동
...,...,...,...,...,...,...
1072,강남대역 2번출구,127.127386,37.270177,경기도,용인시　기흥구,구갈동
1073,성사 제1공영주차장,126.838784,37.653599,경기도,고양시　덕양구,성사동
1074,석우동 프리언스오피스텔,127.078665,37.218852,경기도,화성시,석우동
1075,용인중앙시장 앞,127.204094,37.236298,경기도,용인시　처인구,김량장동


In [10]:
print(zones['region2'].unique())
print(zones['region2'].nunique()) # region2의 갯수는 42개

['평택시' '수원시\u3000팔달구' '화성시' '남양주시' '하남시' '수원시\u3000영통구' '용인시\u3000기흥구'
 '부천시' '이천시' '광명시' '고양시\u3000일산동구' '양주시' '여주시' '안양시\u3000동안구' '파주시' '구리시'
 '시흥시' '고양시\u3000일산서구' '성남시\u3000수정구' '의정부시' '오산시' '수원시\u3000장안구'
 '성남시\u3000중원구' '안산시\u3000단원구' '광주시' '용인시\u3000수지구' '고양시\u3000덕양구'
 '용인시\u3000처인구' '안양시\u3000만안구' '김포시' '포천시' '군포시' '성남시\u3000분당구'
 '수원시\u3000권선구' '양평군' '안산시\u3000상록구' '동두천시' '가평군' '안성시' '의왕시' '연천군' '과천시']
42


In [11]:
zones['region2'].replace({ # \u3000을 space로 변환 (더 좋은 코딩방법이 있을 것 같다.)
    '수원시\u3000팔달구':'수원시 팔달구', '수원시\u3000영통구':'수원시 영통구', '용인시\u3000기흥구':'용인시 기흥구',
    '고양시\u3000일산동구':'고양시 일산동구', '안양시\u3000동안구':'안양시 동안구', '고양시\u3000일산서구':'고양시 일산서구',
    '성남시\u3000수정구':'성남시 수정구', '수원시\u3000장안구':'수원시 장안구', '성남시\u3000중원구':'성남시 중원구',
    '안산시\u3000단원구':'안산시 단원구', '용인시\u3000수지구':'용인시 수지구', '고양시\u3000덕양구':'고양시 덕양구',
    '용인시\u3000처인구':'용인시 처인구', '안양시\u3000만안구':'안양시 만안구', '성남시\u3000분당구':'성남시 분당구',
    '수원시\u3000권선구':'수원시 권선구', '안산시\u3000상록구':'안산시 상록구',}, inplace=True)

In [12]:
sorted(zones['region2'].unique()) == regions # 앞서 선정한 42개 지역 목록과 일치한다.

True

In [13]:
# 각 지역별 쏘카존 수 데이터 생성
socar_zone_count = pd.DataFrame(zones['region2'].value_counts())
socar_zone_count.columns = ['쏘카존수']
socar_zone_count = socar_zone_count.reindex(regions)
socar_zone_count

Unnamed: 0,쏘카존수
가평군,7
고양시 덕양구,48
고양시 일산동구,51
고양시 일산서구,29
과천시,3
광명시,28
광주시,16
구리시,19
군포시,10
김포시,55


In [14]:
socar_zone_count.to_csv("../data/data_intermediate/2202_1229_socar_zone_count.csv", encoding="utf-8-sig") # encoding을 따로 특정해주어야 할 필요가 있나?

## 토지용도 : `land_use_`

In [16]:
# 동, 면별 토지용도 데이터 1(윤겸님)
# 데이터를 얻은 곳 : http://gris.gg.go.kr/ost/oneStopView.do?pnu=4150010300104450002
# 위의 웹사이트에서, 경기도 모든 지역의 동, 면에 대하여 녹지/주거/공업/상업 중 어떤 카테고리에 해당하는지를 수작업으로 조사했다.
# 윤겸님이 보내주신 자료에 몇 지역이 누락되어 있어서 채워넣었다.
land_use1 = pd.read_csv("../data/data_raw/2205_1228_토지이용계획_차윤겸_최종.csv",encoding='CP949')
land_use1

Unnamed: 0,"시, 구","동, 면",토지용도
0,수원시 장안구,상광교동,녹지
1,수원시 장안구,송죽동,주거
2,수원시 장안구,연무동,주거
3,수원시 장안구,영화동,주거
4,수원시 장안구,율전동,주거
...,...,...,...
417,오산시,은계동,주거
418,오산시,지곶동,녹지
419,오산시,청학동,주거
420,오산시,청호동,주거


In [17]:
len(land_use1['시, 구'].unique()) # 절반씩 조사하기로 했으므로, 21개가 되어야 하지만, 24개가 보인다. 해야 하는 것보다 더 많이 조사하셨다.

24

In [18]:
land_use2 = pd.read_csv("../data/data_raw/2208_1228_토지이용계획_김선중_최종.csv",encoding='CP949')
land_use2
# 동, 면별 토지용도 데이터 2(김선중)
# 데이터를 얻은 곳 : http://gris.gg.go.kr/ost/oneStopView.do?pnu=4150010300104450002
# 위의 웹사이트에서, 경기도 모든 지역의 동, 면에 대하여 녹지/주거/공업/상업 중 어떤 카테고리에 해당하는지를 수작업으로 조사했다.

Unnamed: 0,"시, 구","동, 면",토지용도
0,군포시,금정동,주거
1,군포시,당동,주거
2,군포시,당정동,공업
3,군포시,대야미동,녹지
4,군포시,도마교동,주거
...,...,...,...
382,연천군,장남면,녹지
383,연천군,전곡읍,녹지
384,연천군,중면,녹지
385,연천군,청산면,녹지


In [19]:
len(land_use2['시, 구'].unique())

21

In [20]:
set(land_use1['시, 구']).intersection(land_use2['시, 구']) # 두 조사자가 조사한 지역 중 세 군데가 겹친다.

{'군포시', '오산시', '하남시'}

In [21]:
# 윤겸님이 조사한 지역들 중 겹치는 부분들을 제거했다.
mask = land_use1['시, 구'].isin(list(set(land_use1['시, 구']).intersection(land_use2['시, 구'])))
land_use1 = land_use1[~mask]
land_use1['시, 구'].nunique()

21

In [22]:
# 최종적인 동, 면별 토지용도 데이터 
land_use = pd.concat([land_use1,land_use2])
land_use.reset_index(inplace=True)
land_use.drop(columns=['index'],inplace=True)
land_use

Unnamed: 0,"시, 구","동, 면",토지용도
0,수원시 장안구,상광교동,녹지
1,수원시 장안구,송죽동,주거
2,수원시 장안구,연무동,주거
3,수원시 장안구,영화동,주거
4,수원시 장안구,율전동,주거
...,...,...,...
747,연천군,장남면,녹지
748,연천군,전곡읍,녹지
749,연천군,중면,녹지
750,연천군,청산면,녹지


In [23]:
land_use['시, 구'].nunique()

42

In [24]:
land_use.to_csv("../data/data_intermediate/2109_1229_land_use_full.csv", encoding="utf-8-sig") # 기록을 위해 csv 파일로 저장

In [25]:
regions ==sorted(land_use['시, 구'].unique()) # 앞서 선정한 42개 지역 목록과 일치한다.

True

In [26]:
land_use_ = pd.DataFrame(index = regions)

In [27]:
nature_list = []
dwell_list = []
industry_list = []
commerce_list = []
for region in regions:
    ratio_region = land_use[land_use['시, 구']==region]
    total_number = len(ratio_region)
    nature_list.append(sum(ratio_region['토지용도']=='녹지')/total_number)
    dwell_list.append(sum(ratio_region['토지용도']=='주거')/total_number)
    industry_list.append(sum(ratio_region['토지용도']=='공업')/total_number)
    commerce_list.append(sum(ratio_region['토지용도']=='상업')/total_number)

In [28]:
# 각 지역별 녹지/주거/공업/상업의 동/면 비율 데이터 생성
land_use_['녹지'] = nature_list
land_use_['주거'] = dwell_list
land_use_['공업'] = industry_list
land_use_['상업'] = commerce_list
land_use_

Unnamed: 0,녹지,주거,공업,상업
가평군,1.0,0.0,0.0,0.0
고양시 덕양구,0.65625,0.34375,0.0,0.0
고양시 일산동구,0.461538,0.461538,0.0,0.076923
고양시 일산서구,0.5,0.375,0.0,0.125
과천시,0.5,0.5,0.0,0.0
광명시,0.222222,0.666667,0.0,0.111111
광주시,0.923077,0.076923,0.0,0.0
구리시,0.5,0.5,0.0,0.0
군포시,0.333333,0.444444,0.222222,0.0
김포시,0.4,0.533333,0.066667,0.0


In [29]:
land_use_.to_csv("../data/data_intermediate/2210_1229_land_use.csv", encoding="utf-8-sig")

## 인구 : `pop`

In [30]:
# 경기지역 행정구역별 인구 데이터(연수님)
# 데이터를 얻은 곳 : [출처필요]pop = pd.read_csv("data_raw/2111_행정구역_시군구_별__성별_인구수_20221227193138.csv", encoding='cp949')
pop = pd.read_csv("../data/data_raw/2301_1227_행정구역_시군구_별__성별_인구수.csv", encoding='cp949')
pop

Unnamed: 0,행정구역(시군구)별,2022.09,2022.09.1,2022.09.2,2022.1,2022.1.1,2022.1.2,2022.11,2022.11.1,2022.11.2
0,행정구역(시군구)별,총인구수 (명),남자인구수 (명),여자인구수 (명),총인구수 (명),남자인구수 (명),여자인구수 (명),총인구수 (명),남자인구수 (명),여자인구수 (명)
1,경기도,13574353,6832856,6741497,13579508,6835151,6744357,13583238,6836309,6746929
2,수원시,1188234,598490,589744,1189654,599198,590456,1190368,599508,590860
3,장안구,271779,136804,134975,271305,136511,134794,271012,136427,134585
4,권선구,366832,185435,181397,366453,185270,181183,367004,185522,181482
5,팔달구,189267,95361,93906,191423,96475,94948,192225,96826,95399
6,영통구,360356,180890,179466,360473,180942,179531,360127,180733,179394
7,성남시,920903,456041,464862,920667,455970,464697,920362,455768,464594
8,수정구,233447,118323,115124,232663,117974,114689,232125,117720,114405
9,중원구,204894,103769,101125,205893,104258,101635,206211,104312,101899


In [31]:
pop.set_index('행정구역(시군구)별',inplace=True)
pop.drop(['행정구역(시군구)별', '경기도', '수원시', '성남시', '안양시', '송탄출장소', '안중출장소', '안산시', '고양시',
           '풍양출장소', '용인시', '화성시동부출장소', '화성시동탄출장소'],inplace=True)
pop = pd.DataFrame(pop['2022.11'])
pop.reset_index(inplace=True)
pop['행정구역(시군구)별'].replace({# '행정구역별(시군구)별' 컬럼의 이름을 regions에서의 양식과 일치시킨다.
    '장안구':'수원시 장안구', '권선구':'수원시 권선구', '팔달구':'수원시 팔달구', '영통구':'수원시 영통구', # 수원
    '처인구':'용인시 처인구', '기흥구':'용인시 기흥구', '수지구':'용인시 수지구', #용인
    '수정구':'성남시 수정구', '중원구':'성남시 중원구', '분당구':'성남시 분당구', #성남
    '단원구':'안산시 단원구', '상록구':'안산시 상록구', #안산
    '동안구':'안양시 동안구', '만안구':'안양시 만안구', # 안양
    '덕양구':'고양시 덕양구', '일산동구':'고양시 일산동구', '일산서구':'고양시 일산서구'} # 고양
    , inplace=True) 
pop.rename(columns={'2022.11':'인구'},inplace=True)
pop.set_index('행정구역(시군구)별',inplace=True)
pop = pop.reindex(regions)
pop

Unnamed: 0_level_0,인구
행정구역(시군구)별,Unnamed: 1_level_1
가평군,62197
고양시 덕양구,487874
고양시 일산동구,296590
고양시 일산서구,290738
과천시,77775
광명시,288182
광주시,391704
구리시,188876
군포시,266531
김포시,484194


In [32]:
sorted(pop.index.unique()) == regions # 앞서 선정한 42개 지역 목록과 일치한다.

True

In [33]:
pop.to_csv("../data/data_intermediate/2212_1229_population.csv", encoding="utf-8-sig")

## 대학교 수 : `school_`

In [34]:
# 경기지역 대학교 목록(연수님)
# 데이터를 얻은 곳 : [출처필요]
school = pd.read_csv("../data/data_raw/2302_1229_경기대학교.csv", encoding='cp949')
school

  school = pd.read_csv("../data/data_raw/2302_1229_경기대학교.csv", encoding='cp949')


Unnamed: 0,학교구분,학교코드,학교명,본분교,학제,지역,설립구분,관련법령,법인명,학교상태,...,Unnamed: 14,Unnamed: 15,영문주소,중문주소,우편번호,학교개교일,학교홈페이지,총장(대학원장)명,학교대표\r\n번호,학교대표\r\n팩스번호
0,대학,37.0,한경대학교,본교,대학교,경기,국립,고등교육법,해당없음,기존,...,안성시,중앙로,"327, Jungang-ro, Anseong-si, Gyeonggi-do, Repu...","327, Jungang-ro, Anseong-si, Gyeonggi-do, Repu...",17579.0,2012-03-01,www.hknu.ac.kr,이원희,031-670-5114,031-670-5469
1,대학,46.0,가톨릭대학교,본교,대학교,경기,사립,고등교육법,가톨릭학원,기존,...,부천시,원미구,"43, Jibong-ro, Bucheon-si, Gyeonggi-do, Republ...","43, Jibong-ro, Bucheon-si, Gyeonggi-do, Republ...",14662.0,1995-03-01,www.catholic.ac.kr,원종철,02-2164-4114,02-2164-4754
2,대학,51.0,강남대학교,본교,대학교,경기,사립,고등교육법,강남학원,기존,...,용인시,기흥구,"40, Gangnam-ro, Giheung-gu, Yongin-si, Gyeongg...","40, Gangnam-ro, Giheung-gu, Yongin-si, Gyeongg...",16979.0,1948-08-12,www.kangnam.ac.kr,윤신일,031-280-3500,031-280-3173
3,대학,56.0,경기대학교,본교,대학교,경기,사립,고등교육법,경기학원,기존,...,수원시,영통구,"154-42, Gwanggyosan-ro, Yeongtong-gu, Suwon-si...","154-42, Gwanggyosan-ro, Yeongtong-gu, Suwon-si...",16227.0,1947-11-08,www.kyonggi.ac.kr,전준철(직무대행),031-249-9114,031-243-2194
4,대학,63.0,가천대학교,본교,대학교,경기,사립,고등교육법,가천학원,기존,...,성남시,수정구,"1342, Seongnam-daero, Sujeong-gu, Seongnam-si,...","1342, Seongnam-daero, Sujeong-gu, Seongnam-si,...",13120.0,2012-03-01,www.gachon.ac.kr,이길여,031-750-5114,031-753-8828
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63765,,,,,,,,,,,...,,,,,,,,,,
63766,,,,,,,,,,,...,,,,,,,,,,
63767,,,,,,,,,,,...,,,,,,,,,,
63768,,,,,,,,,,,...,,,,,,,,,,


In [35]:
school = school[['Unnamed: 13', 'Unnamed: 14', 'Unnamed: 15']]
school.dropna(inplace=True)
school.rename(columns={'Unnamed: 13':'도', 'Unnamed: 14':'시', 'Unnamed: 15':'세부'}, inplace=True) # 세부 : 구, 읍, 면, 로, 길
school

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  school.dropna(inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  school.rename(columns={'Unnamed: 13':'도', 'Unnamed: 14':'시', 'Unnamed: 15':'세부'}, inplace=True) # 세부 : 구, 읍, 면, 로, 길


Unnamed: 0,도,시,세부
0,경기도,안성시,중앙로
1,경기도,부천시,원미구
2,경기도,용인시,기흥구
3,경기도,수원시,영통구
4,경기도,성남시,수정구
...,...,...,...
243,경기도,수원시,영통구
244,경기도,군포시,한세로
245,경기도,군포시,한세로
246,경기도,양평군,옥천면


In [36]:
print('도 :',school['도'].unique())
print('시 :',school['시'].unique())
print('세부 :',school['세부'].unique())

도 : ['경기도']
시 : ['안성시' '부천시' '용인시' '수원시' '성남시' '포천시' '광주시' '안양시' '화성시' '양평군' '김포시' '평택시'
 '고양시' '군포시' '오산시' '안산시' '양주시' '시흥시' '의정부시' '의왕시' '여주시' '이천시' '파주시' '가평군'
 '남양주시' '동두천시' '과천시']
세부 : ['중앙로' '원미구' '기흥구' '영통구' '수정구' '수지구' '호국로' '처인구' '소사구' '경안로' '만안구' '봉담읍'
 '옥천면' '대덕면' '승가로' '서동대로' '해룡로' '덕양구' '한세로' '한신대길' '상록구' '은현면' '남양읍'
 '산기대학로' '서부로' '계원대학로' '월곶면' '동안구' '장안구' '삼죽면' '곤지암읍' '죽산면' '단원구' '권선구'
 '정남면' '중원구' '세종로' '마장면' '장안웃길' '경기과기대로' '신둔면' '탄현면' '순암로' '공도읍' '대월면'
 '설악면' '분당구' '진접읍' '초월읍' '청학로' '삼남로' '파평면' '벌마들로40번길' '경동대학로' '호암로' '팔탄면'
 '관악산길' '동일로' '일산동구' '지봉로' '호현로489번길']


In [37]:
# sanity check
city = set(np.where(school['시'].isin(city_list))[0]) # 시(city_list)에 속해있는 대학교들의 index
district = set(np.where(school['세부'].isin(district_list))[0]) # 구(district_list)에 속해있는 대학교들의 index
print(set.intersection(city,district)) # city와 district는 겹치지 않는다.
print(set(np.arange(248)) == set.union(city,district)) # city와 district를 합치면 248개가 다 나온다.

set()
True


In [38]:
# 지역 컬럼 생성 : 구가 없는 시면 시 이름을, 구가 있는 시면 구 이름을 배정한다.
city_series = school['시'][school['시'].isin(city_list)]
district_series = school['세부'][school['세부'].isin(district_list)]
school['지역'] = pd.concat([city_series, district_series])
school

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  school['지역'] = pd.concat([city_series, district_series])


Unnamed: 0,도,시,세부,지역
0,경기도,안성시,중앙로,안성시
1,경기도,부천시,원미구,부천시
2,경기도,용인시,기흥구,기흥구
3,경기도,수원시,영통구,영통구
4,경기도,성남시,수정구,수정구
...,...,...,...,...
243,경기도,수원시,영통구,영통구
244,경기도,군포시,한세로,군포시
245,경기도,군포시,한세로,군포시
246,경기도,양평군,옥천면,양평군


In [39]:
# 앞서 선정한 42개 지역 목록에 포함된다. 즉, 일치하지는 않는다. 왜냐하면, 대학교가 없는 지역이 존재하기 때문이다.
print(sorted(school['지역'].unique())==regions)
print(len(school['지역'].unique()))
print(set(school['지역'].unique()).issubset(set(regions)))

False
36
False


In [40]:
# 지역 컬럼의 이름을 regions에서의 양식과 일치시킨다.
school['지역'].replace({'장안구':'수원시 장안구', '권선구':'수원시 권선구', '팔달구':'수원시 팔달구', '영통구':'수원시 영통구', # 수원
    '처인구':'용인시 처인구', '기흥구':'용인시 기흥구', '수지구':'용인시 수지구', #용인
    '수정구':'성남시 수정구', '중원구':'성남시 중원구', '분당구':'성남시 분당구', #성남
    '단원구':'안산시 단원구', '상록구':'안산시 상록구', #안산
    '동안구':'안양시 동안구', '만안구':'안양시 만안구', # 안양
    '덕양구':'고양시 덕양구', '일산동구':'고양시 일산동구', '일산서구':'고양시 일산서구'} # 고양
    , inplace=True) 
school

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  school['지역'].replace({'장안구':'수원시 장안구', '권선구':'수원시 권선구', '팔달구':'수원시 팔달구', '영통구':'수원시 영통구', # 수원


Unnamed: 0,도,시,세부,지역
0,경기도,안성시,중앙로,안성시
1,경기도,부천시,원미구,부천시
2,경기도,용인시,기흥구,용인시 기흥구
3,경기도,수원시,영통구,수원시 영통구
4,경기도,성남시,수정구,성남시 수정구
...,...,...,...,...
243,경기도,수원시,영통구,수원시 영통구
244,경기도,군포시,한세로,군포시
245,경기도,군포시,한세로,군포시
246,경기도,양평군,옥천면,양평군


In [41]:
# 각 지역별 대학교의 개수 데이터 생성
school_ = pd.DataFrame(index = regions)
school_['대학교 개수'] = [sum(school['지역']==region) for region in regions]
school_

Unnamed: 0,대학교 개수
가평군,1
고양시 덕양구,6
고양시 일산동구,1
고양시 일산서구,0
과천시,1
광명시,0
광주시,11
구리시,0
군포시,7
김포시,3


In [42]:
school_.to_csv("../data/data_intermediate/2214_1229_school.csv", encoding="utf-8-sig")

## 아파트 수 : `apartment`

In [43]:
sorted(zones['region2'].unique()) == regions # 앞서 선정한 42개 지역 목록과 일치한다.

True

In [44]:
apartment = pd.read_csv("../data/data_raw/2102_1229_경기도 아파트 현황.csv")
sorted(apartment['경기도 아파트현황'].unique()) == regions # 앞서 선정한 42개 지역 목록과 일치한다.
# 경기지역 아파트 목록(윤겸님)
# 데이터를 얻은 곳 : https://data.gg.go.kr/portal/data/service/selectServicePage.do?infId=VUPYJVKMYEYIKOQDILSR30099546&infSeq=1

True

In [45]:
apartment.set_index('경기도 아파트현황',inplace=True)
apartment = apartment.reindex(regions)
apartment

Unnamed: 0_level_0,아파트수
경기도 아파트현황,Unnamed: 1_level_1
가평군,39
고양시 덕양구,274
고양시 일산동구,133
고양시 일산서구,140
과천시,15
광명시,89
광주시,129
구리시,111
군포시,155
김포시,229


In [42]:
apartment.to_csv("data_intermediate/2115_1230_apartment.csv", encoding="utf-8-sig")

# feature 데이터를 하나로 통합
- intermediate data -> final data

In [43]:
features = pd.concat([socar_zone_count, land_use_, pop, school_, apartment], axis = 1)
features

Unnamed: 0,쏘카존수,녹지,주거,공업,상업,인구,대학교 개수,아파트수
가평군,7,1.0,0.0,0.0,0.0,62197,1,39
고양시 덕양구,48,0.65625,0.34375,0.0,0.0,487874,6,274
고양시 일산동구,51,0.461538,0.461538,0.0,0.076923,296590,1,133
고양시 일산서구,29,0.5,0.375,0.0,0.125,290738,0,140
과천시,3,0.5,0.5,0.0,0.0,77775,1,15
광명시,28,0.222222,0.666667,0.0,0.111111,288182,0,89
광주시,16,0.923077,0.076923,0.0,0.0,391704,11,129
구리시,19,0.5,0.5,0.0,0.0,188876,0,111
군포시,10,0.333333,0.444444,0.222222,0.0,266531,7,155
김포시,55,0.4,0.533333,0.066667,0.0,484194,3,229


In [44]:
features.to_csv("data_final/2116_1230_collected_data.csv", encoding="utf-8-sig")