<h2>지역별 평당가 상/하위 25개 크롤링</h2>

In [207]:
import requests # html을 url로 요청
import pandas as pd # DataFrame으로 변환
from bs4 import BeautifulSoup # 크롤링
import re # 문자열 처리

def crawling_ranking(region, order):
    if order == 1:
        o = 'd' # 상위 25개
    elif order == -1:
        o = 'a' # 하위 25개
    else:
        print("Input the way to order")
    url = f"http://buking.kr/rank.php?m=md&si={region}&gi=1&st=m{o}" # f-string으로 변수와 문자열 병합
    response = requests.get(url)

    if response.status_code == 200: # url에 정상적으로 연결됨
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser') # url에 해당하는 html 정보를 가져옴

        r_rank = []

        for rank in soup.find_all('tr', class_='tr2'): # find_all : 태그와 클래스, 이하 전체
            # 시,구
            g = rank.find('font', style='font-size:;color:#777').get_text(strip=True) # find : 태그와 클래스, 처음 1개만, get_text : 문자열로 가져옴.
            # 동
            d = rank.find('a').get_text(strip=True)
            # 평당가
            p = rank.find('td', class_='td2rp').get_text().split('만')[0] # 금액에 해당하는 태그가 따로 없어 전체를 가져온 후, 필요한 부분만 사용.
            r = g+" "+d # 지역 주소
            r_rank.append({'지역': r, '평당가(만원)': p}) # list(dict)의 형태
        
        if order == -1: # 상위와 하위 리스트의 합병을 위해 하위 리스트의 정렬을 금액의 내림차순으로 변환
            r_rank.reverse()
                
        df = pd.DataFrame(r_rank) # 크롤링한 정보를 데이터프레임으로 변환 for 전처리
        return df
            
    else:
        print(f"Failed to retrieve the page. Status code: {response.status_code}") # 해당 url을 찾지 못하거나 가져오지 못했을 때 에러 메세지 반환

In [208]:
seoul_top = crawling_ranking('서울', 1) # 서울 상위 23개
seoul_top

Unnamed: 0,지역,평당가(만원)
0,서울 강남구 개포동,6556
1,서울 서초구 반포동,6403
2,서울 강남구 압구정동,6335
3,서울 서초구 잠원동,6167
4,서울 종로구 교북동,5852
5,서울 송파구 잠실동,5605
6,서울 강남구 일원동,5504
7,서울 강남구 수서동,5366
8,서울 종로구 홍파동,5254
9,서울 종로구 평동,5142


In [209]:
seoul_bot = crawling_ranking('서울', -1) # 서울 하위 25개
seoul_bot

Unnamed: 0,지역,평당가(만원)
0,서울 금천구 시흥동,1697
1,서울 강서구 화곡동,1672
2,서울 종로구 신영동,1672
3,서울 은평구 신사동,1671
4,서울 구로구 개봉동,1662
5,서울 종로구 혜화동,1645
6,서울 강북구 번동,1645
7,서울 구로구 항동,1630
8,서울 광진구 중곡동,1605
9,서울 구로구 오류동,1545


In [210]:
busan_top = crawling_ranking('부산', 1) # 부산 상위 25개
busan_top

Unnamed: 0,지역,평당가(만원)
0,부산 부산진구 범전동,2663
1,부산 수영구 남천동,2177
2,부산 해운대구 우동,2019
3,부산 동래구 칠산동,1989
4,부산 동래구 명륜동,1738
5,부산 해운대구 중동,1585
6,부산 서구 서대신동1가,1548
7,부산 수영구 수영동,1483
8,부산 수영구 민락동,1471
9,부산 금정구 장전동,1460


In [211]:
busan_bot = crawling_ranking('부산', -1) # 부산 하위 25개
busan_bot

Unnamed: 0,지역,평당가(만원)
0,부산 서구 동대신동3가,670
1,부산 영도구 영선동3가,670
2,부산 금정구 서동,670
3,부산 영도구 대교동2가,664
4,부산 사상구 학장동,658
5,부산 사하구 다대동,615
6,부산 금정구 금사동,604
7,부산 사하구 신평동,598
8,부산 서구 충무동2가,594
9,부산 영도구 청학동,581


<h2>지역별 교통 혼잡 빈도 강도 추가</h2>

In [212]:
# 혼잡강도(행정구역)				
# - 기준년도 : 2021년				
# - 기간 : 평일				
# - 지표 : 혼잡빈도강도				
# - 권역 : 읍면동				
# - 권역범위 : 서울특별시 시군구 / 읍면동				
# - 도로등급 : 고속도로,도시고속도로,일반국도,특별광역시도,국가지원지방도,지방도,시군도,연결로	
pd.read_excel('C:\Congestindex(seoul).xlsx')

Unnamed: 0,ZONE ID,시도,시군구,읍면동,혼잡빈도강도
0,,,,,
1,1101053.0,서울특별시,종로구,사직동,88.0
2,1101054.0,서울특별시,종로구,삼청동,42.0
3,1101055.0,서울특별시,종로구,부암동,26.0
4,1101056.0,서울특별시,종로구,평창동,69.0
...,...,...,...,...,...
416,1125070.0,서울특별시,강동구,둔촌1동,23.0
417,1125071.0,서울특별시,강동구,둔촌2동,45.0
418,1125072.0,서울특별시,강동구,암사1동,64.0
419,1125073.0,서울특별시,강동구,천호2동,63.0


In [213]:
# 서울 지역별 평당가 순위 및 교통혼잡강도

df_traffic = pd.read_excel('C:\Congestindex(seoul).xlsx')
df_traffic = df_traffic.dropna()
new_col = []
for i in list(df_traffic['읍면동']): # 평당가 데이터 프레임과 병합을 위해 양식 통일
    for j in range(1, 10):
        if str(j) in i:
            new_col.append(i.split(str(j))[0]+'동')
            break
    else:
        new_col.append(i)
df_traffic = df_traffic.copy()
df_traffic['읍면동'] = new_col

# 같은 동 데이터는 평균값으로 통일 후 중복 데이터 제거
grouped_traffic = df_traffic.groupby('읍면동')['혼잡빈도강도'].mean().round(1)
df_traffic['혼잡빈도강도'] = df_traffic['읍면동'].map(grouped_traffic)
df_traffic = df_traffic.drop_duplicates(subset=['읍면동'], keep='first')

# 평당가 데이터 프레임과 병합을 위해 양식 통일
new_col = []
for i in list(df_traffic['읍면동']):
    new_col.append('서울'+" "+df_traffic.loc[df_traffic['읍면동'] == i, '시군구'].iloc[0]+" "+i)
df_traffic['지역'] = new_col
df_traffic = df_traffic.drop(columns=['ZONE ID','시군구','읍면동'])
df_traffic = df_traffic[['지역'] + ['혼잡빈도강도']]

# 상위 25개 내 missing value를 상위 25개 평균으로 대체
merged_df_st_top = pd.merge(seoul_top, df_traffic, on='지역', how='left')
avg = merged_df_st_top['혼잡빈도강도'].mean()
merged_df_st_top['혼잡빈도강도'] = merged_df_st_top['혼잡빈도강도'].fillna(avg)
merged_df_st_top['혼잡빈도강도'] = merged_df_st_top['혼잡빈도강도'].round(1)

# 하위 25개 내 missing value를 하위 25개 평균으로 대체
merged_df_st_bot = pd.merge(seoul_bot, df_traffic, on='지역', how='left')
avg = merged_df_st_bot['혼잡빈도강도'].mean()
merged_df_st_bot['혼잡빈도강도'] = merged_df_st_bot['혼잡빈도강도'].fillna(avg)
merged_df_st_bot['혼잡빈도강도'] = merged_df_st_bot['혼잡빈도강도'].round(1)

# 상하위 25개 통합
seoul = pd.concat([merged_df_st_top,merged_df_st_bot], ignore_index=True)
seoul

Unnamed: 0,지역,평당가(만원),혼잡빈도강도
0,서울 강남구 개포동,6556,74.0
1,서울 서초구 반포동,6403,56.8
2,서울 강남구 압구정동,6335,65.0
3,서울 서초구 잠원동,6167,70.0
4,서울 종로구 교북동,5852,66.0
5,서울 송파구 잠실동,5605,49.6
6,서울 강남구 일원동,5504,50.5
7,서울 강남구 수서동,5366,71.0
8,서울 종로구 홍파동,5254,66.0
9,서울 종로구 평동,5142,66.0


In [214]:
# 혼잡강도(행정구역)				
# - 기준년도 : 2021년				
# - 기간 : 평일				
# - 지표 : 혼잡빈도강도				
# - 권역 : 읍면동				
# - 권역범위 : 부산광역시 시군구 / 읍면동				
# - 도로등급 : 고속도로,도시고속도로,일반국도,특별광역시도,국가지원지방도,지방도,시군도,연결로	
pd.read_excel('C:\Congestindex(busan).xlsx')

Unnamed: 0,ZONE ID,시도,시군구,읍면동,혼잡빈도강도
0,,,,,
1,2101051.0,부산광역시,중구,중앙동,55.0
2,2101052.0,부산광역시,중구,동광동,79.0
3,2101053.0,부산광역시,중구,대청동,46.0
4,2101054.0,부산광역시,중구,보수동,55.0
...,...,...,...,...,...
193,2131011.0,부산광역시,기장군,기장읍,36.0
194,2131012.0,부산광역시,기장군,장안읍,31.0
195,2131013.0,부산광역시,기장군,정관읍,21.0
196,2131031.0,부산광역시,기장군,일광면,50.0


In [215]:
# 부산 지역별 평당가 순위 및 교통혼잡강도
df_traffic = pd.read_excel('C:\Congestindex(busan).xlsx')
df_traffic = df_traffic.dropna()
new_col = []
for i in list(df_traffic['읍면동']): # 평당가 데이터 프레임과 병합을 위해 양식 통일
    for j in range(1, 10):
        if str(j) in i:
            new_col.append(i.split(str(j))[0]+'동')
            break
    else:
        new_col.append(i)
df_traffic = df_traffic.copy()
df_traffic['읍면동'] = new_col

# 같은 동 데이터는 평균값으로 통일 후 중복 데이터 제거
grouped_traffic = df_traffic.groupby('읍면동')['혼잡빈도강도'].mean().round(1)
df_traffic['혼잡빈도강도'] = df_traffic['읍면동'].map(grouped_traffic)
df_traffic = df_traffic.drop_duplicates(subset=['읍면동'], keep='first')

# 평당가 데이터 프레임과 병합을 위해 양식 통일
new_col = []
for i in list(df_traffic['읍면동']):
    new_col.append('부산'+" "+df_traffic.loc[df_traffic['읍면동'] == i, '시군구'].iloc[0]+" "+i)
df_traffic['지역'] = new_col
df_traffic = df_traffic.drop(columns=['ZONE ID','시군구','읍면동'])
df_traffic = df_traffic[['지역'] + ['혼잡빈도강도']]

# 상위 25개 내 missing value를 상위 25개 평균으로 대체
merged_df_bt_top = pd.merge(busan_top, df_traffic, on='지역', how='left')
avg = merged_df_bt_top['혼잡빈도강도'].mean()
merged_df_bt_top['혼잡빈도강도'] = merged_df_bt_top['혼잡빈도강도'].fillna(avg)
merged_df_bt_top['혼잡빈도강도'] = merged_df_bt_top['혼잡빈도강도'].round(1)

# 하위 25개 내 missing value를 하위 25개 평균으로 대체
merged_df_bt_bot = pd.merge(busan_bot, df_traffic, on='지역', how='left')
avg = merged_df_bt_bot['혼잡빈도강도'].mean()
merged_df_bt_bot['혼잡빈도강도'] = merged_df_bt_bot['혼잡빈도강도'].fillna(avg)
merged_df_bt_bot['혼잡빈도강도'] = merged_df_bt_bot['혼잡빈도강도'].round(1)

# 상하위 25개 통합
busan = pd.concat([merged_df_bt_top,merged_df_bt_bot], ignore_index=True)
busan

Unnamed: 0,지역,평당가(만원),혼잡빈도강도
0,부산 부산진구 범전동,2663,44.9
1,부산 수영구 남천동,2177,52.5
2,부산 해운대구 우동,2019,40.3
3,부산 동래구 칠산동,1989,44.9
4,부산 동래구 명륜동,1738,57.0
5,부산 해운대구 중동,1585,21.5
6,부산 서구 서대신동1가,1548,44.9
7,부산 수영구 수영동,1483,37.0
8,부산 수영구 민락동,1471,42.0
9,부산 금정구 장전동,1460,32.0


<h2>지역별 관광 목적 유입 인구 통행량 추가</h2>

In [216]:
# 핫플레이스 분석
# 분석지역 : 1100000 (서울특별시)			
# 기준년도 : 2020년
# 기간 : Weekends			
# 통행목적 : Tour			
# 성별 : 여성	
pd.read_csv('C:\hp(seoul).csv')

Unnamed: 0,행정구역명,통행량
0,서울특별시 마포구 서교동,84352.0
1,서울특별시 강남구 역삼1동,78122.0
2,서울특별시 영등포구 여의동,62858.0
3,서울특별시 종로구 종로1·2·3·4가동,59396.0
4,서울특별시 영등포구 영등포동,58450.0
...,...,...
1270,서울특별시 강서구 공항동,880.0
1271,서울특별시 노원구 상계3·4동,864.2
1272,서울특별시 강동구 둔촌1동,790.3
1273,서울특별시 종로구 평창동,779.2


In [217]:
# 서울 지역별 평당가 순위, 교통혼잡강도, 유입인구 통행량

df_hp = pd.read_csv('C:\hp(seoul).csv')
new_col = []
for i in list(df_hp['행정구역명']): # 평당가 데이터 프레임과 병합을 위해 양식 통일
    g = re.sub('[^가-힣]', '', i.split(' ')[-1])
    if i.split(' ')[0] != i.split(' ')[-1]:
        new_col.append('서울'+' '+i.split(' ')[1]+' '+g)
    else:
        new_col.append('서울'+' '+g)
df_hp = df_hp.copy()
df_hp['지역'] = new_col
df_hp = df_hp.drop(columns=['행정구역명'])

# 같은 동 데이터는 평균값으로 통일 후 중복 데이터 제거
grouped_hp = df_hp.groupby('지역')['통행량'].mean().round(1)
df_hp['통행량'] = df_hp['지역'].map(grouped_hp)
df_hp = df_hp.drop_duplicates(subset=['지역'], keep='first')
df_hp = df_hp[['지역'] + ['통행량']]

# 상위 25개 내 missing value를 상위 25개 평균으로 대체
merged_df_sh_top = pd.merge(merged_df_st_top, df_hp, on='지역', how='left')
avg = merged_df_sh_top['통행량'].mean()
merged_df_sh_top['통행량'] = merged_df_sh_top['통행량'].fillna(avg)

# 하위 25개 내 missing value를 하위 25개 평균으로 대체
merged_df_sh_bot = pd.merge(merged_df_st_bot, df_hp, on='지역', how='left')
avg = merged_df_sh_bot['통행량'].mean()
merged_df_sh_bot['통행량'] = merged_df_sh_bot['통행량'].fillna(avg)

# 상하위 25개 통합
seoul = pd.concat([merged_df_sh_top,merged_df_sh_bot], ignore_index=True)
seoul['통행량'] = seoul['통행량'].round(1)
seoul

Unnamed: 0,지역,평당가(만원),혼잡빈도강도,통행량
0,서울 강남구 개포동,6556,74.0,2139.5
1,서울 서초구 반포동,6403,56.8,9634.6
2,서울 강남구 압구정동,6335,65.0,13260.7
3,서울 서초구 잠원동,6167,70.0,6230.2
4,서울 종로구 교북동,5852,66.0,7022.7
5,서울 송파구 잠실동,5605,49.6,9855.5
6,서울 강남구 일원동,5504,50.5,2041.4
7,서울 강남구 수서동,5366,71.0,3884.2
8,서울 종로구 홍파동,5254,66.0,7022.7
9,서울 종로구 평동,5142,66.0,7022.7


In [218]:
# 핫플레이스 분석
# 분석지역 : 2100000 (부산광역시)			
# 기준년도 : 2020년
# 기간 : Weekends			
# 통행목적 : Tour			
# 성별 : 여성	
pd.read_csv('C:\hp(busan).csv')

Unnamed: 0,행정구역명,통행량
0,부산광역시 기장군 기장읍,63212.0
1,부산광역시 부산진구 부전2동,47555.0
2,부산광역시 해운대구 우2동,46306.0
3,부산광역시 중구 남포동,24054.0
4,부산광역시 부산진구 부전1동,24022.0
...,...,...
610,부산광역시 기장군 철마면,202.8
611,부산광역시 강서구 녹산동,193.2
612,부산광역시 강서구 가덕도동,179.5
613,부산광역시 강서구 가락동,143.2


In [219]:
# 서울 지역별 평당가 순위, 교통혼잡강도, 유입인구 통행량

df_hp = pd.read_csv('C:\hp(busan).csv')
new_col = []
for i in list(df_hp['행정구역명']): # 평당가 데이터 프레임과 병합을 위해 양식 통일
    g = re.sub('[^가-힣]', '', i.split(' ')[-1])
    if i.split(' ')[0] != i.split(' ')[-1]:
        new_col.append('부산'+' '+i.split(' ')[1]+' '+g)
    else:
        new_col.append('부산'+' '+g)
df_hp = df_hp.copy()
df_hp['지역'] = new_col
df_hp = df_hp.drop(columns=['행정구역명'])

# 같은 동 데이터는 평균값으로 통일 후 중복 데이터 제거
grouped_hp = df_hp.groupby('지역')['통행량'].mean().round(1)
df_hp['통행량'] = df_hp['지역'].map(grouped_hp)
df_hp = df_hp.drop_duplicates(subset=['지역'], keep='first')
df_hp = df_hp[['지역'] + ['통행량']]

# 상위 25개 내 missing value를 상위 25개 평균으로 대체
merged_df_bh_top = pd.merge(merged_df_bt_top, df_hp, on='지역', how='left')
avg = merged_df_bh_top['통행량'].mean()
merged_df_bh_top['통행량'] = merged_df_bh_top['통행량'].fillna(avg)

# 하위 25개 내 missing value를 하위 25개 평균으로 대체
merged_df_bh_bot = pd.merge(merged_df_bt_bot, df_hp, on='지역', how='left')
avg = merged_df_bh_bot['통행량'].mean()
merged_df_bh_bot['통행량'] = merged_df_bh_bot['통행량'].fillna(avg)

# 상하위 25개 통합
busan = pd.concat([merged_df_bh_top,merged_df_bh_bot], ignore_index=True)
busan['통행량'] = busan['통행량'].round(1)
busan

Unnamed: 0,지역,평당가(만원),혼잡빈도강도,통행량
0,부산 부산진구 범전동,2663,44.9,4516.9
1,부산 수영구 남천동,2177,52.5,4439.2
2,부산 해운대구 우동,2019,40.3,9739.8
3,부산 동래구 칠산동,1989,44.9,4516.9
4,부산 동래구 명륜동,1738,57.0,9340.4
5,부산 해운대구 중동,1585,21.5,4993.8
6,부산 서구 서대신동1가,1548,44.9,4516.9
7,부산 수영구 수영동,1483,37.0,3497.8
8,부산 수영구 민락동,1471,42.0,6185.9
9,부산 금정구 장전동,1460,32.0,3756.2


<h2>서울 및 부산 인구밀도(명/km^2) 및 재개발/재건축 이슈(건) 추가</h2>

In [220]:
df_dst = pd.read_excel('C:\density.xlsx')
df_iss = pd.read_excel('C:\issues.xlsx')
seoul = pd.merge(seoul, df_dst, on='지역', how='left')
seoul = pd.merge(seoul, df_iss, on='지역', how='left')
busan = pd.merge(busan, df_dst, on='지역', how='left')
busan = pd.merge(busan, df_iss, on='지역', how='left')

In [225]:
seoul['인구밀도'] = seoul['인구밀도'].astype(int)
seoul

Unnamed: 0,지역,평당가(만원),혼잡빈도강도,통행량,인구밀도,재개발 이슈
0,서울 강남구 개포동,6556,74.0,2139.5,9804,9
1,서울 서초구 반포동,6403,56.8,9634.6,11872,14
2,서울 강남구 압구정동,6335,65.0,13260.7,10846,6
3,서울 서초구 잠원동,6167,70.0,6230.2,16211,22
4,서울 종로구 교북동,5852,66.0,7022.7,30383,0
5,서울 송파구 잠실동,5605,49.6,9855.5,30950,3
6,서울 강남구 일원동,5504,50.5,2041.4,9281,3
7,서울 강남구 수서동,5366,71.0,3884.2,10699,0
8,서울 종로구 홍파동,5254,66.0,7022.7,30383,0
9,서울 종로구 평동,5142,66.0,7022.7,30594,0


In [226]:
busan['인구밀도'] = busan['인구밀도'].astype(int)
busan

Unnamed: 0,지역,평당가(만원),혼잡빈도강도,통행량,인구밀도,재개발 이슈
0,부산 부산진구 범전동,2663,44.9,4516.9,529,3
1,부산 수영구 남천동,2177,52.5,4439.2,2587,4
2,부산 해운대구 우동,2019,40.3,9739.8,1639,4
3,부산 동래구 칠산동,1989,44.9,4516.9,653,1
4,부산 동래구 명륜동,1738,57.0,9340.4,1494,1
5,부산 해운대구 중동,1585,21.5,4993.8,840,1
6,부산 서구 서대신동1가,1548,44.9,4516.9,984,0
7,부산 수영구 수영동,1483,37.0,3497.8,1463,1
8,부산 수영구 민락동,1471,42.0,6185.9,2802,0
9,부산 금정구 장전동,1460,32.0,3756.2,744,0
