In [2]:
import requests # html을 url로 요청
import pandas as pd # DataFrame으로 변환
from bs4 import BeautifulSoup # 크롤링

def crawling_ranking(region, order):
    if order == 1:
        o = 'd' # 상위 25개
    elif order == -1:
        o = 'a' # 하위 25개
    else:
        print("Input the way to order")
    url = f"http://buking.kr/rank.php?m=md&si={region}&gi=1&st=m{o}" # f-string으로 변수와 문자열 병합
    response = requests.get(url)

    if response.status_code == 200: # url에 정상적으로 연결됨
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser') # url에 해당하는 html 정보를 가져옴

        r_rank = []

        for rank in soup.find_all('tr', class_='tr2'): # find_all : 태그와 클래스, 이하 전체
            # 시,구
            g = rank.find('font', style='font-size:;color:#777').get_text(strip=True) # find : 태그와 클래스, 처음 1개만, get_text : 문자열로 가져옴.
            # 동
            d = rank.find('a').get_text(strip=True)
            # 평당가
            p = rank.find('td', class_='td2rp').get_text().split('만')[0] # 금액에 해당하는 태그가 따로 없어 전체를 가져온 후, 필요한 부분만 사용.
            r = g+" "+d # 지역 주소
            r_rank.append({'지역': r, '평당가(만원)': p}) # list(dict)의 형태
        
        if order == -1: # 상위와 하위 리스트의 합병을 위해 하위 리스트의 정렬을 금액의 내림차순으로 변환
            r_rank.reverse()
                
        df = pd.DataFrame(r_rank) # 크롤링한 정보를 데이터프레임으로 변환 for 전처리
        return df
            
    else:
        print(f"Failed to retrieve the page. Status code: {response.status_code}") # 해당 url을 찾지 못하거나 가져오지 못했을 때 에러 메세지 반환

In [3]:
crawling_ranking('서울', 1) # 서울 상위 23개

Unnamed: 0,지역,평당가(만원)
0,서울 강남구 개포동,6556
1,서울 서초구 반포동,6403
2,서울 강남구 압구정동,6335
3,서울 서초구 잠원동,6167
4,서울 종로구 교북동,5852
5,서울 송파구 잠실동,5605
6,서울 강남구 일원동,5504
7,서울 강남구 수서동,5366
8,서울 종로구 홍파동,5254
9,서울 종로구 평동,5142


In [4]:
crawling_ranking('서울', -1) # 서울 하위 25개

Unnamed: 0,지역,평당가(만원)
0,서울 금천구 시흥동,1697
1,서울 강서구 화곡동,1672
2,서울 종로구 신영동,1672
3,서울 은평구 신사동,1671
4,서울 구로구 개봉동,1662
5,서울 종로구 혜화동,1645
6,서울 강북구 번동,1645
7,서울 구로구 항동,1630
8,서울 광진구 중곡동,1605
9,서울 구로구 오류동,1545


In [5]:
crawling_ranking('부산', 1) # 부산 상위 25개

Unnamed: 0,지역,평당가(만원)
0,부산 부산진구 범전동,2663
1,부산 수영구 남천동,2177
2,부산 해운대구 우동,2019
3,부산 동래구 칠산동,1989
4,부산 동래구 명륜동,1738
5,부산 해운대구 중동,1585
6,부산 서구 서대신동1가,1548
7,부산 수영구 수영동,1483
8,부산 수영구 민락동,1471
9,부산 금정구 장전동,1460


In [6]:
crawling_ranking('부산', -1) # 부산 하위 25개

Unnamed: 0,지역,평당가(만원)
0,부산 서구 동대신동3가,670
1,부산 영도구 영선동3가,670
2,부산 금정구 서동,670
3,부산 영도구 대교동2가,664
4,부산 사상구 학장동,658
5,부산 사하구 다대동,615
6,부산 금정구 금사동,604
7,부산 사하구 신평동,598
8,부산 서구 충무동2가,594
9,부산 영도구 청학동,581


In [7]:
seoul = pd.concat([crawling_ranking('서울', 1),crawling_ranking('서울', -1)], ignore_index=True)
seoul # 서울의 상위 25개와 하위 25개를 병합(50개)

Unnamed: 0,지역,평당가(만원)
0,서울 강남구 개포동,6556
1,서울 서초구 반포동,6403
2,서울 강남구 압구정동,6335
3,서울 서초구 잠원동,6167
4,서울 종로구 교북동,5852
5,서울 송파구 잠실동,5605
6,서울 강남구 일원동,5504
7,서울 강남구 수서동,5366
8,서울 종로구 홍파동,5254
9,서울 종로구 평동,5142


In [8]:
busan = pd.concat([crawling_ranking('부산', 1),crawling_ranking('부산', -1)], ignore_index=True)
busan # 부산의 상위 25개와 하위 25개를 병합(50개)

Unnamed: 0,지역,평당가(만원)
0,부산 부산진구 범전동,2663
1,부산 수영구 남천동,2177
2,부산 해운대구 우동,2019
3,부산 동래구 칠산동,1989
4,부산 동래구 명륜동,1738
5,부산 해운대구 중동,1585
6,부산 서구 서대신동1가,1548
7,부산 수영구 수영동,1483
8,부산 수영구 민락동,1471
9,부산 금정구 장전동,1460


In [89]:
# 동 단위로 통합
sl = []
for i in range(0,len(seoul['지역'])):
    sl.append(seoul['지역'][i].split(' ')[0]+" "+seoul['지역'][i].split(' ')[1]+" "+seoul['지역'][i].split(' ')[2].split('동')[0]+'동')
seoul['지역'] = sl
print(seoul)

              지역 평당가(만원)
0     서울 강남구 개포동    6556
1     서울 서초구 반포동    6403
2    서울 강남구 압구정동    6335
3     서울 서초구 잠원동    6167
4     서울 종로구 교북동    5852
5     서울 송파구 잠실동    5605
6     서울 강남구 일원동    5504
7     서울 강남구 수서동    5366
8     서울 종로구 홍파동    5254
9      서울 종로구 평동    5142
10    서울 용산구 신계동    5024
11    서울 강남구 삼성동    4952
12    서울 강남구 도곡동    4938
13   서울 용산구 서빙고동    4922
14    서울 강남구 청담동    4893
15    서울 마포구 아현동    4803
16    서울 성동구 성수동    4709
17    서울 용산구 용산동    4657
18    서울 마포구 용강동    4644
19    서울 강남구 자곡동    4611
20    서울 송파구 신천동    4608
21    서울 용산구 보광동    4569
22  서울 서대문구 북아현동    4545
23    서울 용산구 한남동    4532
24    서울 용산구 이촌동    4447
25    서울 금천구 시흥동    1697
26    서울 강서구 화곡동    1672
27    서울 종로구 신영동    1672
28    서울 은평구 신사동    1671
29    서울 구로구 개봉동    1662
30    서울 종로구 혜화동    1645
31     서울 강북구 번동    1645
32     서울 구로구 항동    1630
33    서울 광진구 중곡동    1605
34    서울 구로구 오류동    1545
35    서울 도봉구 도봉동    1543
36    서울 도봉구 방학동    1481
37    서울 은평구 갈현동    1464
38    서울 도봉구 쌍문동    1424


In [155]:
# 혼잡강도(행정구역)				
# - 기준년도 : 2021년				
# - 기간 : 평일				
# - 지표 : 혼잡빈도강도				
# - 권역 : 읍면동				
# - 권역범위 : 서울특별시 시군구 / 읍면동				
# - 도로등급 : 고속도로,도시고속도로,일반국도,특별광역시도,국가지원지방도,지방도,시군도,연결로	
pd.read_excel('C:\Congestindex(seoul).xlsx')

Unnamed: 0,ZONE ID,시도,시군구,읍면동,혼잡빈도강도
0,,,,,
1,1101053.0,서울특별시,종로구,사직동,88.0
2,1101054.0,서울특별시,종로구,삼청동,42.0
3,1101055.0,서울특별시,종로구,부암동,26.0
4,1101056.0,서울특별시,종로구,평창동,69.0
...,...,...,...,...,...
416,1125070.0,서울특별시,강동구,둔촌1동,23.0
417,1125071.0,서울특별시,강동구,둔촌2동,45.0
418,1125072.0,서울특별시,강동구,암사1동,64.0
419,1125073.0,서울특별시,강동구,천호2동,63.0


In [156]:
# 서울 지역별 평당가 순위 및 교통혼잡강도
df_traffic = pd.read_excel('C:\Congestindex(seoul).xlsx')
df_traffic = df_traffic.dropna()
new_col = []
for i in list(df_traffic['읍면동']):
    for j in range(1, 10):
        if str(j) in i:
            new_col.append(i.split(str(j))[0]+'동')
            break
    else:
        new_col.append(i)
df_traffic = df_traffic.copy()
df_traffic['읍면동'] = new_col
df_traffic = df_traffic.drop_duplicates(subset='읍면동')
new_col = []
for i in list(df_traffic['읍면동']):
    new_col.append('서울'+" "+df_traffic.loc[df_traffic['읍면동'] == i, '시군구'].iloc[0]+" "+i)
df_traffic['지역'] = new_col
df_traffic = df_traffic.drop(columns=['ZONE ID','시군구','읍면동'])
df_traffic = df_traffic[['지역'] + ['혼잡빈도강도']]
merged_df_st = pd.merge(seoul, df_traffic, on='지역', how='left')
merged_df_st

Unnamed: 0,지역,평당가(만원),혼잡빈도강도
0,서울 강남구 개포동,6556,81.0
1,서울 서초구 반포동,6403,67.0
2,서울 강남구 압구정동,6335,65.0
3,서울 서초구 잠원동,6167,70.0
4,서울 종로구 교북동,5852,
5,서울 송파구 잠실동,5605,33.0
6,서울 강남구 일원동,5504,53.0
7,서울 강남구 수서동,5366,71.0
8,서울 종로구 홍파동,5254,
9,서울 종로구 평동,5142,


In [157]:
# 동 단위로 통합
bl = []
for i in range(0,len(busan['지역'])):
    bl.append(busan['지역'][i].split(' ')[0]+" "+busan['지역'][i].split(' ')[1]+" "+busan['지역'][i].split(' ')[2].split('동')[0]+'동')
busan['지역'] = bl
print(busan)

             지역 평당가(만원)
0   부산 부산진구 범전동    2663
1    부산 수영구 남천동    2177
2    부산 해운대구 우동    2019
3    부산 동래구 칠산동    1989
4    부산 동래구 명륜동    1738
5    부산 해운대구 중동    1585
6    부산 서구 서대신동    1548
7    부산 수영구 수영동    1483
8    부산 수영구 민락동    1471
9    부산 금정구 장전동    1460
10   부산 동래구 사직동    1388
11    부산 남구 용호동    1334
12    부산 남구 대연동    1310
13   부산 동래구 복천동    1235
14    부산 중구 보수동    1225
15   부산 연제구 거제동    1205
16   부산 연제구 연산동    1189
17    부산 서구 충무동    1189
18    부산 중구 부평동    1188
19   부산 동래구 수안동    1186
20  부산 해운대구 재송동    1160
21    부산 서구 토성동    1150
22   부산 수영구 광안동    1147
23   부산 영도구 대교동    1127
24   부산 해운대구 좌동    1120
25      부산 서구 동     670
26   부산 영도구 영선동     670
27    부산 금정구 서동     670
28   부산 영도구 대교동     664
29   부산 사상구 학장동     658
30   부산 사하구 다대동     615
31   부산 금정구 금사동     604
32   부산 사하구 신평동     598
33    부산 서구 충무동     594
34   부산 영도구 청학동     581
35   부산 사하구 감천동     571
36     부산 영도구 동     569
37   부산 사하구 장림동     559
38    부산 중구 영주동     552
39   부산 강서구 지사동     550
40   부산 사상구 모라동 

In [158]:
# 혼잡강도(행정구역)				
# - 기준년도 : 2021년				
# - 기간 : 평일				
# - 지표 : 혼잡빈도강도				
# - 권역 : 읍면동				
# - 권역범위 : 부산광역시 시군구 / 읍면동				
# - 도로등급 : 고속도로,도시고속도로,일반국도,특별광역시도,국가지원지방도,지방도,시군도,연결로	
pd.read_excel('C:\Congestindex(busan).xlsx')

Unnamed: 0,ZONE ID,시도,시군구,읍면동,혼잡빈도강도
0,,,,,
1,2101051.0,부산광역시,중구,중앙동,55.0
2,2101052.0,부산광역시,중구,동광동,79.0
3,2101053.0,부산광역시,중구,대청동,46.0
4,2101054.0,부산광역시,중구,보수동,55.0
...,...,...,...,...,...
193,2131011.0,부산광역시,기장군,기장읍,36.0
194,2131012.0,부산광역시,기장군,장안읍,31.0
195,2131013.0,부산광역시,기장군,정관읍,21.0
196,2131031.0,부산광역시,기장군,일광면,50.0


In [159]:
# 부산 지역별 평당가 순위 및 교통혼잡강도
df_traffic = pd.read_excel('C:\Congestindex(busan).xlsx')
df_traffic = df_traffic.dropna()
new_col = []
for i in list(df_traffic['읍면동']):
    for j in range(1, 10):
        if str(j) in i:
            new_col.append(i.split(str(j))[0]+'동')
            break
    else:
        new_col.append(i)
df_traffic = df_traffic.copy()
df_traffic['읍면동'] = new_col
df_traffic = df_traffic.drop_duplicates(subset='읍면동')
new_col = []
for i in list(df_traffic['읍면동']):
    new_col.append('부산'+" "+df_traffic.loc[df_traffic['읍면동'] == i, '시군구'].iloc[0]+" "+i)
df_traffic['지역'] = new_col
df_traffic = df_traffic.drop(columns=['ZONE ID','시군구','읍면동'])
df_traffic = df_traffic[['지역'] + ['혼잡빈도강도']]
merged_df_st = pd.merge(busan, df_traffic, on='지역', how='left')
merged_df_st

Unnamed: 0,지역,평당가(만원),혼잡빈도강도
0,부산 부산진구 범전동,2663,
1,부산 수영구 남천동,2177,36.0
2,부산 해운대구 우동,2019,21.0
3,부산 동래구 칠산동,1989,
4,부산 동래구 명륜동,1738,57.0
5,부산 해운대구 중동,1585,34.0
6,부산 서구 서대신동,1548,77.0
7,부산 수영구 수영동,1483,37.0
8,부산 수영구 민락동,1471,42.0
9,부산 금정구 장전동,1460,16.0
