In [1]:
import requests # html을 url로 요청
import pandas as pd # DataFrame으로 변환
from bs4 import BeautifulSoup # 크롤링

def crawling_ranking(region, order):
    if order == 1:
        o = 'd' # 상위 25개
    elif order == -1:
        o = 'a' # 하위 25개
    else:
        print("Input the way to order")
    url = f"http://buking.kr/rank.php?m=md&si={region}&gi=1&st=m{o}" # f-string으로 변수와 문자열 병합
    response = requests.get(url)

    if response.status_code == 200: # url에 정상적으로 연결됨
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser') # url에 해당하는 html 정보를 가져옴

        r_rank = []

        for rank in soup.find_all('tr', class_='tr2'): # find_all : 태그와 클래스, 이하 전체
            # 시,구
            g = rank.find('font', style='font-size:;color:#777').get_text(strip=True) # find : 태그와 클래스, 처음 1개만, get_text : 문자열로 가져옴.
            # 동
            d = rank.find('a').get_text(strip=True)
            # 평당가
            p = rank.find('td', class_='td2rp').get_text().split('만')[0] # 금액에 해당하는 태그가 따로 없어 전체를 가져온 후, 필요한 부분만 사용.
            r = g+" "+d # 지역 주소
            r_rank.append({'지역': r, '평당가(만원)': p}) # list(dict)의 형태
        
        if order == -1: # 상위와 하위 리스트의 합병을 위해 하위 리스트의 정렬을 금액의 내림차순으로 변환
            r_rank.reverse()
                
        df = pd.DataFrame(r_rank) # 크롤링한 정보를 데이터프레임으로 변환 for 전처리
        return df
            
    else:
        print(f"Failed to retrieve the page. Status code: {response.status_code}") # 해당 url을 찾지 못하거나 가져오지 못했을 때 에러 메세지 반환

In [2]:
crawling_ranking('서울', 1) # 서울 상위 23개

Unnamed: 0,지역,평당가(만원)
0,서울 강남구 개포동,6556
1,서울 서초구 반포동,6403
2,서울 강남구 압구정동,6335
3,서울 서초구 잠원동,6167
4,서울 종로구 교북동,5852
5,서울 송파구 잠실동,5605
6,서울 강남구 일원동,5504
7,서울 강남구 수서동,5366
8,서울 종로구 홍파동,5254
9,서울 종로구 평동,5142


In [3]:
crawling_ranking('서울', -1) # 서울 하위 25개

Unnamed: 0,지역,평당가(만원)
0,서울 금천구 시흥동,1697
1,서울 강서구 화곡동,1672
2,서울 종로구 신영동,1672
3,서울 은평구 신사동,1671
4,서울 구로구 개봉동,1662
5,서울 종로구 혜화동,1645
6,서울 강북구 번동,1645
7,서울 구로구 항동,1630
8,서울 광진구 중곡동,1605
9,서울 구로구 오류동,1545


In [4]:
crawling_ranking('부산', 1) # 부산 상위 25개

Unnamed: 0,지역,평당가(만원)
0,부산 부산진구 범전동,2663
1,부산 수영구 남천동,2177
2,부산 해운대구 우동,2019
3,부산 동래구 칠산동,1989
4,부산 동래구 명륜동,1738
5,부산 해운대구 중동,1585
6,부산 서구 서대신동1가,1548
7,부산 수영구 수영동,1483
8,부산 수영구 민락동,1471
9,부산 금정구 장전동,1460


In [5]:
crawling_ranking('부산', -1) # 부산 하위 25개

Unnamed: 0,지역,평당가(만원)
0,부산 서구 동대신동3가,670
1,부산 영도구 영선동3가,670
2,부산 금정구 서동,670
3,부산 영도구 대교동2가,664
4,부산 사상구 학장동,658
5,부산 사하구 다대동,615
6,부산 금정구 금사동,604
7,부산 사하구 신평동,598
8,부산 서구 충무동2가,594
9,부산 영도구 청학동,581


In [6]:
seoul = pd.concat([crawling_ranking('서울', 1),crawling_ranking('서울', -1)], ignore_index=True)
seoul # 서울의 상위 25개와 하위 25개를 병합(50개)

Unnamed: 0,지역,평당가(만원)
0,서울 강남구 개포동,6556
1,서울 서초구 반포동,6403
2,서울 강남구 압구정동,6335
3,서울 서초구 잠원동,6167
4,서울 종로구 교북동,5852
5,서울 송파구 잠실동,5605
6,서울 강남구 일원동,5504
7,서울 강남구 수서동,5366
8,서울 종로구 홍파동,5254
9,서울 종로구 평동,5142


In [7]:
busan = pd.concat([crawling_ranking('부산', 1),crawling_ranking('부산', -1)], ignore_index=True)
busan # 부산의 상위 25개와 하위 25개를 병합(50개)

Unnamed: 0,지역,평당가(만원)
0,부산 부산진구 범전동,2663
1,부산 수영구 남천동,2177
2,부산 해운대구 우동,2019
3,부산 동래구 칠산동,1989
4,부산 동래구 명륜동,1738
5,부산 해운대구 중동,1585
6,부산 서구 서대신동1가,1548
7,부산 수영구 수영동,1483
8,부산 수영구 민락동,1471
9,부산 금정구 장전동,1460
