# **파이썬 웹 스크리핑**
트립닷컴 사이트의 지역별 가볼만한 곳 TOP 20 데이터를 가져와 보았다.

In [117]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import re

In [130]:
# https://kr.trip.com/toplist/tripbest/seoul-best-things-to-do-100200187047/?locale=ko-KR&curr=KRW - 서울
# https://kr.trip.com/toplist/tripbest/incheon-best-things-to-do-100200213450/?locale=ko-KR&curr=KRW - 인천
# https://kr.trip.com/toplist/tripbest/busan-best-things-to-do-100000009409/?locale=ko-KR&curr=KRW - 부산
# https://kr.trip.com/toplist/tripbest/jeju-best-things-to-do-100000012168/?locale=ko-KR&curr=KRW - 제주

In [118]:
# url 확인
url = "https://kr.trip.com/toplist/tripbest/incheon-best-things-to-do-100000026828/"
response = requests.get(url)

In [119]:
# 접속 상태 확인
response.raise_for_status()

In [120]:
# html / lxml 로 불러오기
soup = BeautifulSoup(response.text, 'html.parser')

In [121]:
# 태그 확인
print(soup.title)

<title>2023 인천 가볼만한곳 베스트 20</title>


In [122]:
# 개발자 옵션을 통해 원하는 텍스트 데이터 추출해보기
Text_Target = soup.find("h2", attrs={"class":"HotelItemTitleText-sc-9lfuiu-7 cqmoRq"})
print(Text_Target)

<h2 class="HotelItemTitleText-sc-9lfuiu-7 cqmoRq"><a href="https://kr.trip.com/travel-guide/attraction/incheon/wolmido-10559326/?rankingId=100000026828" title="월미도 인기 명소">월미도<div class="HotelItemRate-sc-9lfuiu-9 fKQgWX"></div></a></h2>


In [123]:
# 텍스트 데이터 불러오기
Text_Target.a.get_text()

'월미도'

In [124]:
# .text로도 확인
print(Text_Target.a.text)

월미도


In [126]:
# find_all 함수를 통해 태그 제목에 공통으로 되어있는 HotelItemTitleText 값으로 텍스트 검색
All_Text_Target = soup.find_all("h2", class_=re.compile(r'^HotelItemTitleText'))
All_Text_Target

[<h2 class="HotelItemTitleText-sc-9lfuiu-7 cqmoRq"><a href="https://kr.trip.com/travel-guide/attraction/incheon/wolmido-10559326/?rankingId=100000026828" title="월미도 인기 명소">월미도<div class="HotelItemRate-sc-9lfuiu-9 fKQgWX"></div></a></h2>,
 <h2 class="HotelItemTitleText-sc-9lfuiu-7 cqmoRq"><a href="https://kr.trip.com/travel-guide/attraction/incheon/chinatown-incheon-96550/?rankingId=100000026828" title="인천 차이나타운 인기 명소">인천 차이나타운<div class="HotelItemRate-sc-9lfuiu-9 fKQgWX"></div></a></h2>,
 <h2 class="HotelItemTitleText-sc-9lfuiu-7 cqmoRq"><a href="https://kr.trip.com/travel-guide/attraction/incheon/incheon-international-airport-65176733/?rankingId=100000026828" title="인천국제공항 인기 명소">인천국제공항<div class="HotelItemRate-sc-9lfuiu-9 fKQgWX"></div></a></h2>,
 <h2 class="HotelItemTitleText-sc-9lfuiu-7 cqmoRq"><a href="https://kr.trip.com/travel-guide/attraction/incheon/songdo-central-park-90331/?rankingId=100000026828" title="송도 센트럴파크 인기 명소">송도 센트럴파크<div class="HotelItemRate-sc-9lfuiu-9 fKQgWX"><

In [127]:
# TOP20 리스트 저장
taget_list = []
for tag in All_Text_Target :
    taget_list.append(tag.text)
taget_list

['월미도',
 '인천 차이나타운',
 '인천국제공항',
 '송도 센트럴파크',
 'Sinpo International Market, Incheon',
 '자유공원',
 'AraMaru Skywalk',
 '송월동 동화마을',
 'CGV Incheon',
 'Shingi Market',
 '인천대교',
 '마이랜드',
 '인천상륙작전기념관',
 '선녀바위',
 'CGV 인천연수',
 '인천대학교 송도캠퍼스',
 '메가박스 송도',
 '롯데시네마 인천아시아드',
 'CGV Gyeyang',
 '경인아라뱃길 시천가람터']

In [128]:
# 인천 페이지의 TOP 20 스크리핑
Sample_Crawling = pd.DataFrame({'인천':taget_list})
Sample_Crawling

Unnamed: 0,인천
0,월미도
1,인천 차이나타운
2,인천국제공항
3,송도 센트럴파크
4,"Sinpo International Market, Incheon"
5,자유공원
6,AraMaru Skywalk
7,송월동 동화마을
8,CGV Incheon
9,Shingi Market


### 인천, 서울, 제주, 부산 가 볼 만한 곳 TOP 20 스크리핑

In [156]:
# 각각의 URL 저장
urls = [
    "https://kr.trip.com/toplist/tripbest/seoul-best-things-to-do-100000001628/?locale=ko-KR&curr=KRW",
    "https://kr.trip.com/toplist/tripbest/incheon-best-things-to-do-100000026828/?locale=ko-KR&curr=KRW",
    "https://kr.trip.com/toplist/tripbest/busan-best-things-to-do-100000009409/?locale=ko-KR&curr=KRW",
    "https://kr.trip.com/toplist/tripbest/jeju-best-things-to-do-100000012168/?locale=ko-KR&curr=KRW"
]


In [165]:
# DataFrame 에 저장할 데이터 딕셔너리로 저장
Frame_Dic = {}
for url in urls:
    # 딕셔너리 key 값
    City = url.split("/")[-2].split('-')[0]
    # URL 요청
    response = requests.get(url)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')
    # 공통된 태그 제목으로 검색
    All_Text_Target = soup.find_all("h2", class_=re.compile(r'^HotelItemTitleText'))
    # 딕셔너리 value 값 저장을 위한 리스트 생성
    taget_list = []
    # TOP 1 ~ 20 까지 리스트에 저장
    for tag in All_Text_Target :
        taget_list.append(tag.text)
   # 지역별 Key : Value 값 저장
    Frame_Dic[City] = taget_list
# 저장된 딕셔너리를 통해 데이터 프레임 생성
Trip_Crawling = pd.DataFrame(Frame_Dic)


seoul
['N서울타워', '명동', '경복궁', '북촌 한옥마을', '명동난타', '코엑스 아쿠아리움', '청계천', '이화여자대학교', '남산 공원', '청와대', '광장시장', '인사동', 'DDP 동대문디자인플라자', '이태원동', '삼청동', '페인터즈 (명보아트홀)', '홍익대학교 서울캠퍼스', '롯데월드', '63빌딩', '별마당 도서관']
{'seoul': ['N서울타워', '명동', '경복궁', '북촌 한옥마을', '명동난타', '코엑스 아쿠아리움', '청계천', '이화여자대학교', '남산 공원', '청와대', '광장시장', '인사동', 'DDP 동대문디자인플라자', '이태원동', '삼청동', '페인터즈 (명보아트홀)', '홍익대학교 서울캠퍼스', '롯데월드', '63빌딩', '별마당 도서관']}
incheon
['월미도', '인천 차이나타운', '인천국제공항', '송도 센트럴파크', 'Sinpo International Market, Incheon', '자유공원', 'AraMaru Skywalk', '송월동 동화마을', 'CGV Incheon', 'Shingi Market', '인천대교', '마이랜드', '인천상륙작전기념관', '선녀바위', 'CGV 인천연수', '인천대학교 송도캠퍼스', '메가박스 송도', '롯데시네마 인천아시아드', 'CGV Gyeyang', '경인아라뱃길 시천가람터']
{'seoul': ['N서울타워', '명동', '경복궁', '북촌 한옥마을', '명동난타', '코엑스 아쿠아리움', '청계천', '이화여자대학교', '남산 공원', '청와대', '광장시장', '인사동', 'DDP 동대문디자인플라자', '이태원동', '삼청동', '페인터즈 (명보아트홀)', '홍익대학교 서울캠퍼스', '롯데월드', '63빌딩', '별마당 도서관'], 'incheon': ['월미도', '인천 차이나타운', '인천국제공항', '송도 센트럴파크', 'Sinpo International Market, Incheon', '자유공원', 'AraMaru

In [166]:
# 서울, 인천, 부산, 제주의 여행지 TOP 20
Trip_Crawling

Unnamed: 0,seoul,incheon,busan,jeju
0,N서울타워,월미도,감천문화마을,우도
1,명동,인천 차이나타운,해운대해수욕장,한라산 국립공원
2,경복궁,인천국제공항,SEA LIFE 부산 아쿠아리움,제주난타전용관
3,북촌 한옥마을,송도 센트럴파크,해동용궁사,용두암
4,명동난타,"Sinpo International Market, Incheon",부산 광안리 해수욕장,에코랜드
5,코엑스 아쿠아리움,자유공원,다이아몬드타워 (부산타워),BAOJIAN STREET
6,청계천,AraMaru Skywalk,남포동,산굼부리
7,이화여자대학교,송월동 동화마을,용두산공원,월정리 갈비밥
8,남산 공원,CGV Incheon,태종대유원지,함덕해수욕장
9,청와대,Shingi Market,광안대교,제주 러브랜드


In [167]:
# 인덱스 번호를 통해 순위 표기
Trip_Crawling.index = Trip_Crawling.index + 1
Trip_Crawling

Unnamed: 0,seoul,incheon,busan,jeju
1,N서울타워,월미도,감천문화마을,우도
2,명동,인천 차이나타운,해운대해수욕장,한라산 국립공원
3,경복궁,인천국제공항,SEA LIFE 부산 아쿠아리움,제주난타전용관
4,북촌 한옥마을,송도 센트럴파크,해동용궁사,용두암
5,명동난타,"Sinpo International Market, Incheon",부산 광안리 해수욕장,에코랜드
6,코엑스 아쿠아리움,자유공원,다이아몬드타워 (부산타워),BAOJIAN STREET
7,청계천,AraMaru Skywalk,남포동,산굼부리
8,이화여자대학교,송월동 동화마을,용두산공원,월정리 갈비밥
9,남산 공원,CGV Incheon,태종대유원지,함덕해수욕장
10,청와대,Shingi Market,광안대교,제주 러브랜드
