# 웹 크롤링 기본

* 크롤링 사이트: https://www.tripadvisor.co.kr/Restaurants-g294197-Seoul.html
* robots.txt:  https://www.tripadvisor.co.kr/robots.txt


### 크롤링 절차

1. 사이트의 html을 읽어들이기: requests.get(url) 사용
    
2. 텍스트 형태의 데이터를 html 태그별로 구분하여 파싱하기 : BeutifulSoup

3. 특정 태그값만 찾기 : findAll, find

4. 필요한 데이터값 정제하기

5. 데이터 저장하기

In [1]:
from bs4 import BeautifulSoup     # 웹데이터를 파싱할때 쓰는 beautifulsoup
import requests                   # 서버로 html 문서를 요청할때 쓰는 패키지가 requests
import pandas as pd               # pandas 데이터 전처리를 쉽게하는 dataframe 패키지

In [2]:
url = 'https://www.tripadvisor.co.kr/Restaurants-g294197-Seoul.html'
# 요청할 웹 주소

In [3]:
response = requests.get(url)  
# 서버에 html 요청
# requests라는 모듈에서 get을 사용하고 여기서 url에 해당하는 html을 받아오고 response에 반환해라

In [4]:
response
# 200: 성공했다는 의미

<Response [200]>

In [None]:
response.text
# response안에 있는 text를 보고싶을때 쓰는 메서드 .text

In [5]:
# bs4를 사용해서 사람이 보기 좋게 데이터 파싱을 함
# 위에 보기 어려웠던 텍스트를 'html.parser'이라는 파서를 통해 보기 좋게 파싱 해줘

soup = BeautifulSoup(response.text, 'lxml')

In [None]:
soup

In [11]:
# 복잡한 hmtl 문서에서 전체 중 div 태그를 찾아줘~ 근데 거기 클래스 명은 wQYIBZ인 애를 데려와줘
# div 태그 안에 클래스 값이 wQJYIB7z인 값을 모두 찾아줘!

lists = soup.findAll('div', {'class':'_2Hb-Mt7l'})

In [12]:
# 찾으라고 한 애들을 리스트 형태로 보여주네!  lists이긴 하지만 처음에 list 타입은 아니었음
lists

[]

In [None]:
# lists 안에 있는 값들을 하나씩 개별적으로 출력해보자!

for item in lists:
    print('----')
    print(item)
    print('----')
    print("")

In [None]:
for item in lists:
    print(item.text)      # 각 아이팀에 있는 애들 중 텍스트만 뽑아서 볼래

상세 정보를 볼 수 있는 url을 불러보자

In [7]:
# lists 중에서 각 아이템을 item에 담을께 
for item in lists:
    #근데 이 아이템 중 a 태그에서 주소만 뽑을래, a태그가 하이퍼링크가 저장되어 있는 주소여서
    print(item.find('a').get('href'))

In [8]:
# lists 중에서 각 아이템을 item에 담을께 
for item in lists:
    #근데 이 아이템 중 a 태그에서 주소만 뽑을래, a태그가 하이퍼링크가 저장되어 있는 주소여서
    print('https://www.tripadvisor.co.kr'+item.find('a').get('href'))
    # a태그 주소는 상세 페이지로 들어가는 주소이고 앞에 트립어드바이저 고유주소를 더해주면 하이퍼링크형태로 나타남

In [None]:
# 음식점 이름 | 사이트 주소 데이터 프레임을 만들어 보기

In [9]:
name_list=[]
url_list=[]
for item in lists:
    name = item.text
    url = 'https://www.tripadvisor.co.kr' + item.find('a').get('href')
    name_list.append(name)
    url_list.append(url)

In [None]:
#print(name_list)
#print(url_list)

In [10]:
df = pd.DataFrame(data={'음식점 주소': name_list, 'url주소': url_list})
df

Unnamed: 0,음식점 주소,url주소


# 최종코드

In [3]:
from bs4 import BeautifulSoup     # 웹데이터를 파싱할때 쓰는 beautifulsoup
import requests                   # 서버로 html 문서를 요청할때 쓰는 패키지가 requests
import pandas as pd               # pandas 데이터 전처리를 쉽게하는 dataframe 패키지

url = 'https://www.tripadvisor.co.kr/Restaurants-g294197-Seoul.html'
# 요청할 웹 주소

response = requests.get(url)  
# 서버에 html 요청
# requests라는 모듈에서 get을 사용하고 여기서 url에 해당하는 html을 받아오고 response에 반환해라

response
# 200: 성공했다는 의미

response.text
# response안에 있는 text를 보고싶을때 쓰는 메서드 .text

# - bs4를 사용해서 사람이 보기 좋게 데이터 파싱을 함
# - 위에 보기 어려웠던 텍스트를 'html.parser'이라는 파서를 통해 보기 좋게 파싱 해줘

soup = BeautifulSoup(response.text, 'lxml')

# - 복잡한 hmtl 문서에서 전체 중 div 태그를 찾아줘~ 근데 거기 클래스 명은 wQYIBZ인 애를 데려와줘
# - div 태그 안에 클래스 값이 wQJYIB7z인 값을 모두 찾아줘!

lists = soup.findAll('div', {'class':'wQjYiB7z'})

# - 찾으라고 한 애들을 리스트 형태로 보여주네!  lists이긴 하지만 처음에 list 타입은 아니었음
lists

# - lists 안에 있는 값들을 하나씩 개별적으로 출력해보자!
# for item in lists:       
#     print('----')
#     print(item)
#     print('----')
#     print("")

# - 각 아이팀에 있는 애들 중 텍스트만 뽑아서 볼래
# for item in lists:
#     print(item.text)      

# - 상세 정보를 볼 수 있는 url을 불러보자

# - lists 중에서 각 아이템을 item에 담을께 
# for item in lists:
#     #근데 이 아이템 중 a 태그에서 주소만 뽑을래, a태그가 하이퍼링크가 저장되어 있는 주소여서
#     print(item.find('a').get('href'))

# - lists 중에서 각 아이템을 item에 담을건데 이 아이템 중 a 태그에서 주소만 뽑을래 
# - a태그가 하이퍼링크가 저장되어 있는 주소여서
# for item in lists:
#     print('https://www.tripadvisor.co.kr'+item.find('a').get('href'))

# a태그 주소는 상세 페이지로 들어가는 주소이고 앞에 트립어드바이저 고유주소를 더해주면 하이퍼링크형태로 나타남

# - 음식점 이름 | 사이트 주소 데이터 프레임을 만들어 보기

name_list=[]
url_list=[]
for item in lists:
    name = item.text
    url = 'https://www.tripadvisor.co.kr' + item.find('a').get('href')
    name_list.append(name)
    url_list.append(url)

df = pd.DataFrame(data={'음식점 주소': name_list, 'url주소': url_list})
df

Unnamed: 0,음식점 주소,url주소
0,1. 플레이버즈,https://www.tripadvisor.co.kr/Restaurant_Revie...
1,2. 프리빌리지 바,https://www.tripadvisor.co.kr/Restaurant_Revie...
2,3. 클레오,https://www.tripadvisor.co.kr/Restaurant_Revie...
3,4. 구스토 타코,https://www.tripadvisor.co.kr/Restaurant_Revie...
4,5. 지화자,https://www.tripadvisor.co.kr/Restaurant_Revie...
5,6. 853,https://www.tripadvisor.co.kr/Restaurant_Revie...
6,7. 헴라갓,https://www.tripadvisor.co.kr/Restaurant_Revie...
7,8. 더그리핀바,https://www.tripadvisor.co.kr/Restaurant_Revie...
8,9. 장생건강원,https://www.tripadvisor.co.kr/Restaurant_Revie...
9,10. 최고집 홍대점,https://www.tripadvisor.co.kr/Restaurant_Revie...


# 실습해보기

In [None]:
# 실습 하고 싶은거 해보자

In [None]:
url2 = 'https://www.tripadvisor.co.kr/Attractions-g294197-Activities-c26-t142-Seoul.html#ATTRACTION_SORT_WRAPPER'
result = requests.get(url2)
result

In [None]:
result.text

In [None]:
soup = BeautifulSoup(result.text, 'html.parser')
soup

In [None]:
name_list = []
lists = soup.findAll('div', {'class' : '_1gpq3zsA _1zP41Z7X'})
for i in lists:
    name=i.text
    name_list.append(name)
name_list

In [None]:
link_list = []
lists = soup.findAll('div', {'class' : '_3W_31Rvp _1nUIPWja _1l7Rsl_O _3ksqqIVm _2b3s5IMB'})
for i in lists:
    link=i.find('a').get('href')
    link_list.append(link)
link_list

In [None]:
# 크롤링할 웹 사이트 정보
base_url = 'https://www.tripadvisor.co.kr'
seoul_url = '/Restaurants-g294197-Seoul.html'

# get html
response = requests.get(base_url+seoul_url)
# response.text

In [None]:
# BeautifulSoup을 활용하여 데이터 파싱
soup = BeautifulSoup(response.text, 'html.parser')

In [None]:
# 맛집 목록 가져오기
lists = soup.findAll('div', {'class' : 'wQjYiB7z'}) 

for item in lists:
    tem = str(item)

In [None]:
# 데이터 파싱하기
rest_id_list = []
rest_name_list = []
rest_url_list = []

for item in lists:
    # 링크 가져오기
    hrefs = item.find('a')
    href = hrefs.get('href')
    full_url = base_url + href

    # 순위와 이름 분리하기, 광고 제거하기
    #[1 , 장생건강원]
    #[2,  무슨음식점]
    #[광고음식점]
    
    name = item.text.split('.')

    if len(name) == 2:
        rest_id = name[0]
        rest_name = name[1]
        rest_url = full_url
        #데이터 프레임을 만들기 위한 리스트
        rest_id_list.append(rest_id)
        rest_name_list.append(rest_name)
        rest_url_list.append(rest_url)
#         print('[ID]' + rest_id + ' [NAME]' + rest_name + ' [URL]' + rest_url)
        
result = pd.DataFrame(data={'[ID]' : rest_id_list, '[NAME]' : rest_name_list, '[URL]' : rest_url_list})
# print(result)
# result

In [None]:
# (실습1) 추천글

In [None]:
# (실습2) 크롤링할 웹 사이트 정보
# 'https://www.tripadvisor.co.kr/Attractions-g294197-Activities-c26-t142-Seoul.html#ATTRACTION_SORT_WRAPPER'

# 서울소재 벼룩시장 정보 가져오기