<p style="font-family:verdana;font-size:200%;text-align:center;">Web Crawling Demo</p>

- 아래 링크로 접속하여 화면 상단에 있는 검색창에 관심 있는 메뉴로 검색한 첫 페이지를 수집합니다.
- 링크 : https://www.diningcode.com/

## HTTP 요청 실행

In [1]:
# 관련 라이브러리를 호출합니다.
import requests

In [2]:
# 요청 URL을 설정합니다.
url = 'https://www.diningcode.com/list.php'

In [3]:
# 검색어 설정합니다.
search = '육회'

In [4]:
# URL 인코딩 처리 결과를 확인합니다.
# [참고] 사이트마다 한글 인코딩 방식이 다르며, 이 사이트는 한글로 검색할 수 있습니다.
requests.utils.quote(string = search)

'%EC%9C%A1%ED%9A%8C'

In [5]:
# Query String을 딕셔너리로 생성합니다.
# [참고] 파라미터가 2개 이상이면 콤마로 연결합니다.
query = {'query': search}

In [6]:
# HTTP 요청을 실행합니다.
res = requests.get(url = url, params = query)

In [7]:
dir(res)

['__attrs__',
 '__bool__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__nonzero__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_content',
 '_content_consumed',
 '_next',
 'apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

## HTTP 응답 확인

In [8]:
# HTTP 응답 상태코드를 확인합니다.
# 200이면 정상입니다.
res.status_code

200

In [9]:
# HTTP 응답 헤더를 확인합니다.
# [참고] Content-Type이 'html'입니다.
res.headers

{'Date': 'Wed, 14 Apr 2021 04:45:33 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Content-Length': '13539', 'Connection': 'keep-alive', 'Cache-Control': 'no-store, no-cache, must-revalidate, post-check=0, pre-check=0', 'Pragma': 'no-cache', 'Content-Encoding': 'gzip', 'Expires': 'Thu, 19 Nov 1981 08:52:00 GMT', 'Vary': 'Accept-Encoding', 'Server': 'Microsoft-IIS/8.0', 'X-Powered-By': 'PHP/5.6.16', 'Set-Cookie': 'PHPSESSID=ssqfidhbpcvkr5jrhhgbke41e0; path=/, dcadid=WKLEIY1618375533; expires=Tue, 08-Feb-2022 04:45:33 GMT; Max-Age=25920000; path=/; domain=.diningcode.com'}

In [10]:
# HTTP 요청 URL만 확인합니다.
# [참고] 요청 URL을 웹 브라우저에서 실행했을 때 화면이 열려야 정상입니다.
res.url

'https://www.diningcode.com/list.php?query=%EC%9C%A1%ED%9A%8C'

In [11]:
# HTTP 응답 Body를 문자열(str)로 출력합니다.
res.text

'\ufeff<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n<meta content="text/html; charset=utf-8" http-equiv="Content-Type">\r\n<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0" />\r\n<meta content=kr name=content-language>\r\n<meta content="IE=Edge" http-equiv="X-UA-Compatible">\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\r\n<meta name="description" content="\'육회\' 맛집 육회자매집(육회, ★4.0), 어머니 대성집(육회비빔밥, ★4.2), 함양집(육회, ★4.0) 등 4,039곳의 전체 순위,식당정보,방문자리뷰,사진 등을 확인하세">\r\n<meta property="fb:app_id" content="347023355469829"/>\r\n<meta property="og:title" content="\'육회\' 빅데이터 맛집 순위 Top100 - 다이닝코드" />\r\n<meta property="og:url" content="https://www.diningcode.com/list.php?query=%EC%9C%A1%ED%9A%8C"/>\r\n<meta property="og:site_name" content="다이닝코드"/>\r\n<meta property="og:description" content="\'육회\' 맛집 육회자매집(육회, ★4.0), 어머니 대성집(육회비빔밥, ★4.2), 함양집(육회, ★4.0) 등 4,039곳의 전체 순위,식당정보,방문자리뷰,사진 등을 확인하세"/>\r\n<meta property="og:image" content="https

In [12]:
# res.text의 클래스를 확인합니다.
type(res.text)

str

## 필요한 데이터 수집

- HTTP 응답 Body는 str이지만, 필요한 데이터만 선택하려면 HTML로 변경해야 합니다.
- HTML Parsing은 구문을 분석하여 트리 구조를 생성하는 것을 의미합니다.

### HTML Parsing

In [None]:
# 관련 라이브러리를 호출합니다.
from bs4 import BeautifulSoup as bts

In [None]:
# str 자료형을 bs4.BeautifulSoup 자료형으로 변환합니다.
# [참고] bs4.BeautifulSoup 자료형으로 변환되면 HTML 요소를 쉽게 찾을 수 있습니다.
soup = bts(markup = res.text, features = 'html.parser')

In [None]:
# soup의 클래스를 확인합니다.
type(soup)

In [None]:
# soup을 출력합니다.
soup

### HTML의 텍스트를 리스트로 저장하는 사용자 정의 함수 생성

In [None]:
# 식당의 기본 정보를 포함하는 HTML 요소를 선택하고 items에 할당합니다.
# [참고] select() 방식에 css selector를 지정하면 해당 HTML 요소만 선택합니다.
# [참고] HTML 요소는 크롬 개발자도구의 Elements 탭에서 찾습니다.
items = soup.select(selector = 'ul#div_list > li > a')

In [None]:
# items의 길이를 확인합니다.
len(items)

In [None]:
# items의 첫 번째 원소만 출력합니다.
items[0]

In [None]:
# 크롬 개발자도구에서 식당명을 포함하는 HTML 요소를 찾아 css에 할당합니다.
css = 'span.btxt'

In [None]:
# items의 첫 번째 원소에서 css로 식당명을 선택합니다.
# [참고] 코드 실행 결과가 리스트로 반환됩니다.
# 실제로는 bs4.element.ResultSet 자료형입니다.
items[0].select(selector = css)

In [None]:
# 위 코드를 실행한 결과의 클래스를 확인합니다.
type(items[0].select(selector = css))

In [None]:
# 위 코드를 실행한 결과의 첫 번째 원소의 클래스를 확인합니다.
type(items[0].select(selector = css)[0])

In [None]:
# 첫 번째 원소에서 텍스트만 반환합니다.
# [참고] Tag.text 또는 Tag.get_text() 방식은 텍스트를 반환합니다.
items[0].select(selector = css)[0].text

In [None]:
# 리스트 컴프리헨션을 이용하여 items의 모든 원소에 포함된 식당명을 리스트로 반환합니다.
[item.select(selector = css)[0].text for item in items]

In [None]:
# 리스트 컴프리헨션을 사용하여 HTML 요소의 텍스트를 반환하는 사용자 정의 함수를 생성합니다.
# [참고] 사용자 정의 함수를 'getHtmlData.py' 파일로 저장하여 필요할 때마다 호출합니다.
def getText(x, css):
    return [i.select(selector = css)[0].text for i in x]

### 식당의 기본 정보 수집

In [None]:
# 식당명을 리스트로 저장합니다.
name = getText(x = items, css = 'span.btxt')
print(name)

In [None]:
# 메뉴를 리스트로 저장합니다.
menu = getText(x = items, css = 'span.stxt')
print(menu)

In [None]:
# 한 줄 소개를 리스트로 저장합니다.
feat = getText(x = items, css = 'span.ctxt')
print(feat)

In [None]:
# 주소를 리스트로 저장합니다.
# [참고] 주소를 포함하는 HTML 요소 'span.ctxt'가 중복됩니다.
# 따라서 span:nth-child(5)를 대신 사용해야 합니다.
# Windows는 nth-child() 대신 nth-of-type()을 사용합니다.
addr = getText(x = items, css = 'span:nth-of-type(5)')
print(addr)

In [None]:
# 주소에서 상권만 별도로 선택하여 리스트로 저장합니다.
# [참고] 상권은 i 태그에 포함되어 있습니다.
area = getText(x = items, css = 'span:nth-of-type(5) > i')
print(area)

In [None]:
# 주소를 포함하는 HTML 요소에서 i 태그만 삭제하여 items를 업데이트합니다.
# [참고] decompose()는 해당 HTML 요소를 삭제한 결과를 재할당합니다.
css = 'span:nth-of-type(5) > i'
[item.select(selector = css)[0].decompose() for item in items]

In [None]:
# items의 첫 번째 원소만 다시 출력해보면 i 태그가 삭제되었습니다.
items[0]

In [None]:
# 주소를 리스트로 저장합니다.
addr = getText(x = items, css = 'span:nth-of-type(5)')
print(addr)

### 식당의 평가 정보 수집

In [None]:
# 식당의 평가 정보를 포함하는 HTML 요소만 선택하고 rates에 할당합니다.
rates = soup.select(selector = 'ul#div_list > li > p')

In [None]:
# rates의 길이를 확인합니다.
len(rates)

In [None]:
# 하트 개수를 리스트로 저장합니다.
favor = getText(x = rates, css = 'span.favor')
print(favor)

In [None]:
# 리뷰 개수를 리스트로 저장합니다.
review = getText(x = rates, css = 'span.review')
print(review)

In [None]:
# 평가 점수를 리스트로 저장합니다.
point = getText(x = rates, css = 'span.point')
print(point)

## 데이터프레임으로 저장

In [None]:
# 관련 라이브러리를 호출합니다.
import pandas as pd

In [None]:
# 수집한 내용을 딕셔너리로 만들고, 데이터프레임을 생성합니다.
df = pd.DataFrame(
    data = {'이름': name, 
            '메뉴': menu, 
            '특징': feat, 
            '상권': area, 
            '주소': addr, 
            '하트': favor, 
            '리뷰': review, 
            '점수': point}
)

In [None]:
# 데이터프레임을 출력합니다.
df

<p style="font-family:verdana;font-size:200%;text-align:center;">End of Document</p>