# 크롤링 (Crawling)

- 크롤링이란 웹사이트에서 실시간으로 정보를 가져오는 것으로 스크래핑이라고도 불림
- 웹사이트는 HTML 문서로 작성되어 있고, 이 내용을 가져오도록 요청(request)해야함
- 크롤링을 위해서는 HTML, CSS 등의 웹을 구성하는 언어에 대한 이해가 필요

## 크롤링을 위한 준비
- 필요한 파이썬 모듈
    - BeautifulSoup
    - requests
    - Selenium (이 모듈은 다음 시간에 활용)
- 크롬
- 크롬 드라이버

# BeautifulSoup이란?
- 크롤링을 하는 기본적인 과정은 HTML로 이루어진 웹사이트에서 태그(Tag)에 접근하여 원하는 부분을 가져오는 과정임
- BeautifulSoup은 HTML 태그에 접근하기 쉽게 해주는 모듈

# BeutifulSoup 모듈을 이용한 크롤링

In [121]:
# 라이브러리 불러오기
from bs4 import BeautifulSoup

In [124]:
# HTML 문서의 예시
html_doc = """
<html><head><title>The Dormouse's story</title></head>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
html_doc

'\n<html><head><title>The Dormouse\'s story</title></head>\n\n<p class="title"><b>The Dormouse\'s story</b></p>\n\n<p class="story">Once upon a time there were three little sisters; and their names were\n<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,\n<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and\n<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;\nand they lived at the bottom of a well.</p>\n\n<p class="story">...</p>\n'

## 1. BeautifulSoup object 만들기
- BeautifulSoup이 HTML 태그에 접근할 수 있는 형태로 만들어주는 과정

In [140]:
soup = BeautifulSoup(html_doc, "html.parser")
soup


<html><head><title>The Dormouse's story</title></head>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</html>

In [141]:
# HTML 파일을 가독성이 좋은 형태로 보기 (구조 파악에 용이)
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <p class="title">
  <b>
   The Dormouse's story
  </b>
 </p>
 <p class="story">
  Once upon a time there were three little sisters; and their names were
  <a class="sister" href="http://example.com/elsie" id="link1">
   Elsie
  </a>
  ,
  <a class="sister" href="http://example.com/lacie" id="link2">
   Lacie
  </a>
  and
  <a class="sister" href="http://example.com/tillie" id="link3">
   Tillie
  </a>
  ;
and they lived at the bottom of a well.
 </p>
 <p class="story">
  ...
 </p>
</html>


## 2. HTML 태그(Tag)에 접근하기

In [135]:
# <title>에 접근 (title 태그)
soup.title

<title>The Dormouse's story</title>

In [190]:
# <a>에 접근 (a 태그)
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [192]:
# <p>에 접근 (p 태그)
soup.p

<p class="title"><b>The Dormouse's story</b></p>

## 3. 글자만 가져오기
- `.get_text()`
- `.text`

In [180]:
# 글자만 뽑기
soup.title.get_text()

"The Dormouse's story"

In [181]:
# 또는
soup.title.text

"The Dormouse's story"

In [179]:
# 문서의 모든 텍스트 가져오기
soup.get_text()

"\nThe Dormouse's story\nThe Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n...\n"

## 4. 원하는 부분 가져오기
- `.find("태그명")` : 태그가 "태그명"인 첫번째 태그를 가져옴
- `.find("태그명", "class명")` : 태그가 "태그명"이고 class가 "class명"인 첫번째 태그를 가져옴
- `.find_all("태그명")` : 태그가 "태그명"인 모든 태그를 가져옴 (리스트로 가져옴)
- `.find_all("태그명", "class명")` : 태그가 "태그명"이고 class가 "class명"인 모든 태그를 가져옴 (리스트로 가져옴)

In [166]:
# p 태그 중 첫 번쨰만 가져오기
soup.find("p")

<p class="title"><b>The Dormouse's story</b></p>

In [167]:
# class가 "title"인 첫 번째 p 태그 가져오기
soup.find("p", "title")

<p class="title"><b>The Dormouse's story</b></p>

In [168]:
# p 태그 모두 가져오기
soup.find_all("p")

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [188]:
len(soup.find_all("p"))

3

In [171]:
# class가 "title"인 p 태그 모두 가져오기
soup.find_all("p", "title")

[<p class="title"><b>The Dormouse's story</b></p>]

In [186]:
# p 태그의 모든 글자 가져오기
for i in soup.find_all("p"):
    print(i.get_text())

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...


In [187]:
# p 태그의 모든 글자를 가져와서 리스트에 담기 - list comprehension 활용
[i.get_text() for i in soup.find_all("p")]

["The Dormouse's story",
 'Once upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.',
 '...']

## 5. CSS selector로 값 가져오기
- `.select()` : 태그, 클래스, id로 검색이 가능
    - class : `.class명`
    - id : `#id명`

In [182]:
# 태그로 검색
soup.select("title")

[<title>The Dormouse's story</title>]

In [183]:
# 태그로 순차적으로도 접근이 가능
soup.select("head > title")

[<title>The Dormouse's story</title>]

In [184]:
# 클래스가 "sister"인 태그 모두 가져오기
soup.select(".sister")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [185]:
# id가 "link1"인 태그 모두 가져오기
soup.select("#link1")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

In [189]:
# 클래스가 "sister"인 태그에서 글자만 가져오기
[i.get_text() for i in soup.select(".sister")]

['Elsie', 'Lacie', 'Tillie']

## Reference
- [한글 공식문서](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ko/)