# 크롤러와 스크래퍼

- 크롤러 : 알고리즘에 의해 인터넷을 탐색하는 프로그램
- 크롤링 : 크롤러가 웹페이지들을 돌아다니는 행위
- 스크래퍼 : 웹페이지의 데이터를 수집하는 프로그램
- 스크래핑 : 특정 페이지의 데이터를 수집하는 행위
- **통상적으로 크롤링과 스크래핑을 합쳐서 크롤링이라고 표현함**

# 웹 크롤링 방식

1. 정적 크롤링
    - 어느 상황에서나 같은 주소에서 변하지 않은 데이터를 기대할 수 있는 경우
    - 수집 대상에 한계가 있으나 속도가 빠르다
    - BeautifulSoup
2. 동적 크롤링
    - 입력, 클릭 등 실제 브라우저에서 행하는 행동들을 해야만 데이터를 수집할 수 있는 경우
    - 수집 대상에 한계가 적으나 속도가 느리다
    - Selenium

#### DOM - 웹 문서를 브라우저가 이해할 수 있는 구조로 구성하여 메모리에 적재하는 것

# 정적 크롤링 모듈

In [12]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

- BeautifulSoup의 역할 : 요청 모듈로 가져온 HTML 코드를 파이썬이 쓸 수 있는 형태로 변환해주는 역할

In [15]:
url = "http://www.naver.com"
page = urlopen(url)
soup = BeautifulSoup(page, "lxml")

In [17]:
# print(soup)

## 파서

- 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공해주는 프로그램
    - lxml
      - c언어로 구현되어 속도가 가장 빠름
    - html5lib
      - 웹브라우저 형태로 HTML을 분석
      - 속도가 가장 느림
      - 가장 안정적
    - html.parser
      - lxml과 html5lib의 중간 속도

# 속성 데이터

In [61]:
html = """<html> <head><title class="t" id="ti">test site</title></head> <body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>"""

In [63]:
soup = BeautifulSoup(html, "lxml")

In [65]:
soup

<html> <head><title class="t" id="ti">test site</title></head> <body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>

In [67]:
# soup의 첫번째 title 태그
tag_title = soup.title

In [69]:
tag_title

<title class="t" id="ti">test site</title>

In [71]:
# 태그의 속성 가져오기
tag_title.attrs

{'class': ['t'], 'id': 'ti'}

In [73]:
tag_title["class"]

['t']

In [75]:
tag_title["id"]

'ti'

In [77]:
# 키가 없다면 에러 발생
tag_title["class1"]

KeyError: 'class1'

In [79]:
# tag타입은 딕셔너리처럼 접근할 수 있고 딕셔너리 문법을 그대로 적용할 수 있음 
type(tag_title)

bs4.element.Tag

## 태그 접근

- soup.태그이름 의 형태로 첫번째로 등장하는 태그의 정보를 가져올 수 있음

In [82]:
tag_title

<title class="t" id="ti">test site</title>

In [84]:
print(tag_title.text)
print(tag_title.string)

test site
test site


In [86]:
# text와 string의 차이
html2 = """<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>"""
soup2 = BeautifulSoup(html2, "lxml")

tag_p = soup2.p

In [88]:
tag_p

<p><span>test1</span><span>test2</span></p>

In [90]:
data_text = tag_p.text
data_string = tag_p.string

print("text :", data_text, type(data_text))
print("string :", data_string, type(data_string))

text : test1test2 <class 'str'>
string : None <class 'NoneType'>


- text : 하위 태그들의 값도 모두 출력
- string : 정확히 해당 태그에 대한 값만 출력

In [93]:
tag_p.span.string

'test1'

## 원하는 요소에 접근하기

### select()

- 매칭되는 모든 결과를 리스트로 반환

- 클래스는 마침표(.), 아이디는 샵(#)으로, 자식태그는 > 로 표현, 자손태그는 띄어쓰기로 표현

- select_one()으로 하나의 결과만 반환하는 것도 가능

In [103]:
html3 = """<html> <head><title>test site</title></head> <body> <p id="i" class="a">test1</p><p id="d" class="d">test2</p><p class="c">test3</p></p><a>a tag</a> <b>b tag</b></body></html>"""
soup = BeautifulSoup(html3, "lxml")

In [105]:
print(soup.select("p"))    # p 태그들

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]


In [107]:
print(soup.select_one("p"))

<p class="a" id="i">test1</p>


In [109]:
print(soup.select(".d"))    # class가 d인 태그들

[<p class="d" id="d">test2</p>]


In [111]:
print(soup.select("p.d"))    # class가 d인 p태그들

[<p class="d" id="d">test2</p>]


In [113]:
print(soup.select("#i"))    # id가 i인 태그들

[<p class="a" id="i">test1</p>]


In [115]:
print(soup.select("p#i"))    # id가 i인 p태그들

[<p class="a" id="i">test1</p>]
