# 정적 크롤링 모듈

In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

- 요청 모듈로 가져온 HTML 코드를 파이썬이 쓸 수 있는 형태로 변환해주는 역할

In [5]:
url = "https://www.naver.com"

page = urlopen(url)

soup = BeautifulSoup(page, "html.parser")

In [6]:
print(soup)

 <!DOCTYPE html>
 <html class="fzoom" lang="ko"> <head> <meta charset="utf-8"/> <meta content="origin" name="Referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <title>NAVER</title> <meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots"> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 

## 파서

- 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공해주는 프로그램

    - lxml
        - 속도가 가장 빠름
     
    - html5lib
        - 속도가 가장 느림
        - 가장 안정적
     
    - html.parser
        - lxml과 html5lib의 중간 속도

## 속성 데이터

In [7]:
html = """<html> <head><title class="t" id="ti">test site</title></head> <body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>"""

- html
    - head
        - title
    - body
        - p
        - p
        - p

In [8]:
soup = BeautifulSoup(html, "lxml")

In [9]:
tag_title = soup.title

In [10]:
print(tag_title)

<title class="t" id="ti">test site</title>


In [11]:
# 태그의 속성 가져오기
print(tag_title.attrs)

{'class': ['t'], 'id': 'ti'}


In [12]:
print(tag_title["class"])
print(tag_title["id"])

['t']
ti


In [13]:
# 키가 없으면 에러 발생
print(tag_title["class1"])

KeyError: 'class1'

In [15]:
# Tag 타입은 딕셔너리처럼 접근할 수 있고, 딕셔너리 문법을 그대로 적용할 수 있음
type(tag_title)

bs4.element.Tag

### 태그 접근

- soup.태그명 의 형태로 첫 번째로 등장하는 태그의 정보를 가져올 수 있음

In [16]:
print(tag_title)

<title class="t" id="ti">test site</title>


In [17]:
print(tag_title.text)
print(tag_title.string)

test site
test site


In [18]:
html = """<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>"""

- html
    - head
        - title
    - body
        - p
            - span
            - span

In [19]:
soup = BeautifulSoup(html, "lxml")

In [20]:
tag_p = soup.p
tag_p

<p><span>test1</span><span>test2</span></p>

In [21]:
data_text = tag_p.text
data_string = tag_p.string

print("text : ", data_text, type(data_text))
print("string : ", data_string, type(data_string))

text :  test1test2 <class 'str'>
string :  None <class 'NoneType'>


- text
    - 하위 태그들의 값도 모두 출력
 
- string
    - 정확히 해당 태그에 대한 값만 출력

In [23]:
tag_p.span.string

'test1'

## 원하는 요소에 접근하기

### find_all()

- 원하는 태그들을 리스트 형태로 가져오기

In [24]:
html = """<html> <head><title>test site</title></head> <body> <p id="i" class="a">test1</p><p id="d" class="d">test2</p><p class="c">test3</p></p><a>a tag</a> <b>b tag</b></body></html>"""

- html
    - head
        - title
    - body
        - p
        - p
        - p
        - a
        - b

In [25]:
soup = BeautifulSoup(html, "lxml")

In [26]:
soup.find_all("title")

[<title>test site</title>]

In [27]:
soup.find_all("p")

[<p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>]

- id값으로 태그 가져오기

In [28]:
soup.find_all(id = "d")

[<p class="d" id="d">test2</p>]

- 원하는 태그, 원하는 id값으로 태그 가져오기

In [29]:
print(soup.find_all("p", id = "d"))
print(soup.find_all("p", id = "c"))

[<p class="d" id="d">test2</p>]
[]


- 원하는 태그, 원하는 클래스 값으로 태그 가져오기

In [30]:
print(soup.find_all("p", class_ = "d"))
print(soup.find_all("p", class_ = "c"))

[<p class="d" id="d">test2</p>]
[<p class="c">test3</p>]


- limit으로 가져오는 태그 수 제한

In [34]:
print(soup.find_all("p", limit = 1))
print(soup.find_all("p", limit = 2))
print(soup.find_all("p", limit = 4)) # 태그의 양보다 많아도 에러를 발생시키지 않음

[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]


- find_all() 연속으로 사용하기

In [35]:
tag_body = soup.find_all("body")
print(tag_body)

[<body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body>]


In [37]:
tag_body[0].find_all("p")

[<p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>]

### find()

- 하나의 요소만 가져옴

- 찾고자 하는 요소가 하나만 있을 때 사용
    - 예) id값으로 접근

In [38]:
soup.find("p")

<p class="a" id="i">test1</p>

In [39]:
print(soup.find("p", class_ = "d"))
print(soup.find("p", id = "i"))

<p class="d" id="d">test2</p>
<p class="a" id="i">test1</p>


In [41]:
# 연속으로 find() 사용
soup.find("body").find("p", class_ = "d")

<p class="d" id="d">test2</p>

### select()

- find_all() 과 마찬가지로 매칭되는 모든 결과를 리스트로 반환

- 클래스는 마침표(.), 아이디는 샵(#)으로, 자식태그는 > 로, 자손태그는 띄어쓰기로 표현

- select_one() 으로 하나의 결과만 반환하는 것도 가능

In [46]:
print(soup.select("p")) # p태그들
print(soup.select(".d")) # 클래스가 d인 태그들
print(soup.select("p.d")) # 클래스가 d인 p태그들
print(soup.select("#i")) # 아이디가 i 인 태그들
print(soup.select("p#i")) # 아이디가 i인 p태그들

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]
[<p class="d" id="d">test2</p>]
[<p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>]


In [47]:
html = """<html> <head><title>test site</title></head> <body> <div><p id="i" class="a">test1</p><p class="d">test2</p></div><p class="d">test3</p></p> <a>a tag</a> <b>b tag</b></body></html>"""

- html
    - head
        - title
    - body
        - div
            - p
            - p
        - p
        - a
        - b

In [48]:
soup = BeautifulSoup(html, "lxml")

In [54]:
print(soup.select("body p")) # body의 자손인 p태그들
print(soup.select("body > p")) # body의 자식인 p태그들
print(soup.select("body p.d")) # body의 자손이면서 클래스가 d인 p태그들
print(soup.select("body > p.d")) # body의 자식이면서 클래스가 d인 p태그들
print(soup.select("body p#i")) # body의 자손이면서 아이디가 i인 p태그들
print(soup.select("div p")) # div의 자손인 p태그들

[<p class="a" id="i">test1</p>, <p class="d">test2</p>, <p class="d">test3</p>]
[<p class="d">test3</p>]
[<p class="d">test2</p>, <p class="d">test3</p>]
[<p class="d">test3</p>]
[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>, <p class="d">test2</p>]


## 웹 크롤링 허용 문제

- 모든 사이트에는 웹 크롤링 권한에 관해 명시한 페이지가 있음
    - 사이트 url 끝에 robots.txt 를 붙여서 확인
        - 예) http://www.google.com/robots.txt
        - Disallow : 허용되지 않는 경로
        - Allow : 크롤링을 허용하는 경로

## 예제1. 티스토리 크롤링

In [2]:
url = "https://ai-dev.tistory.com/1"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [3]:
soup

<!DOCTYPE html>
<html lang="ko">
<head>
<script type="text/javascript">if (!window.T) { window.T = {} }
window.T.config = {"TOP_SSL_URL":"https://www.tistory.com","PREVIEW":false,"ROLE":"guest","PREV_PAGE":"","NEXT_PAGE":"","BLOG":{"id":4442027,"name":"ai-dev","title":"인공지능 개발의 모든 것","isDormancy":false,"nickName":"로스카츠","status":"open","profileStatus":"normal"},"NEED_COMMENT_LOGIN":false,"COMMENT_LOGIN_CONFIRM_MESSAGE":"","LOGIN_URL":"https://www.tistory.com/auth/login/?redirectUrl=https://ai-dev.tistory.com/1","DEFAULT_URL":"https://ai-dev.tistory.com","USER":{"name":null,"homepage":null,"id":0,"profileImage":null},"SUBSCRIPTION":{"status":"none","isConnected":false,"isPending":false,"isWait":false,"isProcessing":false,"isNone":true},"IS_LOGIN":false,"HAS_BLOG":false,"IS_SUPPORT":false,"IS_SCRAPABLE":false,"TOP_URL":"http://www.tistory.com","JOIN_URL":"https://www.tistory.com/member/join","PHASE":"prod","ROLE_GROUP":"visitor"};
window.T.entryInfo = {"entryId":1,"isAuthor":false,"categ

### 제목 수집

In [58]:
soup.select_one("div.hgroup > h1").string

'크롤링의 세계에 오신 것을 환영합니다. '

### 게시물 내용 수집

In [7]:
soup.select_one("div.tt_article_useless_p_margin.contents_style > p").string

'Hello, world!'

## 예제2. 티스토리 크롤링

In [8]:
url = "https://ai-dev.tistory.com/2"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

### 테이블 내용 수집

In [9]:
table_text = soup.select("div.tt_article_useless_p_margin td")

In [11]:
for i in table_text:
    print(i.string)

상품
색상
가격
셔츠1
빨강
20000
셔츠2
파랑
19000
셔츠3
초록
18000
바지1
검정
50000
바지2
파랑
51000


### 리스트 수집

In [12]:
result = soup.select("div.tt_article_useless_p_margin li")

In [13]:
result

[<li>모니터</li>,
 <li>CPU</li>,
 <li>메모리</li>,
 <li>그래픽카드</li>,
 <li>하드디스크</li>,
 <li>키보드</li>,
 <li>마우스</li>]

In [14]:
for i in result:
    print(i.string)

모니터
CPU
메모리
그래픽카드
하드디스크
키보드
마우스
