# 정적 크롤링 모듈

In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

- 요청 모듈로 가져온 HTML 코드를 파이썬이 쓸 수 있는 형태로 변환해주는 역할

In [4]:
url = "http://www.naver.com"

page = urlopen(url)

soup = BeautifulSoup(page, "html.parser")

In [5]:
print(soup)

 <!DOCTYPE html>
 <html class="fzoom" lang="ko"> <head> <meta charset="utf-8"/> <meta content="origin" name="Referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <title>NAVER</title> <meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots"> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 

## 파서

- 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공해주는 프로그램
    - lxml
        - c언어로 구현되어 속도가 가장 빠름 / 안정성이 떨어짐
        - 대신 사람이 다루긴 힘듦...
        
    - html.parser
        - lxml과 html5lib의 중간 속도
        - 중간이라곤 하지만 둘다 약간씩만 희생한 편 = 밸런스가 뛰어남
    
    - html5lib (기본 파서에서 제외되었음. 별도 설치 필요)
        - 웹브라우저 형태로 HTML을 분석
        - 속도가 가장 느림
        - 가장 안정적
        
html -- > Dom -- > python -- > 데이터 수집
    파싱(파서)

In [6]:
# html을 에쁘게 출력
print(soup.prettify())

<!DOCTYPE html>
<html class="fzoom" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="origin" name="Referrer"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=1190" name="viewport"/>
  <title>
   NAVER
  </title>
  <meta content="NAVER" name="apple-mobile-web-app-title">
   <meta content="index,nofollow" name="robots">
    <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description">
     <meta content="네이버" property="og:title"/>
     <meta content="https://www.naver.com/" property="og:url"/>
     <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/>
     <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description">
      <meta content="summary" name="twitter:card"/>
      <meta content="" name="twitter:title"/>
      <meta content="https://www.naver.com/" name="twitter:url"/>
      <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_

## 속성 데이터

In [2]:
html = """<html> <head><title class="t" id="ti">test site</title></head> 
<body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>"""

- html
    - head
        - title
            - 속성
                - class : t
                - id : ti            
        
    - body
        - p
        - p
        - p

In [3]:
soup = BeautifulSoup(html, "html.parser")

In [4]:
print(soup)

<html> <head><title class="t" id="ti">test site</title></head>
<body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>


In [5]:
tag_title = soup.title # soup 안에서 title 태그 찾기

In [6]:
print(tag_title)
print(tag_title.attrs) # 태그의 속성 가져오기
print(tag_title["class"]) # 키가 없으면 에러 발생함...! 딕셔너리와 완전 동일
print(tag_title["id"]) # 아이디는 유일값이기 때문에 문자열 1개만 가질 수 있고 중복될 수 없음

<title class="t" id="ti">test site</title>
{'class': ['t'], 'id': 'ti'}
['t']
ti


In [8]:
tag_title["class"]

['t']

In [9]:
# tag 타입은 딕셔너리처럼 접근할 수 있고 딕셔너리 문법을 그대로 적용할 수 있음
tag_title.get("class1", "default_value")

'default_value'

In [10]:
type(tag_title)

bs4.element.Tag

### 태그 접근

In [11]:
tag_title = soup.title # title 태그 접근
print(tag_title)

<title class="t" id="ti">test site</title>


- soup.태그이름 의 형태로 첫 번째로 등장하는 태그의 정보를 가져올 수 있음

In [12]:
print(tag_title.text)
print(tag_title.string)
print(tag_title.name)

test site
test site
title


In [13]:
# text와 string의 차이
html = """<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>"""

- html
    - head
        - title : test site
    - body
        - p
            - span : test1
            - span : test2

In [14]:
soup = BeautifulSoup(html, "lxml")

tag_p = soup.p

data_text = tag_p.text
data_string = tag_p.string

print(data_text, type(data_text))
print(data_string, type(data_string))


test1test2 <class 'str'>
None <class 'NoneType'>


- text : 하위 태그들의 값도 모두 출력
- string : 정확히 해당 태그에 대한 값만 출력

In [15]:
# string 으로 test1을 출력하려면 조금 더 디테일한 경로 지정이 필요하다
tag_p.span.string

'test1'

### 자식 태그 접근

- content와 children 속성을 이용하여 자식 태그 가져오기

In [19]:
# p tag의 자식 태그를 리스트의 형태로 반환
tag_p_children = soup.p.contents
print(tag_p_children)

[<span>test1</span>, <span>test2</span>]


In [23]:
tag_p_children = soup.p.children # children으로 가져온 값은 반복문으로 사용해야함

for child in tag_p_children:
    print(child)

<span>test1</span>
<span>test2</span>


### 부모 태그 접근

- parent 와 parents 로 부모 태그 가져오기

In [26]:
tag_span = soup.span
tag_title = soup.title

span_parent = tag_span.parent
title_parent = tag_title.parent

print(span_parent)
print(title_parent)

<p><span>test1</span><span>test2</span></p>
<head><title>test site</title></head>


In [28]:
span_parents = tag_span.parents
title_parents = tag_title.parents

for parents in span_parents:
    print(parents)

print()    
    
for parents in title_parents:
    print(parents)

<p><span>test1</span><span>test2</span></p>
<body> <p><span>test1</span><span>test2</span></p> </body>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>

<head><title>test site</title></head>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>


### 형제 태그 접근

- 형제 태그 : 동등한 위치의 태그

In [29]:
tag_span

<span>test1</span>

In [31]:
a = tag_span.next_sibling
print(a)

<span>test2</span>


In [33]:
b = a.previous_sibling
print(b)

<span>test1</span>


In [35]:
print(a.next_sibling)
print(b.previous_sibling)

None
None


### 다음 요소, 이전 요소 접근하기

- next_element, previous_element
- 형제 태그와의 차이
    - 형제 태그 : 동일한 위치의 태그들만
    - 요소 : 태그도 포함하지만 그 안의 자식태그와 문자도 포함하는 개념
    
- 종종 형제를 못찾을때가 있는데... 이럴 때 요소에 접근해보기

In [43]:
html = """<html> <head><title>test site</title></head> <body> <p><a>test1</a><b>test2</b><c>test3</c></p> </body></html>"""

- html
    - head
        - title
    
    - body
        - p
            - a : test1
            - b : test2
            - c : test3

In [44]:
soup = BeautifulSoup(html, "lxml")

In [45]:
tag_a = soup.a
print(tag_a)

<a>test1</a>


In [48]:
tag_a_nexts = tag_a.next_elements

for i in tag_a_nexts:
    print(i)

test1
<b>test2</b>
test2
<c>test3</c>
test3
 


## 원하는 요소에 접근하기

### find_all()

- 원하는 태그들을 리스트 형태로 가져오기

In [52]:
html = """<html> <head><title>test site</title></head> <body> <p id="i" class="a">test1</p><p id="d" class="d">test2</p><p class="c">test3</p></p><a>a tag</a> <b>b tag</b></body></html>"""

- html
    - head
        - title
    - body
        - p (id = i, class = a)
        - p (id = d, class = c)
        - p (class = c)
        - a
        - b

In [53]:
soup = BeautifulSoup(html, "lxml")

In [56]:
soup.find_all("title")

[<title>test site</title>]

In [58]:
soup.find_all("p")

[<p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>]

- id값으로 태그 가져오기

In [59]:
soup.find_all(id = "d")

[<p class="d" id="d">test2</p>]

In [60]:
# id의 존재 여부로 데이터 가져오기
print(soup.find_all(id = True))

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>]


In [61]:
print(soup.body.find_all(id = False))

[<p class="c">test3</p>, <a>a tag</a>, <b>b tag</b>]


- 원하는 태그, 원하는 id 값으로 태그 가져오기

In [62]:
print(soup.find_all("p", id = "d"))
print(soup.find_all("p", id = "c"))

[<p class="d" id="d">test2</p>]
[]


- text 속성으로 태그 가져오기 (다음 버전에선 삭제 예정, string을 대신 사용해볼것 혹은 걍 업데이트 받지 말것...!)

In [63]:
print(soup.find_all("p", text = "test1")) # p 태그 중에서 test1 이라는 값을 가진 태그
print(soup.find_all("p", text = "t")) # 없음

[<p class="a" id="i">test1</p>]
[]


  print(soup.find_all("p", text = "test1")) # p 태그 중에서 test1 이라는 값을 가진 태그
  print(soup.find_all("p", text = "t")) # 없음


- limit 로 가져오는 태그 수 제한

In [67]:
print(soup.find_all("p", limit = 1))
print(soup.find_all("p", limit = 2))
print(soup.find_all("p", limit = 5)) # limit의 값이 태그의 수보다 많아도 에러가 발생하진 않음

[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]


In [69]:
# find_all 에 아무런 값도 넣지 않으면 모든 태그를 반환
soup.find_all()

[<html> <head><title>test site</title></head> <body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body></html>,
 <head><title>test site</title></head>,
 <title>test site</title>,
 <body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body>,
 <p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>,
 <a>a tag</a>,
 <b>b tag</b>]

- 여러 태그 동시에 가져오기

In [70]:
soup.find_all(["a", "b"])

[<a>a tag</a>, <b>b tag</b>]

- find_all 연속으로 사용하기

In [71]:
soup.find_all("body")

[<body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body>]

In [75]:
tag_body = soup.find_all("body")
tag_body[0].find_all("p")

[<p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>]

### find()

- 하나의 요소만 가져옴
- 찾고자 하는 요소가 하나만 있을 때 사용
    - 예) id값으로 접근

In [78]:
soup.find("p") # 여러개가 있으면 가장 먼저 입력되어 있는 1개만 반환 / find_all과의 차이는 list 타입이 아니라는 점

<p class="a" id="i">test1</p>

In [80]:
print(soup.find("p", class_ = "d")) # python의 class와 혼동되지 않도록 _ 필수
print(soup.find("p", id = "i"))

<p class="d" id="d">test2</p>
<p class="a" id="i">test1</p>


In [81]:
# 연속으로 find() 사용
soup.find("body").find("p", class_ = "d")

<p class="d" id="d">test2</p>

### select()

- find_all()과 마찬가지로 매칭되는 모든 결과를 리스트로 반환
- 클래스는 마침표(.), 아이디는 샵(#), 자손태그는 띄어쓰기( ), 자식태그는 (>)로 표기
    - 자식 = 직계 자손
    - 자손 = 아들 손자 증손자 전부 포함...
- select_one() 으로 하나의 결과만 반환하는 것도 가능

In [87]:
print(soup.select("p")) # p 태그들
print(soup.select(".d")) # 클래스가 d인 태그들
print(soup.select("p.d")) # 클래스가 d인 p 태그들
print(soup.select("#i")) # id가 i인 태그들
print(soup.select("p#i")) #  id가 i인 p 태그들

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]
[<p class="d" id="d">test2</p>]
[<p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>]


In [88]:
html = """<html> <head><title>test site</title></head> <body> <div><p id="i" class="a">test1</p><p class="d">test2</p></div><p class="d">test3</p></p> <a>a tag</a> <b>b tag</b></body></html>"""

- html
    - head
        - title : test site
    - body
        - div
            - p (id : i, class : a)
            - p (class : d)
        - p (class : d)
        - a
        - b

In [89]:
soup = BeautifulSoup(html ,"lxml")

In [92]:
print(soup.select("body p")) # body의 자손인 p 태그들

[<p class="a" id="i">test1</p>, <p class="d">test2</p>, <p class="d">test3</p>]


In [93]:
print(soup.select("body .d")) # body 자손이면서 클래스가 d인 태그들

[<p class="d">test2</p>, <p class="d">test3</p>]


In [94]:
print(soup.select("body p.d")) # body의 자손이면서 클래스가 d인 태그들

[<p class="d">test2</p>, <p class="d">test3</p>]


In [95]:
print(soup.select("body #i")) # body의 자손이면서 id가 i인 태그들

[<p class="a" id="i">test1</p>]


In [96]:
print(soup.select("body p#i")) # body의 자손이면서 id가 i인 p 태그들

[<p class="a" id="i">test1</p>]


In [97]:
print(soup.select("div p")) # div의 자손인 p태그들

[<p class="a" id="i">test1</p>, <p class="d">test2</p>]


## 웹크롤링 허용 문제

- 모든 사이트에는 웹 크롤링 권한에 관해 명시한 페이지가 있음
    - 사이트 url 끝에 robos.txt를 붙여서 확인
        - 예) http://www.google.com/robots.txt
        - disallow : 허용하지 않는 경로
        - allow : 크롤링을 허용하는 경로

## 예제 1-1. 티스토리 크롤링

In [98]:
url = "https://ai-dev.tistory.com/1"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [102]:
# 제목 수집
soup.select_one("div.hgroup>h1").string.strip()

'크롤링의 세계에 오신 것을 환영합니다.'

In [124]:
for i in dict1:
    print(soup.select_one(i).string.strip())

Hello, world!
Hello, world!
Hello, world!
Hello, world!


In [130]:
dict1 = {a : "div.entry-content div.tt_article_useless_p_margin",
b : "div.entry-content p",
c : "div.entry-content div.tt_article_useless_p_margin>p",
d : "div.entry-content div.tt_article_useless_p_margin p"}

In [131]:
url = "https://ai-dev.tistory.com/2"

page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [170]:
soup.select("div.tt_article_useless_p_margin table tbody tr td")

[<td style="width: 33.3333%; text-align: center;">상품</td>,
 <td style="width: 33.3333%; text-align: center;">색상</td>,
 <td style="width: 33.3333%; text-align: center;">가격</td>,
 <td style="width: 33.3333%; text-align: center;">셔츠1</td>,
 <td style="width: 33.3333%; text-align: center;">빨강</td>,
 <td style="width: 33.3333%; text-align: center;">20000</td>,
 <td style="width: 33.3333%; text-align: center;">셔츠2</td>,
 <td style="width: 33.3333%; text-align: center;">파랑</td>,
 <td style="width: 33.3333%; text-align: center;">19000</td>,
 <td style="width: 33.3333%; text-align: center;">셔츠3</td>,
 <td style="width: 33.3333%; text-align: center;">초록</td>,
 <td style="width: 33.3333%; text-align: center;">18000</td>,
 <td style="width: 33.3333%; text-align: center;">바지1</td>,
 <td style="width: 33.3333%; text-align: center;">검정</td>,
 <td style="width: 33.3333%; text-align: center;">50000</td>,
 <td style="width: 33.3333%; text-align: center;">바지2</td>,
 <td style="width: 33.3333%; text-align

In [172]:
soup.select("div.tt_article_useless_p_margin table tbody tr td")[0].string

'상품'

In [173]:
for i in soup.select("div.tt_article_useless_p_margin table tbody tr td"):
    print(i.string)

상품
색상
가격
셔츠1
빨강
20000
셔츠2
파랑
19000
셔츠3
초록
18000
바지1
검정
50000
바지2
파랑
51000


In [174]:
list1 = []

for i in soup.select("div.tt_article_useless_p_margin table tbody tr td"):
    list1.append(i.string)
    
print(list1)

['상품', '색상', '가격', '셔츠1', '빨강', '20000', '셔츠2', '파랑', '19000', '셔츠3', '초록', '18000', '바지1', '검정', '50000', '바지2', '파랑', '51000']


In [175]:
[i.string for i in soup.select("div.tt_article_useless_p_margin table tbody tr td")]

['상품',
 '색상',
 '가격',
 '셔츠1',
 '빨강',
 '20000',
 '셔츠2',
 '파랑',
 '19000',
 '셔츠3',
 '초록',
 '18000',
 '바지1',
 '검정',
 '50000',
 '바지2',
 '파랑',
 '51000']

In [177]:
soup.select("div.tt_article_useless_p_margin > ul > li")

[<li>모니터</li>,
 <li>CPU</li>,
 <li>메모리</li>,
 <li>그래픽카드</li>,
 <li>하드디스크</li>,
 <li>키보드</li>,
 <li>마우스</li>]

In [178]:
for i in soup.select("div.tt_article_useless_p_margin > ul > li"):
    print(i.string)

모니터
CPU
메모리
그래픽카드
하드디스크
키보드
마우스


In [189]:
a = soup.select_one("div.tt_article_useless_p_margin > ul > li")
b = soup.select("div.tt_article_useless_p_margin > ul > li")

In [187]:
c = a

for _ in range(len(b)):
    print(c.string)
    c = c.next_sibling.next_sibling

모니터
CPU
메모리
그래픽카드
하드디스크
키보드
마우스


In [191]:
a.next_sibling

'\n'

In [190]:
a

<li>모니터</li>