# DOM
- 정규식이 힘든 사람들은 DOM을 사용한다.
- 계층형 구조에서 노드에서 노드 사이의 관계를 이용하여 찾아다닌다.
- 파서가 필요하다.
- 파서들 마다 특징이 있고 성능이 다르다.
- DOM을 만들면 탐색을 할 수 있으면 정규식을 사용하지 않아도 된다.

### HTML 
- head : 메타데이터 영역이므로 관심있는 내용이 들어있지 않다.
- body : 내용이 담겨있다.
- root노드로 HTML을 가지고 있는 구조
- xml과 같이 마크업 랭귀지 이기 때문에 xml 속성 접근법과 같다.

BeautifulSoup4 설치

In [3]:
!pip install BeautifulSoup4



### BeautifulSoup
HTML, 바이트, String, XML이 들어오면 돔트리를 형성해준다.

In [4]:
from bs4 import BeautifulSoup

#### Parser
- lxml : 무진장 속도가 빠르다.
- well-formed에서 무진장 강하다.
- 오류를 일으킬 수도 있다.(원하는 요소가 dom에 없는 경우가 발생)
- 오류가 나면 파서를 바꿔준다. html.parser 사용

##### lxml 사용할 때 걸리는 점
- html에서 닫히지 않는 태그가 존재하는 경우
- 상하 관계가 분명하지 않은 경우 
- 대소문자를 구분해줘야한다.

여는 태그와 닫는 태그 사이에 있는 것이 자식태그

In [5]:
html="""
<html>
    <head></head>
        <body>
            <div>
                <p>
                    <a>go to page</a>
                </p>
            </div>
        </body>
</html>
"""

In [6]:
dom = BeautifulSoup(html, "lxml")

각각의 엘레멘트들을 쭉 나열한 것

In [7]:
dom

<html>
<head></head>
<body>
<div>
<p>
<a>go to page</a>
</p>
</div>
</body>
</html>

In [8]:
dom.html

<html>
<head></head>
<body>
<div>
<p>
<a>go to page</a>
</p>
</div>
</body>
</html>

In [9]:
dom.html.body.div.p.a

<a>go to page</a>

element들은 서로 다 따로이다. 
- 정규식을 몰라도 파싱이 가능하다

In [10]:
dom.a

<a>go to page</a>

In [11]:
html="""
<html>
    <head></head>
        <body>
            <div>
                <p>
                    <a>go to page</a>
                    <a>2222222222</a>
                </p>
            </div>
        </body>
</html>
"""

In [12]:
dom = BeautifulSoup(html, "lxml")

In [13]:
dom.a

<a>go to page</a>

두 번째 a를 가져오기 위해서는 id와 class가 필요하다.

In [14]:
html="""
<html>
    <head></head>
        <body>
            <div id="result">
                <p class="row">
                    <a class="red">go to page</a>
                    <a class="blue">2222222222</a>
                </p>
            </div>
        </body>
</html>
"""

In [15]:
dom = BeautifulSoup(html,"lxml")

In [23]:
type(dom.p.children)

list_iterator

In [17]:
for child in dom.p.children:
    print(child)



<a class="red">go to page</a>


<a class="blue">2222222222</a>




In [22]:
##dom=BeautifulSoup(html, "lxml")
#BeautifulSoup(html,"lxml" )


속성은 []로 확인할 수 있다.

In [27]:
dom.div["id"]

'result'

In [28]:
dom.p["class"]

['row']

In [30]:
dom.a["class"]

['red']

In [25]:
[x for x in dom.p.children]###

['\n',
 <a class="red">go to page</a>,
 '\n',
 <a class="blue">2222222222</a>,
 '\n']

개행 때문에 String이 나온다. 개행이 없으면 잘 돌아간다.

In [63]:
for child in [x for x in dom.p.children]:
    print(type(child))

<class 'bs4.element.NavigableString'>
<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>
<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>


In [77]:
html="""
<html>
    <head></head>
        <body>
            <div id="result">
                <p class="row">
                    <a class="red" id="hello" href="a">go to page
                        <a class="red2"> p sibling</a>
                    </a>
                    <a class="blue">2222222222</a>
                </p>
                <a class="white"> p sibling</a>
            </div>
        </body>
</html>
"""

In [78]:
dom = BeautifulSoup(html, "lxml")

속성들을 가져온다.

In [72]:
dom.a.attrs

{'class': ['red'], 'id': 'hello', 'href': 'a'}

In [29]:
[x for x in dom.p.children][0]

'\n'

In [55]:
[x for x in dom.p.children][1].attrs

{'class': ['red'], 'id': 'hello', 'href': 'a'}

- find(name, attrs, recursive, string, \*\*kwargs)
    - name : 태그 이름
    - attrs : 속성
    - text : 내용(그 내용을 가진 태그를 가져온다)
- findall(name, attrs, recursive, string, limit, \*\*kwargs)

In [56]:
dom.find_all("a")

[<a class="red" href="a" id="hello">go to page</a>,
 <a class="blue">2222222222</a>]

In [57]:
dom.find_all({"div", "p"})

[<div id="result">
 <p class="row">
 <a class="red" href="a" id="hello">go to page</a>
 <a class="blue">2222222222</a>
 </p>
 </div>, <p class="row">
 <a class="red" href="a" id="hello">go to page</a>
 <a class="blue">2222222222</a>
 </p>]

In [59]:
dom.find_all('div', {'id':'result'})

[<div id="result">
 <p class="row">
 <a class="red" href="a" id="hello">go to page</a>
 <a class="blue">2222222222</a>
 </p>
 </div>]

속성을 사용하여 탐색

In [58]:
dom.find_all("", attrs={"class":"red"})

[<a class="red" href="a" id="hello">go to page</a>]

In [60]:
dom.find_all('a', recursive=False)

[]

In [31]:
dom.find_all("a", recursive=False)

[]

내용을 기반으로 해서 가져오는 방법

In [61]:
dom.find_all(text="go to page")

['go to page']

제한 수 를 주면 원하는 만큼 수를 가져온다.

In [62]:
dom.find_all('a', limit=1)

[<a class="red" href="a" id="hello">go to page</a>]

- find_parent - 부모 하나
- find_parents - 조상 모두
- find_all - 자손 모두 다 찾는다.
- find_all(recursive=false) - 자식 요소에서만 찾는다.
- find_next_sibling, find_previous_siblin - 내 다음인지 앞에 있는 형제 노드들 찾는다.
- find_next_siblings, find_previous_siblings - 형제 앞, 뒤 모두

p의 바로 아래 자식들만 찾아온다.

In [64]:
dom.p.find_all('a', recursive=False)

[<a class="red" href="a" id="hello">go to page</a>,
 <a class="blue">2222222222</a>]

In [69]:
dom.a.find_next_sibling()

<a class="blue">2222222222</a>

In [33]:
len(dom.find_all('a'))

2

In [32]:
len(dom.find_all("a"))

2

In [34]:
dom = BeautifulSoup(html, "html.parser") ###아까는 dom=BeautifulSoup(html, "ltml"

##dom을 작성할때 html은 지멋대로임. 그래서 하다가 안되면 상황봐서 html.parser 및 ltml 바꿔가며 해줘야함 

In [35]:
len(dom.p.find_all('a',recursive=False))

2

In [37]:
html="""
<html>
    <head></head>
        <body>
            <div id="result">
                <p class="row">
                    <a class="red" id="hello" href="a">go to page</a>
                    <a class="blue">2222222222</a>
                    <div><a></a></div>
                    <a class="blue">next blue</a>
                </p>
                <a class="white"> p sibling</a>
            </div>
        </body>
</html>
"""

In [38]:
dom = BeautifulSoup(html, "lxml")

In [41]:
len(dom.p.find_all("a"))

2

recursive=False 하게 되면 자신의 바로 아래 자식들만 찾는다.

In [94]:
len(dom.p.find_all('a', recursive=False))

2

dom을 잘 만들지 못할 때 html.parser를 사용한다.

In [98]:
len(dom.p.find_all('a'))

2

In [47]:
dom = BeautifulSoup(html, "html.parser")

In [48]:
len(dom.p.find_all('a'))

4

In [49]:
dom.div.a

<a class="red" href="a" id="hello">go to page</a>

In [50]:
dom.p.div.a

<a></a>

In [54]:
dom.p.div.a.find_parent()

<div><a></a></div>

In [115]:
dom.p.div.a.find_parent().name

'div'

In [117]:
[x.name for x in dom.p.div.a.find_parents()]

['div', 'p', 'div', 'body', 'html', '[document]']

In [127]:
dom.p.div.a.find_parent().find_previous_sibling()

<a class="blue">2222222222</a>

### 연습 사이트
- (http://pythonscraping.com/pages/page3.html)

In [55]:
import requests
import time

headers = None
#headers={"user-agnets":"~~"}

def download(method, url, param=None, data=None, timeout=1, maxretries=3):
    try:
        resp = requests.request(method, url,
                     params=param, data=data,
                     headers=headers)
        resp.raise_for_status()
    except requests.exceptions.HTTPError as e:
        if 500 <= e.response.status_code < 600 and maxretries > 0:
            time.sleep(timeout)
            print(maxretries)
            print("재시도")
            resp = download(method, url, param, data, timeout, maxretries-1)
        else:
            print(e.response.status_code)
            print(e.response.reason)
    return resp

In [56]:
url = "http://pythonscraping.com/pages/page3.html"

html = download("get", url)

In [57]:
dom = BeautifulSoup(html.text, "lxml")

In [58]:
footer = dom.find('div', {"id":"footer"}) ###'div'찾고, 그 중에 {아이디:푸터}

In [154]:
[x.name for x in footer.find_parents()]###전체를 []리스트로 표현

['div', 'body', 'html', '[document]']

In [66]:
[_.name for _ in footer.find_previous_siblings()]

['table', 'div', 'h1', 'img']

In [67]:
[_.name for _ in footer.find_parent().find_all(recursive=False)]

['img', 'h1', 'div', 'table', 'div']

물고기 인형 찾기

In [85]:
footer.find_parent().find_all("img", {"src":"../img/gifts/img3.jpg"}) ###findparent로 부모 찾은 후에 findall해야함
##parnets아니고 parent임!!!

[<img src="../img/gifts/img3.jpg"/>]

In [None]:
마트료시카 인형 사진 찾기

In [167]:
footer.find_parent().find_all("img", {"src":"../img/gifts/img2.jpg"})

[<img src="../img/gifts/img2.jpg"/>]

In [174]:
footer.find_previous_sibling().find_all('tr')[2]

<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>

In [84]:
footer.find_previous_sibling().find_all()[2]
###주의_find_previous_siblings()해서 s 붙인다고 생각하지마

<th>
Description
</th>

In [173]:
footer.find_previous_sibling('table').find_all('img')[1]

<img src="../img/gifts/img2.jpg"/>

In [96]:
footer.find_previous_sibling().find_all('tr')[2].find_all('td')[3].find() @@@왜 마지막에 find()가 붙는걸까

<img src="../img/gifts/img2.jpg"/>

In [93]:
footer.find_previous_sibling().find_all('tr')[2].find_all('td')[3].find()

<img src="../img/gifts/img2.jpg"/>

관계만으로 찾는 연습을 해야 복잡한 구조에서도 원하는걸 찾을 수 있다.

In [89]:
footer.find_previous_sibling().find_all('tr')[2].find_all('td')[-1].find()

<img src="../img/gifts/img2.jpg"/>

In [185]:
footer.find_previous_sibling().find_all('img')

[<img src="../img/gifts/img1.jpg"/>,
 <img src="../img/gifts/img2.jpg"/>,
 <img src="../img/gifts/img3.jpg"/>,
 <img src="../img/gifts/img4.jpg"/>,
 <img src="../img/gifts/img6.jpg"/>]

In [188]:
[ _["src"] for _ in footer.find_previous_sibling().find_all('img')]

['../img/gifts/img1.jpg',
 '../img/gifts/img2.jpg',
 '../img/gifts/img3.jpg',
 '../img/gifts/img4.jpg',
 '../img/gifts/img6.jpg']

In [189]:
import requests

In [110]:
#@@@ 이부분 잘 안돼. 이미지 소스들에 대한 리스트 만들기
imgList=[requests.compat.urljoin(html.url, _.find_all("td")[-1].find()["src"]) for _ in footer.find_previous_sibling().find_all("tr")[1:]]

In [112]:
resp = download("get", imgList[0])

In [115]:
type(resp) # 타입 확인해보니까 resq-respond로 주고 받는 형식.

requests.models.Response

In [116]:
resp.headers

{'Date': 'Fri, 12 Jul 2019 12:11:03 GMT', 'Server': 'Apache', 'Last-Modified': 'Mon, 04 Aug 2014 00:49:04 GMT', 'ETag': '"412006a-148ea-4ffc31b072000"', 'Accept-Ranges': 'bytes', 'Content-Length': '84202', 'Cache-Control': 'max-age=1209600', 'Expires': 'Fri, 26 Jul 2019 12:11:03 GMT', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Content-Type': 'image/jpeg'}

In [121]:
resp.headers.get('Content-Type')

'image/jpeg'

In [122]:
resp.headers['Content-Type']

'image/jpeg'

In [118]:
html.headers["Content-Type"].split("/")[0]

'text'

In [123]:
resp.headers["Content-Type"].split("/")[0]=="image"

True

확장자 찾기

In [221]:
resp.headers["Content-Type"].split("/")[1]

'jpeg'

In [223]:
resp.text



사진 파일은 text로 하게 되면 깨진다. byte 타입으로 나타내는 법 .content

In [224]:
resp.content



In [225]:
requests.compat.urlparse(resp.url)

ParseResult(scheme='http', netloc='pythonscraping.com', path='/img/gifts/img1.jpg', params='', query='', fragment='')

In [124]:
resp.url

'http://pythonscraping.com/img/gifts/img1.jpg'

파일 이름 찾기

In [227]:
resp.url.split("/")[-1].split(".")[0]

'img1'

In [125]:
filename = "{0}.{1}".format(resp.url.split("/")[-1].split(".")[0], resp.headers["Content-Type"].split("/")[1])

바이트 형태 쓰기 모드로 저장

In [230]:
with open(filename, "wb") as fp:


In [231]:
print(html.url)

http://pythonscraping.com/pages/page3.html


In [233]:
requests.compat.urlparse(html.url)

ParseResult(scheme='http', netloc='pythonscraping.com', path='/pages/page3.html', params='', query='', fragment='')

In [232]:
[ requests.compat.urljoin(html.url, _.find_all('td')[-1].find()["src"]) for _ in footer.find_previous_sibling().find_all('tr')[1:]]

['http://pythonscraping.com/img/gifts/img1.jpg',
 'http://pythonscraping.com/img/gifts/img2.jpg',
 'http://pythonscraping.com/img/gifts/img3.jpg',
 'http://pythonscraping.com/img/gifts/img4.jpg',
 'http://pythonscraping.com/img/gifts/img6.jpg']

In [234]:
import re

돔 방식

In [243]:
dom = BeautifulSoup(html.text, "lxml")
[_["src"] for _ in dom.table.find_all("img")]###@@@기억

['../img/gifts/img1.jpg',
 '../img/gifts/img2.jpg',
 '../img/gifts/img3.jpg',
 '../img/gifts/img4.jpg',
 '../img/gifts/img6.jpg']

정규식 방식
- 더 짧다.

In [242]:
re.findall(r'<td>\s<img src="(.+?)">', html.text)

['../img/gifts/img1.jpg',
 '../img/gifts/img2.jpg',
 '../img/gifts/img3.jpg',
 '../img/gifts/img4.jpg',
 '../img/gifts/img6.jpg']

(.+?) 
<- (점)은 모든 문자가
<- (플러스) 하나이상 
<- (물음표) 올 수 있다. 
<<- 일반적으로 많이 사용:)

네이버 이미지 검색
- dom형식
- 정규표현식

In [267]:
url = "https://search.naver.com/search.naver"
params = {
    "where":"image",
    "sm":"tab_jum",
    "query":"박보영"
}
html = download("get", url, params)

In [268]:
dom = BeautifulSoup(html.text, "lxml")

내 코드

In [269]:
imgList = [ _.a.img["data-source"] for _ in dom.find_all("div", {"class":"img_area"})]

교수님 코드

In [270]:
[(_["alt"], _["data-source"]) for _ in dom.find("div", {"class":"photo_grid _box"}).find_all("img")]

[('여기 박보영빠돌이있지않음?? | 카페',
  'https://search.pstatic.net/common/?src=http%3A%2F%2Fcafefiles.naver.net%2F20140419_115%2Falsdnr4721_1397918757998zpEC6_JPEG%2F-1042080401.jpg&type=b400'),
 ("박보영 '요정이 눈 앞에'[엑's HD포토] | 포토뉴스",
  'https://search.pstatic.net/common/?src=http%3A%2F%2Fimgnews.naver.net%2Fimage%2F311%2F2019%2F04%2F30%2F0000985275_001_20190430071110015.jpg&type=b400'),
 ('박보영 : 힘쎈여자도봉순 도봉순 | 블로그',
  'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAxODA3MDRfMTQ4%2FMDAxNTMwNjY3NjY3NjEz.zj9Umgo5orK-9sGr3r5yWQBn9HIYKJY3YVzz4Gzk1bsg.cstJdYVKQm2SFg5M9o0TVOKPaMBM5ud-Rag1IaPZ9Lkg.JPEG.js2y86%2Fqkrqhdud14.jpg&type=b400'),
 ('박보영 사진 모음 #1 (스왑주의) | 블로그',
  'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAxODEwMTBfMTA1%2FMDAxNTM5MTc2ODM0MDI5.mlRvQ8JGvq5N4tNpgT_wWgPrxlMg6cHXpGDGISJ9iskg.i0sOEaB-ad78ykWXzDiHA33UAqp-g-Mr2ZqPrkD_tZ0g.JPEG.angel000429%2F1539176666436.jpg&type=b400'),
 ("'열정같은소리하고있네' 박보영·정재영, 겨울 패션 화보 공개 | 블로그",
  'https://s

In [271]:
len(imgList)

50

정규식으로 찾은 경우

In [272]:
re.findall(r'<img src=".+?" class="_img" alt="(.+?)" onerror=".+?" data-source="(.+?)" data-width="\d+?" data-height="\d+"', html.text)

[('여기 박보영빠돌이있지않음?? | 카페',
  'https://search.pstatic.net/common/?src=http%3A%2F%2Fcafefiles.naver.net%2F20140419_115%2Falsdnr4721_1397918757998zpEC6_JPEG%2F-1042080401.jpg&type=b400'),
 ("박보영 '요정이 눈 앞에'[엑's HD포토] | 포토뉴스",
  'https://search.pstatic.net/common/?src=http%3A%2F%2Fimgnews.naver.net%2Fimage%2F311%2F2019%2F04%2F30%2F0000985275_001_20190430071110015.jpg&type=b400'),
 ('박보영 : 힘쎈여자도봉순 도봉순 | 블로그',
  'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAxODA3MDRfMTQ4%2FMDAxNTMwNjY3NjY3NjEz.zj9Umgo5orK-9sGr3r5yWQBn9HIYKJY3YVzz4Gzk1bsg.cstJdYVKQm2SFg5M9o0TVOKPaMBM5ud-Rag1IaPZ9Lkg.JPEG.js2y86%2Fqkrqhdud14.jpg&type=b400'),
 ('박보영 사진 모음 #1 (스왑주의) | 블로그',
  'https://search.pstatic.net/common/?src=http%3A%2F%2Fblogfiles.naver.net%2FMjAxODEwMTBfMTA1%2FMDAxNTM5MTc2ODM0MDI5.mlRvQ8JGvq5N4tNpgT_wWgPrxlMg6cHXpGDGISJ9iskg.i0sOEaB-ad78ykWXzDiHA33UAqp-g-Mr2ZqPrkD_tZ0g.JPEG.angel000429%2F1539176666436.jpg&type=b400'),
 ("'열정같은소리하고있네' 박보영·정재영, 겨울 패션 화보 공개 | 블로그",
  'https://s

# Selector
- 정규식, dom을 이용한 XPath, CSSselector
- CSS Selector 인터넷을 이용하는 구조.(브라우저 관점)
- dom tree를 만든 것과 CSS 스타일 규칙을 붙여서 사용.
- CSS dom -> CSSOM 을 이용
- h1 {color:red; font-size:10;}
- selector(h1) 만 있으면 찾을 수 있다.
- id가 붙어있으면 제일 좋다.
- 부가적으로 사용할 수 있는건 class .으로 시작한다. 다중 클래스 가능

In [277]:
html="""
<html>
    <head></head>
        <body>
            <div id="result">
                <p class="row">
                    <a class="red" id="hello" href="a">go to page</a>
                    <a class="blue">2222222222</a>
                    <div class="blue"><a class="red"></a></div>
                    <a class="blue">next blue</a>
                </p>
            </div>
        </body>
</html>
"""

dom = BeautifulSoup(html, "lxml")

select(): 자손을 찾는다.
자식을 찾고 싶으면 내가 잘 만들어야한다.
- 장점 : 함수 2번에 쓸거를 한 번에 할 수 있다.

dom.select()
- ID => #어쩌고
- CLASS => .어쩌고
- 태그 => 태그
- 자손 => 공백
- 자식 => >
- selector("div") => 2
- selector("div#result") => 1
- selector("#result") => 1
- selector(".red") => 2
- selector("body div") => 2
- selector("body>div") => 1

CLASS 다중 상속
예) <div class="a b c d e">
    ==>div.a.b.c.d.e

구글 검색 결과 가져오기

In [278]:
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}

In [331]:
url = "https://www.google.com/search"
html = download("get", url,
                param={
                    "source":"hp",
                    "ei":"4zUoXfDhGMiE8gXl3K2oDw",
                    "q":"박보영",
                    "oq":"박보영",
                    "gs_l":"psy-ab.3..0l10.44389.45851..46019...1.0..1.128.895.8j1......0....1..gws-wiz.....0..0i10j0i131.UiEVgDQxvkA"
                }
               )

dom = BeautifulSoup(html.text, "lxml")

In [332]:
dom.select(".rc>.r a")

[<a href="https://namu.wiki/w/%EB%B0%95%EB%B3%B4%EC%98%81" ping="/url?sa=t&amp;source=web&amp;rct=j&amp;url=https://namu.wiki/w/%25EB%25B0%2595%25EB%25B3%25B4%25EC%2598%2581&amp;ved=2ahUKEwiHkO6Q_K7jAhVFFqYKHWX_CGYQFjAAegQIABAB"><h3 class="LC20lb">박보영 - 나무위키</h3><br/><div class="TbwUpd"><cite class="iUh30">https://namu.wiki/w/박보영</cite></div></a>,
 <a aria-expanded="false" aria-haspopup="true" aria-label="검색결과 옵션" class="GHDvEf ab_button" data-ved="2ahUKEwiHkO6Q_K7jAhVFFqYKHWX_CGYQ7B0wAHoECAAQAg" href="#" id="am-b0" jsaction="m.tdd;keydown:m.hbke;keypress:m.mskpe" role="button"><span class="mn-dwn-arw"></span></a>,
 <a class="fl" href="/search?q=related:https://namu.wiki/w/%25EB%25B0%2595%25EB%25B3%25B4%25EC%2598%2581+%EB%B0%95%EB%B3%B4%EC%98%81&amp;tbo=1&amp;sa=X&amp;ved=2ahUKEwiHkO6Q_K7jAhVFFqYKHWX_CGYQHzAAegQIABAE">유사한 페이지</a>,
 <a href="https://ko.wikipedia.org/wiki/%EB%B0%95%EB%B3%B4%EC%98%81" ping="/url?sa=t&amp;source=web&amp;rct=j&amp;url=https://ko.wikipedia.org/wiki/%25EB%25B

In [320]:
len(dom.select(".rc>.r a"))

25

a의 attriute href가 http로 시작하는 것

In [287]:
[(_["href"], _.text) for _ in dom.select(".rc > .r a[href^=http]")]

[('https://namu.wiki/w/%EB%B0%95%EB%B3%B4%EC%98%81',
  '박보영 - 나무위키https://namu.wiki/w/박보영'),
 ('https://ko.wikipedia.org/wiki/%EB%B0%95%EB%B3%B4%EC%98%81',
  '박보영 - 위키백과, 우리 모두의 백과사전https://ko.wikipedia.org/wiki/박보영'),
 ('https://webcache.googleusercontent.com/search?q=cache:gv9t4wBBoSMJ:https://ko.wikipedia.org/wiki/%25EB%25B0%2595%25EB%25B3%25B4%25EC%2598%2581+&cd=12&hl=ko&ct=clnk&gl=kr',
  '저장된\xa0페이지'),
 ('https://ko.wikipedia.org/wiki/%EB%B0%95%EB%B3%B4%EC%98%81%EC%9D%98_%EC%9E%91%ED%92%88_%EB%AA%A9%EB%A1%9D',
  '박보영의 작품 목록 - 위키백과, 우리 모두의 백과사전https://ko.wikipedia.org/wiki/박보영의_작품_목록'),
 ('https://webcache.googleusercontent.com/search?q=cache:VhhxhBJ2kukJ:https://ko.wikipedia.org/wiki/%25EB%25B0%2595%25EB%25B3%25B4%25EC%2598%2581%25EC%259D%2598_%25EC%259E%2591%25ED%2592%2588_%25EB%25AA%25A9%25EB%25A1%259D+&cd=13&hl=ko&ct=clnk&gl=kr',
  '저장된\xa0페이지'),
 ('https://news.joins.com/article/22895953',
  '박보영은 오래 지켜본다. 연애도, 연기 변신도 - 중앙일보https://news.joins.com/article/22895953'),
 ('https:/

dom 에 어트리뷰트를 추가해도 에러가 나지 않는다.
- None type으로 만들어준다.

In [288]:
dom.jaeeun

In [289]:
dom.jaeeun["href"]

TypeError: 'NoneType' object is not subscriptable

#### 4대 사이트 검색 결과 가져오기
50분동안 해야할 일:
1. google 검색결과
2. naver 검색결과
3. daum 검색결과 파싱( CSS Selector만 이용)
    (개발자도구 x, 소스보기 o)

naver 검색 뉴스 가져오기

In [340]:
url = "https://search.naver.com/search.naver"
params = {
    "sm":"top_hty",
    "fbm":"1",
    "ie":"utf8",
    "query":"박보영"
}

html = download("get", url, param=params)
dom = BeautifulSoup(html.text, "lxml")

In [341]:
dom.select("div.news ul.type01>li a._sp_each_title")

[<a class="_sp_each_url _sp_each_title" href="http://www.upkorea.net/news/articleView.html?idxno=594716" onclick="return goOtherCR(this, 'a=nws_all*b.tit&amp;r=1&amp;i=88000138_000000000000000000190162&amp;g=5022.0000190162&amp;u='+urlencode(this.href));" target="_blank" title="박보영 주연의 '너의 결혼식' 07월 12일 16시 40분 OCN 방영"><strong class="hl">박보영</strong> 주연의 '너의 결혼식' 07월 12일 16시 40분 OCN 방영</a>,
 <a class="_sp_each_url _sp_each_title" href="http://www.lecturernews.com/news/articleView.html?idxno=21949" onclick="return goOtherCR(this, 'a=nws_all*f.tit&amp;r=3&amp;i=881830f6_000000000000000000015305&amp;g=5566.0000015305&amp;u='+urlencode(this.href));" target="_blank" title='영화 &lt;너의 결혼식&gt; "이석근 감독, 박보영·김영광 주연의 첫사랑 연대기를 그린 로맨스작품"'>영화 &lt;너의 결혼식&gt; "이석근 감독, <strong class="hl">박보영</strong>·김영광 주연의 첫사랑 연대기를 그...</a>,
 <a class="_sp_each_url _sp_each_title" href="http://www.incheonilbo.com/news/articleView.html?idxno=961581" onclick="return goOtherCR(this, 'a=nws_all*f.tit&amp;r=4&amp;i=88123FB

In [342]:
len(dom.select("div.news ul.type01>li a._sp_each_title"))

4

In [343]:
[ (_["href"], _.text) for _ in dom.select("div.news ul.type01>li a._sp_each_title")]

[('http://www.upkorea.net/news/articleView.html?idxno=594716',
  "박보영 주연의 '너의 결혼식' 07월 12일 16시 40분 OCN 방영"),
 ('http://www.lecturernews.com/news/articleView.html?idxno=21949',
  '영화 <너의 결혼식> "이석근 감독, 박보영·김영광 주연의 첫사랑 연대기를 그...'),
 ('http://www.incheonilbo.com/news/articleView.html?idxno=961581',
  "07월 12일 16시 40분 OCN 방영 영화 '너의 결혼식', 박보영x김영광 주연"),
 ('http://www.newsinside.kr/news/articleView.html?idxno=902809',
  '영화 \'너의 결혼식\' 김영광, 박보영과 머리 맞대고 다정하게 전한 근황은? "선...')]

Daum 검색 결과 가져오기

In [334]:
url = "https://search.daum.net/search"
params = {
    "w":"tot",
    "DA":"YZR",
    "t__nil_searchbox":"btn",
    "sug":"",
    "sugo":"",
    "q":"박보영"
}

html = download("get", url, param=params)
dom = BeautifulSoup(html.text, "lxml")

In [335]:
dom.select("#newsColl div.cont_inner a.f_link_b")

[<a class="f_link_b" href="https://cp.news.search.daum.net/p/81867977" onclick='smartLog(this, "s=TO&amp;a=LNTO&amp;dc=NNS&amp;d=26DFWysKtXZNfOI7LB&amp;pg=1&amp;r=1&amp;p=14&amp;rc=4&amp;e1=16Ax7OWho8Y792ryyb&amp;e3=0&amp;ext=dsid=26DFWysKtXZNfOI7LB", event);' target="_blank">영화 '너의 결혼식' 김영광, <b>박보영</b>과 머리 맞대고 다정하게 전한 ...</a>,
 <a class="f_link_b" href="https://cp.news.search.daum.net/p/81861100" onclick='smartLog(this, "s=TO&amp;a=LNTO&amp;dc=NNS&amp;d=26MHecZe4OFUcn2NNS&amp;pg=1&amp;r=2&amp;p=14&amp;rc=4&amp;e1=16m6acv12x0BGjM8Kg&amp;e3=0&amp;ext=dsid=26MHecZe4OFUcn2NNS", event);' target="_blank">영화 &lt;너의 결혼식&gt; “이석근 감독, <b>박보영</b>·김영광 주연의 첫사랑 ...</a>,
 <a class="f_link_b" href="http://v.media.daum.net/v/20190625224946276?f=o" onclick='smartLog(this, "s=TO&amp;a=LNTO&amp;dc=NNS&amp;d=26c6wKXpUEMWuqZwYd&amp;pg=1&amp;r=3&amp;p=14&amp;rc=4&amp;e1=16DvyAKxkKp0H6IkfX&amp;e3=0&amp;ext=dsid=26c6wKXpUEMWuqZwYd", event);' target="_blank">'어비스' 안효섭, <b>박보영</b> 살리고 소멸</a>,
 <a class="f_link_

In [339]:
len(dom.select("#newsColl div.cont_inner a.f_link_b"))

4

In [337]:
[ _.text for _ in dom.select("div#newsColl div.cont_inner a.f_link_b")]

["영화 '너의 결혼식' 김영광, 박보영과 머리 맞대고 다정하게 전한 ...",
 '영화 <너의 결혼식> “이석근 감독, 박보영·김영광 주연의 첫사랑 ...',
 "'어비스' 안효섭, 박보영 살리고 소멸",
 "'어비스' 박보영, 법정 등판..비장미 폭발"]

In [338]:
[ (_["href"], _.text) for _ in dom.select("div#newsColl div.cont_inner a.f_link_b")]

[('https://cp.news.search.daum.net/p/81867977',
  "영화 '너의 결혼식' 김영광, 박보영과 머리 맞대고 다정하게 전한 ..."),
 ('https://cp.news.search.daum.net/p/81861100',
  '영화 <너의 결혼식> “이석근 감독, 박보영·김영광 주연의 첫사랑 ...'),
 ('http://v.media.daum.net/v/20190625224946276?f=o', "'어비스' 안효섭, 박보영 살리고 소멸"),
 ('http://v.media.daum.net/v/20190623184500942?f=o',
  "'어비스' 박보영, 법정 등판..비장미 폭발")]