# Website Crawling

## BeautifleSoup4 를 이용한 웹페이지 크롤링

### BeautifulSoup 모듈을 로딩한다.

In [1]:
from bs4 import BeautifulSoup

아래의 텍스트 라인은 샘플 HTML 문서이다. 실제로는 저장된 HTML파일을 불러오거나 웹에서 바로 HTML문서를 다운로드 받아 데이터 처리를 한다.

In [2]:
html_doc = "<html><body><h1>Mr. Belvedere Fan Club</h1><div id='nav'>navigation bar</div><div class='nav'>navigation class</div><div class='header'><a href='twitter_anywhere'>my twitter</a></div></body></html>"

BeautifulSoup의 "html.parser"를 이용하여 문서를 parsing한다. "html.parser" 외에 "xml", "html5lib" 등의 parser를 제공한다.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [3]:
soup = BeautifulSoup(html_doc, "html.parser")
soup

<html><body><h1>Mr. Belvedere Fan Club</h1><div id="nav">navigation bar</div><div class="nav">navigation class</div><div class="header"><a href="twitter_anywhere">my twitter</a></div></body></html>

In [4]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


parsing된 HTML 문서를 보기 좋게 보여준다.

range를 사용하여 원하는 만큼만 볼 수 있다. soup.prettify()[0:100]

In [5]:
print(soup.prettify())

<html>
 <body>
  <h1>
   Mr. Belvedere Fan Club
  </h1>
  <div id="nav">
   navigation bar
  </div>
  <div class="nav">
   navigation class
  </div>
  <div class="header">
   <a href="twitter_anywhere">
    my twitter
   </a>
  </div>
 </body>
</html>


전체 문서에서 ```<h1>``` 인 요소들만 찾아 list로 반환한다.

In [6]:
heading = soup.find_all("h1")
heading

[<h1>Mr. Belvedere Fan Club</h1>]

In [7]:
heding.get_text()

NameError: name 'heding' is not defined

요소의 내용(text)를 반환하기 위해서 get_text()를 사용한다. 

In [8]:
heading[0].get_text()

'Mr. Belvedere Fan Club'

<질문> ```heading.get_text()``` 는 에러가 나는 이유는?

In [9]:
divs = soup.find_all("div")
divs

[<div id="nav">navigation bar</div>,
 <div class="nav">navigation class</div>,
 <div class="header"><a href="twitter_anywhere">my twitter</a></div>]

여러 요소 중, class와 id 등으로 filtering 하기 위해서 두번째 패러미터를 사용한다.

In [10]:
divs = soup.find_all("div", class_="nav")
divs

[<div class="nav">navigation class</div>]

In [11]:
divs = soup.find_all("div", id="nav")
divs

[<div id="nav">navigation bar</div>]

In [12]:
divs = soup.find_all("div", class_="header")
divs

[<div class="header"><a href="twitter_anywhere">my twitter</a></div>]

In [13]:
id_list = []
for div in divs:
    if div.a["href"] == "twitter_anywhere":  # 'a' 는 'a href' 의 'a'
        id_list.append(div.a.text) # text 는 get_text()와 동일하게 사용됨.
id_list

['my twitter']

## URL 가져와서 데이터 수집

In [None]:
import urllib.request
import ssl

context = ssl._create_unverified_context()
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/", context=context) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_thumb")

In [None]:
for strong in strongs:
    print(strong)
#    print(strong.a.text)
#    print(strong.a["href"])

## 실습 1: 데이터 수집을 위한 리스트 작성

위의 주소에서 수집하고자 하는 URL의 리스트를 작성해보자.

In [None]:
url_list = []
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/", context=context) as url:
    # 아래에 코드 작성
    
        
url_list

## 실습 2: 기사 수집 1

#### 주어진 URL의 기사의 타이틀을 수집해보자.

In [None]:
base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url, context=context) as url:
    #아래에 코드 작성
    

#### 언론사 이름을 수집해보자.

In [None]:
base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url, context=context) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    cp = soup.find_all("em", class_="info_cp")[0]
    print(cp.a.img['alt'])
    print(cp.img["alt"])