# Website Crawling

## BeautifleSoup4 를 이용한 웹페이지 크롤링

### BeautifulSoup 모듈을 로딩한다.

In [1]:
from bs4 import BeautifulSoup

아래의 텍스트 라인은 샘플 HTML 문서이다. 실제로는 저장된 HTML파일을 불러오거나 웹에서 바로 HTML문서를 다운로드 받아 데이터 처리를 한다.

In [2]:
html_doc = "<html><body><h1>Mr. Belvedere Fan Club</h1><div id='nav'>navigation bar</div><div class='nav'>navigation class</div><div class='header'><a href='twitter_anywhere'>my twitter</a></div></body></html>"

BeautifulSoup의 "html.parser"를 이용하여 문서를 parsing한다. "html.parser" 외에 "xml", "html5lib" 등의 parser를 제공한다.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [3]:
soup = BeautifulSoup(html_doc, "html.parser")
soup

<html><body><h1>Mr. Belvedere Fan Club</h1><div id="nav">navigation bar</div><div class="nav">navigation class</div><div class="header"><a href="twitter_anywhere">my twitter</a></div></body></html>

In [4]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


parsing된 HTML 문서를 보기 좋게 보여준다.

range를 사용하여 원하는 만큼만 볼 수 있다. soup.prettify()[0:100]

In [5]:
print(soup.prettify())

<html>
 <body>
  <h1>
   Mr. Belvedere Fan Club
  </h1>
  <div id="nav">
   navigation bar
  </div>
  <div class="nav">
   navigation class
  </div>
  <div class="header">
   <a href="twitter_anywhere">
    my twitter
   </a>
  </div>
 </body>
</html>


전체 문서에서 ```<h1>``` 인 요소들만 찾아 list로 반환한다.

In [6]:
heading = soup.find_all("h1")
heading

[<h1>Mr. Belvedere Fan Club</h1>]

In [9]:
heading.get_text()

AttributeError: ResultSet object has no attribute 'get_text'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()?

요소의 내용(text)를 반환하기 위해서 get_text()를 사용한다. 

In [10]:
heading[0].get_text()

'Mr. Belvedere Fan Club'

<질문> ```heading.get_text()``` 는 에러가 나는 이유는?

In [11]:
divs = soup.find_all("div")
divs

[<div id="nav">navigation bar</div>,
 <div class="nav">navigation class</div>,
 <div class="header"><a href="twitter_anywhere">my twitter</a></div>]

여러 요소 중, class와 id 등으로 filtering 하기 위해서 두번째 패러미터를 사용한다.

In [12]:
divs = soup.find_all("div", class_="nav")
divs

[<div class="nav">navigation class</div>]

In [13]:
divs = soup.find_all("div", id="nav")
divs

[<div id="nav">navigation bar</div>]

In [15]:
divs = soup.find_all("div", class_="header")
divs

[<div class="header"><a href="twitter_anywhere">my twitter</a></div>]

In [16]:
id_list = []
for div in divs:
    if div.a["href"] == "twitter_anywhere":  # 'a' 는 'a href' 의 'a'
        id_list.append(div.a.text) # text 는 get_text()와 동일하게 사용됨.
id_list

['my twitter']

## URL 가져와서 데이터 수집

In [17]:
import urllib.request
import ssl

context = ssl._create_unverified_context()
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/", context=context) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_thumb")

In [18]:
for strong in strongs:
#    print(strong)
    print(strong.a.text)
#    print(strong.a["href"])

황교안 "수치를 수치로 모르면 국민이 대통령을 수치로 여겨"
[단독]"대통령이 유족 보듬어 줬으면 하는 것 뿐인데"..천안함 고 임재엽 상사 어머니의 쓴소리
"경유값 올리고 보조금 폐지"..미세먼지 파격 대책 논란
조양호 한진그룹 회장 별세
"이재명 친형, 2012년부터 정신병 증세"..의사소견서 발견
조양호 회장 미국서 별세.."최근 폐질환 병세 급속 악화"(종합)
이언주 "바른미래당으로 출마 생각할 사람 누가 있나"
[단독] 홍문표 의원, 4급 보좌관에 사돈 채용 논란
文, 김연철·박영선 임명안 재가..오후 2시 장관 5명 임명식(종합)
[단독]주영훈 靑경호처장, 경호처 무기계약직 女직원 가사도우미로 썼다
'류여해는 무당' 발언 김동호 목사, 대법서 승소 확정
文대통령 "청문회 험난..능력 보여달라" 새 장관들에 '깨알당부'
文, 오늘 김연철·박영선 장관 임명 강행..한국당 "파국" 경고
국회 찾은 윤지오 "법 위에 선 사람들에게서 절 구원해주신 것"
한국당 "강원 산불 원인은 탈원전..정책 중단 촉구"(종합)
'장관 인사책임론' 조국·조현옥 경질 반대 50.1%..찬성 39.4%
소화전 앞 BMW 박살냈다..'속 시원한' 해외 소방차
文대통령, 野 반발에도 朴·金 임명 강행..정국주도권 사수 의지
한국당 "독불장군식 내 사람 챙기기"..산불 '인재' 가능성 제기
전두환 "고 조비오 신부는 거짓말쟁이라 쓴 건 문학적 표현" 주장
[인터뷰] 속초시장 "무조건 죄송..정치쟁점화는 가슴아파"
리얼미터 "文 대통령 지지율 소폭 하락..47%대 유지"
민주 "정책적 능력 발휘 기대" vs 한국 "국민 무시 인사 만행"
윤지오 "뉴시스 기자님 오셨나요?"..법적대응 예고
'조양호 장남' 조원태, 6월 한진그룹 경영 선포할 듯
'땅콩·물컵 갑질'이 불러온 대한항공의 비극..한진家 수난사(종합)
하수처리도 안되는 마을에..의원들, 빌라 짓고 도로 깔고
평화당, 정의당과 교섭단체 구성 갈등..찬성 3, 반대 5, 유보 8
자산 30兆 한진그룹..조양호 회장 지분가치 하루새

## 실습 1: 데이터 수집을 위한 리스트 작성

위의 주소에서 수집하고자 하는 URL의 리스트를 작성해보자.

In [19]:
url_list = []
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/", context=context) as url:
    # 아래에 코드 작성
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_ = "tit_thumb")
        
url_list

for strong in strongs:
#    print(strong)
#    print(strong.a.text)
    print(strong.a["href"])

http://v.media.daum.net/v/20190408085630773
http://v.media.daum.net/v/20190408060105072
http://v.media.daum.net/v/20190408174945221
http://v.media.daum.net/v/20190408085454721
http://v.media.daum.net/v/20190408115242575
http://v.media.daum.net/v/20190408113925820
http://v.media.daum.net/v/20190408090751252
http://v.media.daum.net/v/20190408130103619
http://v.media.daum.net/v/20190408153741089
http://v.media.daum.net/v/20190408120009908
http://v.media.daum.net/v/20190408154539425
http://v.media.daum.net/v/20190408073007047
http://v.media.daum.net/v/20190408161433645
http://v.media.daum.net/v/20190408050129695
http://v.media.daum.net/v/20190408155913925
http://v.media.daum.net/v/20190408180028571
http://v.media.daum.net/v/20190408112914114
http://v.media.daum.net/v/20190408091800617
http://v.media.daum.net/v/20190408163655519
http://v.media.daum.net/v/20190408192400887
http://v.media.daum.net/v/20190408185947583
http://v.media.daum.net/v/20190408122250665
http://v.media.daum.net/v/201904

## 실습 2: 기사 수집 1

#### 주어진 URL의 기사의 타이틀을 수집해보자.

In [20]:
base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url, context=context) as url:
    #아래에 코드 작성
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    h3s = soup.find_all("h3" , class_="tit_view")
    


for h3 in h3s : 
    print(h3.text)

나경원 "역사 부인하는 아베 발언 치졸..사과부터 하라"


#### 언론사 이름을 수집해보자.

In [21]:
base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url, context=context) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    cp = soup.find_all("em", class_="info_cp")[0]
    print(cp.a.img['alt'])
    print(cp.img["alt"])

뉴시스
뉴시스
