# Website Crawling

## BeautifleSoup4 를 이용한 웹페이지 크롤링

### BeautifulSoup 모듈을 로딩한다.

In [1]:
from bs4 import BeautifulSoup

아래의 텍스트 라인은 샘플 HTML 문서이다. 실제로는 저장된 HTML파일을 불러오거나 웹에서 바로 HTML문서를 다운로드 받아 데이터 처리를 한다.

In [2]:
html_doc = "<html><body><h1>Mr. Belvedere Fan Club</h1><div id='nav'>navigation bar</div><div class='nav'>navigation class</div><div class='header'><a href='twitter_anywhere'>my twitter</a></div></body></html>"

BeautifulSoup의 "html.parser"를 이용하여 문서를 parsing한다. "html.parser" 외에 "xml", "html5lib" 등의 parser를 제공한다.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [3]:
soup = BeautifulSoup(html_doc, "html.parser")
soup

<html><body><h1>Mr. Belvedere Fan Club</h1><div id="nav">navigation bar</div><div class="nav">navigation class</div><div class="header"><a href="twitter_anywhere">my twitter</a></div></body></html>

In [4]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


parsing된 HTML 문서를 보기 좋게 보여준다.

range를 사용하여 원하는 만큼만 볼 수 있다. soup.prettify()[0:100]

In [5]:
print(soup.prettify())

<html>
 <body>
  <h1>
   Mr. Belvedere Fan Club
  </h1>
  <div id="nav">
   navigation bar
  </div>
  <div class="nav">
   navigation class
  </div>
  <div class="header">
   <a href="twitter_anywhere">
    my twitter
   </a>
  </div>
 </body>
</html>


전체 문서에서 ```<h1>``` 인 요소들만 찾아 list로 반환한다.

In [6]:
heading = soup.find_all("h1")
heading

[<h1>Mr. Belvedere Fan Club</h1>]

In [7]:
heding.get_text()

NameError: name 'heding' is not defined

요소의 내용(text)를 반환하기 위해서 get_text()를 사용한다. 

In [8]:
heading[0].get_text()

'Mr. Belvedere Fan Club'

<질문> ```heading.get_text()``` 는 에러가 나는 이유는?

In [9]:
divs = soup.find_all("div")
divs

[<div id="nav">navigation bar</div>,
 <div class="nav">navigation class</div>,
 <div class="header"><a href="twitter_anywhere">my twitter</a></div>]

여러 요소 중, class와 id 등으로 filtering 하기 위해서 두번째 패러미터를 사용한다.

In [10]:
divs = soup.find_all("div", class_="nav")
divs

[<div class="nav">navigation class</div>]

In [11]:
divs = soup.find_all("div", id="nav")
divs

[<div id="nav">navigation bar</div>]

In [12]:
divs = soup.find_all("div", class_="header")
divs

[<div class="header"><a href="twitter_anywhere">my twitter</a></div>]

In [14]:
id_list = []
for div in divs:
    if div.a["href"] == "twitter_anywhere":  # 'a' 는 'a href' 의 'a'
        id_list.append(div.a.text) # text 는 get_text()와 동일하게 사용됨.
id_list

['my twitter']

## URL 가져와서 데이터 수집

In [33]:
import urllib.request
import ssl

context = ssl._create_unverified_context()
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/", context=context) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_thumb")

In [34]:
for strong in strongs:
#    print(strong)
    print(strong.a.text)
#    print(strong.a["href"])

이부진 호텔신라 사장, 프로포폴 상습 투약 의혹..H성형외과 前 직원 폭로
한국당, 文대통령 김학의사건 수사지시에 '황운하 특검' 맞불
윤소하 원내대표 연설중 퇴장하는 자유한국당
"망언 도넘었다" 나경원 사무실 점거·연행 대학생들 풀려나
유기준 "文, 김정은 차량 탑승 제재 위반" vs 이낙연 "위반 아냐"
"기관총 사망자 47명" 첫 확인..또 뚫린 '전두환 거짓말'
아마추어에 맡긴 의전, 잇단 '외교 망신' 불러
"한국TV 당장 빼라""관세 300% 매겨라"..심상찮은 혐한
강경화 "文대통령 외교적 결례, 외교부 아픈 실수..사죄드려"
'이낙연'을 뚫어라..대정부질문 '불꽃' 공방
[TEN 초점] 굳게 닫은 이미숙의 입..침묵만이 능사인가
"친일파 발언 규탄" 나경원 지역구 사무실 점거 6명 연행(종합)
'의혹 부인' 윤중천, 6년 전엔 "김학의와 서로 영상 찍어줘"
"살려달라" 작은소리에 기지 발휘..성범죄자 잡은 시민들
[단독] 처음으로 입 연 한화 이용규 "타순, 옵션 불만 때문 아니다"
김학의 사건 개입 의혹에..황교안 "비겁한 음해..악한 세력 존재"
김성태 딸만 지원서 '인편 제출'.."절차 무시한 특혜"
연설 3분 만에 한국당 집단퇴장.."내로남불" 공방
태극마크 붙이고.. 시리아서 IS와 싸운 한국인 있었다
[단독]이상화♥강남 커플 '연내 결혼' 가시화, 양가 부모에 인사
"우리 말 안 듣더니 이제야..국가가 책임지라"
"김지은 측 증인, 위증했다" 안희정 검찰고소→무혐의
국민연금 받다 일찍 숨지면 연금 끝,이런 일 없게 일시금 지급 추진
수색도 체포도 거부.. 檢 '김학의 수사' 틈만 나면 뭉갰다
'의원 늘어나도 좋은가' 한국당 현수막에..'거짓말 맙시다'
"한국인 싫다" 공항 난동 일본인, 알고 보니 후생성 간부
FC서울 출신 안델손, "한국행 후회, 일본이 수준 더 높아"
"1주년 케이크입니다""단 것 잘 못먹습니다"..文·아베 궁합 이렇다
박정아 측, 성형설 부인 "부기 덜 빠졌다, 몸무게 +10" [공식]
[단독] 갈수록 할 말 없는

## 실습 1: 데이터 수집을 위한 리스트 작성

위의 주소에서 수집하고자 하는 URL의 리스트를 작성해보자.

In [35]:
url_list = []
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/", context=context) as url:
    # 아래에 코드 작성
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_ = "tit_thumb")
        
url_list

for strong in strongs:
#    print(strong)
#    print(strong.a.text)
    print(strong.a["href"])

http://v.media.daum.net/v/20190320193757596
http://v.media.daum.net/v/20190320125405326
http://v.media.daum.net/v/20190320151039181
http://v.media.daum.net/v/20190320225621488
http://v.media.daum.net/v/20190320165126875
http://v.media.daum.net/v/20190320202216506
http://v.media.daum.net/v/20190321030105174
http://v.media.daum.net/v/20190321060051953
http://v.media.daum.net/v/20190320184815553
http://v.media.daum.net/v/20190320201909437
http://v.media.daum.net/v/20190320173425089
http://v.media.daum.net/v/20190320201332335
http://v.media.daum.net/v/20190320204120826
http://v.media.daum.net/v/20190320204818952
http://v.media.daum.net/v/20190320160219965
http://v.media.daum.net/v/20190320191603229
http://v.media.daum.net/v/20190320210004110
http://v.media.daum.net/v/20190320201609380
http://v.media.daum.net/v/20190320105439949
http://v.media.daum.net/v/20190321030737410
http://v.media.daum.net/v/20190320194909828
http://v.media.daum.net/v/20190320211856435
http://v.media.daum.net/v/201903

## 실습 2: 기사 수집 1

#### 주어진 URL의 기사의 타이틀을 수집해보자.

In [38]:
base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url, context=context) as url:
    #아래에 코드 작성
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    h3s = soup.find_all("h3" , class_="tit_view")
    


for h3 in h3s : 
    print(h3.text)

나경원 "역사 부인하는 아베 발언 치졸..사과부터 하라"


#### 언론사 이름을 수집해보자.

In [39]:
base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url, context=context) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    cp = soup.find_all("em", class_="info_cp")[0]
    print(cp.a.img['alt'])
    print(cp.img["alt"])

뉴시스
뉴시스
