# Week 10 - Website Crawling

## BeautifleSoup4 를 이용한 웹페이지 크롤링

### BeautifulSoup 모듈을 로딩한다.

In [2]:
from bs4 import BeautifulSoup

아래의 텍스트 라인은 샘플 HTML 문서이다. 실제로는 저장된 HTML파일을 불러오거나 웹에서 바로 HTML문서를 다운로드 받아 데이터 처리를 한다.

In [6]:
html_doc = """<html>
                <body>
                    <h1>Mr. Belvedere Fan Club</h1>
                    <div id='nav'>navigation bar</div>
                    <div class='nav'>navigation class</div>
                    <div class='header'>
                        <a href='twitter_anywhere'>my twitter</a>
                    </div>
                </body>
            </html>"""
html_doc # 따옴표가 있는 string

"<html>\n                <body>\n                    <h1>Mr. Belvedere Fan Club</h1>\n                    <div id='nav'>navigation bar</div>\n                    <div class='nav'>navigation class</div>\n                    <div class='header'>\n                        <a href='twitter_anywhere'>my twitter</a>\n                    </div>\n                </body>\n            </html>"

BeautifulSoup의 "html.parser"를 이용하여 문서를 parsing한다. "html.parser" 외에 "xml", "html5lib" 등의 parser를 제공한다.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [7]:
soup = BeautifulSoup(html_doc, "html.parser")
soup # 겉보기엔 차이가 없으나 DOM object화된 상태. 따옴표 없음.

<html>
<body>
<h1>Mr. Belvedere Fan Club</h1>
<div id="nav">navigation bar</div>
<div class="nav">navigation class</div>
<div class="header">
<a href="twitter_anywhere">my twitter</a>
</div>
</body>
</html>

In [9]:
print(type(html_doc)) # string 
print(type(soup)) 

<class 'str'>
<class 'bs4.BeautifulSoup'>


parsing된 HTML 문서를 보기 좋게 보여준다.

range를 사용하여 원하는 만큼만 볼 수 있다. `soup.prettify()[0:100]`

In [10]:
print(soup.prettify())

<html>
 <body>
  <h1>
   Mr. Belvedere Fan Club
  </h1>
  <div id="nav">
   navigation bar
  </div>
  <div class="nav">
   navigation class
  </div>
  <div class="header">
   <a href="twitter_anywhere">
    my twitter
   </a>
  </div>
 </body>
</html>


전체 문서에서 ```<h1>``` 인 요소들만 찾아 list로 반환한다.

In [11]:
heading = soup.find_all("h1")
heading

[<h1>Mr. Belvedere Fan Club</h1>]

요소의 내용(text)를 반환하기 위해서 `get_text()`를 사용한다. 

In [12]:
heading[0].get_text()

'Mr. Belvedere Fan Club'

<질문> ```heading.get_text()``` 는 에러가 나는 이유는?

In [13]:
divs = soup.find_all("div")
divs

[<div id="nav">navigation bar</div>,
 <div class="nav">navigation class</div>,
 <div class="header">
 <a href="twitter_anywhere">my twitter</a>
 </div>]

여러 요소 중, class와 id 등으로 filtering 하기 위해서 두번째 패러미터를 사용한다.

In [14]:
divs = soup.find_all("div", class_="nav")
divs

[<div class="nav">navigation class</div>]

In [21]:
divs = soup.find_all("div", id="nav")
divs

[<div id="nav">navigation bar</div>]

In [22]:
id_list = []
divs = soup.find_all("div", class_="header")
for div in divs:
    if div.a["href"] == "twitter_anywhere":
        id_list.append(div.a.text) # text 는 get_text()와 동일하게 사용됨.
id_list

['my twitter']

## twitter 아이디와 사용자 이름 수집

twtkr_example.html 파일을 읽어 트위터 아이디와 사용자 이름을 수집해 보자. 수집된 id 에서 @ 기호를 삭제하여 출력한다.
* 예: u_simin, 유시민

In [25]:
from bs4 import BeautifulSoup

html_doc = ""
with open("data/twtkr_example.html", encoding = "utf-8") as file: # 윈도우에서는 encoding = "utf-8" 옵션 주기
    html_doc = file.read()

soup = BeautifulSoup(html_doc, "html.parser")

In [31]:
divs = soup.find_all("div", class_="header")
for div in divs:
    print(div.cite.a["href"].replace("/", ""), div.cite.a.text)

u_simin 유시민
BBK_Sniper 정봉주
funronga 김용민
actormoon 문성근 (민주당,배우)
heenews 이정희 (통합진보당)
GH_PARK 박근혜 (새누리당)
HanMyeongSook 한명숙 (민주통합당)
moonriver365 문재인
sangjungsim 심상정
your_rights 최재천 (민주통합당)
kangkumsil 강금실
mentshin 신경민 (민주당,前앵커)
kanggigap 강기갑
Nakw 나경원 (새누리당)
Jungwook_Hong 홍정욱 (새누리당)
cheolsoo0919 안철수
jwp615 박지원 (민주통합당)
hcroh 노회찬
gihos1 서기호
hongshenx 홍세화 (진보신당)


## URL 가져와서 데이터 수집

In [34]:
import urllib.request
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_thumb")
    for strong in strongs:
#         print(strong)
        print(strong.a.text)
#         print(strong.a["href"])
#         break

박찬주 "원하면 '충남 천안을'..군인권센터 소장 삼청교육대 가야"(종합)
박찬주 前대장 "저를 필요로 하지 않으면 나설 이유 없다"
거세진 세월호 참사 전면 재수사 목소리.."참사 책임자 122명 고발"
전 직원 매일 야근·출장?..주민센터의 수당 빼돌리기
간호조무사 1만명, 국회 앞 모여 "직종 차별 중단하라"
[현장영상] 박찬주 "공관병 갑질 사건은 왜곡" 억울함 호소
'한국당 영입 논란' 박찬주, 오늘 기자회견.."나라 바로 세울 것"
리얼미터 "문 대통령 국정지지도, 긍정 47.5%·부정 49.1%..3주 연속 오름세
한국당 "강기정 폭력·행패 하루 이틀 아냐..제 버릇 개 못 줘"
'한국당 영입 무산' 박찬주 "나라 바로 세우겠다"
군인권센터 "박근혜 청와대, '계엄령 문건' 관여 추가정황 확인"
黃 "박찬주 재영입 하겠다".. 당내 반발에도 마이웨이
[단독]노후 경유차 취득세, 2배로 늘어난다
檢 '조국 민정수석실, 유재수 감찰무마' 금융위 압수수색
文대통령-아베, 11분 단독환담.."실질 관계진전 방안 도출 희망"
유승민, 文대통령에 "강기정 해임하고 국회에 사과해야"
이철희 "15~20명 불출마 염두..쇄신 없으면 사퇴"
박찬주 "군인권센터 해체해야..임태훈 삼청교육대 교육 필요"
백경훈, '한국당 영입 세습' 논란에 "부끄러울 이유 없다"
文대통령 채근에.. 검찰개혁 속도전 잇단 무리수
'이해찬 체제론 총선 어렵다'.. 여당, 커지는 '이낙연 등판론'
[단독]"손가락 때문에 7명 숨져"..추락헬기에도 저주의 댓글
옆자리로 아베 손 이끈 文대통령..11분 '즉석환담' 냉기류 반전
"깜깜이 학종, 이제그만" vs "정시로는 아인슈타인 안나와"
청주서 주차된 일본차 화학 물질 손상..경찰 수사
"구조 위해 달라했는데.." KBS 추락 전 영상 논란
울면서 후회해도 소용없다. 손흥민의 잘못은 팩트다
'82년생 김지영'에 2030男, 왜 분노하는가
靑국감 파행 부른 '버럭 참모들'.. 與서도 "이러니 교체설 나와"
日언론, 文-아베 조우 주목.."웃는

## 실습 1: 데이터 수집을 위한 리스트 작성

위의 주소에서 수집하고자 하는 URL의 리스트를 작성해보자.

In [36]:
import urllib.request

url_list = []
with urllib.request.urlopen("https://media.daum.net/ranking/bestreply/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_thumb")
    for strong in strongs:
        url_list.append(strong.a["href"])

url_list

['http://v.media.daum.net/v/20191104124132330',
 'http://v.media.daum.net/v/20191103160634408',
 'http://v.media.daum.net/v/20191103213603813',
 'http://v.media.daum.net/v/20191103203615362',
 'http://v.media.daum.net/v/20191103152229524',
 'http://v.media.daum.net/v/20191104103618431',
 'http://v.media.daum.net/v/20191104053006720',
 'http://v.media.daum.net/v/20191104081014525',
 'http://v.media.daum.net/v/20191103173435117',
 'http://v.media.daum.net/v/20191103185243296',
 'http://v.media.daum.net/v/20191104102409857',
 'http://v.media.daum.net/v/20191104031128946',
 'http://v.media.daum.net/v/20191104060013922',
 'http://v.media.daum.net/v/20191104114527165',
 'http://v.media.daum.net/v/20191104122011846',
 'http://v.media.daum.net/v/20191104091802220',
 'http://v.media.daum.net/v/20191103211813669',
 'http://v.media.daum.net/v/20191104121419650',
 'http://v.media.daum.net/v/20191104120201106',
 'http://v.media.daum.net/v/20191104044342420',
 'http://v.media.daum.net/v/201911040407

## 실습 2: 기사 수집 1

#### 주어진 URL의 기사의 타이틀을 수집해보자.

In [39]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    title = soup.find("h3", class_="tit_view").text

title

'나경원 "역사 부인하는 아베 발언 치졸..사과부터 하라"'

#### 주어진 기사의 본문을 수집해 보자.

이 기사에는 figurecaption 부분이 있는데, 다음과 같은 코드로 제외한다. 

`unwanted = div.find("p", class_="link_figure")
unwanted.extract()`

In [None]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    


#### 기자이름과 입력 날짜를 수집해보자.

In [None]:
from bs4 import BeautifulSoup
import urllib.request
from datetime import datetime as dt

base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")


#### 언론사 이름을 수집해보자.

In [None]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "http://v.media.daum.net/v/20181103172202580"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")


## 실습 3: 기사 수집 2

#### 위의 내용을 바탕으로 댓글 많은 뉴스 전체 기사를 수집해서 JSON으로 저장해 보자.
1. 위의 코드를 합쳐서
    - 기사의 리스트 수집
    - 각 기사 내용 수집
2. JSON 저장

#### JSON 파일 만들기

```
import json
from collections import OrderedDict
 
# Ready for data
group_data = OrderedDict()
items = OrderedDict()
 
group_data["url"] = "http://......"
group_data["title"] = "article_title"
 
items["item1"] = "item_name1"
items["item2"] = "item_name2"
items["item3"] = "item_name3"
 
group_data["items"] = items
 
# Print JSON
print(json.dumps(group_data, ensure_ascii=False, indent="\t") )
```