# Week 9.Website Crawling

## 1.BeautifleSoup4 를 이용한 웹페이지 크롤링

### 1.1 BeautifulSoup 모듈을 로딩한다.

In [None]:
from bs4 import BeautifulSoup

아래의 텍스트 라인은 샘플 HTML 문서이다. 실제로는 저장된 HTML파일을 불러오거나 웹에서 바로 HTML문서를 다운로드 받아 데이터 처리를 한다.

In [None]:
html_doc = "<html><body><h1>Mr. Belvedere Fan Club</h1><div id='nav'>navigation bar</div><div class='nav'>navigation class</div><div class='header'><a href='twitter_anywhere'>my twitter</a></div></body></html>"

BeautifulSoup의 "html.parser"를 이용하여 문서를 parsing한다. "html.parser" 외에 "xml", "html5lib" 등의 parser를 제공한다.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [None]:
soup = BeautifulSoup(html_doc, "html.parser")
soup

In [None]:
print(type(soup))

parsing된 HTML 문서를 보기 좋게 보여준다.

range를 사용하여 원하는 만큼만 볼 수 있다. `soup.prettify()[0:100]`

In [None]:
print(soup.prettify())

전체 문서에서 ```<h1>``` 인 요소들만 찾아 list로 반환한다.

In [None]:
heading = soup.find_all("h1")
heading

요소의 내용(text)를 반환하기 위해서 `get_text()` 혹은 `text`를 사용한다. 

In [None]:
heading[0].get_text()

In [None]:
heading[0].text

<질문> ```heading.get_text()``` 는 에러가 나는 이유는?

In [None]:
divs = soup.find_all("div")
divs

여러 요소 중, class와 id 등으로 filtering 하기 위해서 두번째 패러미터를 사용한다.

In [None]:
divs = soup.find_all("div", class_="nav")
divs

In [None]:
divs = soup.find_all("div", id="nav")
divs

In [None]:
id_list = []
divs = soup.find_all("div", class_="header")
for div in divs:
    if div.a["href"] == "twitter_anywhere":
        id_list.append(div.a.text) # text 는 get_text()와 동일하게 사용됨.
id_list

## 2.twitter 아이디와 사용자 이름 수집

twtkr_example.html 파일을 읽어 트위터 아이디와 사용자 이름을 수집해 보자. 수집된 id 에서 @ 기호를 삭제하여 출력한다.
* 예: u_simin, 유시민

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
from bs4 import BeautifulSoup

html_doc = ""
with open("/content/drive/MyDrive/_SocialComp_2022-Lab/Week9/data/twtkr_example.html") as file:
    html_doc = file.read()

soup = BeautifulSoup(html_doc, "html.parser")

In [None]:
divs = soup.find_all("div", class_="header")
for div in divs:
    print(div.cite.a["href"].replace("/", ""), div.cite.a.text)

## 3.URL 가져와서 데이터 수집

In [None]:
import urllib.request
with urllib.request.urlopen("https://media.daum.net/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_g")
    for strong in strongs:
        print(strong)
        print(strong.a.text)
        print(strong.a["href"])
        break

### 실습 1: 데이터 수집을 위한 리스트 작성

위의 주소에서 수집하고자 하는 URL의 리스트를 작성해보자.

In [None]:
import urllib.request

url_list = []
with urllib.request.urlopen("https://media.daum.net/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")

        
url_list

### 실습 2: 기사 수집 1

#### 주어진 URL의 기사의 타이틀을 수집해보자.

In [None]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "https://v.daum.net/v/20220424121601543"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")



#### 주어진 기사의 본문을 수집해 보자.

이 기사에는 figurecaption 부분이 있는데, 다음과 같은 코드로 제외한다. 

`unwanted = div.find("p", class_="link_figure")
unwanted.extract()`

In [None]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "https://v.daum.net/v/20220424121601543"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")


#### 기자이름과 입력 날짜를 수집해보자.

In [None]:
from bs4 import BeautifulSoup
import urllib.request
from datetime import datetime as dt

base_url = "https://v.daum.net/v/20220424121601543"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")


#### 언론사 이름을 수집해보자.

In [None]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "https://v.daum.net/v/20220424121601543"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")


### 실습 3: 기사 수집 2

#### 위의 내용을 바탕으로 메인에 노출된 뉴스 전체를 수집해서 JSON으로 저장해 보자.
1. 위의 코드를 합쳐서
    - 기사의 리스트 수집
    - 각 기사 내용 수집
2. JSON 저장

In [None]:
from bs4 import BeautifulSoup
import urllib.request
from datetime import datetime as dt



### 3.1 JSON 파일 만들기

```
import json
from collections import OrderedDict
 
# Ready for data
group_data = OrderedDict()
items = OrderedDict()
 
group_data["url"] = "http://......"
group_data["title"] = "article_title"
 
items["item1"] = "item_name1"
items["item2"] = "item_name2"
items["item3"] = "item_name3"
 
group_data["items"] = items
 
# Print JSON
print(json.dumps(group_data, ensure_ascii=False, indent="\t") )
```

In [None]:
from bs4 import BeautifulSoup
import urllib.request
import json
from collections import OrderedDict

