# Week 9.Website Crawling

## 1.BeautifleSoup4 를 이용한 웹페이지 크롤링

### 1.1 BeautifulSoup 모듈을 로딩한다.

In [1]:
from bs4 import BeautifulSoup

아래의 텍스트 라인은 샘플 HTML 문서이다. 실제로는 저장된 HTML파일을 불러오거나 웹에서 바로 HTML문서를 다운로드 받아 데이터 처리를 한다.

In [3]:
html_doc = "<html><body><h1>Mr. Belvedere Fan Club</h1><div id='nav'>navigation bar</div><div class='nav'>navigation class</div><div class='header'><a href='twitter_anywhere'>my twitter</a></div></body></html>"

BeautifulSoup의 "html.parser"를 이용하여 문서를 parsing한다. "html.parser" 외에 "xml", "html5lib" 등의 parser를 제공한다.
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [4]:
soup = BeautifulSoup(html_doc, "html.parser")
soup

<html><body><h1>Mr. Belvedere Fan Club</h1><div id="nav">navigation bar</div><div class="nav">navigation class</div><div class="header"><a href="twitter_anywhere">my twitter</a></div></body></html>

In [5]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


parsing된 HTML 문서를 보기 좋게 보여준다.

range를 사용하여 원하는 만큼만 볼 수 있다. `soup.prettify()[0:100]`

In [6]:
print(soup.prettify())

<html>
 <body>
  <h1>
   Mr. Belvedere Fan Club
  </h1>
  <div id="nav">
   navigation bar
  </div>
  <div class="nav">
   navigation class
  </div>
  <div class="header">
   <a href="twitter_anywhere">
    my twitter
   </a>
  </div>
 </body>
</html>


전체 문서에서 ```<h1>``` 인 요소들만 찾아 list로 반환한다.

In [7]:
heading = soup.find_all("h1")
heading

[<h1>Mr. Belvedere Fan Club</h1>]

요소의 내용(text)를 반환하기 위해서 `get_text()` 혹은 `text`를 사용한다. 

In [8]:
heading[0].get_text()

'Mr. Belvedere Fan Club'

In [9]:
heading[0].text

'Mr. Belvedere Fan Club'

<질문> ```heading.get_text()``` 는 에러가 나는 이유는?

In [10]:
divs = soup.find_all("div")
divs

[<div id="nav">navigation bar</div>,
 <div class="nav">navigation class</div>,
 <div class="header"><a href="twitter_anywhere">my twitter</a></div>]

여러 요소 중, class와 id 등으로 filtering 하기 위해서 두번째 패러미터를 사용한다.

In [11]:
divs = soup.find_all("div", class_="nav")
divs

[<div class="nav">navigation class</div>]

In [12]:
divs = soup.find_all("div", id="nav")
divs

[<div id="nav">navigation bar</div>]

In [13]:
id_list = []
divs = soup.find_all("div", class_="header")
for div in divs:
    if div.a["href"] == "twitter_anywhere":
        id_list.append(div.a.text) # text 는 get_text()와 동일하게 사용됨.
id_list

['my twitter']

## 2.twitter 아이디와 사용자 이름 수집

twtkr_example.html 파일을 읽어 트위터 아이디와 사용자 이름을 수집해 보자. 수집된 id 에서 @ 기호를 삭제하여 출력한다.
* 예: u_simin, 유시민

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
from bs4 import BeautifulSoup

html_doc = ""
with open("/content/drive/MyDrive/_SocialComp_2022-Lab/Week9/data/twtkr_example.html") as file:
    html_doc = file.read()

soup = BeautifulSoup(html_doc, "html.parser")

In [None]:
divs = soup.find_all("div", class_="header")
for div in divs:
    print(div.cite.a["href"].replace("/", ""), div.cite.a.text)

## 3.URL 가져와서 데이터 수집

In [14]:
import urllib.request
with urllib.request.urlopen("https://media.daum.net/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_g")
    for strong in strongs:
        print(strong)
        print(strong.a.text)
        print(strong.a["href"])
        break

<strong class="tit_g">
<a class="link_txt" data-tiara-custom="contentUniqueKey=hamny-20220607183611035" data-tiara-id="20220607183611035" data-tiara-layer="article_main" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://v.daum.net/v/20220607183611035">
                                    여름 휴가 앞두고 두 배 뛴 항공권.. 공급 부족과 항공유 80% 급등 탓
                                </a>
</strong>

                                    여름 휴가 앞두고 두 배 뛴 항공권.. 공급 부족과 항공유 80% 급등 탓
                                
https://v.daum.net/v/20220607183611035


### 실습 1: 데이터 수집을 위한 리스트 작성

위의 주소에서 수집하고자 하는 URL의 리스트를 작성해보자.

In [15]:
import urllib.request

url_list = []
with urllib.request.urlopen("https://media.daum.net/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_g")
    for strong in strongs:
        url_list.append(strong.a["href"])
        
url_list

['https://v.daum.net/v/20220607183611035',
 'https://v.daum.net/v/20220607183643045',
 'https://v.daum.net/v/20220607183354983',
 'https://v.daum.net/v/20220607183013920',
 'https://v.daum.net/v/20220607182909886',
 'https://v.daum.net/v/20220607182827874',
 'https://v.daum.net/v/20220607182740864',
 'https://v.daum.net/v/20220607182719860',
 'https://v.daum.net/v/20220607182619828',
 'https://v.daum.net/v/20220607182533810',
 'https://v.daum.net/v/20220607182419779',
 'https://v.daum.net/v/20220607182349756',
 'https://v.daum.net/v/20220607182313738',
 'https://v.daum.net/v/20220607182240734',
 'https://v.daum.net/v/20220607182229729',
 'https://v.daum.net/v/20220607182101698',
 'https://v.daum.net/v/20220607182050693',
 'https://v.daum.net/v/20220607181731607',
 'https://v.daum.net/v/20220607181603575',
 'https://v.daum.net/v/20220607181601572',
 'https://v.daum.net/v/20220607182619828',
 'https://v.daum.net/v/20220607182549814',
 'https://v.daum.net/v/20220607182358761',
 'https://v

### 실습 2: 기사 수집 1

#### 주어진 URL의 기사의 타이틀을 수집해보자.

In [16]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "https://v.daum.net/v/20220424121601543"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    title = soup.find_all("h3", class_="tit_view")[0].text
    print(title)


오늘 밤부터 전국에 요란한 비 온다..천둥·번개에 돌풍도 ⚡


#### 주어진 기사의 본문을 수집해 보자.

이 기사에는 figurecaption 부분이 있는데, 다음과 같은 코드로 제외한다. 

`unwanted = div.find("p", class_="link_figure")
unwanted.extract()`

In [17]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "https://v.daum.net/v/20220424121601543"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    div = soup.find_all("div", class_="news_view")[0]
    unwanted = div.find("p", class_="link_figure")
    print(type(unwanted))
    unwanted.extract()
    unwanted = div.find("figure")
    unwanted.extract()
    print(div.text.strip())

<class 'bs4.element.Tag'>
비 그치는 27일은 기온 '뚝' 건조주의보는 일시 해제될 듯 



25일 늦은 오후 제주부터 비가 시작돼 밤사이 전국적으로 비가 온다. 이 비는 26일 오전 수도권부터 차차 그치지만, 남해안과 제주도를 중심으로 전국에 강한 바람을 동반할 수 있다. 26일 이후 기온이 급강하해 27~28일은 일교차가 커진다. 29일 다시 비가 올 수 있다.
기상청은 24일 오전 브리핑을 열어 이번주 날씨를 예보했다. 정리하면, 25~26일 한반도에 저기압의 영향으로 비가 내리고 27~28일에는 이동성 고기압의 영향으로 맑다가 29일 남쪽을 통과하는 저기압의 영향으로 비가 내린다고 전했다. 특히 27~28일은 고기압 전면에서 북풍이 불고 차가운 공기가 내려와 맑지만 다소 쌀쌀한 날씨가 찾아온다.



이광연 예보분석관은 “26일 오후까지 한반도는 중국 남부에서 출발한 저기압의 영향을 받아 25~26일 새벽 고온다습한 공기가 한반도로 유입된다. 이후 저기압이 빠져나가고 26일 오전부터 북쪽에서 차가운 북풍이 남하하면서 차가운 공기로 바뀔 것”이라고 말했다. 특히 이 예보관은 “중국 남부에서 출발한 저기압은 그 지역에 폭넓게 있던 고온다습한 공기를 몰고 오기 때문에 제주 남부를 중심으로 대기가 굉장히 불안정해져 비구름이 강하고 천둥·번개와 돌풍이 동반된다”고 설명했다. 



기상청은 25일 밤부터 26일 새벽까지 전국적으로 비가 확대되면서 강수 영역이 동남쪽으로 이동하고 26일 저녁께 전국이 종료된다고 밝혔다. 강수량은 남해안·지리산·제주 지역은 50~120㎜, 제주 산지는 300㎜ 이상이다. 특히 제주 남해안은 26일 새벽부터 오전 시간당 30~50㎜의 많은 비가 내릴 수 있다. 25~26일 충청과 남부지역, 제주 북부 지역은 20~70㎜의 비가 오고 수도권과 강원지역은 5~40㎜의 비가 내린다.
25~26일 전국적으로 비가 내리면 건조주의보는 일시적으로 모두 해제될 것이라고 기상청은 내다보고 있다. 
최우리 기자 ecowoori@

#### 기자이름과 입력 날짜를 수집해보자.

In [None]:
from bs4 import BeautifulSoup
import urllib.request
from datetime import datetime as dt

base_url = "https://v.daum.net/v/20220424121601543"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    info_span = soup.find_all("span", class_="txt_info")
    
    journalist_name = info_span[0].text.strip()
    article_date = info_span[1].text
    if "입력" in article_date:
      article_date = article_date.replace("입력", "").strip()
    article_date_conv = dt.strptime(article_date, "%Y. %m. %d. %H:%M")

    print(journalist_name, article_date_conv)

#### 언론사 이름을 수집해보자.

In [None]:
from bs4 import BeautifulSoup
import urllib.request

base_url = "https://v.daum.net/v/20220424121601543"

with urllib.request.urlopen(base_url) as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    cp = soup.find_all("em", class_="info_cp")[0]
    print(cp.img["alt"])

### 실습 3: 기사 수집 2

#### 위의 내용을 바탕으로 메인에 노출된 뉴스 전체를 수집해서 JSON으로 저장해 보자.
1. 위의 코드를 합쳐서
    - 기사의 리스트 수집
    - 각 기사 내용 수집
2. JSON 저장

In [None]:
from bs4 import BeautifulSoup
import urllib.request
from datetime import datetime as dt

# 기사 URL 수집
url_list = []
with urllib.request.urlopen("https://media.daum.net/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_g")
    for strong in strongs:
        if "gallery" not in strong.a["href"]:
            url_list.append(strong.a["href"])
        
# url_list
        
# 기사 내용 수집
for base_url in url_list:
    
    with urllib.request.urlopen(base_url) as url:
        doc = url.read()
        soup = BeautifulSoup(doc, "html.parser")
        print(base_url)

        # 기사 타이틀 수집
        title = soup.find_all("h3", class_="tit_view")[0].text
        print(title)

        # 기사 본문 수집
        div = soup.find_all("div", class_="news_view")[0]
        unwanted = div.find_all("figure")
        if unwanted:
            for uw in unwanted:
                uw.extract()
        body = div.text.strip()
        print(body)

        # 기자이름, 날짜
        info_span = soup.find_all("span", class_="txt_info")
        journalist_name = ""
        article_date = ""
        article_mod_date = ""

        for info in info_span:
            if "입력" in info.text:
                article_date = info.text.replace("입력", "").strip()
                # article_date_conv = dt.strptime(article_date, "%Y. %m. %d. %H:%M")
            elif "수정" in info.text:
                article_mod_date = info.text.replace("수정", "").strip()
                # article_mod_date_conv = dt.strptime(article_date, "%Y. %m. %d. %H:%M")
            else:
                journalist_name = info.text.replace("기자", "").strip()

        print(journalist_name)
        print(article_date)
        print(article_mod_date)

        # 신문사 이름
        cp = soup.find_all("em", class_="info_cp")[0]
        cp_name = cp.img["alt"]
        print(cp_name)
        
    print("\n\n============\n\n")

### 3.1 JSON 파일 만들기

```
import json
from collections import OrderedDict
 
# Ready for data
group_data = OrderedDict()
items = OrderedDict()
 
group_data["url"] = "http://......"
group_data["title"] = "article_title"
 
items["item1"] = "item_name1"
items["item2"] = "item_name2"
items["item3"] = "item_name3"
 
group_data["items"] = items
 
# Print JSON
print(json.dumps(group_data, ensure_ascii=False, indent="\t") )
```

In [None]:
from bs4 import BeautifulSoup
import urllib.request
import json
from collections import OrderedDict

# 기사 URL 수집
url_list = []
with urllib.request.urlopen("https://media.daum.net/") as url:
    doc = url.read()
    soup = BeautifulSoup(doc, "html.parser")
    strongs = soup.find_all("strong", class_="tit_g")
    for strong in strongs:
        if "gallery" not in strong.a["href"]:
            url_list.append(strong.a["href"])

# 기사 내용 수집
article_list = []
for base_url in url_list:
    
    articles = OrderedDict()
    with urllib.request.urlopen(base_url) as url:
        doc = url.read()
        soup = BeautifulSoup(doc, "html.parser")
        # print(base_url)

        # 기사 타이틀 수집
        title = soup.find_all("h3", class_="tit_view")[0].text
        # print(title)
        articles["title"] = title
        articles["url"] = base_url

        # 기사 본문 수집
        div = soup.find_all("div", class_="news_view")[0]
        unwanted = div.find_all("figure")
        if unwanted:
            for uw in unwanted:
                uw.extract()
        body = div.text.strip()
        # print(body)
        articles["body"] = body

        # 기자이름, 날짜
        info_span = soup.find_all("span", class_="txt_info")
        journalist_name = ""
        article_date = ""
        article_mod_date = ""

        for info in info_span:
            if "입력" in info.text:
                article_date = info.text.replace("입력", "").strip()
                # article_date_conv = dt.strptime(article_date, "%Y. %m. %d. %H:%M")
            elif "수정" in info.text:
                article_mod_date = info.text.replace("수정", "").strip()
                # article_mod_date_conv = dt.strptime(article_date, "%Y. %m. %d. %H:%M")
            else:
                journalist_name = info.text.replace("기자", "").strip()

        # print(journalist_name)
        # print(article_date)
        # print(article_mod_date) 
        articles["journalist_name"] = journalist_name
        articles["article_date"] = article_date
        articles["article_mod_date"] = article_mod_date

        # 신문사 이름
        cp = soup.find_all("em", class_="info_cp")[0]
        cp_name = cp.img["alt"]
        # print(cp_name)
        articles["cp_name"] = cp_name
    
    article_list.append(articles)
    # print("\n\n============\n\n")
    
print(json.dumps(article_list, ensure_ascii=False, indent="\t"))

# Write JSON
with open('/content/drive/MyDrive/_SocialComp_2022-Lab/Week9/data/articles.json', 'w', encoding="utf-8") as make_file:
    json.dump(article_list, make_file, ensure_ascii=False, indent="\t")

