<a href="https://colab.research.google.com/github/sheon-j/webcrawling-study/blob/main/webcrawling_study.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Webcrawling Study
* 참고: [나만의 웹 크롤러 만들기 시리즈](https://beomi.github.io/gb-crawling/)
* 타겟: [어린이동아](http://kids.donga.com)

## Requests
html의 request를 python으로 받아온다.

In [None]:
# !pip install requests
import requests

# HTTP GET Request
## 어린이 동아 뉴스 리스트
req = requests.get("http://kids.donga.com/?ptype=article&psub=news")

html = req.text           # HTML (use this source!)
header = req.headers      # header
status = req.status_code  # status
is_ok = req.ok            # status boolean

In [None]:
print("done:", is_ok)
print("status:", status)
print("header:", header)

done: True
status: 200
header: {'Date': 'Wed, 02 Feb 2022 12:23:55 GMT', 'Server': 'Apache', 'Set-Cookie': 'PHPSESSID=hjqbttc0j40na15oeog2jhi716; path=/; domain=http://kids.donga.com, kd_visit_ip=34.125.249.32; expires=Thu, 03-Feb-2022 12:23:55 GMT; path=/', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Transfer-Encoding': 'chunked', 'Content-Type': 'text/html; charset=UTF-8'}


## BeautifulSoup

받아온 데이터는 거대한 String 뭉치이다. 이것을 html의 객체처럼 처리할 수 있게하는 parsing 라이브러리가 **BeautifulSoup**이다.

In [None]:
# !pip install bs4
from bs4 import BeautifulSoup

# convert HTML source to pythob object
## BeautifulSoup({html}, {parser})
soup = BeautifulSoup(html, "html.parser")

CSS 선택자를 통해 crawling 할 요소를 설정한다.

**CSS Selector**

* **full selector**: 
body > div.wrap_all > div.content > div.page_area > div.article_list > ul > li:nth-child(1) > dl > dt > a

* **target selector**: 
dt > a

In [None]:
# CSS Selector
article_titles = soup.select("dt > a")
article_titles

[<a href="https://kids.donga.com?ptype=article&amp;no=20220202124700920857&amp;psub=news&amp;gbn=01">2022 베이징 올림픽의 타임키퍼 ‘오메가’의 기술은?...</a>,
 <a href="https://kids.donga.com?ptype=article&amp;no=20220202123848709079&amp;psub=news&amp;gbn=01">[뉴스쏙 시사쑥] 영국에서 SNS 사진 ‘보정 유무 표기’ 법안...</a>,
 <a href="https://kids.donga.com?ptype=article&amp;no=20220202123358514117&amp;psub=news&amp;gbn=01">[뉴스 브리핑] 일본, ‘사도광산’ 세계유산 추천 결정</a>,
 <a href="https://kids.donga.com?ptype=article&amp;no=20220202120934178503&amp;psub=news&amp;gbn=01">[오늘의 뉴스] 한국 축구, 10회 연속 월드컵 본선 진출 위...</a>,
 <a href="https://kids.donga.com?ptype=article&amp;no=20220202120612605158&amp;psub=news&amp;gbn=01">[월드 뉴스] 미얀마 쿠데타 1년… 여전히 이어지는 시위</a>,
 <a href="https://kids.donga.com?ptype=article&amp;no=20220202120507717054&amp;psub=news&amp;gbn=01">[한자뉴스] 하늘을 나는 요트… 약 7465억 원</a>,
 <a href="https://kids.donga.com?ptype=article&amp;no=20220127140638502004&amp;psub=news&amp;gbn=01">[오늘의 뉴스] 낙서한다고 혼났던 영국 소년, 나이키 디자이너...</a>,
 <a href="https://

최종적으로 원하는 객체 값을 parsing한다

In [None]:
# selector elements
print("text: ", article_titles[0].text)
print("href: ", article_titles[0].get("href"))

text:  2022 베이징 올림픽의 타임키퍼 ‘오메가’의 기술은?...
href:  https://kids.donga.com?ptype=article&no=20220202124700920857&psub=news&gbn=01


**Sub Crawling**

```
url: 기사 원문 URL
title: 제목
subtitle: 부제목(어린이동아는 부제 없음!)
author: 기자
date: 날짜
article: 기사 내용
img_path: 기사 img 경로
source: 신문사
```
* **title**: body > div.wrap_all > div.content > div.page_area > div.at_cont > div.at_cont_title > div.at_info > ul > **li.title**

* **author**: 
body > div.wrap_all > div.content > div.page_area > div.at_cont > div.at_cont_title > div.at_info > ul > **li.writer**

* **date**: 
body > div.wrap_all > div.content > div.page_area > div.at_cont > div.at_cont_title > div.at_info > ul > **li.upload_date**

* **article**:
body > div.wrap_all > div.content > div.page_area > div.at_cont > **div.cont_view** > div > p:nth-child(4) > span

* **img_path**: body > div.wrap_all > div.content > div.page_area > div.at_cont > div.cont_view > div > p:nth-child(1) > span > **img**

In [None]:
# sub crawling
href = article_titles[4].get("href")
sub_req = requests.get(href)
sub_html = sub_req.text
sub_soup = BeautifulSoup(sub_html, "html.parser")

In [None]:
# title

## title = sub_soup.select_one("li.title").text
title = "\xa02022 베이징 올림픽의 타임키퍼 ‘오메가’의 기술은? 생동감 넘치는 경기 전달해요!"  # 유니코드 공백문자
print("처리 전:", title)

## regex
pattern = re.compile("[\xa0\u200b\n\r\t]")  # regex 패턴 설정 
title = re.sub(pattern, "", title)
print("처리 후:", title)

처리 전:  2022 베이징 올림픽의 타임키퍼 ‘오메가’의 기술은? 생동감 넘치는 경기 전달해요!
처리 후: 2022 베이징 올림픽의 타임키퍼 ‘오메가’의 기술은? 생동감 넘치는 경기 전달해요!


In [None]:
# author

## author = sub_soup.select_one("li.writer").text
writer = "\r\n\t\t\t\t\t김철수 기자\t\t\t\t\t"
print("처리 전:", writer)

## regex
import re
writer = re.sub(pattern, "", writer.split(" ")[0])
print("처리 후:", writer)

처리 전: 
					김철수 기자					
처리 후: 김철수


In [None]:
# date
date = sub_soup.select_one("li.upload_date").text
date

'2022-02-02 12:47:00'

In [None]:
# article             
article = sub_soup.select("div.at_content > p")   # 파싱
article = [
    p.text for p in article 
    if not p.img                                  # img 태그 제거
    if not "위 기사의 법적인 책임과 권한은" in p.text    # 법적 고지 제거
    if not "< 저작권자 ⓒ 어린이동아" in p.text        # 법적 고지 제거
    if not ("▶어린이동아" and "기자") in p.text      # 기자 제거
]
article = " ".join(article)
article = re.sub(pattern, "", article)
article

'올림픽 경기 중계를 유심히 보다 보면 곳곳에서 ‘OMEGA(Ω)’라는 글자와 로고를 찾아볼 수 있다. 0.001초 차이로 승부가 결정되곤 하는 올림픽의 세계에서 오메가는 90년간 정밀한 시계 기술로 선수들의 기록을 측정해왔다. 이제 오메가는 단순히 기록을 재는 것을 넘어 경기력까지 분석하는 스마트 시스템을 갖췄다. 2022 베이징 올림픽에서도 타임키퍼로 나서는 오메가는 어떤 기술을 선보일까. 고난도의 점프 기술과 섬세한 연기력을 모두 갖춰야 높은 점수를 받는 스포츠인 피겨스케이팅은 겨울올림픽의 ‘꽃’으로 불린다. 베이징 올림픽에서는 피겨스케이팅 선수들의 점프 기술을 낱낱이 뜯어 볼 수 있게 됐다. 오메가는 선수들의 움직임과 위치를 파악하는 ‘모션 센서 및 포지셔닝 감지 시스템’을 피겨스케이팅에도 도입한다고 최근 밝혔다. 2018 평창 겨울올림픽에서 공식적으로 처음 도입된 모션 센서 및 포지셔닝 감지 시스템은 선수의 몸이나 운동기기 등에 부착해 움직임을 데이터화하는 기술을 말한다. 이와 더불어 오메가는 빙상 경기장 주변에 설치한 6대의 카메라로 피겨스케이팅 싱글 경기 중 선수들의 점프 높이와 비거리, 체공(공중에 머물러 있음) 시간 같은 데이터를 실시간으로 측정한다. 데이터를 바탕으로 선수들은 자신의 경기방식을 다른 선수와 비교·분석할 수 있게 되고, 시청자들도 선수들의 동작을 자세히 이해하게 될 것으로 보인다. 아이스하키는 빙판 위에서 긴 스틱으로 ‘퍽’이라고 불리는 고무로 된 납작한 원판을 쳐서 상대방의 골문에 넣어 점수를 올리는 종목이다. 최대 시속 170㎞로 빠르게 날아가는 퍽은 보는 이에게 박진감(생동감 있고 활기차서 현실적으로 느껴지는 것)을 선사한다. 베이징 올림픽의 아이스하키 경기장에는 그동안 볼 수 없었던 한 면이 투명한 특수 디스플레이가 설치된다. 오메가는 링크 주변에 발광다이오드(LED)로 빛나는 디스플레이를 설치해 선수들이 경기 중에 경과 시간 및 페널티(심판이 규칙을 어긴 선수에 내리는 벌칙) 시간을 확인하게 한다고 밝혔다. 디스플레이는

In [None]:
# image path (두 가지 경우의 수)
try: 
    img_path = sub_soup.select_one("div.at_content > p > img").get("src")
except:
    img_path = sub_soup.select_one("div.at_content > p > span > img").get("src")
img_path

'http://kids.donga.com/www/data/article/202202/2819e89f3d3bf24e29d5163f47290123_1643773091_0741.jpg'