# 웹크롤링 실습2. 뉴스기사 크롤링

In [1]:
import requests
from urllib.request import urlopen
from bs4 import BeautifulSoup

### 1. 다음 뉴스 머리기사 제목 크롤링

- 목적 : 다음 뉴스의 헤드라인 뉴스 제목 크롤링 (https://www.daum.net/)

#### 단계1. HTML 페이지 살펴보기

#### 단계2. 문서 내용 읽어오기

In [2]:
url = 'https://news.daum.net/'
html = urlopen(url)

- 자동화 봇으로 인식하여 연결을 거부할 경우

In [3]:
# headers = {'user-agent' : 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Mobile Safari/537.36'}
# html = requests.get(url, headers=headers).text

#### 참고. 요청을 자동화봇으로 인지하고 연결을 끊는 경우

- 위 코드 처럼 자동화 봇으로 보고 연결을 끊는 경우에는 데이터 전송시 추가되는 header를 구성해 bot이 아님을 증명해야 함
    - header에는 브라우저를 통한 접속이라는 정보를 포함시킨다
    - 크롬 개발자도구 => NetWork => new.naver.com 선택한 후 오른쪽에 새로 나타나는 창에서 heaer 선택
    - requests headers 목록에서 user-agent 확인
- https://developers.whatismybrowser.com/useragents/explore/software_name/chrome/

#### 3단계. 원하는 내용 추출하기(parsing)

: 뉴스 머리기사 제목 추출

- 머리기사 제목에 해당하는 태그와 속성값 확인
    - 개발자도구의 콘솔(console)창을 기사의 제목 일부를 입력하여 검색
    - HTML의 \<div\>태그의 class속성값이 item_issue인 것 확인

In [4]:
soup = BeautifulSoup(html, 'html.parser')
soup


<!DOCTYPE html>

<html class="os_unknown none unknown version_0" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="always" name="referrer">
<meta content="Daum 뉴스" property="og:author"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="홈" property="og:title"/>
<meta content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" property="og:image"/>
<meta content="다음뉴스" property="og:description"/>
<meta content="https://news.daum.net/" property="og:url"/>
<link href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<title>홈 | 다음뉴스</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//t1.daumcdn.net/media/kraken/news/4992ef2/style.css.merged.css" rel="stylesheet" type="text/css">
<link href="//t1.daumcdn.net/media/kraken/news/4992ef2/calendar.css.merged.css" rel="stylesheet" type="text/css"/>
<!--[if lte IE 8]>
<script src="https://m2.daumcdn.net/svc/original/U0301/cssjs/JSON-js/fc535e9cc8/json2.min.js"></

In [5]:
# title = soup.find_all('div',{'class':'item_issue'})
title = soup.select('.item_issue .link_txt')
title

[<a class="link_txt" data-tiara-custom="contentUniqueKey=hamny-20230309215603351&amp;clusterId=5150091,5590543,5599922&amp;clusterTitle=사회,[언론사픽] 주요뉴스,[품질검수] 뉴스 필터링&amp;keywordType=NONE,NONE,NONE" data-tiara-id="20230309215603351" data-tiara-layer="article_main" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://v.daum.net/v/20230309215603351">
                                     금감원 공문 믿었는데…그마저 보이스피싱, 피해 속출
                                 </a>,
 <a class="link_txt" data-tiara-custom="contentUniqueKey=hamny-20230309222307541&amp;clusterId=5590543,185504,5139529,5150095&amp;clusterTitle=[언론사픽] 주요뉴스,베냐민 네타냐후,[랭크업] 유레이더 1 OR 2 추가점수,국제&amp;keywordType=NONE,NONE,NONE,NONE" data-tiara-id="20230309222307541" data-tiara-layer="article_main" data-tiara-ordnum="2" data-tiara-type="harmony" href="https://v.daum.net/v/20230309222307541">
                                     네타냐후, 시위대 도로 차단에 헬기로 공항 이동
                                 </a>,
 <a class="link_txt" data-tiara-custom="conten

#### 반복문으로 기사 제목 모두 추출하기

In [6]:
title_list = []
for tlt in title :
    tlt = tlt.text.strip(' \n')
    title_list.append(tlt)

In [7]:
title_list

['금감원 공문 믿었는데…그마저 보이스피싱, 피해 속출',
 '네타냐후, 시위대 도로 차단에 헬기로 공항 이동',
 '한물간 페이스북?…월 이용자 수 1000만명 무너졌다',
 '이스라엘·팔레스타인, 2006년 이후 충돌 최다… 올 사망자 100명 육박',
 "교육위서 '정순신 아들 학폭' 질타…학폭 기록 삭제 문제 제기",
 '경로를 이탈한 비행기 조종사가 칭찬받은 이유',
 '마카롱 택시, 파산 수순 밟는다',
 '전세계 바다 떠도는 미세플라스틱 입자 230만t…"청소 불가능"',
 '[단독]“STO·코인 증권성 논의”…금감원, 美 SEC 출장 타진',
 '“2023년 집값 더 내려갈 것… 부동산PF 리스크 관리 시급”',
 '[JTBC 여론조사] 총선 민심도 박빙…"여당 뽑겠다" 41.6% "야당 뽑겠다" 38.9%',
 "허술한 학폭 대책 악용하는 가해자…'맞신고' '쪼개기 신고' 횡행",
 "특진 50명 걸고 대대적 '노조 단속'…기업 불법엔 모르쇠",
 "[박성태의 다시보기] '민중의 노래가 들리는가, 분노한 사람들의 노래가'",
 "[D:이슈] 유독 소방차·구급차에 '쾅'…테슬라는 왜?",
 '“일교차 최대 20도 이상”…건강 유의해야',
 '‘진짜 사람’보다 1.5배 몰렸다…‘가상인간’ 쇼호스트 인기',
 '반복되는 보안 사고…"비용 아닌 투자 인식 전환 필요"',
 '‘69시간 근로’ 분노하는 청년들…“현실 모르는 헛소리”',
 '김동연, 도민청원 2호 ‘고양시 신청사 원안 추진’에 답변… “시의회 공론화 거쳐야”']

## 2. 뉴스 기사 하이퍼링크 주소 추출하기

- 뉴스기사 페이지로 이동하는 \<a\>태그의 하이퍼링크 주소 가져오기

In [8]:
link = soup.select('.item_issue > a' )
link

[<a class="wrap_thumb" data-tiara-custom="contentUniqueKey=hamny-20230309215603351&amp;clusterId=5150091,5590543,5599922&amp;clusterTitle=사회,[언론사픽] 주요뉴스,[품질검수] 뉴스 필터링&amp;keywordType=NONE,NONE,NONE" data-tiara-id="20230309215603351" data-tiara-layer="article_main" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://v.daum.net/v/20230309215603351">
 <img alt="" class="thumb_g" src="https://img1.daumcdn.net/thumb/S96x60ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202303%2F09%2Finews24%2F20230309215604671ujqq.jpg&amp;scode=media" 공문="" 금감원="" 믿었는데…그마저="" 보이스피싱,="" 속출"="" 피해=""/>
 </a>,
 <a class="wrap_thumb" data-tiara-custom="contentUniqueKey=hamny-20230309222307541&amp;clusterId=5590543,185504,5139529,5150095&amp;clusterTitle=[언론사픽] 주요뉴스,베냐민 네타냐후,[랭크업] 유레이더 1 OR 2 추가점수,국제&amp;keywordType=NONE,NONE,NONE,NONE" data-tiara-id="20230309222307541" data-tiara-layer="article_main" data-tiara-ordnum="2" data-tiara-type="harmony" href="https://v.daum.net/v/20230309222307541">
 <img

In [9]:
links = []
for ln in link :
    links.append(ln['href'])

In [10]:
links

['https://v.daum.net/v/20230309215603351',
 'https://v.daum.net/v/20230309222307541',
 'https://v.daum.net/v/20230309221742509',
 'https://v.daum.net/v/20230309205403551',
 'https://v.daum.net/v/20230309170611687',
 'https://v.daum.net/v/20230309221800511',
 'https://v.daum.net/v/20230309220000387',
 'https://v.daum.net/v/20230309215509334',
 'https://v.daum.net/v/20230309180926693',
 'https://v.daum.net/v/20230309210343722',
 'https://v.daum.net/v/20230309201828054',
 'https://v.daum.net/v/20230309204629446',
 'https://v.daum.net/v/20230309171211861',
 'https://v.daum.net/v/20230309210327714',
 'https://v.daum.net/v/20230309210028663',
 'https://v.daum.net/v/20230309215100282',
 'https://v.daum.net/v/20230309200200811',
 'https://v.daum.net/v/20230309214747230',
 'https://v.daum.net/v/20230309214402191',
 'https://v.daum.net/v/20230309192725235']

### 연습문제1.

- 다음 뉴스 머리기사의 분야, 제목, 링크를 크롤링하고 그 결과를 데이터프레임으로 생성하기

In [11]:
category = soup.find_all('span',{'class':'txt_category'})
category_list = []

for cat in category:
    category_list.append(cat.text)

In [12]:
category_list

['사회',
 '국제',
 'IT',
 '국제',
 '사회',
 '문화',
 '사회',
 '국제',
 '경제',
 '경제',
 '정치',
 '사회',
 '사회',
 '정치',
 '국제',
 '문화',
 '경제',
 'IT',
 '사회',
 '사회']

In [13]:
import pandas as pd
daum_news = pd.DataFrame([title_list, category_list, links]).T
daum_news = daum_news.rename(columns={0:'기사제목',1:'분야',2:'링크'})
daum_news

Unnamed: 0,기사제목,분야,링크
0,"금감원 공문 믿었는데…그마저 보이스피싱, 피해 속출",사회,https://v.daum.net/v/20230309215603351
1,"네타냐후, 시위대 도로 차단에 헬기로 공항 이동",국제,https://v.daum.net/v/20230309222307541
2,한물간 페이스북?…월 이용자 수 1000만명 무너졌다,IT,https://v.daum.net/v/20230309221742509
3,"이스라엘·팔레스타인, 2006년 이후 충돌 최다… 올 사망자 100명 육박",국제,https://v.daum.net/v/20230309205403551
4,교육위서 '정순신 아들 학폭' 질타…학폭 기록 삭제 문제 제기,사회,https://v.daum.net/v/20230309170611687
5,경로를 이탈한 비행기 조종사가 칭찬받은 이유,문화,https://v.daum.net/v/20230309221800511
6,"마카롱 택시, 파산 수순 밟는다",사회,https://v.daum.net/v/20230309220000387
7,"전세계 바다 떠도는 미세플라스틱 입자 230만t…""청소 불가능""",국제,https://v.daum.net/v/20230309215509334
8,"[단독]“STO·코인 증권성 논의”…금감원, 美 SEC 출장 타진",경제,https://v.daum.net/v/20230309180926693
9,“2023년 집값 더 내려갈 것… 부동산PF 리스크 관리 시급”,경제,https://v.daum.net/v/20230309210343722


------

## 3. 기사제목과 내용 한꺼번에 추출하기 

### 기사제목과 내용이 있는 태그 확인

In [14]:
url = 'https://v.daum.net/v/20230306165231983'
html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')

In [15]:
soup

<!DOCTYPE html>

<html class="os_window">
<head data-cloud-area="head">
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width,initial-scale=1,maximum-scale=1,user-scalable=no" name="viewport"/>
<meta content="telephone=no" name="format-detection"/>
<meta content="unsafe-url" name="referrer"/>
<title>파키스탄서 경찰 트럭에 자폭 테러…경찰 9명 사망</title>
<link href="//t1.daumcdn.net/top/favicon.ico" rel="shortcut icon"/>
<meta content="V8z3lKC2Zh" property="mccp:docId"/>
<meta content="언론사 뷰" property="og:site_name"/>
<meta content="파키스탄서 경찰 트럭에 자폭 테러…경찰 9명 사망" property="og:title"/>
<meta content="20230306165231" property="og:regDate"/>
<meta content="article" property="og:type"/>
<meta content="연합뉴스" property="og:article:author"/>
<meta content="https://v.daum.net/v/20230306165231983" property="og:url"/>
<meta content="https://img1.daumcdn.net/thumb/S1200x630/?fname=https://t1.daumcdn.net/news/202303/06/yonhap/20230306165231891nuhp.jpg" property=

In [16]:
contents = soup.select('title') + soup.select('p')
news = []

for con in contents:
    news.append(con.text)

In [17]:
news

['파키스탄서 경찰 트럭에 자폭 테러…경찰 9명 사망',
 '파키스탄에서 경찰 트럭을 상대로 자살 폭탄 테러가 발생해 9명의 경찰관이 사망했다.',
 '6일(현지시간) 돈(DAWN) 등 파키스탄 매체와 외신 등에 따르면 파키스탄 남서부 발루치스탄주의 시비 지역에서 폭탄이 설치된 오토바이가 경찰 트럭을 들이받으며 폭발했다.',
 '현지 경찰은 테러범이 처음부터 경찰을 노린 것으로 보고 있으며 분리주의 반군조직인 발루치독립군(BNA) 등 지역 무장 단체들의 소행으로 의심하고 있다.',
 '이 글자크기로 변경됩니다.',
 '(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.',
 '',
 '(자카르타=연합뉴스) 박의래 특파원 = 파키스탄에서 경찰 트럭을 상대로 자살 폭탄 테러가 발생해 9명의 경찰관이 사망했다.',
 '6일(현지시간) 돈(DAWN) 등 파키스탄 매체와 외신 등에 따르면 파키스탄 남서부 발루치스탄주의 시비 지역에서 폭탄이 설치된 오토바이가 경찰 트럭을 들이받으며 폭발했다. ',
 '이 사건으로 경찰관 9명이 숨졌으며 7명이 다쳤다. 당시 경찰들은 일상적인 순찰 중이었다.',
 '현지 경찰은 테러범이 처음부터 경찰을 노린 것으로 보고 있으며 분리주의 반군조직인 발루치독립군(BNA) 등 지역 무장 단체들의 소행으로 의심하고 있다. ',
 '이와 관련해 자신들이 이번 사건의 배후라고 자처하는 단체는 아직 나오지 않고 있다.',
 '발루치스탄주는 아프가니스탄, 이란과 국경을 맞댄 곳으로 중국은 대규모 자본을 투입해 발루치스탄 남부 과다르항과 광산 등을 개발하고 있다.',
 'BNA는 파키스탄 정부와 중국이 광물 등 지역 자원을 착취한다며 발루치스탄주의 분리 독립을 주장한다. 지난달에는 파키스탄 북동부 펀자브주를 달리던 열차에 폭탄을 터트리는 등 각종 테러를 일으키고 있다.',
 'laecorp@yna.co.kr',

### 하이퍼링크된 모든 기사의 제목과 본문 추출하기

In [18]:
title_list = []
content_list = []

def news_func(url) :
    url = url
    html = urlopen(url)
    soup = BeautifulSoup(html, 'html.parser')
    title = soup.select('title') 
    content = soup.select('p')
    contents = ""
    
    for tlt in title:
        title_list.append(tlt.text)    
    for con in content:
        contents = contents + con.text
    content_list.append(contents)
        


In [19]:
for link in links:
    news_func(link)

In [21]:
import pandas as pd

daum_news = pd.DataFrame([title_list, content_list, links]).T
daum_news.rename(columns={0:'제목',1:'내용',2:'링크'}, inplace=True)
daum_news

Unnamed: 0,제목,내용,링크
0,"금감원 공문 믿었는데…그마저 보이스피싱, 피해 속출",금감원은 9일 최근 불법 주식 리딩방으로 인한 투자 손실을 보상해주겠다고 접근한 뒤...,https://v.daum.net/v/20230309215603351
1,"네타냐후, 시위대 도로 차단에 헬기로 공항 이동",9일 이탈리아 공식 방문에 나서기로 한 베냐민 네타냐후 이스라엘 총리가 자신의 사법...,https://v.daum.net/v/20230309222307541
2,한물간 페이스북?…월 이용자 수 1000만명 무너졌다,"이 글자크기로 변경됩니다.(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통...",https://v.daum.net/v/20230309221742509
3,"이스라엘·팔레스타인, 2006년 이후 충돌 최다… 올 사망자 100명 육박","이 글자크기로 변경됩니다.(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통...",https://v.daum.net/v/20230309205403551
4,교육위서 '정순신 아들 학폭' 질타…학폭 기록 삭제 문제 제기,국회에서는 교육위원회 전체회의가 열렸는데 국가수사본부장으로 임명됐다가 하루만에 사퇴...,https://v.daum.net/v/20230309170611687
5,경로를 이탈한 비행기 조종사가 칭찬받은 이유,"이 글자크기로 변경됩니다.(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통...",https://v.daum.net/v/20230309221800511
6,"마카롱 택시, 파산 수순 밟는다","이 글자크기로 변경됩니다.(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통...",https://v.daum.net/v/20230309220000387
7,"전세계 바다 떠도는 미세플라스틱 입자 230만t…""청소 불가능""",전세계 바다에 2019년 기준으로 미세플라스틱 입자가 170조개 이상으로 무게로는 ...,https://v.daum.net/v/20230309215509334
8,"[단독]“STO·코인 증권성 논의”…금감원, 美 SEC 출장 타진",금융감독원이 미국 증권거래위원회(SEC)와의 금융감독 협의를 위해 미국 출장을 타진...,https://v.daum.net/v/20230309180926693
9,“2023년 집값 더 내려갈 것… 부동산PF 리스크 관리 시급”,"이 글자크기로 변경됩니다.(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통...",https://v.daum.net/v/20230309210343722


In [22]:
daum_news.to_csv('daum_news.csv')

-------

-------